アリババ グループのインテリジェント コンピューティング研究所の研究者は、ポートレートに命を吹き込む、EMO: Emote Portrait Alive として知られる AI ツールを開発しました。
このツールを使用すると、ユーザーは静止画像にオーディオとビデオを追加できます。このツールを使用すると、有名なレオナルド ダ ヴィンチのラ ジョコンダ (モナ リザとしてよく知られている) のような古い肖像画をいじって、頭のポーズ、動き、表情、正確な口パクで彼女を話したり歌わせたりすることができます。
表現力豊かなオーディオ主導のポートレートビデオ生成ツール
彼らのレポート「EMO: Emote Portrait Alive: 弱い条件下での Audio2Video 拡散モデルを使用した表現力豊かなポートレート ビデオの生成」では、次のように述べられています。 研究者 新しいツール、その機能、完璧な結果を得るための使用方法についての洞察を提供します。
表現力豊かなオーディオ主導のポートレート作成 AI ツールを使用すると、ユーザーは表情付きのボーカル アバター ビデオを作成できます。研究者らによると、このツールを使用すると、「入力音声の長さに応じて」任意の長さのビデオを作成できるという。
「単一のキャラクター画像と歌などの音声音声を入力すると、私たちの方法は表情豊かな表情やさまざまな頭のポーズを備えたボーカルアバタービデオを生成できます」と研究者らは述べた。
「私たちの手法はさまざまな言語の曲をサポートし、多様なポートレート スタイルに命を吹き込みます。オーディオの音の変化を直感的に認識し、ダイナミックで表現豊かなアバターの生成を可能にします。」
また、お読みください。 OpenAI、ニューヨーク・タイムズ紙が著作権訴訟を起こすためにChatGPTを「ハッキング」したと主張
ポートレートから話す、歌う
研究者らによると、AIを活用したツールは音楽を処理するだけでなく、さまざまな言語の音声にも対応するという。
「さらに、私たちの手法には、過去の時代の肖像画、絵画、3D モデルと AI 生成コンテンツの両方をアニメーション化して、それらに本物のような動きとリアリズムを吹き込む機能があります」と研究者らは述べています。
しかし、それだけでは終わりません。ユーザーは、さまざまなスタイルや言語でモノローグやパフォーマンスを披露する映画スターのポートレートや画像をいじることもできます。
X プラットフォームを利用した一部の AI 愛好家は、X プラットフォームを「驚くべきもの」と表現しました。
2. シェイクスピアを語るモナ・リザ pic.twitter.com/26k29aAz1P
— ミンチョイ (@minchoi) 2024 年 2 月 28 日
現実とAIの境界が薄くなる
EMOツールのお知らせ アリババ テクノロジー企業が新製品を発表し続けるにつれて、AI と現実の境界がなくなりつつあると他のユーザーに思わせました。
「AIと現実の間の境界はかつてないほど薄くなっています。」 ルーベンを投稿しました 他の人が考えている間、Xについて TikTok すぐに作品が溢れかえるでしょう。
「これほど正確で現実的な結果を見たのは初めてです。 ビデオAI 今年は信頼できる年になるだろう」と語った。 ポール・コバート.
これがクリエイターにとって大きな変革となる可能性があると考える人もいるが、Min Choi氏もそれについては慎重だ。
「できればクリエイティブなことだけに。これは悪者の手に渡れば危険な可能性があります。」
ツールの使用
研究者らはプロセスを説明し、EMO フレームワークには 2 つの段階があり、最初の段階はフレーム エンコーディングとして知られており、参照画像とモーション フレームから特徴を抽出するために ReferenceNet が展開されることを強調しました。
次の段階は拡散プロセス段階で、事前トレーニングされたオーディオ エンコーダーが「オーディオの埋め込みを処理」します。完璧な顔画像を作成するために、ユーザーは顔領域マスクとマルチフレーム ノイズを統合します。
「これらのメカニズムは、それぞれキャラクターのアイデンティティを維持し、キャラクターの動きを調整するために不可欠です」と説明の一部には書かれています。
「さらに、時間モジュールは時間次元を操作し、速度の動きを調整するために利用されます。」
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/
- :持っている
- :は
- :not
- :どこ
- 12
- 28
- 3d
- a
- 私たちについて
- それについて
- 収容する
- 従った
- 正確な
- 加えます
- AI
- AI電源
- アリババ
- アリババグループ
- alive を使用します。
- ことができます
- また
- an
- および
- アニメーション
- どれか
- です
- 周りに
- AS
- At
- オーディオ
- アバター
- アバター
- BE
- より良いです
- の間に
- 両言語で
- 境界
- もたらす
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 缶
- 機能
- 用心深い
- チェンジャー
- 文字
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- クレーム
- コンピューティング
- 条件
- コンテンツ
- 続ける
- 著作権
- 可能性
- 作ります
- 創作
- クリエイティブ
- クリエイティブ
- 信頼できる
- da
- 危険な
- 配信する
- 展開
- 記載された
- 開発する
- 発展した
- 異なります
- 次元
- 姿を消す
- 異なる
- ありません
- デュレーション
- ダイナミック
- エッジ(Edge)
- 埋め込み
- 可能
- 有効にする
- エンコーディング
- end
- 愛好家
- 本質的な
- EVER
- 説明
- 表現
- 表現力豊かな
- エキス
- フェイシャル
- 有名な
- 特徴
- 企業
- 名
- 初回
- 浸水した
- フレームワーク
- から
- 機能
- ゲーム
- ゲームチェンジャー
- 生成する
- 生成
- 世代
- GitHubの
- 与える
- グループ
- ハンド
- 持ってる
- 彼女の
- ハイ
- 強調表示された
- 認定条件
- How To
- HTTPS
- i
- アイデンティティ
- 画像
- 画像
- in
- 洞察
- 機関
- 統合する
- インテリジェント-
- IT
- ITS
- JPG
- ただ
- 既知の
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 長さ
- 生活
- リアルな
- ような
- 製
- 作成
- マスク
- 最大幅
- メカニズム
- 方法
- 分
- モデル
- モジュール
- モーション
- 動作
- 映画
- 音楽を聴く際のスピーカーとして
- 新作
- 新製品
- ニューヨーク
- ニューヨーク·タイムズ紙
- 次の
- ノイズ
- 今
- of
- 古い
- on
- ONE
- の
- or
- その他
- その他
- 私たちの
- 絵画
- 部
- 完璧
- 公演
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレイ
- 肖像
- 肖像画
- ポーズ
- 正確な
- 保存する
- プロセス
- 製品
- 約束
- 読む
- リアル
- リアリズム
- 現実的な
- 現実
- 認識
- 参照
- 地域
- レポート
- 研究者
- それぞれ
- 結果
- 結果
- 前記
- 見て
- すぐに
- 話
- ステージ
- ステージ
- 星
- まだ
- そのような
- サポート
- 同期。
- Talk
- 会話
- テク
- より
- 感謝
- それ
- ニューヨークタイムズ
- アプリ環境に合わせて
- それら
- そこ。
- 物事
- 考える
- この
- 今年
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- 取った
- ツール
- true
- さえずり
- 2
- 下
- 解き放つ
- つかいます
- users
- 利用された
- バリエーション
- さまざまな
- 速度
- ビデオ
- 動画
- ボーカル
- 弱い
- which
- while
- 誰
- 意志
- 間違った
- 間違った手
- X
- 年
- ヨーク
- ゼファーネット