Meta Make-A-Video の研究は、テキストから画像への生成技術における最近の進歩に基づいています。 テキストからビデオへの生成を可能にするように構築されています。 このシステムは、説明付きの画像を使用して、世界がどのように見えるか、どのように説明されるかを学習します。 また、ラベルのないビデオを使用して、世界がどのように動くかを学習します。 Make-A-Video は、このデータを使用して、ほんの数語または数行のテキストで気まぐれで他に類を見ないビデオを生成することで、あなたの想像力に命を吹き込むことができます。
Make-A-Video には XNUMX つの利点があります。
(1) T2V モデルのトレーニングを高速化します (視覚的およびマルチモーダル表現をゼロから学習する必要はありません)。
(2) 対になったテキストとビデオのデータを必要としない。
(3) 生成されたビデオは、今日の画像生成モデルの広大さ (美的、幻想的な描写などの多様性) を継承します。
彼らは、斬新で効果的な時空間モジュールを使用して、T2I モデルを構築するためのシンプルかつ効果的な方法を設計しています。
1. 完全な時間 U-Net と注意テンソルを分解し、それらを近似する
空間と時間で。
2. Tney は、ビデオ デコーダ、補間モデル、および T2V 以外のさまざまなアプリケーションを可能にする XNUMX つの超解像度モデルを使用して、高解像度およびフレーム レートのビデオを生成するための時空間パイプラインを設計します。 Make-A-Video は、空間的および時間的解像度、テキストへの忠実度、および品質のすべての側面において、質的および量的測定の両方によって決定される、テキストからビデオへの生成における新しい最先端技術を設定します。
Brian Wangは未来派の思想的リーダーであり、月に1万人の読者を持つ人気の科学ブロガーです。 彼のブログNextbigfuture.comは、サイエンスニュースブログで第1位にランクされています。 宇宙、ロボット工学、人工知能、医学、アンチエイジングバイオテクノロジー、ナノテクノロジーなど、多くの破壊的技術とトレンドをカバーしています。
最先端のテクノロジーを特定することで知られる彼は、現在、潜在的な初期段階の企業のスタートアップおよび募金活動の共同創設者です。 彼は、ディープテクノロジー投資の割り当てに関する調査責任者であり、SpaceAngelsのエンジェル投資家です。
彼は企業で頻繁に講演を行っており、TEDxの講演者、シンガラリティ大学の講演者、ラジオやポッドキャストの多数のインタビューのゲストを務めています。 彼は人前で話すことと約束を助言することにオープンです。