ワールドシミュレーターとしてのビデオ生成モデル

ワールドシミュレーターとしてのビデオ生成モデル

世界シミュレーターとしてのビデオ生成モデル PlatoBlockchain Data Intelligence。垂直検索。あい。

この技術レポートは、(1) あらゆる種類の視覚データを、生成モデルの大規模トレーニングを可能にする統一表現に変換する方法、および (2) Sora の機能と限界の定性的評価に焦点を当てています。モデルと実装の詳細はこのレポートには含まれていません。

これまでの多くの研究では、リカレント ネットワーク、[^ 1][^ 2] 敵対的生成ネットワーク、[^ 4][^ 6] 自己回帰トランスフォーマー、[^ 8] そして拡散モデル。[^ 10][^ 12] これらの作品は、多くの場合、狭いカテゴリの視覚データ、短いビデオ、または固定サイズのビデオに焦点を当てています。 Sora は視覚データの汎用モデルであり、最大 1 分間の高解像度ビデオに至るまで、さまざまな長さ、アスペクト比、解像度にわたるビデオと画像を生成できます。

タイムスタンプ:

より多くの OpenAI