Videógeneráló modellek, mint világszimulátorok

Videógeneráló modellek, mint világszimulátorok

Video generation models as world simulators PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ez a technikai jelentés (1) a módszerünkre összpontosít, amellyel minden típusú vizuális adatot egységes reprezentációvá alakítunk, amely lehetővé teszi a generatív modellek nagyszabású képzését, és (2) a Sora képességeinek és korlátainak minőségi értékelését. A modell és a megvalósítás részletei nem szerepelnek ebben a jelentésben.

Számos korábbi munka tanulmányozta a videoadatok generatív modellezését különféle módszerekkel, beleértve az ismétlődő hálózatokat,[^1][^2] generatív ellenséges hálózatok,[^4][^6] autoregresszív transzformátorok,[^8] és diffúziós modellek.[^10][^12] Ezek a művek gyakran a vizuális adatok egy szűk kategóriájára, rövidebb videókra vagy rögzített méretű videókra összpontosítanak. A Sora a vizuális adatok általános modellje – különböző időtartamú, képarányú és felbontású videókat és képeket tud készíteni, akár egy teljes percnyi nagyfelbontású videót is.

Időbélyeg:

Még több OpenAI