Videon sukupolven mallit maailman simulaattoreina

Videon sukupolven mallit maailman simulaattoreina

Videon sukupolven mallit maailman simulaattoreina PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tämä tekninen raportti keskittyy (1) menetelmäämme muuttaa kaiken tyyppinen visuaalinen data yhtenäiseksi esitykseksi, joka mahdollistaa generatiivisten mallien laajamittaisen koulutuksen, ja (2) Soran kykyjen ja rajoitusten laadulliseen arviointiin. Malli- ja toteutustiedot eivät sisälly tähän raporttiin.

Paljon aikaisempaa työtä on tutkittu videodatan generatiivista mallintamista useilla eri menetelmillä, mukaan lukien toistuvat verkot,[^1][^2] generatiiviset vastakkaiset verkostot,[^4][^6] autoregressiiviset muuntajat,[^8] ja diffuusiomallit.[^10][^12] Nämä teokset keskittyvät usein kapeaan visuaalisen datan kategoriaan, lyhyempiin videoihin tai kiinteän kokoisiin videoihin. Sora on visuaalisen datan yleinen malli – se voi luoda videoita ja kuvia, jotka kattavat eri pituisia, kuvasuhteita ja resoluutioita, jopa koko minuutin teräväpiirtovideota.

Aikaleima:

Lisää aiheesta OpenAI