Készítsen videót mesterséges intelligenciával és néhány szóval: Nézze meg a Meta új PlatoBlockchain Data Intelligence eszközét. Függőleges keresés. Ai.

Készíts videót mesterséges intelligenciával és néhány szóval: Nézze meg a Meta új eszközét

A mesterséges intelligencia egyre jobban képes képet generálni, válaszul néhány szóra, a nyilvánosan elérhető mesterséges intelligencia képgenerátorokkal, mint például a DALL-E 2 és a Stable Diffusion. A Meta kutatói most egy lépéssel tovább viszik az AI-t: arra használják, hogy szöveges promptból videókat készítsenek.

A Meta vezérigazgatója, Mark Zuckerberg – tette közzé csütörtökön a Facebookon a kutatásról, hívták Csinálj egy videót, egy 20 másodperces klippel, amely több szöveges promptot állított össze, amelyeket a Meta kutatói használtak, és az ebből származó (nagyon rövid) videókat. A felszólítások között szerepel: „Egy mackó, aki önarcképet fest”, „Egy űrhajó leszáll a Marson”, „Egy lajhár baba kötött sapkával, aki megpróbál kitalálni egy laptopot” és „Egy robot, aki hullámon szörföz az óceánban”.

Az egyes promptokhoz tartozó videók mindössze néhány másodpercesek, és általában azt mutatják, amit a felszólítás sugall (kivéve a lajhárbébiét, amely nem nagyon hasonlít a valódi lényre), meglehetősen alacsony felbontásban és kissé szaggatottan. stílus. Ennek ellenére új irányt mutat az AI-kutatásban, ahogy a rendszerek egyre jobban képesek szavakból képeket generálni. Ha azonban a technológiát végül széles körben nyilvánosságra hozzák, az sok olyan aggályt vet fel, amelyeket a szöveg-kép rendszerek váltanak ki, például, hogy felhasználható téves információk videó útján történő terjesztésére.

Egy weboldal for Make-A-Video tartalmazza ezeket a rövid klipeket és másokat, amelyek némelyike ​​meglehetősen valósághűnek tűnik, mint például a felszólításra válaszul létrehozott videó “Bohóchal úszik át a korallzátonyon” vagy egyet, amely megmutatni hivatott „Egy fiatal pár heves esőben sétál. "

Facebook-bejegyzésében Zuckerberg rámutatott, milyen trükkös egy maroknyi szóból mozgóképet generálni.

"Sokkal nehezebb videót generálni, mint fotókat, mert az egyes pixelek helyes generálásán túl a rendszernek meg kell jósolnia, hogy azok hogyan változnak az idő múlásával" - írta.

Egy kutatási cikk a munka leírása elmagyarázza, hogy a projekt egy szöveg-kép AI-modellt használ annak kiderítésére, hogy a szavak miként felelnek meg a képeknek, valamint egy mesterséges intelligencia technikát, amely az ún. felügyelet nélküli tanulás – amelyben az algoritmusok áthaladnak az adatokon, amelyek nincsenek felcímkézve, hogy felismerjék bennük a mintákat –, hogy megnézzék a videókat, és meghatározzák, hogyan néz ki a valósághű mozgás.

A kutatók rámutattak, hogy a szövegből képeket generáló masszív, népszerű mesterséges intelligencia-rendszerekhez hasonlóan a szövegből képpé alakító mesterséges intelligencia modelljüket internetes adatok alapján képezték ki – ami azt jelenti, hogy megtanulta „és valószínűleg eltúlozta a társadalmi elfogultságokat, beleértve a károsakat is” írt. Megjegyezték, hogy „NSFW-tartalomra és mérgező szavakra” szűrték az adatokat, de mivel az adatkészletek sok millió képet és szöveget tartalmazhatnak, előfordulhat, hogy nem lehet eltávolítani az összes ilyen tartalmat.

Zuckerberg azt írta, hogy a Meta azt tervezi, hogy a jövőben demóként megosztja a Make-A-Video projektet.

The-CNN-Wire™ & © 2022 Cable News Network, Inc., a Warner Bros. Discovery Company. Minden jog fenntartva.

Időbélyeg:

Még több WRAL Techwire