Make-A-Video med AI och några ord: Kolla in Metas nya verktyg PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Make-A-Video med AI och några ord: Kolla in Metas nya verktyg

Artificiell intelligens blir bättre och bättre på att skapa en bild som svar på en handfull ord, med allmänt tillgängliga AI-bildgeneratorer som DALL-E 2 och Stable Diffusion. Nu tar Meta-forskare AI ett steg längre: de använder det för att koka ihop videor från en textuppmaning.

Metas vd Mark Zuckerberg lade ut på Facebook på torsdagen om forskningen, Som kallas Göra en video, med ett 20-sekunders klipp som sammanställde flera textuppmaningar som Metaforskare använde och de resulterande (mycket korta) videorna. Uppmaningarna inkluderar "En nallebjörn som målar ett självporträtt", "Ett rymdskepp som landar på Mars", "En sengångare med en stickad mössa som försöker hitta en bärbar dator" och "En robot som surfar på en våg i havet."

Videorna för varje prompt är bara några sekunder långa, och de visar generellt vad uppmaningen antyder (med undantag för babyslöjan, som inte ser mycket ut som den faktiska varelsen), i en ganska låg upplösning och något ryckig stil. Ändå visar det en ny riktning AI-forskningen tar när systemen blir allt bättre på att generera bilder från ord. Om tekniken så småningom släpps brett kommer den dock att väcka många av samma oro som skapas av text-till-bild-system, som att den skulle kunna användas för att sprida felaktig information via video.

En webbsida for Make-A-Video innehåller dessa korta klipp och andra, av vilka några ser ganska realistiska ut, till exempel en video skapad som svar på uppmaningen “Clownfisk som simmar genom korallrevet” eller en menad att visa "Ett ungt par går i ett kraftigt regn. "

I sitt Facebook-inlägg påpekade Zuckerberg hur knepigt det är att skapa en rörlig bild från en handfull ord.

"Det är mycket svårare att generera video än foton, för förutom att korrekt generera varje pixel måste systemet också förutsäga hur de kommer att förändras över tiden", skrev han.

En forskningsuppsats som beskriver arbetet förklarar att projektet använder en text-till-bild AI-modell för att ta reda på hur ord överensstämmer med bilder, och en AI-teknik känd som oövervakat lärande — där algoritmer porerar över data som inte är märkta för att urskilja mönster inom den — för att titta på videor och bestämma hur realistisk rörelse ser ut.

Som med massiva, populära AI-system som genererar bilder från text, påpekade forskarna att deras text-till-bild AI-modell tränades på internetdata - vilket betyder att den lärde sig "och sannolikt överdrivna sociala fördomar, inklusive skadliga", forskarna skrev. De noterade att de filtrerade data för "NSFW-innehåll och giftiga ord", men eftersom datamängder kan innehålla många miljoner bilder och text, kanske det inte är möjligt att ta bort allt sådant innehåll.

Zuckerberg skrev att Meta planerar att dela Make-A-Video-projektet som en demo i framtiden.

The-CNN-Wire™ & © 2022 Cable News Network, Inc., ett Warner Bros. Discovery Company. Alla rättigheter förbehållna.

Tidsstämpel:

Mer från WRAL Techwire