Skapa en video med AI och några ord: Kolla in Metas nya verktyg

Återutgiven av Platon

anhängare: 0

Av Rachel Metz, CNN Business

Artificiell intelligens blir bättre och bättre på att skapa en bild som svar på en handfull ord, med allmänt tillgängliga AI-bildgeneratorer som DALL-E 2 och Stable Diffusion. Nu tar Meta-forskare AI ett steg längre: de använder det för att koka ihop videor från en textuppmaning.

Metas vd Mark Zuckerberg lade ut på Facebook på torsdagen om forskningen, Som kallas Göra en video, med ett 20-sekunders klipp som sammanställde flera textuppmaningar som Metaforskare använde och de resulterande (mycket korta) videorna. Uppmaningarna inkluderar "En nallebjörn som målar ett självporträtt", "Ett rymdskepp som landar på Mars", "En sengångare med en stickad mössa som försöker hitta en bärbar dator" och "En robot som surfar på en våg i havet."

Videorna för varje prompt är bara några sekunder långa, och de visar generellt vad uppmaningen antyder (med undantag för babyslöjan, som inte ser mycket ut som den faktiska varelsen), i en ganska låg upplösning och något ryckig stil. Ändå visar det en ny riktning AI-forskningen tar när systemen blir allt bättre på att generera bilder från ord. Om tekniken så småningom släpps brett kommer den dock att väcka många av samma oro som skapas av text-till-bild-system, som att den skulle kunna användas för att sprida felaktig information via video.

En webbsida for Make-A-Video innehåller dessa korta klipp och andra, av vilka några ser ganska realistiska ut, till exempel en video skapad som svar på uppmaningen “Clownfisk som simmar genom korallrevet” eller en menad att visa "Ett ungt par går i ett kraftigt regn. "

I sitt Facebook-inlägg påpekade Zuckerberg hur knepigt det är att skapa en rörlig bild från en handfull ord.

"Det är mycket svårare att generera video än foton, för förutom att korrekt generera varje pixel måste systemet också förutsäga hur de kommer att förändras över tiden", skrev han.

En forskningsuppsats som beskriver arbetet förklarar att projektet använder en text-till-bild AI-modell för att ta reda på hur ord överensstämmer med bilder, och en AI-teknik känd som oövervakat lärande — där algoritmer porerar över data som inte är märkta för att urskilja mönster inom den — för att titta på videor och bestämma hur realistisk rörelse ser ut.

Som med massiva, populära AI-system som genererar bilder från text, påpekade forskarna att deras text-till-bild AI-modell tränades på internetdata - vilket betyder att den lärde sig "och sannolikt överdrivna sociala fördomar, inklusive skadliga", forskarna skrev. De noterade att de filtrerade data för "NSFW-innehåll och giftiga ord", men eftersom datamängder kan innehålla många miljoner bilder och text, kanske det inte är möjligt att ta bort allt sådant innehåll.

Zuckerberg skrev att Meta planerar att dela Make-A-Video-projektet som en demo i framtiden.

Tidsstämpel: September 30, 2022September 30, 2022

Tidsstämpel: September 21, 2022

Återutgiven av Platon

Fed kan krascha bostadsmarknaden

Cary Air Capture startup Sustaera tappar gasbearbetningschefen som ny VD

Epic väcker arkitektur, teknik och byggmarknader till liv med uppslukande verktyg

Resultatrapporter: Bioventus, Humacyte, Guerrilla RF, Novan, Liquidia med mera

Byggproduktföretaget Woodgrain expanderar i Rocky Mount, kommer att anställa fler arbetare

FTC tar en "andra" titt på Amazons planer på att köpa iRobot, One Medical

Apple erbjuder "extrem" säkerhetsnivå – så här aktiverar du det

Fler uppsägningar: Wayfair skär ner 5 % av sin globala arbetsstyrka

Från A till Ö utser NC TECH finalister för årliga utmärkelser

Google Fiber, som har växande NC-räckvidd, expanderar till ytterligare fem delstater

Använda Apples senaste teknik: Titta eller lyssna efter insiderråd från MacRumors

Rika blir rikare: USA lägger till 2.5 miljoner miljonärer; mer än 62.5 miljoner nu över hela världen

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto