Lav en video med kunstig intelligens og et par ord: Tjek Metas nye værktøj PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Lav en video med kunstig intelligens og et par ord: Tjek Metas nye værktøj

Kunstig intelligens bliver bedre og bedre til at generere et billede som svar på en håndfuld ord med offentligt tilgængelige AI-billedgeneratorer som DALL-E 2 og Stable Diffusion. Nu tager Meta-forskere AI et skridt videre: de bruger det til at lave videoer fra en tekstprompt.

Meta CEO Mark Zuckerberg opslået på Facebook torsdag om forskningen, Kaldet Lav en video, med et 20-sekunders klip, der kompilerede adskillige tekstprompts, som Meta-forskere brugte, og de resulterende (meget korte) videoer. Opfordringerne inkluderer "En bamse, der maler et selvportræt", "Et rumskib, der lander på Mars", "En babydovendyr med en strikhue, der prøver at finde ud af en bærbar computer," og "En robot, der surfer på en bølge i havet."

Videoerne for hver prompt er blot et par sekunder lange, og de viser generelt, hvad prompten antyder (med undtagelse af babydovendyret, som ikke ligner det faktiske væsen) i en ret lav opløsning og noget ryk. stil. Alligevel viser det en ny retning, AI-forskningen tager, efterhånden som systemer bliver stadig bedre til at generere billeder fra ord. Hvis teknologien i sidste ende bliver frigivet bredt, vil den dog rejse mange af de samme bekymringer, som tekst-til-billede-systemer har udløst, såsom at den kan bruges til at sprede misinformation via video.

En webside for Make-A-Video inkluderer disse korte klip og andre, hvoraf nogle ser ret realistiske ud, såsom en video oprettet som svar på prompten “Klovnefisk svømmer gennem koralrevet” eller en til at vise "Et ungt par går i kraftig regn".

I sit Facebook-opslag påpegede Zuckerberg, hvor svært det er at generere et levende billede ud fra en håndfuld ord.

"Det er meget sværere at generere video end fotos, fordi ud over at generere hver pixel korrekt, skal systemet også forudsige, hvordan de vil ændre sig over tid," skrev han.

Et forskningsoplæg som beskriver arbejdet forklarer, at projektet bruger en tekst-til-billede AI-model til at finde ud af, hvordan ord korresponderer med billeder, og en AI-teknik kendt som uovervåget læring — i hvilke algoritmer porer over data, der ikke er mærket til at skelne mønstre i det — for at se på videoer og bestemme, hvordan realistisk bevægelse ser ud.

Som med massive, populære AI-systemer, der genererer billeder fra tekst, påpegede forskerne, at deres tekst-til-billede AI-model blev trænet på internetdata - hvilket betyder, at den lærte "og sandsynligvis overdrevne sociale skævheder, herunder skadelige," forskerne. skrev. De bemærkede, at de filtrerede data for "NSFW-indhold og giftige ord", men da datasæt kan omfatte mange millioner billeder og tekst, er det muligvis ikke muligt at fjerne alt sådant indhold.

Zuckerberg skrev, at Meta planlægger at dele Make-A-Video-projektet som en demo i fremtiden.

The-CNN-Wire™ & © 2022 Cable News Network, Inc., et Warner Bros. Discovery Company. Alle rettigheder forbeholdes.

Tidsstempel:

Mere fra WRAL Techwire