Lag-en-video med AI og noen få ord: Sjekk ut Metas nye verktøy PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Lag-en-video med AI og noen få ord: Sjekk ut Metas nye verktøy

Kunstig intelligens blir stadig bedre til å generere et bilde som svar på en håndfull ord, med offentlig tilgjengelige AI-bildegeneratorer som DALL-E 2 og Stable Diffusion. Nå tar Meta-forskere AI et skritt videre: de bruker det til å lage videoer fra en tekstmelding.

Meta-sjef Mark Zuckerberg la ut på Facebook torsdag om forskningen, Kalt Lag en video, med et 20-sekunders klipp som kompilerte flere tekstmeldinger som Meta-forskere brukte og de resulterende (veldig korte) videoene. Forespørslene inkluderer «En bamse som maler et selvportrett», «Et romskip som lander på Mars», «En babydovendyr med en strikket lue som prøver å finne ut en bærbar datamaskin» og «En robot som surfer på en bølge i havet».

Videoene for hver forespørsel er bare noen få sekunder lange, og de viser generelt hva meldingen antyder (med unntak av dovendyret, som ikke ligner mye på den faktiske skapningen), i en ganske lav oppløsning og noe rykkete stil. Likevel viser det en ny retning AI-forskning tar ettersom systemene blir stadig flinkere til å generere bilder fra ord. Hvis teknologien til slutt blir utgitt bredt, vil den imidlertid vekke mange av de samme bekymringene som utløses av tekst-til-bilde-systemer, for eksempel at den kan brukes til å spre feilinformasjon via video.

En nettside for Make-A-Video inkluderer disse korte klippene og andre, hvorav noen ser ganske realistiske ut, for eksempel en video laget som svar på spørsmålet “Klovnefisk svømmer gjennom korallrevet” eller en ment å vise «Et ungt par går i kraftig regn».

I sitt Facebook-innlegg påpekte Zuckerberg hvor vanskelig det er å generere et bevegelig bilde fra en håndfull ord.

"Det er mye vanskeligere å generere video enn bilder fordi utover å generere hver piksel riktig, må systemet også forutsi hvordan de vil endre seg over tid," skrev han.

En forskningsoppgave som beskriver arbeidet forklarer at prosjektet bruker en tekst-til-bilde AI-modell for å finne ut hvordan ord korresponderer med bilder, og en AI-teknikk kjent som uovervåket læring — der algoritmer porerer over data som ikke er merket for å skjelne mønstre i dem — for å se på videoer og bestemme hvordan realistisk bevegelse ser ut.

Som med massive, populære AI-systemer som genererer bilder fra tekst, påpekte forskerne at deres tekst-til-bilde AI-modell ble trent på internettdata - noe som betyr at den lærte "og sannsynligvis overdrevne sosiale skjevheter, inkludert skadelige," forskerne. skrev. De la merke til at de filtrerte data for "NSFW-innhold og giftige ord", men siden datasett kan inneholde mange millioner bilder og tekst, er det kanskje ikke mulig å fjerne alt slikt innhold.

Zuckerberg skrev at Meta planlegger å dele Make-A-Video-prosjektet som en demo i fremtiden.

The-CNN-Wire™ og © 2022 Cable News Network, Inc., et Warner Bros. Discovery Company. Alle rettigheter forbeholdt.

Tidstempel:

Mer fra WRAL Techwire