Lav en video med kunstig intelligens og et par ord: Tjek Metas nye værktøj

Genudgivet af Platon

Abonnenter: 0

Af Rachel Metz, CNN Business

Kunstig intelligens bliver bedre og bedre til at generere et billede som svar på en håndfuld ord med offentligt tilgængelige AI-billedgeneratorer som DALL-E 2 og Stable Diffusion. Nu tager Meta-forskere AI et skridt videre: de bruger det til at lave videoer fra en tekstprompt.

Meta CEO Mark Zuckerberg opslået på Facebook torsdag om forskningen, Kaldet Lav en video, med et 20-sekunders klip, der kompilerede adskillige tekstprompts, som Meta-forskere brugte, og de resulterende (meget korte) videoer. Opfordringerne inkluderer "En bamse, der maler et selvportræt", "Et rumskib, der lander på Mars", "En babydovendyr med en strikhue, der prøver at finde ud af en bærbar computer," og "En robot, der surfer på en bølge i havet."

Videoerne for hver prompt er blot et par sekunder lange, og de viser generelt, hvad prompten antyder (med undtagelse af babydovendyret, som ikke ligner det faktiske væsen) i en ret lav opløsning og noget ryk. stil. Alligevel viser det en ny retning, AI-forskningen tager, efterhånden som systemer bliver stadig bedre til at generere billeder fra ord. Hvis teknologien i sidste ende bliver frigivet bredt, vil den dog rejse mange af de samme bekymringer, som tekst-til-billede-systemer har udløst, såsom at den kan bruges til at sprede misinformation via video.

En webside for Make-A-Video inkluderer disse korte klip og andre, hvoraf nogle ser ret realistiske ud, såsom en video oprettet som svar på prompten “Klovnefisk svømmer gennem koralrevet” eller en til at vise "Et ungt par går i kraftig regn".

I sit Facebook-opslag påpegede Zuckerberg, hvor svært det er at generere et levende billede ud fra en håndfuld ord.

"Det er meget sværere at generere video end fotos, fordi ud over at generere hver pixel korrekt, skal systemet også forudsige, hvordan de vil ændre sig over tid," skrev han.

Et forskningsoplæg som beskriver arbejdet forklarer, at projektet bruger en tekst-til-billede AI-model til at finde ud af, hvordan ord korresponderer med billeder, og en AI-teknik kendt som uovervåget læring — i hvilke algoritmer porer over data, der ikke er mærket til at skelne mønstre i det — for at se på videoer og bestemme, hvordan realistisk bevægelse ser ud.

Som med massive, populære AI-systemer, der genererer billeder fra tekst, påpegede forskerne, at deres tekst-til-billede AI-model blev trænet på internetdata - hvilket betyder, at den lærte "og sandsynligvis overdrevne sociale skævheder, herunder skadelige," forskerne. skrev. De bemærkede, at de filtrerede data for "NSFW-indhold og giftige ord", men da datasæt kan omfatte mange millioner billeder og tekst, er det muligvis ikke muligt at fjerne alt sådant indhold.

Zuckerberg skrev, at Meta planlægger at dele Make-A-Video-projektet som en demo i fremtiden.

Tidsstempel: September 30, 2022September 30, 2022

Tidsstempel: September 21, 2022

Genudgivet af Platon

Fed kan styrte boligmarkedet

Cary Air Capture-startup Sustaera udtager gasbehandlingschef som ny administrerende direktør

Epic bringer arkitektur, teknik og byggemarkeder til live med fordybende værktøjer

Indtjeningsrapporter: Bioventus, Humacyte, Guerrilla RF, Novan, Liquidia og mere

Byggevarefirmaet Woodgrain, der udvider i Rocky Mount, vil ansætte flere arbejdere

FTC tager 'anden' kig på Amazons planer om at købe iRobot, One Medical

Apple tilbyder et 'ekstremt' sikkerhedsniveau - her er, hvordan du aktiverer det

Flere fyringer: Wayfair skærer 5 % af sin globale arbejdsstyrke

Fra A til Z udnævner NC TECH finalister til årlige priser

Google Fiber, som har voksende NC-rækkevidde, udvides til yderligere fem stater

Brug af Apples seneste teknologi: Se eller lyt efter insiderråd fra MacRumors

Rig bliver rigere: USA tilføjer 2.5 millioner millionærer; mere end 62.5 millioner nu på verdensplan

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto