Lag-en-video med kunstig intelligens og noen få ord: Sjekk ut Metas nye verktøy

Publisert av Platon

Følgere: 0

Av Rachel Metz, CNN Business

Kunstig intelligens blir stadig bedre til å generere et bilde som svar på en håndfull ord, med offentlig tilgjengelige AI-bildegeneratorer som DALL-E 2 og Stable Diffusion. Nå tar Meta-forskere AI et skritt videre: de bruker det til å lage videoer fra en tekstmelding.

Meta-sjef Mark Zuckerberg la ut på Facebook torsdag om forskningen, Kalt Lag en video, med et 20-sekunders klipp som kompilerte flere tekstmeldinger som Meta-forskere brukte og de resulterende (veldig korte) videoene. Forespørslene inkluderer «En bamse som maler et selvportrett», «Et romskip som lander på Mars», «En babydovendyr med en strikket lue som prøver å finne ut en bærbar datamaskin» og «En robot som surfer på en bølge i havet».

Videoene for hver forespørsel er bare noen få sekunder lange, og de viser generelt hva meldingen antyder (med unntak av dovendyret, som ikke ligner mye på den faktiske skapningen), i en ganske lav oppløsning og noe rykkete stil. Likevel viser det en ny retning AI-forskning tar ettersom systemene blir stadig flinkere til å generere bilder fra ord. Hvis teknologien til slutt blir utgitt bredt, vil den imidlertid vekke mange av de samme bekymringene som utløses av tekst-til-bilde-systemer, for eksempel at den kan brukes til å spre feilinformasjon via video.

En nettside for Make-A-Video inkluderer disse korte klippene og andre, hvorav noen ser ganske realistiske ut, for eksempel en video laget som svar på spørsmålet “Klovnefisk svømmer gjennom korallrevet” eller en ment å vise «Et ungt par går i kraftig regn».

I sitt Facebook-innlegg påpekte Zuckerberg hvor vanskelig det er å generere et bevegelig bilde fra en håndfull ord.

"Det er mye vanskeligere å generere video enn bilder fordi utover å generere hver piksel riktig, må systemet også forutsi hvordan de vil endre seg over tid," skrev han.

En forskningsoppgave som beskriver arbeidet forklarer at prosjektet bruker en tekst-til-bilde AI-modell for å finne ut hvordan ord korresponderer med bilder, og en AI-teknikk kjent som uovervåket læring — der algoritmer porerer over data som ikke er merket for å skjelne mønstre i dem — for å se på videoer og bestemme hvordan realistisk bevegelse ser ut.

Som med massive, populære AI-systemer som genererer bilder fra tekst, påpekte forskerne at deres tekst-til-bilde AI-modell ble trent på internettdata - noe som betyr at den lærte "og sannsynligvis overdrevne sosiale skjevheter, inkludert skadelige," forskerne. skrev. De la merke til at de filtrerte data for "NSFW-innhold og giftige ord", men siden datasett kan inneholde mange millioner bilder og tekst, er det kanskje ikke mulig å fjerne alt slikt innhold.

Zuckerberg skrev at Meta planlegger å dele Make-A-Video-prosjektet som en demo i fremtiden.

Tidstempel: September 30, 2022September 30, 2022

Tidstempel: September 21, 2022

Publisert av Platon

Fed kan krasje boligmarkedet

Cary Air Capture-oppstart Sustaera ansetter gassbehandlingssjefen som ny administrerende direktør

Epic bringer arkitektur, ingeniørkunst og byggemarkeder til live med oppslukende verktøy

Inntektsrapporter: Bioventus, Humacyte, Guerrilla RF, Novan, Liquidia og mer

Byggeproduktselskapet Woodgrain utvider i Rocky Mount, vil ansette flere arbeidere

FTC tar en "andre" titt på Amazons planer om å kjøpe iRobot, One Medical

Apple tilbyr "ekstremt" sikkerhetsnivå – her er hvordan du aktiverer det

Flere permitteringer: Wayfair kutter 5 % av sin globale arbeidsstyrke

Fra A til Å utpeker NC TECH finalister til årlige priser

Google Fiber, som har voksende NC-rekkevidde, utvides til ytterligere fem stater

Ved å bruke Apples nyeste teknologi: Se eller lytt etter råd fra MacRumors

Rik blir rikere: USA legger til 2.5 millioner millionærer; mer enn 62.5 millioner nå på verdensbasis

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn