Make-A-Video met AI en een paar woorden: bekijk Meta's nieuwe tool PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Make-A-Video met AI en een paar woorden: bekijk de nieuwe tool van Meta

Kunstmatige intelligentie wordt steeds beter in het genereren van een beeld als reactie op een handvol woorden, met publiek beschikbare AI-beeldgeneratoren zoals DALL-E 2 en Stable Diffusion. Nu gaan Meta-onderzoekers AI een stap verder: ze gebruiken het om video's te verzinnen vanaf een tekstprompt.

Meta-CEO Mark Zuckerberg plaatste donderdag op Facebook over het onderzoek, Genaamd Maak een video, met een fragment van 20 seconden waarin verschillende tekstprompts werden verzameld die Meta-onderzoekers gebruikten en de resulterende (zeer korte) video's. De vragen zijn onder meer 'Een teddybeer die een zelfportret schildert', 'Een ruimteschip dat op Mars landt', 'Een babyluiaard met een gebreide muts die een laptop probeert te vinden' en 'Een robot die op een golf in de oceaan surft.'

De video's voor elke prompt duren slechts een paar seconden en laten over het algemeen zien wat de prompt suggereert (met uitzondering van de babyluiaard, die niet veel op het eigenlijke wezen lijkt), in een vrij lage resolutie en enigszins schokkerig. stijl. Toch laat het zien dat AI-onderzoek een nieuwe richting inslaat, nu systemen steeds beter worden in het genereren van beelden uit woorden. Als de technologie uiteindelijk op grote schaal wordt vrijgegeven, zal dit echter veel van dezelfde zorgen oproepen die worden veroorzaakt door tekst-naar-beeldsystemen, zoals dat deze zou kunnen worden gebruikt om desinformatie via video te verspreiden.

Een webpagina voor Make-A-Video bevat deze korte clips en andere, waarvan sommige er redelijk realistisch uitzien, zoals een video die is gemaakt als reactie op de vraag “Clownvissen zwemmen door het koraalrif” of eentje die bedoeld is om te laten zien “Een jong stel dat in hevige regen loopt. '

In zijn Facebook-post wees Zuckerberg erop hoe lastig het is om uit een handvol woorden een bewegend beeld te genereren.

"Het is veel moeilijker om video te genereren dan foto's, omdat het systeem niet alleen elke pixel correct moet genereren, maar ook moet voorspellen hoe deze in de loop van de tijd zullen veranderen", schreef hij.

Een onderzoekspaper waarin het werk wordt beschreven, wordt uitgelegd dat het project een tekst-naar-beeld AI-model gebruikt om uit te zoeken hoe woorden corresponderen met afbeeldingen, en een AI-techniek die bekend staat als zonder toezicht leren – waarin algoritmen zich verdiepen in gegevens die niet zijn gelabeld om er patronen in te onderscheiden – om naar video’s te kijken en te bepalen hoe realistische bewegingen eruit zien.

Net als bij enorme, populaire AI-systemen die afbeeldingen uit tekst genereren, wezen de onderzoekers erop dat hun tekst-naar-beeld AI-model was getraind op internetgegevens – wat betekent dat het ‘en waarschijnlijk overdreven sociale vooroordelen heeft geleerd, inclusief schadelijke’, aldus de onderzoeken. schreef. Ze merkten wel op dat ze gegevens hebben gefilterd op ‘NSFW-inhoud en giftige woorden’, maar omdat datasets vele miljoenen afbeeldingen en tekst kunnen bevatten, is het misschien niet mogelijk om al deze inhoud te verwijderen.

Zuckerberg schreef dat Meta van plan is het Make-A-Video-project in de toekomst als demo te delen.

The-CNN-Wire™ & © 2022 Cable News Network, Inc., een Warner Bros. Discovery Company. Alle rechten voorbehouden.

Tijdstempel:

Meer van WRAL Techwire