Machen Sie ein Video mit KI und ein paar Worten: Schauen Sie sich Metas neues Tool PlatoBlockchain Data Intelligence an. Vertikale Suche. Ai.

Erstellen Sie ein Video mit KI und ein paar Worten: Sehen Sie sich das neue Tool von Meta an

Künstliche Intelligenz wird mit öffentlich verfügbaren KI-Bildgeneratoren wie DALL-E 2 und Stable Diffusion immer besser darin, ein Bild als Reaktion auf eine Handvoll Wörter zu erzeugen. Jetzt gehen Meta-Forscher mit der KI noch einen Schritt weiter: Sie verwenden sie, um Videos aus einer Textaufforderung zu erstellen.

Meta-CEO Mark Zuckerberg hat am Donnerstag auf Facebook über die Forschung gepostet, Rief Mach ein Video, mit einem 20-sekündigen Clip, der mehrere von Meta-Forschern verwendete Textaufforderungen und die daraus resultierenden (sehr kurzen) Videos zusammengestellt hat. Zu den Aufforderungen gehören „Ein Teddybär, der ein Selbstporträt malt“, „Ein Raumschiff, das auf dem Mars landet“, „Ein Babyfaultier mit einer Strickmütze, das versucht, einen Laptop herauszufinden“ und „Ein Roboter, der auf einer Welle im Meer surft“.

Die Videos für jede Aufforderung sind nur wenige Sekunden lang und zeigen im Allgemeinen, was die Aufforderung andeutet (mit Ausnahme des Faultierbabys, das der tatsächlichen Kreatur nicht sehr ähnelt), in relativ niedriger Auflösung und etwas ruckartig Stil. Dennoch zeigt es eine neue Richtung, in die die KI-Forschung geht, da Systeme immer besser darin werden, Bilder aus Wörtern zu erzeugen. Wenn die Technologie jedoch irgendwann weit verbreitet wird, wird sie viele der gleichen Bedenken hervorrufen, die auch durch Text-zu-Bild-Systeme ausgelöst werden, etwa, dass sie zur Verbreitung von Fehlinformationen per Video verwendet werden könnte.

Eine Internetseite für Make-A-Video enthält diese kurzen Clips und andere, von denen einige ziemlich realistisch aussehen, wie zum Beispiel ein Video, das als Reaktion auf die Aufforderung erstellt wurde „Clownfische schwimmen durch das Korallenriff“ oder einer, der zeigen sollte „Ein junges Paar geht bei starkem Regen spazieren"

In seinem Facebook-Beitrag wies Zuckerberg darauf hin, wie schwierig es ist, aus einer Handvoll Wörtern ein bewegtes Bild zu erzeugen.

„Es ist viel schwieriger, Videos zu erstellen als Fotos, da das System neben der korrekten Erzeugung jedes Pixels auch vorhersagen muss, wie sich diese im Laufe der Zeit verändern“, schrieb er.

Ein Forschungsbericht In der Beschreibung der Arbeit wird erklärt, dass das Projekt ein Text-zu-Bild-KI-Modell verwendet, um herauszufinden, wie Wörter mit Bildern korrespondieren, und eine KI-Technik namens unbeaufsichtigtes Lernen – bei dem Algorithmen unbeschriftete Daten durchforsten, um darin enthaltene Muster zu erkennen –, um Videos anzusehen und zu bestimmen, wie realistische Bewegungen aussehen.

Wie bei massiven, beliebten KI-Systemen, die Bilder aus Text erzeugen, wiesen die Forscher darauf hin, dass ihr Text-zu-Bild-KI-Modell auf Internetdaten trainiert wurde – was bedeutet, dass es „soziale Vorurteile, einschließlich schädlicher“, gelernt und wahrscheinlich übertrieben hat, so die Forscher schrieb. Sie stellten zwar fest, dass sie die Daten nach „NSFW-Inhalten und giftigen Wörtern“ gefiltert haben, aber da Datensätze viele Millionen Bilder und Texte umfassen können, ist es möglicherweise nicht möglich, alle derartigen Inhalte zu entfernen.

Zuckerberg schrieb, dass Meta plant, das Make-A-Video-Projekt in Zukunft als Demo zu teilen.

The-CNN-Wire™ & © 2022 Cable News Network, Inc., ein Warner Bros. Discovery-Unternehmen. Alle Rechte vorbehalten.

Zeitstempel:

Mehr von WRAL Techwire