Nakręć wideo ze sztuczną inteligencją i kilkoma słowami: sprawdź nowe narzędzie Meta PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Make-A-Video ze sztuczną inteligencją i kilkoma słowami: sprawdź nowe narzędzie Meta

Sztuczna inteligencja coraz lepiej radzi sobie z generowaniem obrazu w odpowiedzi na kilka słów, dzięki ogólnodostępnym generatorom obrazów AI, takim jak DALL-E 2 i Stable Diffusion. Teraz badacze Meta idą o krok dalej ze sztuczną inteligencją: używają jej do tworzenia filmów za pomocą podpowiedzi tekstowych.

Dyrektor generalny Meta, Mark Zuckerberg w czwartek opublikowano na Facebooku informację o badaniu, Zwane Zrób wideo, z 20-sekundowym klipem zawierającym kilka podpowiedzi tekstowych, z których korzystali badacze Meta, oraz powstałe w ich wyniku (bardzo krótkie) filmy. Podpowiedzi to „Miś malujący autoportret”, „Statek kosmiczny lądujący na Marsie”, „Mały leniwiec w czapce z dzianiny próbujący rozgryźć laptopa” oraz „Robot surfujący po fali w oceanie”.

Filmy do każdego podpowiedzi trwają zaledwie kilka sekund i zazwyczaj pokazują, co sugeruje podpowiedź (z wyjątkiem małego leniwca, który nie wygląda zbytnio jak rzeczywiste stworzenie) w dość niskiej rozdzielczości i nieco nierównej styl. Mimo to pokazuje nowy kierunek badań nad sztuczną inteligencją, w miarę jak systemy stają się coraz lepsze w generowaniu obrazów ze słów. Jeśli jednak technologia ta zostanie w końcu szeroko rozpowszechniona, wzbudzi wiele takich samych obaw, jakie budzą systemy przetwarzania tekstu na obraz, np. możliwość wykorzystania jej do rozpowszechniania dezinformacji za pośrednictwem wideo.

Strona internetowa for Make-A-Video zawiera te krótkie klipy i inne, z których niektóre wyglądają dość realistycznie, np. wideo utworzone w odpowiedzi na monit „Klown pływający po rafie koralowej” lub taki, który miał pokazać „Młoda para spacerująca w ulewnym deszczu".

W swoim poście na Facebooku Zuckerberg zwrócił uwagę, jak trudne jest wygenerowanie ruchomego obrazu z kilku słów.

„Wygenerowanie wideo jest znacznie trudniejsze niż zdjęć, ponieważ poza prawidłowym generowaniem każdego piksela, system musi także przewidzieć, jak będą się one zmieniać w czasie” – napisał.

Artykuł naukowy opisując pracę wyjaśnia, że ​​w projekcie wykorzystano model sztucznej inteligencji przekształcający tekst na obraz, aby dowiedzieć się, w jaki sposób słowa odpowiadają obrazom, oraz technikę sztucznej inteligencji znaną jako uczenie się bez nadzoru — podczas którego algorytmy przeglądają dane, które nie są oznaczone etykietami, aby rozpoznać w nich wzorce — aby obejrzeć filmy i określić, jak wygląda realistyczny ruch.

Podobnie jak w przypadku ogromnych, popularnych systemów sztucznej inteligencji, które generują obrazy z tekstu, badacze wskazali, że ich model sztucznej inteligencji przekształcający tekst na obraz został wytrenowany na danych internetowych, co oznacza, że ​​nauczył się „i prawdopodobnie wyolbrzymił uprzedzenia społeczne, w tym szkodliwe” – twierdzą badacze. napisał. Zauważyli, że filtrowali dane pod kątem „treści NSFW i toksycznych słów”, ale ponieważ zbiory danych mogą zawierać wiele milionów obrazów i tekstu, usunięcie całej takiej treści może nie być możliwe.

Zuckerberg napisał, że Meta planuje w przyszłości udostępnić projekt Make-A-Video jako wersję demonstracyjną.

The-CNN-Wire™ i © 2022 Cable News Network, Inc., firma Warner Bros. Discovery. Wszelkie prawa zastrzeżone.

Znak czasu:

Więcej z WRAL Techwire