Mona Lisa może teraz mówić dzięki EMO

Mona Lisa może teraz mówić dzięki EMO

Naukowcy z Instytutu Inteligentnych Obliczeń Alibaba Group opracowali narzędzie AI znane jako EMO: Emote Portrait Alive, które ożywia portrety.

Narzędzie umożliwia użytkownikom dodawanie dźwięku i obrazu do nieruchomego obrazu. Za pomocą tego narzędzia można bawić się starym portretem, takim jak słynna La Gioconda Leonarda da Vinci, lepiej znana jako Mona Lisa, zmuszając ją do mówienia i śpiewania z wykorzystaniem pozycji głowy, ruchu, wyrazu twarzy i dokładnej synchronizacji warg.

Ekspresyjne, oparte na dźwięku narzędzie do generowania portretów wideo

W swoim raporcie „EMO: Emote Portrait Alive: Generowanie ekspresyjnych filmów portretowych z modelem dyfuzji audio2wideo w słabych warunkach”  badacze podzielić się informacjami na temat nowego narzędzia, jego funkcji i sposobów jego wykorzystania w celu uzyskania doskonałych rezultatów.

Dzięki ekspresyjnemu narzędziu AI do tworzenia portretów opartemu na dźwięku użytkownicy mogą tworzyć filmy z awatarami wokalnymi z wyrazem twarzy. Zdaniem badaczy narzędzie umożliwia tworzenie filmów o dowolnej długości „w zależności od długości wejściowego sygnału audio”.

„Wprowadź obraz pojedynczej postaci i dźwięk głosu, np. śpiewu, a nasza metoda może wygenerować filmy z awatarami wokalnymi z wyrazistą mimiką twarzy i różnymi pozami głowy” – twierdzą badacze.

„Nasza metoda obsługuje utwory w różnych językach i ożywia różnorodne style portretów. Intuicyjnie rozpoznaje różnice tonalne w dźwięku, umożliwiając generowanie dynamicznych, bogatych w ekspresję awatarów.”

Przeczytaj także: OpenAI twierdzi, że New York Times „zhakował” ChatGPT w celu opracowania sprawy dotyczącej praw autorskich

Mówienie, śpiewanie z portretu

Według naukowców narzędzie oparte na sztucznej inteligencji nie tylko przetwarza muzykę, ale także przetwarza dźwięk mówiony w różnych językach.

„Dodatkowo nasza metoda umożliwia animowanie portretów z minionych epok, obrazów, a także modeli 3D i treści generowanych przez sztuczną inteligencję, nadając im realistyczny ruch i realizm” – stwierdzili naukowcy.

Ale to nie koniec. Użytkownicy mogą także bawić się portretami i wizerunkami gwiazd filmowych prowadzących monologi lub występy w różnych stylach i językach.

Niektórzy entuzjaści sztucznej inteligencji, którzy zdecydowali się na platformę X, opisali ją jako „oszałamiającą”.

Zacieśniająca się granica między rzeczywistością a sztuczną inteligencją

Nowości dotyczące narzędzia EMO autorstwa Alibaba sprawiło, że inni użytkownicy pomyśleli, że granica między sztuczną inteligencją a rzeczywistością wkrótce zaniknie, w miarę jak firmy technologiczne będą nadal wprowadzać na rynek nowe produkty.

„Granica między sztuczną inteligencją a rzeczywistością jest cieńsza niż kiedykolwiek” – napisał Ruben na X, podczas gdy inni myślą TikTok wkrótce zostanie zalany dziełami.

„Po raz pierwszy widziałem tak precyzyjny i realistyczny wynik. Wideo AI w tym roku zapowiada się wiarygodnie” – stwierdził Paweł Covert.

Choć inni uważają, że może to zmienić zasady gry dla twórców, Min Choi również podchodzi do tego ostrożnie.

„Mam nadzieję, że tylko do rzeczy kreatywnych. To może być niebezpieczne w niepowołanych rękach.

Mona Lisa może teraz mówić dzięki EMO

Korzystanie z narzędzia

Wyjaśniając ten proces, badacze podkreślili, że struktura EMO składa się z dwóch etapów, z których pierwszy znany jest jako kodowanie klatek, podczas którego wdrażana jest sieć ReferenceNet w celu wyodrębnienia funkcji z obrazów referencyjnych i klatek ruchomych.

Następnym etapem jest etap procesu dyfuzji, w którym wstępnie wytrenowany koder audio „przetwarza osadzanie dźwięku”. Aby stworzyć idealny obraz twarzy, użytkownicy integrują maski obszarów twarzy i szum wieloramkowy.

„Te mechanizmy są niezbędne odpowiednio do zachowania tożsamości postaci i modulowania jej ruchów” – czytamy w części wyjaśnień.

„Dodatkowo moduły czasowe służą do manipulowania wymiarem czasowym i dostosowywania prędkości ruchu”.

Znak czasu:

Więcej z MetaWiadomości