Mona Lisa może teraz mówić dzięki EMO

Opublikowane ponownie przez Plato

Obserwuje: 0

Naukowcy z Instytutu Inteligentnych Obliczeń Alibaba Group opracowali narzędzie AI znane jako EMO: Emote Portrait Alive, które ożywia portrety.

Narzędzie umożliwia użytkownikom dodawanie dźwięku i obrazu do nieruchomego obrazu. Za pomocą tego narzędzia można bawić się starym portretem, takim jak słynna La Gioconda Leonarda da Vinci, lepiej znana jako Mona Lisa, zmuszając ją do mówienia i śpiewania z wykorzystaniem pozycji głowy, ruchu, wyrazu twarzy i dokładnej synchronizacji warg.

Ekspresyjne, oparte na dźwięku narzędzie do generowania portretów wideo

W swoim raporcie „EMO: Emote Portrait Alive: Generowanie ekspresyjnych filmów portretowych z modelem dyfuzji audio2wideo w słabych warunkach” badacze podzielić się informacjami na temat nowego narzędzia, jego funkcji i sposobów jego wykorzystania w celu uzyskania doskonałych rezultatów.

Dzięki ekspresyjnemu narzędziu AI do tworzenia portretów opartemu na dźwięku użytkownicy mogą tworzyć filmy z awatarami wokalnymi z wyrazem twarzy. Zdaniem badaczy narzędzie umożliwia tworzenie filmów o dowolnej długości „w zależności od długości wejściowego sygnału audio”.

„Wprowadź obraz pojedynczej postaci i dźwięk głosu, np. śpiewu, a nasza metoda może wygenerować filmy z awatarami wokalnymi z wyrazistą mimiką twarzy i różnymi pozami głowy” – twierdzą badacze.

„Nasza metoda obsługuje utwory w różnych językach i ożywia różnorodne style portretów. Intuicyjnie rozpoznaje różnice tonalne w dźwięku, umożliwiając generowanie dynamicznych, bogatych w ekspresję awatarów.”

Przeczytaj także: OpenAI twierdzi, że New York Times „zhakował” ChatGPT w celu opracowania sprawy dotyczącej praw autorskich

Mówienie, śpiewanie z portretu

Według naukowców narzędzie oparte na sztucznej inteligencji nie tylko przetwarza muzykę, ale także przetwarza dźwięk mówiony w różnych językach.

„Dodatkowo nasza metoda umożliwia animowanie portretów z minionych epok, obrazów, a także modeli 3D i treści generowanych przez sztuczną inteligencję, nadając im realistyczny ruch i realizm” – stwierdzili naukowcy.

Ale to nie koniec. Użytkownicy mogą także bawić się portretami i wizerunkami gwiazd filmowych prowadzących monologi lub występy w różnych stylach i językach.

Niektórzy entuzjaści sztucznej inteligencji, którzy zdecydowali się na platformę X, opisali ją jako „oszałamiającą”.

2. Mona Lisa rozmawia z Szekspirem pic.twitter.com/26k29aAz1P

— Min Choi (@minchoi) 28 lutego 2024 r.

Zacieśniająca się granica między rzeczywistością a sztuczną inteligencją

Nowości dotyczące narzędzia EMO autorstwa Alibaba sprawiło, że inni użytkownicy pomyśleli, że granica między sztuczną inteligencją a rzeczywistością wkrótce zaniknie, w miarę jak firmy technologiczne będą nadal wprowadzać na rynek nowe produkty.

„Granica między sztuczną inteligencją a rzeczywistością jest cieńsza niż kiedykolwiek” – napisał Ruben na X, podczas gdy inni myślą TikTok wkrótce zostanie zalany dziełami.

„Po raz pierwszy widziałem tak precyzyjny i realistyczny wynik. Wideo AI w tym roku zapowiada się wiarygodnie” – stwierdził Paweł Covert.

Choć inni uważają, że może to zmienić zasady gry dla twórców, Min Choi również podchodzi do tego ostrożnie.

„Mam nadzieję, że tylko do rzeczy kreatywnych. To może być niebezpieczne w niepowołanych rękach.

Mona Lisa może teraz mówić dzięki EMO

Korzystanie z narzędzia

Wyjaśniając ten proces, badacze podkreślili, że struktura EMO składa się z dwóch etapów, z których pierwszy znany jest jako kodowanie klatek, podczas którego wdrażana jest sieć ReferenceNet w celu wyodrębnienia funkcji z obrazów referencyjnych i klatek ruchomych.

Następnym etapem jest etap procesu dyfuzji, w którym wstępnie wytrenowany koder audio „przetwarza osadzanie dźwięku”. Aby stworzyć idealny obraz twarzy, użytkownicy integrują maski obszarów twarzy i szum wieloramkowy.

„Te mechanizmy są niezbędne odpowiednio do zachowania tożsamości postaci i modulowania jej ruchów” – czytamy w części wyjaśnień.

„Dodatkowo moduły czasowe służą do manipulowania wymiarem czasowym i dostosowywania prędkości ruchu”.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/

Znak czasu: 1 marca 2024 r.

Znak czasu: Kwiecień 20, 2024

Mona Lisa może teraz mówić dzięki EMO

Opublikowane ponownie przez Plato

Ekspresyjne, oparte na dźwięku narzędzie do generowania portretów wideo

Mówienie, śpiewanie z portretu

Zacieśniająca się granica między rzeczywistością a sztuczną inteligencją

Korzystanie z narzędzia

Więcej z MetaWiadomości

Kenia anuluje licencję Worldcoin, 301 tys. danych użytkowników jest zagrożonych

Boom e-booków napisanych przez AI na Amazon po uruchomieniu ChatGPT

Biały Dom podejmuje kroki w celu zbadania ryzyka AI

Galactic Goats to nowy projekt NFT

Silent Hill 2 Remake ma się wkrótce pojawić

Meta ujawnia model segmentacji obrazu AI, SAM

The Game of Life 2 do uruchomienia na wszystkich platformach

Premiera Voodolls planowana jest na przyszły rok

Łańcuch Metaverse Token DeepBrain wzrósł o 200% dzięki postępowi AI

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto