Naukowcy z Instytutu Inteligentnych Obliczeń Alibaba Group opracowali narzędzie AI znane jako EMO: Emote Portrait Alive, które ożywia portrety.
Narzędzie umożliwia użytkownikom dodawanie dźwięku i obrazu do nieruchomego obrazu. Za pomocą tego narzędzia można bawić się starym portretem, takim jak słynna La Gioconda Leonarda da Vinci, lepiej znana jako Mona Lisa, zmuszając ją do mówienia i śpiewania z wykorzystaniem pozycji głowy, ruchu, wyrazu twarzy i dokładnej synchronizacji warg.
Ekspresyjne, oparte na dźwięku narzędzie do generowania portretów wideo
W swoim raporcie „EMO: Emote Portrait Alive: Generowanie ekspresyjnych filmów portretowych z modelem dyfuzji audio2wideo w słabych warunkach” badacze podzielić się informacjami na temat nowego narzędzia, jego funkcji i sposobów jego wykorzystania w celu uzyskania doskonałych rezultatów.
Dzięki ekspresyjnemu narzędziu AI do tworzenia portretów opartemu na dźwięku użytkownicy mogą tworzyć filmy z awatarami wokalnymi z wyrazem twarzy. Zdaniem badaczy narzędzie umożliwia tworzenie filmów o dowolnej długości „w zależności od długości wejściowego sygnału audio”.
„Wprowadź obraz pojedynczej postaci i dźwięk głosu, np. śpiewu, a nasza metoda może wygenerować filmy z awatarami wokalnymi z wyrazistą mimiką twarzy i różnymi pozami głowy” – twierdzą badacze.
„Nasza metoda obsługuje utwory w różnych językach i ożywia różnorodne style portretów. Intuicyjnie rozpoznaje różnice tonalne w dźwięku, umożliwiając generowanie dynamicznych, bogatych w ekspresję awatarów.”
Przeczytaj także: OpenAI twierdzi, że New York Times „zhakował” ChatGPT w celu opracowania sprawy dotyczącej praw autorskich
Mówienie, śpiewanie z portretu
Według naukowców narzędzie oparte na sztucznej inteligencji nie tylko przetwarza muzykę, ale także przetwarza dźwięk mówiony w różnych językach.
„Dodatkowo nasza metoda umożliwia animowanie portretów z minionych epok, obrazów, a także modeli 3D i treści generowanych przez sztuczną inteligencję, nadając im realistyczny ruch i realizm” – stwierdzili naukowcy.
Ale to nie koniec. Użytkownicy mogą także bawić się portretami i wizerunkami gwiazd filmowych prowadzących monologi lub występy w różnych stylach i językach.
Niektórzy entuzjaści sztucznej inteligencji, którzy zdecydowali się na platformę X, opisali ją jako „oszałamiającą”.
2. Mona Lisa rozmawia z Szekspirem pic.twitter.com/26k29aAz1P
— Min Choi (@minchoi) 28 lutego 2024 r.
Zacieśniająca się granica między rzeczywistością a sztuczną inteligencją
Nowości dotyczące narzędzia EMO autorstwa Alibaba sprawiło, że inni użytkownicy pomyśleli, że granica między sztuczną inteligencją a rzeczywistością wkrótce zaniknie, w miarę jak firmy technologiczne będą nadal wprowadzać na rynek nowe produkty.
„Granica między sztuczną inteligencją a rzeczywistością jest cieńsza niż kiedykolwiek” – napisał Ruben na X, podczas gdy inni myślą TikTok wkrótce zostanie zalany dziełami.
„Po raz pierwszy widziałem tak precyzyjny i realistyczny wynik. Wideo AI w tym roku zapowiada się wiarygodnie” – stwierdził Paweł Covert.
Choć inni uważają, że może to zmienić zasady gry dla twórców, Min Choi również podchodzi do tego ostrożnie.
„Mam nadzieję, że tylko do rzeczy kreatywnych. To może być niebezpieczne w niepowołanych rękach.
Korzystanie z narzędzia
Wyjaśniając ten proces, badacze podkreślili, że struktura EMO składa się z dwóch etapów, z których pierwszy znany jest jako kodowanie klatek, podczas którego wdrażana jest sieć ReferenceNet w celu wyodrębnienia funkcji z obrazów referencyjnych i klatek ruchomych.
Następnym etapem jest etap procesu dyfuzji, w którym wstępnie wytrenowany koder audio „przetwarza osadzanie dźwięku”. Aby stworzyć idealny obraz twarzy, użytkownicy integrują maski obszarów twarzy i szum wieloramkowy.
„Te mechanizmy są niezbędne odpowiednio do zachowania tożsamości postaci i modulowania jej ruchów” – czytamy w części wyjaśnień.
„Dodatkowo moduły czasowe służą do manipulowania wymiarem czasowym i dostosowywania prędkości ruchu”.
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/
- :ma
- :Jest
- :nie
- :Gdzie
- 12
- 28
- 3d
- a
- O nas
- o tym
- pomieści
- Stosownie
- dokładny
- Dodaj
- AI
- Zasilany AI
- Alibaba
- Alibaba Group
- żywy
- pozwala
- również
- an
- i
- Animuj
- każdy
- SĄ
- na około
- AS
- At
- audio
- awatara
- awatary
- BE
- Ulepsz Swój
- pomiędzy
- obie
- granica
- Przynosi
- ale
- by
- CAN
- zdolność
- ostrożny
- Changer
- charakter
- ChatGPT
- roszczenia
- computing
- Warunki
- zawartość
- kontynuować
- prawo autorskie
- mógłby
- Stwórz
- kreacje
- Twórczy
- kreacje
- wiarygodny
- da
- Niebezpieczny
- dostarczanie
- wdrażane
- opisane
- rozwijać
- rozwinięty
- różne
- Transmitowanie
- Wymiary
- znikać
- inny
- robi
- czas trwania
- dynamiczny
- krawędź
- osadzanie
- Umożliwia
- umożliwiając
- kodowanie
- zakończenia
- Miłośnicy
- niezbędny
- EVER
- wyjaśnienie
- wyrażeń
- ekspresyjny
- wyciąg
- Twarzowy
- sławny
- Korzyści
- firmy
- i terminów, a
- pierwszy raz
- zalany
- W razie zamówieenia projektu
- Framework
- od
- Funkcje
- gra
- game-changer
- Generować
- generujący
- generacja
- GitHub
- Dać
- Zarządzanie
- siła robocza
- Have
- głowa
- jej
- Wysoki
- Podświetlony
- W jaki sposób
- How To
- HTTPS
- i
- tożsamość
- obraz
- zdjęcia
- in
- wkład
- spostrzeżenia
- Instytut
- integrować
- Inteligentny
- IT
- JEGO
- jpg
- właśnie
- znany
- Języki
- Długość
- życie
- jak żywy
- lubić
- zrobiony
- Dokonywanie
- Maski
- Maksymalna szerokość
- Mechanizmy
- metoda
- min
- model
- modele
- Moduły
- ruch
- Ruchy
- film
- Muzyka
- Nowości
- Nowe produkty
- I Love New York
- New York Times
- Następny
- Hałas
- już dziś
- of
- Stary
- on
- ONE
- tylko
- or
- Inne
- Pozostałe
- ludzkiej,
- Malarstwo
- część
- doskonały
- spektakle
- Platforma
- plato
- Analiza danych Platona
- PlatoDane
- Grać
- portret
- portrety
- stwarza
- precyzyjny
- konserwowanie
- wygląda tak
- Produkty
- obiecuje
- Czytaj
- real
- realizm
- realistyczny
- Rzeczywistość
- rozpoznaje
- odniesienie
- region
- raport
- Badacze
- odpowiednio
- dalsze
- Efekt
- Powiedział
- widziany
- pojedynczy
- wkrótce
- mówiony
- STAGE
- etapy
- Gwiazdy
- Nadal
- taki
- podpory
- synchronizacja
- Mówić
- rozmawiać
- tech
- niż
- Podziękowania
- że
- Połączenia
- The New York Times
- ich
- Im
- Tam.
- rzeczy
- myśleć
- to
- w tym roku
- czas
- czasy
- do
- wziął
- narzędzie
- prawdziwy
- i twitterze
- drugiej
- dla
- uwolnienie
- posługiwać się
- Użytkownicy
- za pomocą
- wykorzystany
- wariacje
- różnorodny
- Prędkość
- Wideo
- Filmy
- wokal
- słaby
- który
- Podczas
- KIM
- będzie
- w
- Źle
- złe ręce
- X
- rok
- york
- zefirnet