Mona Lisa poate vorbi acum, datorită EMO

Mona Lisa poate vorbi acum, datorită EMO

Cercetătorii de la Institute for Intelligent Computing de la Alibaba Group au dezvoltat un instrument AI cunoscut sub numele de EMO: Emote Portrait Alive, care dă viață portretelor.

Instrumentul permite utilizatorilor să adauge audio și video la o imagine statică. Folosind instrumentul, se poate juca cu un portret vechi precum celebrul Leonardo da Vinci La Gioconda, mai cunoscut sub numele de Mona Lisa, făcând-o să vorbească și să cânte cu ipostaze ale capului, mișcare, expresii faciale și sincronizare precisă a buzelor.

Instrument expresiv de generare de portrete-video, bazat pe audio

În raportul lor, „EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions”,  cercetatorii oferiți informații despre noul lor instrument, funcțiile sale și cum să îl utilizați pentru rezultate perfecte.

Cu instrumentul AI expresiv pentru realizarea portretelor, utilizatorii pot crea videoclipuri cu avatar vocal cu expresii faciale. Potrivit cercetătorilor, instrumentul le permite să creeze videoclipuri de orice durată „în funcție de lungimea sunetului de intrare”.

„Introduceți o imagine cu un singur caracter și un sunet vocal, cum ar fi cântatul, iar metoda noastră poate genera videoclipuri cu avatar vocal cu expresii faciale expresive și diferite ipostaze ale capului”, au spus cercetătorii.

„Metoda noastră acceptă melodii în diferite limbi și dă viață stilurilor de portret diverse. Recunoaște intuitiv variațiile tonale ale sunetului, permițând generarea de avatare dinamice, bogate în expresii.”

De asemenea, se va citi: OpenAI susține că The New York Times a „piratat” ChatGPT pentru a dezvolta un caz de drepturi de autor

Vorbind, cântând dintr-un portret

Potrivit cercetătorilor, instrumentul alimentat de inteligență artificială nu procesează doar muzica, ci și găzduiește sunetul vorbit în diferite limbi.

„În plus, metoda noastră are capacitatea de a anima portrete din epoci trecute, picturi și atât modele 3D, cât și conținut generat de inteligență artificială, infuzându-le cu mișcare și realism realiste”, au spus cercetătorii.

Dar nu se termină aici. Utilizatorii se pot juca, de asemenea, cu portrete și imagini ale vedetelor de film care oferă monologuri sau spectacole în diferite stiluri și limbi.

Unii entuziaști ai inteligenței artificiale care au folosit platforma X au descris-o ca fiind „uimitoare”.

Scăderea graniței dintre real și AI

Știri despre instrumentul EMO de Alibaba i-a făcut pe alți utilizatori să creadă că granița dintre AI și realitate este pe cale să dispară, pe măsură ce firmele de tehnologie continuă să lanseze produse noi.

„Marginea dintre AI și real este mai subțire ca niciodată”, a postat Ruben pe X, în timp ce alții cred TIC-tac va fi în curând inundat de creații.

„Este prima dată când văd un rezultat atât de precis și realist. Video AI anul acesta promite să fie credibil”, a spus Paul Covert.

În timp ce alții cred că acest lucru ar putea schimba jocul pentru creativi, Min Choi este, de asemenea, precaut în privința asta.

„Sperăm doar pentru lucruri creative. Acest lucru ar putea fi periculos în mâinile greșite.”

Mona Lisa poate vorbi acum, datorită EMO

Folosind instrumentul

Explicând procesul, cercetătorii au subliniat că cadrul EMO are două etape, prima fiind cunoscută sub denumirea de Frames Encoding, unde ReferenceNet este implementat pentru a extrage caracteristici din imaginile de referință și cadrele de mișcare.

Următoarea etapă este etapa procesului de difuzare, în care un codificator audio pre-antrenat „procesează încorporarea audio”. Pentru a crea imagini faciale perfecte, utilizatorii integrează măști pentru regiunea facială și zgomot cu mai multe cadre.

„Aceste mecanisme sunt esențiale pentru păstrarea identității personajului și, respectiv, modularea mișcărilor personajului”, se arată în parte din explicație.

„În plus, modulele temporale sunt utilizate pentru a manipula dimensiunea temporală și pentru a regla mișcarea vitezei.”

Timestamp-ul:

Mai mult de la MetaNews