A Mona Lisa már beszélhet, hála az EMO-nak

A Mona Lisa már beszélhet, hála az EMO-nak

Az Alibaba Group Intelligens Számítástechnikai Intézetének kutatói kifejlesztettek egy EMO: Emote Portrait Alive néven ismert mesterséges intelligencia eszközt, amely életre kelti a portrékat.

Az eszköz lehetővé teszi a felhasználók számára, hogy hangot és videót adjanak egy állóképhez. Az eszköz segítségével eljátszhat egy régi portrét, például a híres Leonardo da Vinci La Giocondáját, ismertebb nevén a Mona Lisát, így fejtartással, mozgással, arckifejezéssel és pontos ajakszinkronnal beszélhet és énekelhet.

Kifejező hangvezérelt portré-videó generáló eszköz

Az „EMO: Emote Portrait Alive: Expressive Portré Videos with Audio2Video Diffusion Model in Weak Conditions” című jelentésükben.  a kutatók betekintést nyújtanak az új eszközükbe, annak funkcióiba és a tökéletes eredmény eléréséhez.

A kifejező hangvezérelt portrékészítő mesterséges intelligencia eszközzel a felhasználók vokális avatarvideókat készíthetnek arckifejezésekkel. A kutatók szerint az eszköz lehetővé teszi számukra, hogy bármilyen időtartamú videókat készítsenek, „a bemeneti hang hosszától függően”.

"Adjon meg egy karakterképet és egy énekhangot, például éneklést, és módszerünkkel vokális avatarvideókat hozhatunk létre kifejező arckifejezésekkel és különféle fejpózokkal" - mondták a kutatók.

„Módszerünk különféle nyelvű dalokat támogat, és különféle portréstílusokat kelt életre. Intuitív módon felismeri a hang tónusbeli eltéréseit, lehetővé téve dinamikus, kifejezésekben gazdag avatarok generálását.”

Lásd még: Az OpenAI azt állítja, hogy a New York Times „feltörte” a ChatGPT-t, hogy szerzői jogi ügyet dolgozzon ki

Beszélgetés, éneklés egy portréról

A kutatók szerint a mesterséges intelligencia által működtetett eszköz nem csak a zenét dolgozza fel, hanem a különböző nyelveken beszédhangot is befogadja.

"Módszerünk emellett képes letűnt korokból származó portrékat, festményeket, 3D-s modelleket és mesterséges intelligencia által generált tartalmakat animálni, élethű mozgást és realizmust kölcsönözve nekik" - mondták a kutatók.

De ezzel még nincs vége. A felhasználók a filmsztárok portréival és képeivel is játszhatnak, akik monológokat vagy előadásokat tartanak különféle stílusokban és nyelveken.

Néhány mesterséges intelligencia-rajongó, aki az X platformot választotta, „elképesztőnek” nevezte.

Vékonyodik a határ a valódi és az AI között

Hírek az EMO eszközről Alibaba Más felhasználókat arra késztetett, hogy a mesterséges intelligencia és a valóság közötti határ eltűnjön, ahogy a technológiai cégek továbbra is új termékeket bocsátanak ki.

"Az AI és a valóság közötti határ vékonyabb, mint valaha" – tette közzé Ruben X-en, míg mások azt gondolják TikTok hamarosan elárasztják az alkotások.

„Ez az első alkalom, hogy ilyen precíz és reális eredményt látok. Videó AI ez az év hitelesnek ígérkezik” – mondta Paul Covert.

Míg mások úgy gondolják, hogy ez játékmódot jelenthet a kreatívok számára, Min Choi is óvatos ezzel kapcsolatban.

„Remélhetőleg csak kreatív dolgokra. Ez veszélyes lehet rossz kezekben.”

A Mona Lisa már beszélhet, hála az EMO-nak

Az eszköz használata

A folyamat magyarázata során a kutatók kiemelték, hogy az EMO-keretrendszernek két szakasza van, az első Frames Encoding néven ismert, ahol a ReferenceNet-et a referenciaképekből és a mozgáskockákból származó funkciók kinyerésére alkalmazzák.

A következő szakasz a diffúziós folyamat, ahol egy előképzett hangkódoló „feldolgozza a hangbeágyazást”. A tökéletes arcképek létrehozásához a felhasználók arcterület-maszkokat és több képkocka zajt integrálnak.

„Ezek a mechanizmusok elengedhetetlenek a karakter identitásának megőrzéséhez, illetve a karakter mozgásának modulálásához” – olvasható a magyarázat egy részében.

"Ezenkívül az időbeli modulokat az időbeli dimenzió manipulálására és a sebesség mozgásának beállítására használják."

Időbélyeg:

Még több MetaNews