Mona Lisa kan nu prata, tack vare EMO

Mona Lisa kan nu prata, tack vare EMO

Forskare vid Institute for Intelligent Computing vid Alibaba Group har utvecklat ett AI-verktyg som kallas EMO: Emote Portrait Alive, som ger porträtt liv.

Verktyget gör det möjligt för användare att lägga till ljud och video till en stillbild. Med hjälp av verktyget kan man leka med ett gammalt porträtt som den berömda Leonardo da Vincis La Gioconda, mer känd som Mona Lisa, som får henne att prata och sjunga med huvudposer, rörelser, ansiktsuttryck och exakt läppsynk.

Uttrycksfullt ljuddrivet porträtt-videogenereringsverktyg

I sin rapport, "EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions,"  forskarna ge insikter om deras nya verktyg, dess funktioner och hur man använder det för perfekta resultat.

Med det uttrycksfulla ljuddrivna porträttskapande AI-verktyget kan användare skapa vokala avatarvideor med ansiktsuttryck. Enligt forskarna tillåter verktyget dem att skapa videor av vilken varaktighet som helst "beroende på längden på ingångsljudet."

"Mata in en enskild karaktärsbild och ett sångljud, till exempel sång, och vår metod kan generera vokala avatarvideor med uttrycksfulla ansiktsuttryck och olika huvudställningar," sa forskarna.

”Vår metod stöder låtar på olika språk och ger liv åt olika porträttstilar. Den känner intuitivt igen tonala variationer i ljudet, vilket möjliggör generering av dynamiska, uttrycksrika avatarer."

Läs också: OpenAI hävdar att New York Times "hackat" ChatGPT för att utveckla ett upphovsrättsfall

Pratar, sjunger från ett porträtt

Enligt forskarna bearbetar det AI-drivna verktyget inte bara musik utan rymmer även talat ljud på olika språk.

"Dessutom har vår metod förmågan att animera porträtt från svunna epoker, målningar och både 3D-modeller och AI-genererat innehåll, vilket ger dem verklighetstrogna rörelser och realism", sa forskarna.

Men det slutar inte där. Användare kan också leka med porträtt och bilder av filmstjärnor som levererar monologer eller framträdanden i olika stilar och språk.

Vissa AI-entusiaster som tog till X-plattformen beskrev det som "svindlande".

Tunnande gräns mellan verklig och AI

Nyheter om EMO-verktyget av alibaba har fått andra användare att tro att gränsen mellan AI och verkligheten är på väg att försvinna när teknikföretag fortsätter att släppa lös nya produkter.

"Kransen mellan AI och verklig är tunnare än någonsin," postade Ruben på X, medan andra tycker TikTok kommer snart att översvämmas av skapelserna.

"Det här är första gången jag har sett ett så exakt och realistiskt resultat. Video AI det här året lovar att bli trovärdigt”, sa Paul Covert.

Medan andra tror att detta kan vara en spelförändring för kreativa, är Min Choi också försiktig med det.

”Förhoppningsvis bara för kreativa saker. Det här kan vara farligt i fel händer."

Mona Lisa kan nu prata, tack vare EMO

Använda verktyget

Forskarna förklarade processen och betonade att EMO-ramverket har två steg, med den första känd som Frames Encoding, där ReferenceNet används för att extrahera funktioner från referensbilder och rörelseramar.

Nästa steg är diffusionsprocessen, där en förtränad ljudkodare "bearbetar ljudinbäddningen." För att skapa perfekta ansiktsbilder, integrerar användarna ansiktsmasker och flerbildsbrus.

"Dessa mekanismer är väsentliga för att bevara karaktärens identitet respektive modulera karaktärens rörelser", lyder en del av förklaringen.

"Dessutom används temporala moduler för att manipulera den tidsmässiga dimensionen och justera hastighetsrörelsen."

Tidsstämpel:

Mer från MetaNews