Mona Lisa kan nu tale, takket være EMO

Mona Lisa kan nu tale, takket være EMO

Forskere ved Institute for Intelligent Computing hos Alibaba Group har udviklet et AI-værktøj kendt som EMO: Emote Portrait Alive, som bringer portrætter til live.

Værktøjet gør det muligt for brugere at tilføje lyd og video til et stillbillede. Ved hjælp af værktøjet kan man lege med et gammelt portræt som den berømte Leonardo da Vincis La Gioconda, bedre kendt som Mona Lisa, der får hende til at tale og synge med hovedstillinger, bevægelser, ansigtsudtryk og præcis læbesynkronisering.

Et udtryksfuldt lyddrevet portræt-videogenereringsværktøj

I deres rapport, "EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions,"  forskerne give indsigt i deres nye værktøj, dets funktioner og hvordan man bruger det til perfekte resultater.

Med det udtryksfulde lyddrevne portrætskabende AI-værktøj kan brugere oprette vokale avatar-videoer med ansigtsudtryk. Ifølge forskerne giver værktøjet dem mulighed for at skabe videoer af enhver varighed "afhængigt af længden af ​​inputlyden."

"Indtast et enkelt karakterbillede og en vokal lyd, såsom sang, og vores metode kan generere vokale avatar-videoer med udtryksfulde ansigtsudtryk og forskellige hovedstillinger," sagde forskerne.

“Vores metode understøtter sange på forskellige sprog og bringer forskellige portrætstile til live. Den genkender intuitivt tonale variationer i lyden, hvilket muliggør generering af dynamiske, udtryksrige avatarer."

Læs også: OpenAI hævder, at New York Times "hackede" ChatGPT for at udvikle en ophavsretssag

Taler, synger fra et portræt

Ifølge forskerne behandler det AI-drevne værktøj ikke kun musik, men rummer også talt lyd på forskellige sprog.

"Derudover har vores metode evnen til at animere portrætter fra svundne epoker, malerier og både 3D-modeller og AI-genereret indhold, og tilføre dem naturtro bevægelse og realisme," sagde forskerne.

Men det slutter ikke der. Brugere kan også lege med portrætter og billeder af filmstjerner, der leverer monologer eller forestillinger i forskellige stilarter og sprog.

Nogle AI-entusiaster, der tog til X-platformen, beskrev det som "åndssvagt".

Udtynding af grænsen mellem ægte og AI

Nyheder om EMO-værktøjet af Alibaba har fået andre brugere til at tro, at grænsen mellem AI og virkeligheden er ved at forsvinde, efterhånden som tech-virksomheder fortsætter med at frigive nye produkter.

"Kranen mellem AI og ægte er tyndere end nogensinde," udsendt Ruben på X, mens andre tænker TikTok vil snart blive oversvømmet med kreationerne.

”Det er første gang, jeg har set et så præcist og realistisk resultat. Video AI dette år lover at blive troværdigt,” sagde Paul Covert.

Mens andre mener, at dette kunne være en game changer for kreative, er Min Choi også forsigtig med det.

“Forhåbentlig kun for kreative ting. Dette kan være farligt i de forkerte hænder."

Mona Lisa kan nu tale, takket være EMO

Brug af værktøjet

Forskerne forklarede processen og fremhævede, at EMO-rammen har to faser, hvor den første er kendt som Frames Encoding, hvor ReferenceNet er implementeret til at udtrække funktioner fra referencebilleder og motion frames.

Det næste trin er Diffusion Process-stadiet, hvor en fortrænet lydkoder "behandler lydindlejringen." For at skabe perfekte ansigtsbilleder integrerer brugere ansigtsmasker og multi-frame-støj.

”Disse mekanismer er essentielle for henholdsvis at bevare karakterens identitet og modulere karakterens bevægelser,” lyder en del af forklaringen.

"Derudover bruges temporale moduler til at manipulere den tidsmæssige dimension og justere hastighedsbevægelsen."

Tidsstempel:

Mere fra MetaNews