Mona Lisa kan nu tale, takket være EMO

Genudgivet af Platon

Abonnenter: 0

Forskere ved Institute for Intelligent Computing hos Alibaba Group har udviklet et AI-værktøj kendt som EMO: Emote Portrait Alive, som bringer portrætter til live.

Værktøjet gør det muligt for brugere at tilføje lyd og video til et stillbillede. Ved hjælp af værktøjet kan man lege med et gammelt portræt som den berømte Leonardo da Vincis La Gioconda, bedre kendt som Mona Lisa, der får hende til at tale og synge med hovedstillinger, bevægelser, ansigtsudtryk og præcis læbesynkronisering.

Et udtryksfuldt lyddrevet portræt-videogenereringsværktøj

I deres rapport, "EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions," forskerne give indsigt i deres nye værktøj, dets funktioner og hvordan man bruger det til perfekte resultater.

Med det udtryksfulde lyddrevne portrætskabende AI-værktøj kan brugere oprette vokale avatar-videoer med ansigtsudtryk. Ifølge forskerne giver værktøjet dem mulighed for at skabe videoer af enhver varighed "afhængigt af længden af inputlyden."

"Indtast et enkelt karakterbillede og en vokal lyd, såsom sang, og vores metode kan generere vokale avatar-videoer med udtryksfulde ansigtsudtryk og forskellige hovedstillinger," sagde forskerne.

“Vores metode understøtter sange på forskellige sprog og bringer forskellige portrætstile til live. Den genkender intuitivt tonale variationer i lyden, hvilket muliggør generering af dynamiske, udtryksrige avatarer."

Læs også: OpenAI hævder, at New York Times "hackede" ChatGPT for at udvikle en ophavsretssag

Taler, synger fra et portræt

Ifølge forskerne behandler det AI-drevne værktøj ikke kun musik, men rummer også talt lyd på forskellige sprog.

"Derudover har vores metode evnen til at animere portrætter fra svundne epoker, malerier og både 3D-modeller og AI-genereret indhold, og tilføre dem naturtro bevægelse og realisme," sagde forskerne.

Men det slutter ikke der. Brugere kan også lege med portrætter og billeder af filmstjerner, der leverer monologer eller forestillinger i forskellige stilarter og sprog.

Nogle AI-entusiaster, der tog til X-platformen, beskrev det som "åndssvagt".

2. Mona Lisa taler Shakespeare pic.twitter.com/26k29aAz1P

— Min Choi (@minchoi) Februar 28, 2024

Udtynding af grænsen mellem ægte og AI

Nyheder om EMO-værktøjet af Alibaba har fået andre brugere til at tro, at grænsen mellem AI og virkeligheden er ved at forsvinde, efterhånden som tech-virksomheder fortsætter med at frigive nye produkter.

"Kranen mellem AI og ægte er tyndere end nogensinde," udsendt Ruben på X, mens andre tænker TikTok vil snart blive oversvømmet med kreationerne.

”Det er første gang, jeg har set et så præcist og realistisk resultat. Video AI dette år lover at blive troværdigt,” sagde Paul Covert.

Mens andre mener, at dette kunne være en game changer for kreative, er Min Choi også forsigtig med det.

“Forhåbentlig kun for kreative ting. Dette kan være farligt i de forkerte hænder."

Mona Lisa kan nu tale, takket være EMO

Brug af værktøjet

Forskerne forklarede processen og fremhævede, at EMO-rammen har to faser, hvor den første er kendt som Frames Encoding, hvor ReferenceNet er implementeret til at udtrække funktioner fra referencebilleder og motion frames.

Det næste trin er Diffusion Process-stadiet, hvor en fortrænet lydkoder "behandler lydindlejringen." For at skabe perfekte ansigtsbilleder integrerer brugere ansigtsmasker og multi-frame-støj.

”Disse mekanismer er essentielle for henholdsvis at bevare karakterens identitet og modulere karakterens bevægelser,” lyder en del af forklaringen.

"Derudover bruges temporale moduler til at manipulere den tidsmæssige dimension og justere hastighedsbevægelsen."

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/

Tidsstempel: Marts 1, 2024

Tidsstempel: April 20, 2024

Mona Lisa kan nu tale, takket være EMO

Genudgivet af Platon

Et udtryksfuldt lyddrevet portræt-videogenereringsværktøj

Taler, synger fra et portræt

Udtynding af grænsen mellem ægte og AI

Brug af værktøjet

Mere fra MetaNews

Kenya annullerer Worldcoins licens, 301K brugerdata i fare

AI-skrevne e-bøger boomer på Amazon efter lancering af ChatGPT

Det Hvide Hus tager skridt til at studere AI-risici

Galactic Goats er et spirende NFT-projekt

Silent Hill 2 Remake forventes at blive lanceret snart

Meta afslører AI Image Segmentation Model, SAM

The Game of Life 2 lanceres på alle platforme

Lanceringen af Voodolls er planlagt til næste år

Metaverse Token DeepBrain Chain op 200 % på grund af AI-fremskridt

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto