Mona Lisa kan nu prata, tack vare EMO

Återutgiven av Platon

anhängare: 0

Forskare vid Institute for Intelligent Computing vid Alibaba Group har utvecklat ett AI-verktyg som kallas EMO: Emote Portrait Alive, som ger porträtt liv.

Verktyget gör det möjligt för användare att lägga till ljud och video till en stillbild. Med hjälp av verktyget kan man leka med ett gammalt porträtt som den berömda Leonardo da Vincis La Gioconda, mer känd som Mona Lisa, som får henne att prata och sjunga med huvudposer, rörelser, ansiktsuttryck och exakt läppsynk.

Uttrycksfullt ljuddrivet porträtt-videogenereringsverktyg

I sin rapport, "EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions," forskarna ge insikter om deras nya verktyg, dess funktioner och hur man använder det för perfekta resultat.

Med det uttrycksfulla ljuddrivna porträttskapande AI-verktyget kan användare skapa vokala avatarvideor med ansiktsuttryck. Enligt forskarna tillåter verktyget dem att skapa videor av vilken varaktighet som helst "beroende på längden på ingångsljudet."

"Mata in en enskild karaktärsbild och ett sångljud, till exempel sång, och vår metod kan generera vokala avatarvideor med uttrycksfulla ansiktsuttryck och olika huvudställningar," sa forskarna.

”Vår metod stöder låtar på olika språk och ger liv åt olika porträttstilar. Den känner intuitivt igen tonala variationer i ljudet, vilket möjliggör generering av dynamiska, uttrycksrika avatarer."

Läs också: OpenAI hävdar att New York Times "hackat" ChatGPT för att utveckla ett upphovsrättsfall

Pratar, sjunger från ett porträtt

Enligt forskarna bearbetar det AI-drivna verktyget inte bara musik utan rymmer även talat ljud på olika språk.

"Dessutom har vår metod förmågan att animera porträtt från svunna epoker, målningar och både 3D-modeller och AI-genererat innehåll, vilket ger dem verklighetstrogna rörelser och realism", sa forskarna.

Men det slutar inte där. Användare kan också leka med porträtt och bilder av filmstjärnor som levererar monologer eller framträdanden i olika stilar och språk.

Vissa AI-entusiaster som tog till X-plattformen beskrev det som "svindlande".

2. Mona Lisa pratar Shakespeare pic.twitter.com/26k29aAz1P

— Min Choi (@minchoi) Februari 28, 2024

Tunnande gräns mellan verklig och AI

Nyheter om EMO-verktyget av alibaba har fått andra användare att tro att gränsen mellan AI och verkligheten är på väg att försvinna när teknikföretag fortsätter att släppa lös nya produkter.

"Kransen mellan AI och verklig är tunnare än någonsin," postade Ruben på X, medan andra tycker TikTok kommer snart att översvämmas av skapelserna.

"Det här är första gången jag har sett ett så exakt och realistiskt resultat. Video AI det här året lovar att bli trovärdigt”, sa Paul Covert.

Medan andra tror att detta kan vara en spelförändring för kreativa, är Min Choi också försiktig med det.

”Förhoppningsvis bara för kreativa saker. Det här kan vara farligt i fel händer."

Mona Lisa kan nu prata, tack vare EMO

Använda verktyget

Forskarna förklarade processen och betonade att EMO-ramverket har två steg, med den första känd som Frames Encoding, där ReferenceNet används för att extrahera funktioner från referensbilder och rörelseramar.

Nästa steg är diffusionsprocessen, där en förtränad ljudkodare "bearbetar ljudinbäddningen." För att skapa perfekta ansiktsbilder, integrerar användarna ansiktsmasker och flerbildsbrus.

"Dessa mekanismer är väsentliga för att bevara karaktärens identitet respektive modulera karaktärens rörelser", lyder en del av förklaringen.

"Dessutom används temporala moduler för att manipulera den tidsmässiga dimensionen och justera hastighetsrörelsen."

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/

Tidsstämpel: Mars 1, 2024

Tidsstämpel: April 20, 2024

Mona Lisa kan nu prata, tack vare EMO

Återutgiven av Platon

Uttrycksfullt ljuddrivet porträtt-videogenereringsverktyg

Pratar, sjunger från ett porträtt

Tunnande gräns mellan verklig och AI

Använda verktyget

Mer från MetaNews

Kenya annullerar Worldcoins licens, 301K användardata i riskzonen

AI-skrivna e-böcker boom på Amazon efter lansering av ChatGPT

Vita huset vidtar åtgärder för att studera AI-risker

Galactic Goats är ett framväxande NFT-projekt

Silent Hill 2 Remake förväntas lanseras snart

Meta avslöjar AI-bildsegmenteringsmodell, SAM

The Game of Life 2 lanseras på alla plattformar

Lansering av Voodolls är planerad till nästa år

Metaverse Token DeepBrain Chain Up 200% på grund av AI-framsteg

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto