Mona Lisa lahko zdaj govori, zahvaljujoč EMO

Mona Lisa lahko zdaj govori, zahvaljujoč EMO

Raziskovalci na Inštitutu za inteligentno računalništvo pri Alibaba Group so razvili orodje AI, znano kot EMO: Emote Portrait Alive, ki oživi portrete.

Orodje uporabnikom omogoča dodajanje zvoka in videa fotografiji. Z orodjem se lahko poigrate s starim portretom, kot je slavna Gioconda Leonarda da Vincija, bolj znana kot Mona Lisa, tako da govori in poje s položaji glave, gibanjem, obrazno mimiko in natančno sinhronizacijo ustnic.

Orodje za ustvarjanje ekspresivnega zvočnega portreta in videa

V svojem poročilu "EMO: Emote Portrait Alive: Generiranje ekspresivnih portretnih videoposnetkov z modelom difuzije Audio2Video pod šibkimi pogoji,"  raziskovalci dajo vpogled v njihovo novo orodje, njegove funkcije in kako ga uporabiti za popolne rezultate.

Z ekspresivnim zvočnim orodjem za ustvarjanje portretov z umetno inteligenco lahko uporabniki ustvarijo videoposnetke vokalnih avatarjev z mimiko obraza. Po mnenju raziskovalcev jim orodje omogoča ustvarjanje videoposnetkov poljubnega trajanja, »odvisno od dolžine vhodnega zvoka«.

"Vnesite sliko enega znaka in vokalni zvok, kot je petje, in naša metoda lahko ustvari videoposnetke vokalnih avatarjev z ekspresivnimi obraznimi izrazi in različnimi položaji glave," so povedali raziskovalci.

»Naša metoda podpira pesmi v različnih jezikih in oživi raznolike portretne sloge. Intuitivno prepozna tonske variacije v zvoku, kar omogoča ustvarjanje dinamičnih, izrazno bogatih avatarjev.”

Preberite tudi: OpenAI trdi, da je New York Times "vdrl" v ChatGPT, da bi razvil primer avtorskih pravic

Pogovor, petje iz portreta

Po besedah ​​raziskovalcev orodje, ki ga poganja umetna inteligenca, ne obdeluje le glasbe, temveč omogoča tudi govorjeni zvok v različnih jezikih.

"Poleg tega ima naša metoda zmožnost animiranja portretov iz preteklih obdobij, slik ter 3D modelov in vsebin, ustvarjenih z umetno inteligenco, ter jim vdahne realistično gibanje in realističnost," so povedali raziskovalci.

Vendar se tu ne konča. Uporabniki se lahko poigrajo tudi s portreti in slikami filmskih zvezd, ki predstavljajo monologe ali predstave v različnih slogih in jezikih.

Nekateri navdušenci nad umetno inteligenco, ki so uporabili platformo X, so jo opisali kot "osupljivo".

Tanjša se meja med resničnim in AI

Novice o orodju EMO avtorja Alibaba zaradi česar so drugi uporabniki mislili, da bo meja med umetno inteligenco in resničnostjo kmalu izginila, saj tehnološka podjetja še naprej uvajajo nove izdelke.

"Rob med umetno inteligenco in realnostjo je tanjši kot kdaj koli prej," objavil Ruben na X, medtem ko drugi mislijo Tik Tok bodo kmalu preplavljene s kreacijami.

»Prvič sem videl tako natančen in realen rezultat. Video AI to leto obljublja, da bo verodostojno,« je dejal Paul Covert.

Medtem ko drugi menijo, da bi to lahko spremenilo igro za ustvarjalce, je tudi Min Choi glede tega previden.

»Upam, da samo za ustvarjalne stvari. To bi lahko bilo nevarno v napačnih rokah.«

Mona Lisa lahko zdaj govori, zahvaljujoč EMO

Uporaba orodja

Pri razlagi postopka so raziskovalci poudarili, da ima ogrodje EMO dve stopnji, pri čemer je prva znana kot Frames Encoding, kjer je ReferenceNet nameščen za ekstrahiranje funkcij iz referenčnih slik in okvirjev gibanja.

Naslednja stopnja je stopnja difuzijskega procesa, kjer vnaprej usposobljen zvočni kodirnik »obdela zvočno vdelavo«. Za ustvarjanje popolnih podob obraza uporabniki integrirajo maske obraznih predelov in šum več okvirjev.

»Ti mehanizmi so bistveni za ohranjanje identitete lika oziroma za modulacijo njegovih gibov,« se glasi del razlage.

"Poleg tega se časovni moduli uporabljajo za manipulacijo časovne dimenzije in prilagajanje hitrosti gibanja."

Časovni žig:

Več od MetaNovice