Tänu EMO-le saab Mona Lisa nüüd rääkida

Tänu EMO-le saab Mona Lisa nüüd rääkida

Alibaba Groupi intelligentse andmetöötluse instituudi teadlased on välja töötanud tehisintellekti tööriista, mida tuntakse EMO: Emote Portrait Alive nime all ja mis muudab portreed ellu.

Tööriist võimaldab kasutajatel lisada pildile heli ja videot. Tööriista abil saate mängida vana portreega, nagu kuulsa Leonardo da Vinci La Gioconda, paremini tuntud kui Mona Lisa, pannes ta rääkima ja laulma peapooside, liikumise, näoilmete ja täpse huulte sünkroniseerimisega.

Ekspressiivne helipõhine portree-video genereerimise tööriist

Oma aruandes "EMO: Emote Portrait Alive: Looge ekspressiivseid portreevideoid Audio2Video difusioonimudeliga nõrkades tingimustes"  uurijad annavad ülevaate oma uuest tööriistast, selle funktsioonidest ja sellest, kuidas seda täiuslike tulemuste saavutamiseks kasutada.

Ekspressiivse helipõhise portreede loomise AI-tööriistaga saavad kasutajad luua näoilmetega vokaalseid avatarivideoid. Teadlaste sõnul võimaldab tööriist neil luua mis tahes kestusega videoid "sõltuvalt sisendheli pikkusest".

"Sisestage ühe tegelase kujutis ja vokaalheli, näiteks laulmine, ja meie meetod võib luua vokaalseid avatarivideoid ekspressiivsete näoilmete ja erinevate peapoosidega," ütlesid teadlased.

„Meie meetod toetab erinevates keeltes laule ja äratab ellu erinevaid portree stiile. See tunneb intuitiivselt ära heli toonide variatsioonid, võimaldades luua dünaamilisi, väljendusrikkaid avatare.

Loe ka: OpenAI väidab, et New York Times häkkis ChatGPT-le autoriõiguse juhtumi väljatöötamiseks

Rääkib, laulab portreest

Teadlaste sõnul ei töötle tehisintellektil töötav tööriist mitte ainult muusikat, vaid mahutab ka eri keeltes räägitavat heli.

"Lisaks on meie meetodil võime animeerida möödunud ajastute portreesid, maale ja nii 3D-mudeleid kui ka AI-ga loodud sisu, lisades neisse elutruu liikumist ja realismi," ütlesid teadlased.

Kuid see ei lõpe sellega. Kasutajad saavad mängida ka portreede ja piltidega filmistaaridest, kes esitavad monolooge või etendusi erinevates stiilides ja keeltes.

Mõned AI-entusiastid, kes kasutasid X-platvormi, kirjeldasid seda kui "meeletuju".

Piir tegelikkuse ja tehisintellekti vahel kahaneb

Uudised EMO tööriistast Alibaba on pannud teised kasutajad arvama, et tehisintellekti ja reaalsuse vaheline piir hakkab kaduma, kuna tehnoloogiaettevõtted jätkavad uute toodete vallandamist.

"Äär AI ja reaalse vahel on õhem kui kunagi varem," postitas Ruben X peal, samal ajal kui teised arvavad Tikk-takk on varsti loominguga üle ujutatud.

“Nii täpset ja realistlikku tulemust näen esimest korda. Video AI see aasta tõotab tulla usaldusväärne,” ütles Paul Covert.

Kuigi teised arvavad, et see võib loojate jaoks mängu muuta, on Min Choi selle suhtes samuti ettevaatlik.

“Loodetavasti ainult loominguliste asjade jaoks. See võib olla valedes kätes ohtlik."

Tänu EMO-le saab Mona Lisa nüüd rääkida

Tööriista kasutamine

Protsessi selgitades rõhutasid teadlased, et EMO raamistikul on kaks etappi, millest esimene on tuntud kui Frames Encoding, kus ReferenceNeti kasutatakse võrdluspiltidest ja liikumiskaadritest funktsioonide eraldamiseks.

Järgmine etapp on difusiooniprotsessi etapp, kus eelkoolitatud helikooder "töötleb heli manustamist". Täiuslike näokujutiste loomiseks integreerivad kasutajad näopiirkonna maskid ja mitme kaadri müra.

"Need mehhanismid on olulised tegelase identiteedi säilitamiseks ja vastavalt tegelase liikumiste moduleerimiseks," seisab selgituses.

"Lisaks kasutatakse ajalisi mooduleid ajalise mõõtmega manipuleerimiseks ja kiiruse liikumise reguleerimiseks."

Ajatempel:

Veel alates MetaNews