Mona Lisa Kini Dapat Berbicara Berkat EMO

Mona Lisa Kini Dapat Berbicara Berkat EMO

Para peneliti di Institute for Intelligent Computing di Alibaba Group telah mengembangkan alat AI yang dikenal sebagai EMO: Emote Portrait Alive, yang menjadikan potret menjadi hidup.

Alat ini memungkinkan pengguna untuk menambahkan audio dan video ke gambar diam. Dengan menggunakan alat ini, seseorang dapat bermain-main dengan potret lama seperti La Gioconda karya Leonardo da Vinci, yang lebih dikenal sebagai Mona Lisa, membuatnya berbicara dan bernyanyi dengan pose kepala, gerakan, ekspresi wajah, dan sinkronisasi bibir yang akurat.

Alat pembuat video potret berbasis audio yang ekspresif

Dalam laporan mereka, โ€œEMO: Emote Portrait Alive: Menghasilkan Video Potret Ekspresif dengan Model Difusi Audio2Video dalam Kondisi Lemah,โ€  para peneliti memberikan wawasan tentang alat baru mereka, fungsinya, dan cara menggunakannya untuk hasil yang sempurna.

Dengan alat AI pembuat potret berbasis audio yang ekspresif, pengguna dapat membuat video avatar vokal dengan ekspresi wajah. Menurut para peneliti, alat ini memungkinkan mereka membuat video dengan durasi berapa pun โ€œtergantung pada panjang audio masukanโ€.

โ€œMasukkan gambar karakter tunggal dan audio vokal, seperti nyanyian, dan metode kami dapat menghasilkan video avatar vokal dengan ekspresi wajah ekspresif dan berbagai pose kepala,โ€ kata peneliti.

โ€œMetode kami mendukung lagu dalam berbagai bahasa dan menghidupkan beragam gaya potret. Ini secara intuitif mengenali variasi nada dalam audio, memungkinkan pembuatan avatar yang dinamis dan kaya ekspresi.โ€

Baca juga: OpenAI Mengklaim The New York Times โ€œMeretasโ€ ChatGPT Untuk Mengembangkan Kasus Hak Cipta

Berbicara, bernyanyi dari potret

Menurut para peneliti, alat bertenaga AI ini tidak hanya memproses musik tetapi juga mengakomodasi audio lisan dalam berbagai bahasa.

โ€œSelain itu, metode kami memiliki kemampuan untuk menganimasikan potret dari masa lalu, lukisan, dan model 3D serta konten yang dihasilkan AI, sehingga memberikan gerakan dan realisme yang nyata,โ€ kata para peneliti.

Tapi itu tidak berakhir di sana. Pengguna juga dapat bermain-main dengan potret dan gambar bintang film yang membawakan monolog atau pertunjukan dalam berbagai gaya dan bahasa.

Beberapa penggemar AI yang menggunakan platform X menggambarkannya sebagai โ€œmenakjubkan.โ€

Menipisnya batas antara nyata dan AI

Berita tentang alat EMO oleh Alibaba telah membuat pengguna lain berpikir bahwa batasan antara AI dan kenyataan akan segera hilang seiring dengan terus dikeluarkannya produk-produk baru oleh perusahaan-perusahaan teknologi.

โ€œPerbedaan antara AI dan dunia nyata kini semakin tipis,โ€ tulis Ruben pada X, sementara yang lain berpikir Tiktok akan segera dibanjiri dengan kreasi.

โ€œIni pertama kalinya saya melihat hasil yang begitu presisi dan realistis. Video AI tahun ini menjanjikan kredibilitas,โ€ kata Paul Terselubung.

Meskipun ada yang berpendapat bahwa hal ini dapat membawa perubahan besar bagi para kreatif, Min Choi juga berhati-hati mengenai hal ini.

โ€œMudah-mudahan hanya untuk hal-hal kreatif. Ini bisa berbahaya jika berada di tangan yang salah.โ€

Mona Lisa Kini Dapat Berbicara Berkat EMO

Menggunakan alat

Menjelaskan prosesnya, para peneliti menyoroti bahwa kerangka EMO memiliki dua tahap, yang pertama dikenal sebagai Frames Encoding, di mana ReferenNet digunakan untuk mengekstrak fitur dari gambar referensi dan bingkai gerak.

Tahap berikutnya adalah tahap Proses Difusi, di mana encoder audio yang telah dilatih sebelumnya โ€œmemproses penyematan audioโ€. Untuk menciptakan citra wajah yang sempurna, pengguna mengintegrasikan masker wilayah wajah dan noise multi-bingkai.

โ€œMekanisme ini penting untuk menjaga identitas karakter dan memodulasi pergerakan karakter,โ€ demikian bunyi sebagian penjelasannya.

โ€œSelain itu, Modul Temporal digunakan untuk memanipulasi dimensi temporal dan mengatur kecepatan gerak.โ€

Stempel Waktu:

Lebih dari Berita Meta