La Joconde peut désormais parler grâce à EMO

La Joconde peut désormais parler grâce à EMO

Des chercheurs de l’Institute for Intelligent Computing du groupe Alibaba ont développé un outil d’IA connu sous le nom d’EMO : Emote Portrait Alive, qui donne vie aux portraits.

L'outil permet aux utilisateurs d'ajouter de l'audio et de la vidéo à une image fixe. À l'aide de l'outil, on peut jouer avec un vieux portrait comme La Gioconda de Léonard de Vinci, mieux connu sous le nom de Mona Lisa, en la faisant parler et chanter avec des poses de tête, des mouvements, des expressions faciales et une synchronisation labiale précise.

Outil de génération de portraits et de vidéos expressif piloté par l'audio

Dans leur rapport, « EMO : Emote Portrait Alive : Générer des vidéos de portrait expressives avec un modèle de diffusion Audio2Video dans des conditions faibles »  les chercheurs donnent un aperçu de leur nouvel outil, de ses fonctions et de la manière de l'utiliser pour des résultats parfaits.

Grâce à l'outil d'IA de création de portraits audio expressif, les utilisateurs peuvent créer des vidéos d'avatar vocal avec des expressions faciales. Selon les chercheurs, l’outil leur permet de créer des vidéos de n’importe quelle durée « en fonction de la longueur de l’audio d’entrée ».

"Introduisez une image de personnage unique et un son vocal, tel qu'un chant, et notre méthode peut générer des vidéos d'avatar vocal avec des expressions faciales expressives et diverses poses de tête", ont déclaré les chercheurs.

« Notre méthode prend en charge les chansons dans différentes langues et donne vie à divers styles de portraits. Il reconnaît intuitivement les variations tonales de l’audio, permettant ainsi de générer des avatars dynamiques et riches en expressions.

A lire également: OpenAI affirme que le New York Times a « piraté » ChatGPT pour développer une affaire de droit d'auteur

Parler, chanter à partir d'un portrait

Selon les chercheurs, l’outil basé sur l’IA ne traite pas seulement la musique, mais prend également en charge l’audio parlé dans différentes langues.

"De plus, notre méthode a la capacité d'animer des portraits d'époques révolues, des peintures, ainsi que des modèles 3D et du contenu généré par l'IA, en leur insufflant un mouvement et un réalisme réalistes", ont déclaré les chercheurs.

Mais cela ne s’arrête pas là. Les utilisateurs peuvent également jouer avec des portraits et des images de stars de cinéma livrant des monologues ou des performances dans différents styles et langues.

Certains passionnés d’IA qui ont adopté la plate-forme X l’ont décrite comme « époustouflante ».

La frontière entre le réel et l’IA s’amincit

Actualités de l'outil EMO par Alibaba a fait croire à d’autres utilisateurs que la frontière entre l’IA et la réalité est sur le point de disparaître à mesure que les entreprises technologiques continuent de lancer de nouveaux produits.

« La frontière entre l’IA et le réel est plus mince que jamais. » a posté Ruben sur X, tandis que d'autres pensent TikTok sera bientôt inondé de créations.

« C'est la première fois que je vois un résultat aussi précis et réaliste. vidéo sur l'IA cette année s’annonce crédible », a déclaré Paul Covert.

Alors que d’autres pensent que cela pourrait changer la donne pour les créatifs, Min Choi se montre également prudent à ce sujet.

«J'espère juste pour des choses créatives. Cela pourrait être dangereux entre de mauvaises mains.

La Joconde peut désormais parler grâce à EMO

Utilisation de l'outil

Expliquant le processus, les chercheurs ont souligné que le cadre EMO comporte deux étapes, la première étant connue sous le nom de Frames Encoding, où ReferenceNet est déployé pour extraire des caractéristiques d'images de référence et d'images animées.

L'étape suivante est l'étape du processus de diffusion, où un encodeur audio pré-entraîné « traite l'intégration audio ». Pour créer une imagerie faciale parfaite, les utilisateurs intègrent des masques de région faciale et du bruit multi-images.

"Ces mécanismes sont essentiels pour préserver l'identité du personnage et moduler ses mouvements, respectivement", lit-on dans l'explication.

"De plus, les modules temporels sont utilisés pour manipuler la dimension temporelle et ajuster la vitesse de mouvement."

Horodatage:

Plus de MétaActualités