La Joconde peut désormais parler grâce à EMO

Republié par Platon

Suiveurs: 0

Des chercheurs de l’Institute for Intelligent Computing du groupe Alibaba ont développé un outil d’IA connu sous le nom d’EMO : Emote Portrait Alive, qui donne vie aux portraits.

L'outil permet aux utilisateurs d'ajouter de l'audio et de la vidéo à une image fixe. À l'aide de l'outil, on peut jouer avec un vieux portrait comme La Gioconda de Léonard de Vinci, mieux connu sous le nom de Mona Lisa, en la faisant parler et chanter avec des poses de tête, des mouvements, des expressions faciales et une synchronisation labiale précise.

Outil de génération de portraits et de vidéos expressif piloté par l'audio

Dans leur rapport, « EMO : Emote Portrait Alive : Générer des vidéos de portrait expressives avec un modèle de diffusion Audio2Video dans des conditions faibles » les chercheurs donnent un aperçu de leur nouvel outil, de ses fonctions et de la manière de l'utiliser pour des résultats parfaits.

Grâce à l'outil d'IA de création de portraits audio expressif, les utilisateurs peuvent créer des vidéos d'avatar vocal avec des expressions faciales. Selon les chercheurs, l’outil leur permet de créer des vidéos de n’importe quelle durée « en fonction de la longueur de l’audio d’entrée ».

"Introduisez une image de personnage unique et un son vocal, tel qu'un chant, et notre méthode peut générer des vidéos d'avatar vocal avec des expressions faciales expressives et diverses poses de tête", ont déclaré les chercheurs.

« Notre méthode prend en charge les chansons dans différentes langues et donne vie à divers styles de portraits. Il reconnaît intuitivement les variations tonales de l’audio, permettant ainsi de générer des avatars dynamiques et riches en expressions.

A lire également: OpenAI affirme que le New York Times a « piraté » ChatGPT pour développer une affaire de droit d'auteur

Parler, chanter à partir d'un portrait

Selon les chercheurs, l’outil basé sur l’IA ne traite pas seulement la musique, mais prend également en charge l’audio parlé dans différentes langues.

"De plus, notre méthode a la capacité d'animer des portraits d'époques révolues, des peintures, ainsi que des modèles 3D et du contenu généré par l'IA, en leur insufflant un mouvement et un réalisme réalistes", ont déclaré les chercheurs.

Mais cela ne s’arrête pas là. Les utilisateurs peuvent également jouer avec des portraits et des images de stars de cinéma livrant des monologues ou des performances dans différents styles et langues.

Certains passionnés d’IA qui ont adopté la plate-forme X l’ont décrite comme « époustouflante ».

2. Mona Lisa parlant de Shakespeare pic.twitter.com/26k29aAz1P

– Min Choi (@minchoi) 28 février 2024

La frontière entre le réel et l’IA s’amincit

Actualités de l'outil EMO par Alibaba a fait croire à d’autres utilisateurs que la frontière entre l’IA et la réalité est sur le point de disparaître à mesure que les entreprises technologiques continuent de lancer de nouveaux produits.

« La frontière entre l’IA et le réel est plus mince que jamais. » a posté Ruben sur X, tandis que d'autres pensent TikTok sera bientôt inondé de créations.

« C'est la première fois que je vois un résultat aussi précis et réaliste. vidéo sur l'IA cette année s’annonce crédible », a déclaré Paul Covert.

Alors que d’autres pensent que cela pourrait changer la donne pour les créatifs, Min Choi se montre également prudent à ce sujet.

«J'espère juste pour des choses créatives. Cela pourrait être dangereux entre de mauvaises mains.

La Joconde peut désormais parler grâce à EMO

Utilisation de l'outil

Expliquant le processus, les chercheurs ont souligné que le cadre EMO comporte deux étapes, la première étant connue sous le nom de Frames Encoding, où ReferenceNet est déployé pour extraire des caractéristiques d'images de référence et d'images animées.

L'étape suivante est l'étape du processus de diffusion, où un encodeur audio pré-entraîné « traite l'intégration audio ». Pour créer une imagerie faciale parfaite, les utilisateurs intègrent des masques de région faciale et du bruit multi-images.

"Ces mécanismes sont essentiels pour préserver l'identité du personnage et moduler ses mouvements, respectivement", lit-on dans l'explication.

"De plus, les modules temporels sont utilisés pour manipuler la dimension temporelle et ajuster la vitesse de mouvement."

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/

Horodatage: 1 mars 2024

Horodatage: 20 avril 2024

La Joconde peut désormais parler grâce à EMO

Republié par Platon

Outil de génération de portraits et de vidéos expressif piloté par l'audio

Parler, chanter à partir d'un portrait

La frontière entre le réel et l’IA s’amincit

Utilisation de l'outil

Plus de MétaActualités

Le Kenya annule la licence de Worldcoin et 301 XNUMX données utilisateur sont menacées

Boom des livres électroniques écrits par l'IA sur Amazon après le lancement de ChatGPT

La Maison Blanche prend des mesures pour étudier les risques liés à l'IA

Galactic Goats est un projet NFT émergent

Silent Hill 2 Remake devrait bientôt sortir

Meta dévoile le modèle de segmentation d'images AI, SAM

The Game of Life 2 à lancer sur toutes les plateformes

Le lancement de Voodolls est prévu pour l'année prochaine

Metaverse Token DeepBrain Chain Up 200% en raison des progrès de l'IA

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte