A Mona Lisa agora pode falar, graças ao EMO

A Mona Lisa agora pode falar, graças ao EMO

Pesquisadores do Instituto de Computação Inteligente do Grupo Alibaba desenvolveram uma ferramenta de IA conhecida como EMO: Emote Portrait Alive, que dá vida a retratos.

A ferramenta permite aos usuários adicionar áudio e vídeo a uma imagem estática. Usando a ferramenta, pode-se brincar com um retrato antigo como o famoso La Gioconda de Leonardo da Vinci, mais conhecido como Mona Lisa, fazendo-a falar e cantar com poses de cabeça, movimentos, expressões faciais e sincronização labial precisa.

Ferramenta expressiva de geração de retrato e vídeo baseada em áudio

Em seu relatório, “EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions”,  Os pesquisadores fornecem informações sobre sua nova ferramenta, suas funções e como usá-la para obter resultados perfeitos.

Com a expressiva ferramenta de IA para criação de retratos baseada em áudio, os usuários podem criar vídeos de avatar vocal com expressões faciais. Segundo os pesquisadores, a ferramenta permite criar vídeos de qualquer duração “dependendo da duração do áudio de entrada”.

“Insira uma imagem de um único personagem e um áudio vocal, como canto, e nosso método pode gerar vídeos de avatar vocal com expressões faciais expressivas e várias poses de cabeça”, disseram os pesquisadores.

“Nosso método suporta músicas em vários idiomas e dá vida a diversos estilos de retratos. Ele reconhece intuitivamente variações tonais no áudio, permitindo a geração de avatares dinâmicos e ricos em expressões.”

Veja também: OpenAI afirma que o New York Times “hackeou” o ChatGPT para desenvolver um caso de direitos autorais

Falando, cantando de um retrato

Segundo os pesquisadores, a ferramenta alimentada por IA não apenas processa música, mas também acomoda áudio falado em diferentes idiomas.

“Além disso, nosso método tem a capacidade de animar retratos de épocas passadas, pinturas e modelos 3D e conteúdo gerado por IA, infundindo-lhes movimento e realismo realistas”, disseram os pesquisadores.

Mas não termina aí. Os usuários também podem brincar com retratos e imagens de estrelas de cinema apresentando monólogos ou performances em vários estilos e linguagens.

Alguns entusiastas de IA que adotaram a plataforma X a descreveram como “alucinante”.

Diminuindo a fronteira entre o real e a IA

Notícias da ferramenta EMO por Alibaba fez outros usuários pensarem que a fronteira entre a IA e a realidade está prestes a desaparecer à medida que as empresas de tecnologia continuam a lançar novos produtos.

“A fronteira entre a IA e o real é mais tênue do que nunca”, postou Ruben no X, enquanto outros pensam TikTok em breve será inundado com as criações.

“Esta é a primeira vez que vejo um resultado tão preciso e realista. Vídeo AI este ano promete ser credível”, disse Paulo Covert.

Embora outros pensem que isso pode mudar o jogo para os criativos, Min Choi também é cauteloso quanto a isso.

“Espero que apenas para coisas criativas. Isso pode ser perigoso nas mãos erradas.”

A Mona Lisa agora pode falar, graças ao EMO

Usando a ferramenta

Explicando o processo, os pesquisadores destacaram que o framework EMO possui duas etapas, sendo a primeira conhecida como Frames Encoding, onde o ReferenceNet é implantado para extrair recursos de imagens de referência e frames de movimento.

O próximo estágio é o processo de difusão, onde um codificador de áudio pré-treinado “processa a incorporação de áudio”. Para criar imagens faciais perfeitas, os usuários integram máscaras de região facial e ruído multiquadro.

“Esses mecanismos são essenciais para preservar a identidade do personagem e modular os movimentos do personagem, respectivamente”, diz parte da explicação.

“Além disso, Módulos Temporais são utilizados para manipular a dimensão temporal e ajustar a velocidade do movimento.”

Carimbo de hora:

Mais de MetaNotícias