A Mona Lisa agora pode falar, graças ao EMO

Republicado por Platão

seguidores: 0

Pesquisadores do Instituto de Computação Inteligente do Grupo Alibaba desenvolveram uma ferramenta de IA conhecida como EMO: Emote Portrait Alive, que dá vida a retratos.

A ferramenta permite aos usuários adicionar áudio e vídeo a uma imagem estática. Usando a ferramenta, pode-se brincar com um retrato antigo como o famoso La Gioconda de Leonardo da Vinci, mais conhecido como Mona Lisa, fazendo-a falar e cantar com poses de cabeça, movimentos, expressões faciais e sincronização labial precisa.

Ferramenta expressiva de geração de retrato e vídeo baseada em áudio

Em seu relatório, “EMO: Emote Portrait Alive: Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions”, Os pesquisadores fornecem informações sobre sua nova ferramenta, suas funções e como usá-la para obter resultados perfeitos.

Com a expressiva ferramenta de IA para criação de retratos baseada em áudio, os usuários podem criar vídeos de avatar vocal com expressões faciais. Segundo os pesquisadores, a ferramenta permite criar vídeos de qualquer duração “dependendo da duração do áudio de entrada”.

“Insira uma imagem de um único personagem e um áudio vocal, como canto, e nosso método pode gerar vídeos de avatar vocal com expressões faciais expressivas e várias poses de cabeça”, disseram os pesquisadores.

“Nosso método suporta músicas em vários idiomas e dá vida a diversos estilos de retratos. Ele reconhece intuitivamente variações tonais no áudio, permitindo a geração de avatares dinâmicos e ricos em expressões.”

Veja também: OpenAI afirma que o New York Times “hackeou” o ChatGPT para desenvolver um caso de direitos autorais

Falando, cantando de um retrato

Segundo os pesquisadores, a ferramenta alimentada por IA não apenas processa música, mas também acomoda áudio falado em diferentes idiomas.

“Além disso, nosso método tem a capacidade de animar retratos de épocas passadas, pinturas e modelos 3D e conteúdo gerado por IA, infundindo-lhes movimento e realismo realistas”, disseram os pesquisadores.

Mas não termina aí. Os usuários também podem brincar com retratos e imagens de estrelas de cinema apresentando monólogos ou performances em vários estilos e linguagens.

Alguns entusiastas de IA que adotaram a plataforma X a descreveram como “alucinante”.

2. Mona Lisa falando de Shakespeare pic.twitter.com/26k29aAz1P

-Min Choi (@minchoi) 28 de fevereiro de 2024

Diminuindo a fronteira entre o real e a IA

Notícias da ferramenta EMO por Alibaba fez outros usuários pensarem que a fronteira entre a IA e a realidade está prestes a desaparecer à medida que as empresas de tecnologia continuam a lançar novos produtos.

“A fronteira entre a IA e o real é mais tênue do que nunca”, postou Ruben no X, enquanto outros pensam TikTok em breve será inundado com as criações.

“Esta é a primeira vez que vejo um resultado tão preciso e realista. Vídeo AI este ano promete ser credível”, disse Paulo Covert.

Embora outros pensem que isso pode mudar o jogo para os criativos, Min Choi também é cauteloso quanto a isso.

“Espero que apenas para coisas criativas. Isso pode ser perigoso nas mãos erradas.”

A Mona Lisa agora pode falar, graças ao EMO

Usando a ferramenta

Explicando o processo, os pesquisadores destacaram que o framework EMO possui duas etapas, sendo a primeira conhecida como Frames Encoding, onde o ReferenceNet é implantado para extrair recursos de imagens de referência e frames de movimento.

O próximo estágio é o processo de difusão, onde um codificador de áudio pré-treinado “processa a incorporação de áudio”. Para criar imagens faciais perfeitas, os usuários integram máscaras de região facial e ruído multiquadro.

“Esses mecanismos são essenciais para preservar a identidade do personagem e modular os movimentos do personagem, respectivamente”, diz parte da explicação.

“Além disso, Módulos Temporais são utilizados para manipular a dimensão temporal e ajustar a velocidade do movimento.”

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://metanews.com/the-mona-lisa-can-now-talk-thanks-to-emo/

Carimbo de hora: 1 de março de 2024

Carimbo de hora: 20 de abril, 2024

A Mona Lisa agora pode falar, graças ao EMO

Republicado por Platão

Ferramenta expressiva de geração de retrato e vídeo baseada em áudio

Falando, cantando de um retrato

Diminuindo a fronteira entre o real e a IA

Usando a ferramenta

Mais de MetaNotícias

Quênia cancela licença da Worldcoin, 301 mil dados de usuários em risco

E-books escritos por IA crescem na Amazon após o lançamento do ChatGPT

Casa Branca toma medidas para estudar os riscos da IA

Galactic Goats é um projeto NFT emergente

Silent Hill 2 Remake deve ser lançado em breve

Meta revela modelo de segmentação de imagem de IA, SAM

The Game of Life 2 será lançado em todas as plataformas

Lançamento de Voodolls está previsto para o ano que vem

Metaverse Token DeepBrain Chain aumentou 200% devido ao progresso da IA

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta