A ciência por trás de como a IA da Microsoft pode imitar a voz de qualquer pessoa em 3 segundos

A ciência por trás de como a IA da Microsoft pode imitar a voz de qualquer pessoa em 3 segundos

A ciência por trás de como a IA da Microsoft pode imitar a voz de qualquer pessoa em 3 segundos PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Você pode entender como os programas de inteligência artificial (IA) estão ficando poderosos. Eles estão imitando as artes dos grandes nomes e escrevendo roteiros para líderes globais, causando conversas globais em torno da rápida expansão das ferramentas de IA.

Mais recentemente, a Microsoft desenvolveu uma IA para imitação de voz. Sua eficiência e precisão são inovadoras, mas os usuários questionam sua finalidade e utilização. Como essa ferramenta funciona e como ela replica vozes em tão pouco tempo?

Conheça VALL-E

VALL-E é a IA aprendendo a replicar vozes em três segundos. O VALL-E é um dos primeiros a ser tão rápido de treinar, já que as iterações anteriores de programas de conversão de texto em fala (TTS) lutavam com a eficiência e as nuances dos sons. 

“No entanto, VALL-E melhora a pesquisa para este estudo em todos os aspectos, reduzindo o tempo de treinamento e aumentando a precisão de qualidades de voz complexas, como tom e ritmo.” 

Um dos objetivos do VALL-E era replicar detalhes que programas TTS anteriores não podiam, e os testes mostram resultados mistos para o modelo atual. Para autenticidade, um programa como esse não pode apenas copiar a voz da pessoa - ele deve replicar a qualidade de áudio do dispositivo de gravação e as influências ambientais de fundo, como estática ou ruído. Embora os pesquisadores continuem impressionados com suas qualidades replicativas, a Microsoft busca melhorias adicionais no aprimoramento do timbre e inflexões informadas pela emoção.

Como o VALL-E ainda não está disponível publicamente, não se sabe ao certo como ele funcionará em escalas maiores. A Microsoft está demorando, refinando-o antes do lançamento público para garantir o uso adequado. 

Como o VALL-E opera com amostragem mínima de voz, é incerto o quão bem ele irá gerar clipes de áudio mais longos com coesão. Os conjuntos de dados de IA e aprendizado de máquina têm quase incontáveis ​​pontos de dados para consideração. É um salto para o futuro da IA ​​se a Microsoft aperfeiçoar a replicação de voz com um quadro de referência tão pequeno. 

Conheça a ciência

O VALL-E é bem-sucedido em seu propósito porque combina bem com a tecnologia existente. Por exemplo, GPT-3 ainda usa modelos de processamento de linguagem para aperfeiçoar suas habilidades de geração TTS para produção clara e edição precisa. No entanto, outros modelos manipulam seus conjuntos de dados para criar novos conteúdos. VALL-E faz conteúdo original.

Em colaboração com a Meta, a Microsoft usa EnCodec e LibriLight para informar VALL-E. O EnCodec é uma rede neural de compressão de áudio capaz de discernir até mesmo as menores alterações no áudio. LibriLight é uma biblioteca de áudio contendo mais de 60,000 horas de arquivos em inglês de várias vozes. 

“Com esses poderes, o VALL-E pode pegar o clipe de áudio de três segundos, transformá-lo em um token que o EnCodec possa analisar e referenciá-lo aos dados da biblioteca para produzir replicações vocais com som genuíno. Como o EnCodec gera arquivos em taxas de bits baixas, a geração é mais rápida do que outros modelos desse tipo.” 

Uma sequência como essa gerará clipes de áudio com som mais natural, competentes para enganar até mesmo o ouvido mais treinado ou a tecnologia de reconhecimento de voz.

O potencial para que isso ajude as indústrias é inquantificável. Poderia aumentar a eficiência e a produtividade enquanto aliviava o estresse em todos os setores, não apenas nas comunicações. No entanto, tem uma chance igual de exacerbar atividade criminosa no espaço digital, além de outras consequências.

Participar da conversa

Como acontece com a maioria dos avanços da IA, as preocupações éticas se apresentam. Como em qualquer geração de texto, a IA funciona a partir de dados - portanto, o plágio sempre será considerado. No entanto, VALL-E referencia fontes livres de direitos autorais, portanto, essa ainda não é uma preocupação principal.

No entanto, a Microsoft também deve ter cuidado com o público que usa tecnologia como essa para fins hostis, como espalhar notícias falsas ou confundir investigações com falsos testemunhos - possivelmente de testemunhas que não estão mais vivas. Indústrias específicas, como a lei, terão que inventar novas políticas e estruturas em como encontrar deepfakes no tribunal.

“Como acontece com qualquer avanço tecnológico, o uso indevido não é apenas provável – é inevitável.” 

Além da ameaça de propriedade criativa ou roubo de identidade, a IA geradora de voz proficiente pode ameaçar os meios de subsistência de algumas profissões ou remover o conhecimento artístico e profissional de setores que antes dependiam de anos dedicados a um ofício.

Atores de voz, redatores de discursos e representantes de atendimento ao cliente podem se tornar obsoletos com a imitação de voz da IA. A possibilidade disso é desconhecida e provavelmente não é possível de forma rápida e abrangente. O resultado concebível é que a imitação de voz complementará essas indústrias em vez de substituí-las. A geração de voz AI pode ajudar na geração de ideias ou atuar como outro trabalhador para delegar tarefas, descarregando de trabalhadores humanos.

Entrando em termos de fala com IA de replicação de voz

Apesar das preocupações éticas com a IA de replicação de voz, a Microsoft está inovando com uma ferramenta progressiva e cheia de recursos para a nova geração – dependendo de como o público a usa. A ciência por trás dessa ferramenta é o aspecto mais revolucionário e pode informar engenheiros e desenvolvedores sobre como expandir e transformar a IA para aplicações futuras em todos os setores. 

A tecnologia implementada com o VALL-E pode se traduzir em mudanças de mentalidade para o setor. A natureza colaborativa deste projeto levará a interatividade e o desenvolvimento da IA ​​a uma nova era de precisão e eficiência.

Leia também Lalal.AI para divisão de áudio de alta qualidade 

Carimbo de hora:

Mais de Tecnologia AIOT