A nova IA da Microsoft pode clonar sua voz em apenas 3 segundos

Republicado por Platão

seguidores: 0

A nova IA da Microsoft pode clonar sua voz em apenas 3 segundos PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A IA está sendo usada para gerar tudo, desde imagens para texto para proteínas artificiais, e agora outra coisa foi adicionada à lista: a fala. Na semana passada, pesquisadores da A Microsoft lançou um documento em um novo AI chamado VALL-E que pode simular com precisão a voz de qualquer pessoa com base em uma amostra de apenas três segundos de duração. O VALL-E não é o primeiro simulador de fala a ser criado, mas é construído de maneira diferente de seus predecessores - e pode apresentar um risco maior de uso indevido.

A maioria dos modelos existentes de conversão de texto em fala usa formas de onda (representações gráficas de ondas sonoras à medida que se movem por um meio ao longo do tempo) para criar vozes falsas, ajustando características como tom ou tom para se aproximar de uma determinada voz. O VALL-E, no entanto, pega uma amostra da voz de alguém e a divide em componentes chamados tokens, então usa esses tokens para criar novos sons com base nas “regras” que já aprendeu sobre essa voz. Se uma voz é particularmente profunda, ou um falante pronuncia seus A's de maneira nasal, ou são mais monótonos do que a média, todas essas são características que a IA captaria e seria capaz de replicar.

O modelo é baseado em uma tecnologia chamada EnCodec por Meta, que acabou de ser lançado em outubro. A ferramenta usa um sistema de três partes para compactar o áudio para 10 vezes menor que o MP3 sem perda de qualidade; seus criadores pretendiam que um de seus usos fosse melhorar a qualidade da voz e da música em chamadas feitas em conexões de baixa largura de banda.

Para treinar o VALL-E, seus criadores usaram uma biblioteca de áudio chamada LibriLightName, cujas 60,000 horas de fala em inglês são compostas principalmente por narração de audiolivros. O modelo produz seus melhores resultados quando a voz que está sendo sintetizada é semelhante a uma das vozes da biblioteca de treinamento (das quais existem mais de 7,000, portanto, não deve ser um pedido muito alto).

Além de recriar a voz de alguém, o VALL-E também simula o ambiente de áudio da amostra de três segundos. Um clipe gravado pelo telefone soaria diferente de um feito pessoalmente e, se você estiver caminhando ou dirigindo enquanto fala, a acústica exclusiva desses cenários é levada em consideração.

Alguns dos amostras soam bastante realistas, enquanto outros ainda são obviamente gerados por computador. Mas há diferenças perceptíveis entre as vozes; você pode dizer que eles são baseados em pessoas que têm diferentes estilos de fala, tons e padrões de entonação.

A equipe que criou o VALL-E sabe que ele pode ser facilmente usado por pessoas mal-intencionadas; desde a falsificação de frases de efeito de políticos ou celebridades até o uso de vozes familiares para solicitar dinheiro ou informações por telefone, existem inúmeras maneiras de tirar proveito da tecnologia. Eles sabiamente se abstiveram de tornar o código do VALL-E publicamente disponível e incluíram uma declaração de ética no final de seu artigo (o que não fará muito para impedir qualquer um que queira usar a IA para fins nefastos).

É provável que seja apenas uma questão de tempo até que ferramentas semelhantes surjam e caiam em mãos erradas. Os pesquisadores sugerem que os riscos que modelos como o VALL-E apresentarão podem ser mitigados com a construção de modelos de detecção para avaliar se os clipes de áudio são reais ou sintetizados. Se precisamos de IA para nos proteger da IA, como saber se essas tecnologias estão tendo um impacto líquido positivo? O tempo vai dizer.

Crédito de imagem: Shutterstock.com/tancha

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

Carimbo de hora: 12 de janeiro de 2023

Carimbo de hora: 17 fevereiro de 2024

Nova IA da Microsoft pode clonar sua voz em apenas 3 segundos

Republicado por Platão

Mais de Singularity Hub

Medir o hélio em galáxias distantes pode dar aos físicos uma visão sobre por que o universo existe

Os blocos de construção da vida podem ter se formado no spray do mar primordial

Conflito na Ucrânia está deixando o mundo em uma corrida de energia renovável, diz relatório da IEA

A edição genética CRISPR teve um ano inovador – e está apenas começando

Como estudar a senciência animal pode ajudar a resolver o quebra-cabeça ético da IA senciente

Atirar poeira lunar no espaço como um 'protetor solar' para a Terra pode ajudar a parar a mudança climática

Os carros sem motorista da Waymo estão chegando às rodovias sem motoristas de segurança no Arizona

Esta IA pode projetar proteínas complexas perfeitamente adaptadas às nossas necessidades

Esta startup apoiada por Gates constrói casas modulares com painéis energeticamente eficientes

A nova IA da NVIDIA transforma fotos em cenas 3D completas em meros segundos

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta