A IA está sendo usada para gerar tudo, desde imagens para texto para proteínas artificiais, e agora outra coisa foi adicionada à lista: a fala. Na semana passada, pesquisadores da A Microsoft lançou um documento em um novo AI chamado VALL-E que pode simular com precisão a voz de qualquer pessoa com base em uma amostra de apenas três segundos de duração. O VALL-E não é o primeiro simulador de fala a ser criado, mas é construído de maneira diferente de seus predecessores - e pode apresentar um risco maior de uso indevido.
A maioria dos modelos existentes de conversão de texto em fala usa formas de onda (representações gráficas de ondas sonoras à medida que se movem por um meio ao longo do tempo) para criar vozes falsas, ajustando características como tom ou tom para se aproximar de uma determinada voz. O VALL-E, no entanto, pega uma amostra da voz de alguém e a divide em componentes chamados tokens, então usa esses tokens para criar novos sons com base nas “regras” que já aprendeu sobre essa voz. Se uma voz é particularmente profunda, ou um falante pronuncia seus A's de maneira nasal, ou são mais monótonos do que a média, todas essas são características que a IA captaria e seria capaz de replicar.
O modelo é baseado em uma tecnologia chamada EnCodec por Meta, que acabou de ser lançado em outubro. A ferramenta usa um sistema de três partes para compactar o áudio para 10 vezes menor que o MP3 sem perda de qualidade; seus criadores pretendiam que um de seus usos fosse melhorar a qualidade da voz e da música em chamadas feitas em conexões de baixa largura de banda.
Para treinar o VALL-E, seus criadores usaram uma biblioteca de áudio chamada LibriLightName, cujas 60,000 horas de fala em inglês são compostas principalmente por narração de audiolivros. O modelo produz seus melhores resultados quando a voz que está sendo sintetizada é semelhante a uma das vozes da biblioteca de treinamento (das quais existem mais de 7,000, portanto, não deve ser um pedido muito alto).
Além de recriar a voz de alguém, o VALL-E também simula o ambiente de áudio da amostra de três segundos. Um clipe gravado pelo telefone soaria diferente de um feito pessoalmente e, se você estiver caminhando ou dirigindo enquanto fala, a acústica exclusiva desses cenários é levada em consideração.
Alguns dos amostras soam bastante realistas, enquanto outros ainda são obviamente gerados por computador. Mas há diferenças perceptíveis entre as vozes; você pode dizer que eles são baseados em pessoas que têm diferentes estilos de fala, tons e padrões de entonação.
A equipe que criou o VALL-E sabe que ele pode ser facilmente usado por pessoas mal-intencionadas; desde a falsificação de frases de efeito de políticos ou celebridades até o uso de vozes familiares para solicitar dinheiro ou informações por telefone, existem inúmeras maneiras de tirar proveito da tecnologia. Eles sabiamente se abstiveram de tornar o código do VALL-E publicamente disponível e incluíram uma declaração de ética no final de seu artigo (o que não fará muito para impedir qualquer um que queira usar a IA para fins nefastos).
É provável que seja apenas uma questão de tempo até que ferramentas semelhantes surjam e caiam em mãos erradas. Os pesquisadores sugerem que os riscos que modelos como o VALL-E apresentarão podem ser mitigados com a construção de modelos de detecção para avaliar se os clipes de áudio são reais ou sintetizados. Se precisamos de IA para nos proteger da IA, como saber se essas tecnologias estão tendo um impacto líquido positivo? O tempo vai dizer.
Crédito de imagem: Shutterstock.com/tancha
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Fonte: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Capaz
- Sobre
- Conta
- exatamente
- adicionado
- Vantagem
- AI
- Todos os Produtos
- já
- e
- Outro
- qualquer um
- auditivo
- disponível
- média
- Mau
- baseado
- antes
- ser
- MELHOR
- entre
- quebra
- Prédio
- construído
- chamado
- chamadas
- transportar
- celebridades
- características
- clipes
- código
- componentes
- gerado por computador
- Coneções
- poderia
- crio
- criado
- criadores
- crédito
- profundo
- Detecção
- diferenças
- diferente
- down
- condução
- facilmente
- Inglês
- Meio Ambiente
- ética
- tudo
- existente
- bastante
- falsificação
- Cair
- familiar
- Primeiro nome
- da
- gerar
- GitHub
- dado
- maior
- mãos
- ter
- HORÁRIO
- Como funciona o dobrador de carta de canal
- HTTPS
- Impacto
- melhorar
- in
- incluído
- INFORMAÇÕES
- IT
- Saber
- Sobrenome
- aprendido
- Biblioteca
- Provável
- Lista
- longo
- fora
- moldadas
- Fazendo
- Importância
- média
- modelo
- modelos
- dinheiro
- mais
- mover
- Música
- você merece...
- líquido
- Novo
- Outubro
- ONE
- ordem
- Outros
- Papel
- parte
- particularmente
- padrões
- Pessoas
- pessoa
- telefone
- escolher
- Passo
- arremessos
- platão
- Inteligência de Dados Platão
- PlatãoData
- Políticos
- positivo
- potencial
- presente
- principalmente
- proteger
- publicamente
- fins
- qualidade
- reais
- realista
- gravado
- liberado
- solicitar
- pesquisadores
- Resultados
- Risco
- riscos
- cenários
- segundo
- Shutterstock
- semelhante
- simulador
- menor
- So
- Parecer
- Palestrantes
- falando
- discurso
- primavera
- Declaração
- Ainda
- .
- Tire
- toma
- falando
- Profissionais
- Tecnologias
- Equipar
- Texto a Voz
- A
- deles
- coisa
- três
- Através da
- tempo
- vezes
- para
- Tokens
- TOM
- também
- ferramenta
- ferramentas
- Trem
- Training
- tweaking
- único
- us
- usar
- voz
- VOZES
- caminhada
- ondas
- maneiras
- semana
- se
- qual
- enquanto
- QUEM
- precisarão
- seria
- Errado
- mãos erradas
- rendimentos
- Vocês
- investimentos
- zefirnet