O novo ‘Voice Engine’ da OpenAI precisa de apenas 15 segundos para clonar a fala – Descriptografar

O novo ‘Voice Engine’ da OpenAI precisa de apenas 15 segundos para clonar a fala – Descriptografar

O novo 'mecanismo de voz' da OpenAI precisa de apenas 15 segundos para clonar a fala - descriptografar a inteligência de dados PlatoBlockchain. Pesquisa vertical. Ai.

OpenAI, a empresa de IA por trás da ferramenta dominante de IA generativa ChatGPT, revelou uma nova tecnologia de clonagem de voz chamada “Voice Engine”. Este modelo de áudio pode replicar a voz, a entonação e outros padrões de fala distintamente humanos de uma pessoa com base em uma amostra relativamente pequena de áudio original.

“É notável que um modelo pequeno com uma única amostra de 15 segundos pode criar vozes emotivas e realistas”, afirma a empresa em seu comunicado. Postagem de sexta-feira no blog.

Para efeito de comparação, plataforma de voz AI OnzeLabs apresenta uma ferramenta instantânea de clonagem de voz que requer amostras de pelo menos um minuto. Para obter melhores resultados, são necessários cerca de 10 minutos de fala contínua para o seu nível de serviço profissional.

A empresa mostrou diversos exemplos do que essa tecnologia é capaz de fazer. Num exemplo, a voz de uma jovem paciente que perdeu grande parte da capacidade de falar devido a um tumor cerebral vascular foi clonada usando uma gravação mais antiga que ela fez para um projeto escolar. Isso é como ela soa hoje, de acordo com OpenAI.

OpenAI trabalhou com Tempo de vida, uma organização sem fins lucrativos afiliada à faculdade de medicina da Brown University e criadora de uma ferramenta chamada Livox, um “aplicativo de comunicação alternativa” desenvolvido para pessoas com deficiência. A equipe conseguiu trabalhar com um gravação que a mulher fez para uma apresentação escolar:

O Open AI Voice Engine foi então capaz de fornecer capacidade instantânea de conversão de texto em fala que permitiria ao paciente efetivamente falar com sua própria voz:

OpenAI também mostrou como EiGen está usando sua tecnologia para gerar traduções de fala com som natural carregadas em um idioma específico em outro idioma.

A empresa afirma que o Voice Engine foi desenvolvido pela primeira vez no final de 2022 e já está sendo usado para alimentar as vozes predefinidas disponíveis na API de conversão de texto em fala da OpenAI, bem como o recurso Voice and Read Aloud do ChatGPT. Com os últimos avanços, a empresa diz que está sendo cautelosa antes de um lançamento mais amplo.

“Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades”, escreveu a OpenAI, reconhecendo a prática amplamente condenada de “deepfakes”. As vozes de celebridades, funcionários governamentais e cada vez mais cidadãos privados estão a ser personificadas para fins nefastos, desde campanhas politicas, anúncios falsos e sem rodeios Atividades criminosas. O presidente dos EUA, Joe Biden, foi empurrando para obter mais salvaguardas contra o uso malicioso de imitações de voz de IA.

Na verdade, a Meta revelou no verão passado que sua ferramenta de voz de IA estava sendo retida especificamente por causa do “riscos potenciais de uso indevido. "

“Em linha com a nossa abordagem à segurança da IA ​​e os nossos compromissos voluntários, optamos por pré-visualizar, mas não divulgar amplamente esta tecnologia neste momento”, explicou OpenAI.

Mesmo antes do lançamento público, a OpenAI está impondo restrições ao Voice Engine – incluindo uma lista de pessoas proeminentes que não irá imitar.

“Acreditamos que qualquer implantação ampla de tecnologia de voz sintética deve ser acompanhada por experiências de autenticação de voz que verifiquem se o locutor original está adicionando conscientemente sua voz ao serviço e uma lista de vozes proibidas que detecta e impede a criação de vozes que são muito semelhante a figuras proeminentes”, escreveu OpenAI.

Os parceiros que testam o Voice Engine hoje concordaram com as políticas de uso da OpenAI, que proíbem a representação de outro indivíduo ou organização sem consentimento. Além disso, a empresa exige consentimento explícito e informado do orador original e não permite que os desenvolvedores criem maneiras para que usuários individuais clonem suas próprias vozes.

“Com base nessas conversas e nos resultados desses testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implantar essa tecnologia em escala”, diz a postagem do blog.

Além do Voice Engine, a Open AI está trabalhando em vários projetos em paralelo. O CEO Sam Altman revelou que a empresa está trabalhando no lançamento do GPT-5 este ano. A empresa também exibiu sua ferramenta de vídeo generativo Sora. A empresa afirma que Sora será o gerador de vídeo mais avançado do mercado, superando modelos como Pika, Stable Video Diffusion e Runway ML.

Atualmente, Sora está disponível apenas para “red teamers” recrutados pela Open AI para garantir que não possa ser abusado.

O Voice Engine certamente poderia superar outras ferramentas de clonagem de voz, incluindo ofertas da Meta, ElevenLabs, WellSaid Labs e modelos de código aberto como RVC.

A Open AI também está trabalhando em um projeto secreto chamado Q* dos quais apenas seu nome vazou. Sam Altman se recusou a fornecer detalhes, mas disse que a equipe de pesquisa estava fortemente focada em encontrar técnicas e abordagens que melhorem o raciocínio da IA.

Editado por Ryan Ozawa.

Fique por dentro das notícias sobre criptomoedas, receba atualizações diárias em sua caixa de entrada.

Carimbo de hora:

Mais de Descifrar