El nuevo 'motor de voz' de OpenAI solo necesita 15 segundos para clonar la voz - Decrypt

El nuevo 'motor de voz' de OpenAI solo necesita 15 segundos para clonar la voz – Decrypt

El nuevo 'motor de voz' de OpenAI solo necesita 15 segundos para clonar la voz: descifrar PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

OpenAI, la empresa de inteligencia artificial detrás de la herramienta dominante de inteligencia artificial generativa ChatGPT, ha presentado una nueva tecnología de clonación de voz a la que llama "Voice Engine". Este modelo de audio puede replicar la voz, la entonación y otros patrones de habla claramente humanos de una persona basándose en una muestra relativamente pequeña de audio original.

"Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas", dice la compañía en su Entrada de blog del viernes.

A modo de comparación, plataforma de voz AI oncelabs cuenta con una herramienta de clonación de voz instantánea que requiere muestras de al menos un minuto. Para obtener mejores resultados, se necesitan casi 10 minutos de conversación continua para su nivel de servicio profesional.

La compañía mostró diferentes ejemplos de lo que es capaz de hacer esta tecnología. En un ejemplo, la voz de una paciente joven que perdió gran parte de su capacidad de hablar debido a un tumor cerebral vascular fue clonada utilizando una grabación anterior que hizo para un proyecto escolar. Esto es cómo suena hoy, según OpenAI.

OpenAI trabajó con Esperanza de vida, una organización sin fines de lucro afiliada a la facultad de medicina de la Universidad de Brown y los creadores de una herramienta llamada Livox, una “aplicación de comunicación alternativa” creada para personas con discapacidad. El equipo pudo trabajar con un grabación que hizo la mujer para una presentación escolar:

Luego, Open AI Voice Engine pudo proporcionar capacidad instantánea de conversión de texto a voz que permitiría al paciente hablar de manera efectiva. hablar con su propia voz:

OpenAI también mostró cómo holagen está utilizando su tecnología para generar traducciones con sonido natural de discursos cargados en un idioma específico en otro idioma.

La compañía dice que Voice Engine se desarrolló por primera vez a fines de 2022 y ya se está utilizando para potenciar las voces preestablecidas disponibles en la API de conversión de texto a voz de OpenAI, así como la función Voz y Lectura en voz alta de ChatGPT. Con los últimos avances, la compañía dice que está siendo cautelosa antes de un lanzamiento más amplio.

"Esperamos iniciar un diálogo sobre el despliegue responsable de voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades", escribió OpenAI, reconociendo la práctica ampliamente condenada de los "deepfakes". Las voces de celebridades, funcionarios gubernamentales y cada vez más ciudadanos privados están siendo suplantadas con fines nefastos, desde campañas políticas, anuncios falsos y rotundamente actividades criminales. El presidente estadounidense Joe Biden ha sido empujando para obtener más salvaguardias contra el uso malicioso de suplantaciones de voz por IA.

De hecho, Meta reveló el verano pasado que su herramienta de voz de IA estaba siendo retenida específicamente debido a "riesgos potenciales de mal uso."

"De acuerdo con nuestro enfoque sobre la seguridad de la IA y nuestros compromisos voluntarios, elegimos realizar una vista previa de esta tecnología, pero no lanzarla ampliamente en este momento", explicó OpenAI.

Incluso antes del lanzamiento público, OpenAI está imponiendo restricciones a Voice Engine, incluida una lista de personas destacadas que no emulará.

“Creemos que cualquier implementación amplia de tecnología de voz sintética debe ir acompañada de experiencias de autenticación de voz que verifiquen que el hablante original está agregando conscientemente su voz al servicio y una lista de voces prohibidas que detecte y evite la creación de voces demasiado similar a figuras prominentes”, escribió OpenAI.

Los socios que prueban Voice Engine hoy aceptaron las políticas de uso de OpenAI, que prohíben la suplantación de otro individuo u organización sin consentimiento. Además, la empresa requiere el consentimiento explícito e informado del hablante original y no permite que los desarrolladores creen formas para que usuarios individuales clonen sus propias voces.

"Con base en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a escala y cómo hacerlo", se lee en la publicación del blog.

Además de Voice Engine, Open AI está trabajando en varios proyectos en paralelo. El director ejecutivo Sam Altman reveló que la empresa está trabajando en el lanzamiento de GPT-5 este año. La compañía también mostró su herramienta de vídeo generativo. Sora. La compañía afirma que Sora será el generador de vídeo más avanzado del mercado, superando a modelos como Pika, Stable Video Diffusion y Runway ML.

Actualmente, Sora solo está disponible para los "equipos rojos" reclutados por Open AI para garantizar que no se pueda abusar de él.

Voice Engine ciertamente podría superar a otras herramientas de clonación de voz, incluidas las ofertas de Meta, ElevenLabs, WellSaid Labs y modelos de código abierto como RVC.

Open AI también está trabajando en un proyecto secreto llamado Q* del cual sólo se ha filtrado su nombre. Sam Altman se ha negado a dar detalles, pero dijo que el equipo de investigación estaba muy centrado en encontrar técnicas y enfoques que hagan que la IA razone mejor.

Editado por ryan ozawa.

Manténgase al tanto de las noticias criptográficas, obtenga actualizaciones diarias en su bandeja de entrada.

Sello de tiempo:

Mas de Descifrar