Cree audio para contenido en varios idiomas con la misma persona de voz TTS en Amazon Polly

Reeditado por Platón

seguidores: 0

Amazon Polly es un servicio líder basado en la nube que convierte texto en voz realista. Tras la adopción de Neural Text-to-Speech (NTTS), hemos ampliado continuamente nuestra cartera de voces disponibles para ofrecer una amplia selección de hablantes distintos en los idiomas admitidos. Hoy, nos complace anunciar cuatro nuevas incorporaciones: Pedro habla español estadounidense, Daniel habla alemán, Liam habla francés canadiense y Arthur habla inglés británico. Al igual que con todas las voces neuronales de nuestra cartera, estas voces ofrecen una pronunciación nativa y fluida en sus idiomas de destino. Sin embargo, lo que es único acerca de estas cuatro voces es que todas se basan en la misma personalidad de voz.

Pedro, Daniel, Liam y Arthur se inspiraron en una voz existente de Matthew en inglés estadounidense. Si bien los clientes siguen apreciando a Matthew por su naturalidad y su calidad de sonido profesional, hasta ahora la voz se ha dirigido exclusivamente al tráfico de habla inglesa. Ahora, utilizando métodos de aprendizaje profundo, desvinculamos el idioma y la identidad del hablante, lo que nos permitió preservar una fluidez similar a la de los nativos en muchos idiomas sin tener que obtener datos multilingües del mismo hablante. En la práctica, esto significa que transferimos las características vocales de la voz de Matthew en inglés de EE. UU. a español de EE. UU., alemán, francés canadiense e inglés británico, abriendo nuevas oportunidades para los clientes de Amazon Polly.

Tener una voz con un sonido similar disponible en cinco lugares abre un gran potencial para el crecimiento del negocio. En primer lugar, los clientes con presencia global pueden crear una experiencia de usuario uniforme en todos los idiomas y regiones. Por ejemplo, un sistema de respuesta de voz interactiva (IVR) que admite varios idiomas ahora puede servir a diferentes segmentos de clientes sin cambiar la sensación de la marca. Lo mismo ocurre con todos los demás casos de uso de TTS, como expresar artículos de noticias, materiales educativos o podcasts.

En segundo lugar, las voces se adaptan bien a los clientes de Amazon Polly que buscan una pronunciación nativa de frases extranjeras en cualquiera de los cinco idiomas admitidos.

En tercer lugar, el lanzamiento de Pedro, Daniel, Liam y Arthur sirve a nuestros clientes a quienes les gusta Amazon Polly NTTS en español de EE. UU., alemán, francés canadiense e inglés británico, pero buscan una voz masculina de alta calidad; pueden usar estas voces para crear audio. para contenido monolingüe y espera una calidad superior que esté a la par con otras voces NTTS en estos idiomas.

Por último, la tecnología que hemos desarrollado para crear las nuevas voces masculinas NTTS también se puede utilizar para Voces de marca. Gracias a esto, los clientes de Brand Voice no solo pueden disfrutar de una voz NTTS única que se adapta a su marca, sino también mantener una experiencia consistente mientras atienden a una audiencia internacional.

Caso de uso de ejemplo

Exploremos un caso de uso de ejemplo para demostrar lo que esto significa en la práctica. Los clientes de Amazon Polly familiarizados con Matthew aún pueden usar esta voz de la forma habitual eligiendo Mateo en la consola de Amazon Polly e ingresando cualquier texto que deseen escuchar hablado en inglés estadounidense. En el siguiente escenario, generamos muestras de audio para un sistema IVR ("Para inglés, presione uno"):

Gracias a esta versión, ahora puede expandir el caso de uso para brindar una experiencia de audio consistente en diferentes idiomas. Todas las voces nuevas tienen un sonido natural y mantienen un acento nativo.

Para generar voz en inglés británico, elija Arthur ("Para inglés, presione uno"):
Para usar un hablante de español de EE. UU., elija Pedro ("Para español, por favor marque dos"):
Daniel ofrece apoyo en alemán ("Für Deutsch drücken Sie bitte die Drei"):
Puede sintetizar texto en francés canadiense eligiendo Liam ("Pour le français, veuillez appuyer sur le quatre"):

Tenga en cuenta que además de hablar con un acento diferente, la voz de Arthur en inglés del Reino Unido localizará el texto de entrada de manera diferente a la voz de Matthew en inglés de EE. UU. Por ejemplo, Arthur leerá "1/2/22" como "el 1 de febrero de 2022", mientras que Matthew lo leerá como "2 de enero de 2022".

Ahora combinemos estas indicaciones:

Conclusión

Pedro, Daniel, Liam y Arthur están disponibles solo como voces Neural TTS, por lo que para poder disfrutarlas, debe usar el motor Neural en uno de los Regiones de AWS que admiten NTTS. Estos son de alta calidad voces monolingües en sus idiomas de destino. El hecho de que sus personas sean consistentes en todos los idiomas es un beneficio adicional, que esperamos deleite a los clientes que trabajan con contenido en varios idiomas. Para más detalles, revise nuestra lista completa de Amazon Polly voces de texto a voz , Precios de TTS neuronal, límites de servicioy Preguntas Frecuentesy visita nuestro página de precios.

Acerca de los autores

Patrik Wainaina es un ingeniero de idiomas que trabaja en texto a voz para inglés, alemán y español. Con experiencia en el procesamiento del habla y el lenguaje, sus intereses radican en el aprendizaje automático aplicado a las soluciones front-end de TTS, particularmente en entornos de bajos recursos. En su tiempo libre disfruta escuchando música electrónica y aprendiendo nuevos idiomas.

Marta Smolarek es gerente sénior de programas en el equipo de Amazon Text-to-Speech, donde se enfoca en el caso de uso de Contact Center TTS. Ella define las iniciativas de comercialización, utiliza los comentarios de los clientes para crear la hoja de ruta del producto y coordina los lanzamientos de voz de TTS. Fuera del trabajo, le encanta ir de campamento con su familia.

Sello de tiempo: Sábado, Junio 28, 2022

Cómo Amazon Shopping utiliza la moderación de contenido de Amazon Rekognition para revisar imágenes dañinas en reseñas de productos | Servicios web de Amazon

Clúster de origen:

Aprendizaje automático de AWS

Nodo de origen: 1875891

Sello de tiempo: 15 de Agosto, 2023

Cree audio para contenido en varios idiomas con la misma persona de voz TTS en Amazon Polly

Reeditado por Platón

Caso de uso de ejemplo

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Cómo Amp en Amazon usó datos para aumentar la participación del cliente, Parte 1: Creación de una plataforma de análisis de datos

Genere audio y subtítulos ocultos sincronizados con el generador de subtítulos de Amazon Polly

Identifique los bosques de manglares mediante funciones de imágenes satelitales con Amazon SageMaker Studio y Amazon SageMaker Autopilot: parte 1

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta