Amazon Polly da vida al texto al convertirlo en un discurso realista. Esto permite a los desarrolladores y empresas crear aplicaciones que pueden conversar en tiempo real, ofreciendo así una experiencia interactiva mejorada. Texto a voz (TTS) en Amazon Polly admite una variedad de idiomas y locales, lo que le permite realizar la conversión TTS de acuerdo con sus preferencias. Múltiples factores guían esta elección, como la ubicación geográfica y el idioma local.
Amazon Polly utiliza tecnologías avanzadas de aprendizaje profundo para sintetizar texto a voz en tiempo real en varios formatos de salida, como MP3, ogg vorbis, JSON o PCM, en formatos estándar y neural motores El lenguaje de marcado de síntesis de voz (SSML) La compatibilidad con Amazon Polly refuerza aún más la capacidad del servicio para personalizar el habla con una gran cantidad de opciones, incluido el control de la velocidad y el volumen del habla, la adición de pausas, el énfasis en ciertas palabras o frases, y más.
En el mundo actual, las empresas continúan expandiéndose en múltiples ubicaciones geográficas y buscan continuamente mecanismos para mejorar la participación personalizada del usuario final. Por ejemplo, es posible que necesite una pronunciación precisa de ciertas palabras en un estilo específico perteneciente a diferentes ubicaciones geográficas. Es posible que su negocio también necesite pronunciar ciertas palabras y frases de ciertas maneras dependiendo de su significado previsto. Puedes lograr esto con la ayuda de Etiquetas SSML proporcionada por Amazon Polly.
Esta publicación tiene como objetivo ayudarlo a personalizar la pronunciación cuando se trata de una base de clientes verdaderamente global.
Modificar la pronunciación usando fonemas
Un fonema puede considerarse como la unidad más pequeña del habla. los <phoneme>
La etiqueta SSML en Amazon Polly ayuda a personalizar la pronunciación en función de los fonemas utilizando el IPA (Alfabetos Fonéticos Internacionales) o X-SAMPA (Alfabeto Fonético de Métodos de Evaluación del Habla Extendidos). X-SAMPA es una representación de IPA en codificación ASCII. Las etiquetas de fonemas están disponibles y son totalmente compatibles con el motor TTS estándar y neural. Por ejemplo, la palabra "plomo" se puede pronunciar como el verbo en tiempo presente, o puede referirse al elemento químico plomo. Discutiremos esto con un ejemplo más adelante en esta publicación de blog.
Alfabeto Fonético Internacional
El IPA se utiliza para representar sonidos en diferentes idiomas. Para obtener una lista de fonemas compatibles con Amazon Polly, consulte Tablas de fonemas y visemas para idiomas admitidos.
De forma predeterminada, Amazon Polly determina la pronunciación de la palabra en un formato específico. Usemos el ejemplo de la palabra “plomo”, que puede tener diferentes pronunciaciones al referirse al elemento químico o al verbo. En este ejemplo, cuando proporcionamos la palabra "cliente potencial" como entrada, se habla en tiempo presente (sin el uso de etiquetas SSML personalizadas). La pronunciación predeterminada para L E A D
por Amazon Polly es la forma en tiempo presente de "lead".
Para devolver la pronunciación del elemento químico plomo (que también puede ser el verbo en tiempo pasado), podemos usar fonemas junto con IPA o X-SAMPA. IPA se usa generalmente para personalizar la pronunciación de una palabra en un idioma determinado usando fonemas:
Modificar la pronunciación especificando partes del discurso
Si consideramos el mismo ejemplo de pronunciar "plomo", también podemos diferenciar entre el elemento químico y el verbo especificando las partes del discurso usando el etiqueta SSML.
La <w>
La etiqueta nos permite personalizar la pronunciación especificando partes del discurso. Puede configurar la pronunciación en términos de verbo (presente simple o pasado), sustantivo, adjetivo, preposición y determinante. Vea el siguiente ejemplo:
Además, puede utilizar el etiqueta para indicar la pronunciación de siglas y abreviaturas:
Métodos extendidos de evaluación del habla Alfabeto fonético
La X-SAMPA El esquema de transcripción es una extrapolación a los diversos conjuntos de fonemas SAMPA específicos del idioma disponibles.
El siguiente fragmento muestra cómo puede usar X-SAMPA para pronunciar diferentes variaciones de la palabra "lead":
La marca de estrés en IPA generalmente se representa con ˈ. A menudo nos encontramos con escenarios en los que un apóstrofo en su lugar, lo que podría dar un resultado diferente al esperado. En X-SAMPA, la marca de estrés es la comillas dobles, por lo tanto, debemos usar comillas simples para la palabra y especificar el alfabeto fonético. Vea el siguiente ejemplo:
En el ejemplo anterior, podemos ver el carácter ˈ se utiliza para acentuar la palabra. De manera similar, la marca de estrés en X-SAMPA se muestra entre comillas dobles a continuación:
Modificar pronunciaciones usando otras etiquetas SSML
Puede utilizar el <say as>
etiqueta para modificar la pronunciación habilitando la función de deletreo o carácter. Además, mejora las pronunciaciones en términos de dígitos, fracciones, unidades, fecha, hora, dirección, teléfono, cardinal y ordinal, y también puede censurar el texto incluido en la etiqueta. Para obtener más información, consulte Controlar cómo se pronuncian tipos especiales de palabras. Veamos ejemplos de estos atributos.
Fecha
De forma predeterminada, Amazon Polly pronuncia diferentes entradas de texto. Sin embargo, para manejar atributos específicos como fechas, puede usar el date
atributo para personalizar la pronunciación en el formato requerido, como mes-día-año o día-mes-año.
Sin el date
atributo, Amazon Polly proporciona el siguiente resultado cuando habla de fechas:
Sin embargo, si desea que las fechas se pronuncien en un formato específico, el atributo de fecha en el Las etiquetas ayudan a personalizar la pronunciación:
Cardenal
Este atributo representa un número en su formato cardinal. Por ejemplo, 124456 se pronuncia “ciento veinticuatro mil cuatrocientos cincuenta y seis”:
Ordinal
Este atributo representa un número en su formato ordinal. Sin el ordinal
atributo, el número se pronuncia en su forma numérica:
Si queremos pronunciar 1242 como “mil doscientos cuarenta segundos”, podemos usar la ordinal
atributo:
Dígitos
La digits
atributo se utiliza para pronunciar los números. Por ejemplo, "1234" se pronuncia como "uno dos tres cuatro":
Fracción
La fraction
El atributo se utiliza para personalizar las pronunciaciones en forma fraccionaria:
Horario
La time
El atributo se utiliza para medir el tiempo en minutos y segundos:
Expletivo
La expletive
atributo censura el texto encerrado dentro de las etiquetas:
Teléfono
Para pronunciar números de teléfono, puede utilizar el telephone
atributo para pronunciar los números de teléfono en lugar de pronunciarlos como dígitos independientes o como un número cardinal:
Dirección
La address
El atributo se utiliza para personalizar la pronunciación de una dirección alineada con un formato específico:
Léxicos
Hemos analizado algunas de las etiquetas SSML disponibles en Amazon Polly. Otros casos de uso pueden requerir un mayor grado de control para las pronunciaciones personalizadas. Los léxicos ayudan a lograr este requisito. Puede usar léxicos cuando ciertas palabras deben pronunciarse de una forma determinada que no es común en ese idioma específico.
Otro caso de uso de léxicos es el uso de numerónimos, que son abreviaturas formadas con la ayuda de números. Por ejemplo, Y2K se pronuncia como el "año 2000". Puede usar léxicos para personalizar estas pronunciaciones.
Amazon Polly admite archivos de léxico en formatos .pls y .xml. Para más información, ver Gestión de léxicos.
Conclusión
Las etiquetas SSML de Amazon Polly pueden ayudarlo a personalizar la pronunciación de varias maneras. Esperamos que esta publicación le proporcione una ventaja inicial en el mundo de la síntesis de voz y potencie sus aplicaciones para proporcionar interacciones humanas más realistas.
Acerca de los autores
Abilashkumar PC es ingeniero de soporte en la nube en AWS. Trabaja con los clientes brindando orientación técnica para la resolución de problemas, ayudándolos a lograr sus cargas de trabajo a escala. Fuera del trabajo, le encanta conducir, seguir el cricket y leer.
Abhishek Soni es un arquitecto de soluciones para socios en AWS. Trabaja con los clientes para proporcionar orientación técnica para obtener el mejor resultado de las cargas de trabajo en AWS.
- Coinsmart. El mejor intercambio de Bitcoin y criptografía de Europa.
- Platoblockchain. Inteligencia del Metaverso Web3. Conocimiento amplificado. ACCESO LIBRE.
- CriptoHawk. Radar de altcoins. Prueba gratis.
- Fuente: https://aws.amazon.com/blogs/machine-learning/customize-pronunciations-using-amazon-polly/
- "
- 100
- 7
- a
- Conforme
- preciso
- Lograr
- a través de
- dirección
- avanzado
- permite
- Alphabet
- Amazon
- Amazon Web Services
- aplicaciones
- evaluación
- atributos
- auto
- Hoy Disponibles
- AWS
- a continuación
- MEJOR
- entre
- Blog
- negocios
- case
- cases
- a ciertos
- personajes
- químico
- manera?
- Soluciones
- Considerar
- continue
- control
- controles
- Conversión
- Para crear
- cricket
- cliente
- Clientes
- personalizan
- Fechas
- tratar
- profundo
- Dependiente
- desarrolladores
- una experiencia diferente
- diferenciar
- dígitos
- discutir
- doble
- conducción
- permite
- permitiendo
- de su negocio.
- Motor
- ingeniero
- ejemplo
- ejemplos
- Expandir
- esperado
- experience
- factores importantes
- Feature
- siguiendo
- formulario
- formato
- fraccionario
- promover
- Además
- en general
- geográfico
- geográfico
- Buscar
- va
- guía
- Manejo
- cabeza
- oído
- ayuda
- ayudando
- ayuda
- más alto
- esperanza
- Cómo
- Sin embargo
- HTTPS
- humana
- mejorar
- Incluye
- indicar
- INSTRUMENTO individual
- información
- Las opciones de entrada
- ejemplo
- interactivo
- Internacional
- IT
- idioma
- Idiomas
- Lead
- aprendizaje
- LED
- Lista
- Ubicación
- Ubicaciones
- Mira
- miró
- mirando
- marca
- sentido
- medir
- métodos
- podría
- más,
- múltiples
- North
- número
- números
- que ofrece
- Opciones
- Otro
- Socio
- Personalizado
- frases
- plétora
- presente
- proporcionar
- previsto
- proporciona un
- proporcionando
- Reading
- en tiempo real
- representación
- representado
- representa
- exigir
- Requisitos
- volvemos
- mismo
- Escala
- esquema
- segundos
- de coches
- Servicios
- mostrado
- Del mismo modo
- sencillos
- soltero
- Soluciones
- algo
- De una Charla a tu equipo
- hablar
- Habla
- especial
- soluciones y
- independiente
- estándar
- comienzo
- estrés
- papa
- SOPORTE
- Soportado
- soportes
- Técnico
- Tecnologías
- términos
- La
- el mundo
- de este modo
- por lo tanto
- Tres
- equipo
- de hoy
- tipos
- us
- utilizan el
- generalmente
- propuesta de
- variedad
- diversos
- volumen
- W
- formas
- web
- servicios web
- Wikipedia
- dentro de
- sin
- palabras
- Actividades:
- funciona
- mundo
- XML
- tú