Personalizar pronunciaciones con Amazon Polly

Reeditado por Platón

seguidores: 0

Amazon Polly da vida al texto al convertirlo en un discurso realista. Esto permite a los desarrolladores y empresas crear aplicaciones que pueden conversar en tiempo real, ofreciendo así una experiencia interactiva mejorada. Texto a voz (TTS) en Amazon Polly admite una variedad de idiomas y locales, lo que le permite realizar la conversión TTS de acuerdo con sus preferencias. Múltiples factores guían esta elección, como la ubicación geográfica y el idioma local.

Amazon Polly utiliza tecnologías avanzadas de aprendizaje profundo para sintetizar texto a voz en tiempo real en varios formatos de salida, como MP3, ogg vorbis, JSON o PCM, en formatos estándar y neural motores El lenguaje de marcado de síntesis de voz (SSML) La compatibilidad con Amazon Polly refuerza aún más la capacidad del servicio para personalizar el habla con una gran cantidad de opciones, incluido el control de la velocidad y el volumen del habla, la adición de pausas, el énfasis en ciertas palabras o frases, y más.

En el mundo actual, las empresas continúan expandiéndose en múltiples ubicaciones geográficas y buscan continuamente mecanismos para mejorar la participación personalizada del usuario final. Por ejemplo, es posible que necesite una pronunciación precisa de ciertas palabras en un estilo específico perteneciente a diferentes ubicaciones geográficas. Es posible que su negocio también necesite pronunciar ciertas palabras y frases de ciertas maneras dependiendo de su significado previsto. Puedes lograr esto con la ayuda de Etiquetas SSML proporcionada por Amazon Polly.

Esta publicación tiene como objetivo ayudarlo a personalizar la pronunciación cuando se trata de una base de clientes verdaderamente global.

Modificar la pronunciación usando fonemas

Un fonema puede considerarse como la unidad más pequeña del habla. los <phoneme> La etiqueta SSML en Amazon Polly ayuda a personalizar la pronunciación en función de los fonemas utilizando el IPA (Alfabetos Fonéticos Internacionales) o X-SAMPA (Alfabeto Fonético de Métodos de Evaluación del Habla Extendidos). X-SAMPA es una representación de IPA en codificación ASCII. Las etiquetas de fonemas están disponibles y son totalmente compatibles con el motor TTS estándar y neural. Por ejemplo, la palabra "plomo" se puede pronunciar como el verbo en tiempo presente, o puede referirse al elemento químico plomo. Discutiremos esto con un ejemplo más adelante en esta publicación de blog.

Alfabeto Fonético Internacional

El IPA se utiliza para representar sonidos en diferentes idiomas. Para obtener una lista de fonemas compatibles con Amazon Polly, consulte Tablas de fonemas y visemas para idiomas admitidos.

De forma predeterminada, Amazon Polly determina la pronunciación de la palabra en un formato específico. Usemos el ejemplo de la palabra “plomo”, que puede tener diferentes pronunciaciones al referirse al elemento químico o al verbo. En este ejemplo, cuando proporcionamos la palabra "cliente potencial" como entrada, se habla en tiempo presente (sin el uso de etiquetas SSML personalizadas). La pronunciación predeterminada para L E A D por Amazon Polly es la forma en tiempo presente de "lead".

<speak>
The default pronunciation by Amazon Polly for L E A D is <break time = "300ms"/> lead,
which is the present tense form.
</speak>

Para devolver la pronunciación del elemento químico plomo (que también puede ser el verbo en tiempo pasado), podemos usar fonemas junto con IPA o X-SAMPA. IPA se usa generalmente para personalizar la pronunciación de una palabra en un idioma determinado usando fonemas:

<speak>
This is the pronunciation using the
<say-as interpret-as="characters">IPA</say-as> attribute
in the <say-as interpret-as="characters">SSML</say-as> tag. The verb form for L E A D is <break time="150ms"/> lead.
The chemical element <break time="150ms"/><phoneme alphabet="ipa" ph="lɛd">lead</phoneme> <break time="300ms"/>also has an identical spelling.
</speak>

Modificar la pronunciación especificando partes del discurso

Si consideramos el mismo ejemplo de pronunciar "plomo", también podemos diferenciar entre el elemento químico y el verbo especificando las partes del discurso usando el etiqueta SSML.

La <w> La etiqueta nos permite personalizar la pronunciación especificando partes del discurso. Puede configurar la pronunciación en términos de verbo (presente simple o pasado), sustantivo, adjetivo, preposición y determinante. Vea el siguiente ejemplo:

<speak>
The word<p> <say-as interpret-as="characters">lead</say-as></p> may be interpreted as either the present simple form <w role="amazon:VB">lead</w>, or the chemical element <w role="amazon:SENSE_1">lead</w>.
</speak>

Además, puede utilizar el etiqueta para indicar la pronunciación de siglas y abreviaturas:

<speak>
Polly is an <sub alias="Amazon Web Services">AWS</sub> offering providing text-to-Speech service. </speak>

Métodos extendidos de evaluación del habla Alfabeto fonético

La X-SAMPA El esquema de transcripción es una extrapolación a los diversos conjuntos de fonemas SAMPA específicos del idioma disponibles.

El siguiente fragmento muestra cómo puede usar X-SAMPA para pronunciar diferentes variaciones de la palabra "lead":

<speak>
This is the pronunciation using the X-SAMPA attribute, in the verb form <break time="1s"/> lead.
The chemical element <break time="1s"/> <phoneme alphabet='x-sampa' ph='lEd'>lead</phoneme> <break time="0.5s"/>
also has an identical spelling.
</speak>

La marca de estrés en IPA generalmente se representa con ˈ. A menudo nos encontramos con escenarios en los que un apóstrofo en su lugar, lo que podría dar un resultado diferente al esperado. En X-SAMPA, la marca de estrés es la comillas dobles, por lo tanto, debemos usar comillas simples para la palabra y especificar el alfabeto fonético. Vea el siguiente ejemplo:

<speak>
You say, <phoneme alphabet="ipa" ph="pɪˈkɑːn">pecan</phoneme>. </speak>

En el ejemplo anterior, podemos ver el carácter ˈ se utiliza para acentuar la palabra. De manera similar, la marca de estrés en X-SAMPA se muestra entre comillas dobles a continuación:

<speak>
You say, <phoneme alphabet='x-sampa' ph='pI"kA:n'>pecan</phoneme>.
</speak>

Modificar pronunciaciones usando otras etiquetas SSML

Puede utilizar el <say as> etiqueta para modificar la pronunciación habilitando la función de deletreo o carácter. Además, mejora las pronunciaciones en términos de dígitos, fracciones, unidades, fecha, hora, dirección, teléfono, cardinal y ordinal, y también puede censurar el texto incluido en la etiqueta. Para obtener más información, consulte Controlar cómo se pronuncian tipos especiales de palabras. Veamos ejemplos de estos atributos.

Fecha

De forma predeterminada, Amazon Polly pronuncia diferentes entradas de texto. Sin embargo, para manejar atributos específicos como fechas, puede usar el date atributo para personalizar la pronunciación en el formato requerido, como mes-día-año o día-mes-año.

Sin el date atributo, Amazon Polly proporciona el siguiente resultado cuando habla de fechas:

<speak>
The default pronunciation when using date is 01-11-1996
</speak>

Sin embargo, si desea que las fechas se pronuncien en un formato específico, el atributo de fecha en el Las etiquetas ayudan a personalizar la pronunciación:

<speak>
We will see the examples of different date formats using the date SSML tag.
The following date is written in the day-month-year format.
<say-as interpret-as="date" format="dmy">01-11-1995</say-as><break time="500ms"/>
The following date is written in the month-day-year format.
<say-as interpret-as="date" format="mdy">09-24-1995</say-as>
</speak>

Cardenal

Este atributo representa un número en su formato cardinal. Por ejemplo, 124456 se pronuncia “ciento veinticuatro mil cuatrocientos cincuenta y seis”:

<speak> The following number is pronounced in it's cardinal form.
<say-as interpret-as="cardinal">124456</say-as>
</speak>

Ordinal

Este atributo representa un número en su formato ordinal. Sin el ordinal atributo, el número se pronuncia en su forma numérica:

<speak>
The following number is pronounced in it's ordinal form without the use of any SSML attribute in the say as tag - 1242 </speak>

Si queremos pronunciar 1242 como “mil doscientos cuarenta segundos”, podemos usar la ordinal atributo:

<speak>
The following number is pronounced in it's ordinal form.
<say-as interpret-as="ordinal">1242</say-as>
</speak>

Dígitos

La digits atributo se utiliza para pronunciar los números. Por ejemplo, "1234" se pronuncia como "uno dos tres cuatro":

<speak>
The following number is pronounced as individual digits.
<say-as interpret-as="digits">1242</say-as>
</speak>

Fracción

La fraction El atributo se utiliza para personalizar las pronunciaciones en forma fraccionaria:

<speak> The following are examples of pronunciations when <prosody volume="loud"> fraction</prosody>
is used as an attribute in the say -as tag. <break time="500ms"/>Seven one by two is pronounced as
<say-as interpret-as="fraction">7 ½ </say-as>
whereas three by twenty is pronounced as <say-as interpret-as="fraction">3/20</say-as>
</speak>

Horario

La time El atributo se utiliza para medir el tiempo en minutos y segundos:

<speak>
Polly also supports customizing pronunciation in terms of minutes and seconds. For example, <say-as interpret-as="time">2'42"</say-as>
</speak>

Expletivo

La expletive atributo censura el texto encerrado dentro de las etiquetas:

<speak> The value that is going to be censored is
<say-as interpret-as="expletive">this is not good</say-as>
You should have heard the beep sound.
</speak>

Teléfono

Para pronunciar números de teléfono, puede utilizar el telephone atributo para pronunciar los números de teléfono en lugar de pronunciarlos como dígitos independientes o como un número cardinal:

<speak>
The telephone number is <say-as interpret-as="telephone">1800 3000 9009</say-as>
</speak>

Dirección

La address El atributo se utiliza para personalizar la pronunciación de una dirección alineada con un formato específico:

<speak> The address is<break time="1s"/>
<say-as interpret-as="address">440 Terry Avenue North, Seattle
WA 98109 USA</say-as>
</speak>

Léxicos

Hemos analizado algunas de las etiquetas SSML disponibles en Amazon Polly. Otros casos de uso pueden requerir un mayor grado de control para las pronunciaciones personalizadas. Los léxicos ayudan a lograr este requisito. Puede usar léxicos cuando ciertas palabras deben pronunciarse de una forma determinada que no es común en ese idioma específico.

Otro caso de uso de léxicos es el uso de numerónimos, que son abreviaturas formadas con la ayuda de números. Por ejemplo, Y2K se pronuncia como el "año 2000". Puede usar léxicos para personalizar estas pronunciaciones.

Amazon Polly admite archivos de léxico en formatos .pls y .xml. Para más información, ver Gestión de léxicos.

Conclusión

Las etiquetas SSML de Amazon Polly pueden ayudarlo a personalizar la pronunciación de varias maneras. Esperamos que esta publicación le proporcione una ventaja inicial en el mundo de la síntesis de voz y potencie sus aplicaciones para proporcionar interacciones humanas más realistas.

Acerca de los autores

Abilashkumar PC es ingeniero de soporte en la nube en AWS. Trabaja con los clientes brindando orientación técnica para la resolución de problemas, ayudándolos a lograr sus cargas de trabajo a escala. Fuera del trabajo, le encanta conducir, seguir el cricket y leer.

Abhishek Soni es un arquitecto de soluciones para socios en AWS. Trabaja con los clientes para proporcionar orientación técnica para obtener el mejor resultado de las cargas de trabajo en AWS.

Sello de tiempo: Sábado, Junio 15, 2022

Sello de tiempo: 10 de mayo de 2023

Personaliza las pronunciaciones con Amazon Polly

Reeditado por Platón

Modificar la pronunciación usando fonemas

Alfabeto Fonético Internacional

Modificar la pronunciación especificando partes del discurso

Métodos extendidos de evaluación del habla Alfabeto fonético

Modificar pronunciaciones usando otras etiquetas SSML

Fecha

Cardenal

Ordinal

Dígitos

Fracción

Horario

Expletivo

Teléfono

Dirección

Léxicos

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Clasificación de texto de tiro cero con Amazon SageMaker JumpStart | Servicios web de Amazon

Presentamos el volante de Amazon Comprehend para MLOps

Cree un predictor de toxicidad sólido basado en texto

Automatice la validación de documentos y la detección de fraudes en el proceso de suscripción de hipotecas mediante los servicios de IA de AWS: Parte 1 | Servicios web de Amazon

Reduzca el costo de inferencia de Amazon SageMaker con AWS Graviton

Amazon SageMaker Automatic Model Tuning ahora proporciona un ajuste de hiperparámetros hasta tres veces más rápido con Hyperband

Parte 4: Cómo NatWest Group migró los modelos de ML a las arquitecturas de Amazon SageMaker

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta