Mejore la precisión de la transcripción de las llamadas entre el cliente y el agente con vocabulario personalizado en Amazon Transcribe PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Mejore la precisión de la transcripción de las llamadas entre clientes y agentes con vocabulario personalizado en Amazon Transcribe

Muchas AWS clientes han estado utilizando con éxito Amazon Transcribe para convertir de manera precisa, eficiente y automática las conversaciones de audio de sus clientes en texto, y extraer información práctica de ellas. Estos conocimientos pueden ayudarlo a mejorar continuamente los procesos y productos que mejoran directamente la calidad y la experiencia de sus clientes.

En muchos países, como la India, el inglés no es el idioma principal de comunicación. Las conversaciones de los clientes indios contienen idiomas regionales como el hindi, con palabras y frases en inglés habladas al azar durante las llamadas. En los archivos multimedia de origen, puede haber nombres propios, acrónimos específicos del dominio, palabras o frases que el modelo predeterminado de Amazon Transcribe no reconoce. Las transcripciones de dichos archivos multimedia pueden tener errores ortográficos para esas palabras.

En esta publicación, demostramos cómo puede proporcionar más información a Amazon Transcribe con vocabularios personalizados para actualizar la forma en que Amazon Transcribe maneja la transcripción de sus archivos de audio con terminología específica de la empresa. Mostramos los pasos para mejorar la precisión de las transcripciones de las llamadas en Hinglish (llamadas en hindi indio que contienen palabras y frases en inglés indio). Puede usar el mismo proceso para transcribir llamadas de audio con cualquier Idioma compatible por Amazon Transcribe. Después de crear vocabularios personalizados, puede transcribir llamadas de audio con precisión y a escala utilizando nuestro análisis posteriores a la llamada solución, que discutiremos más adelante en esta publicación.

Resumen de la solución

Usamos la siguiente llamada de audio en hindi indio (SampleAudio.wav) con palabras aleatorias en inglés para demostrar el proceso.

Luego lo guiaremos a través de los siguientes pasos de alto nivel:

  1. Transcriba el archivo de audio utilizando el modelo predeterminado de Amazon Transcribe Hindi.
  2. Medir la precisión del modelo.
  3. Entrene al modelo con vocabulario personalizado.
  4. Mida la precisión del modelo entrenado.

Requisitos previos

Antes de comenzar, debemos confirmar que el archivo de audio de entrada cumple con los transcribir los requisitos de entrada de datos.

A monofónico grabación, también conocida como mono, contiene una señal de audio, en la que todos los elementos de audio del agente y del cliente se combinan en un solo canal. A estereofónico grabación, también conocida como estéreo, contiene dos señales de audio para capturar los elementos de audio del agente y del cliente en dos canales separados. Cada archivo de grabación de agente-cliente contiene dos canales de audio, uno para el agente y otro para el cliente.

Las grabaciones de audio de baja fidelidad, como las grabaciones telefónicas, suelen utilizar frecuencias de muestreo de 8,000 Hz. Amazon Transcribe admite el procesamiento de archivos de audio grabados en mono y de alta fidelidad con frecuencias de muestreo entre 16,000 48,000 y XNUMX XNUMX Hz.

Para obtener mejores resultados de transcripción y para distinguir claramente las palabras pronunciadas por el agente y el cliente, recomendamos utilizar archivos de audio grabados a una frecuencia de muestreo de 8,000 Hz y separados por canales estéreo.

Puedes usar una herramienta como ffmpeg para validar sus archivos de audio de entrada desde la línea de comando:

ffmpeg -i SampleAudio.wav

En la respuesta devuelta, verifique la línea que comienza con Stream en la sección Entrada y confirme que los archivos de audio tienen 8,000 Hz y están separados por canales estéreo:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Cuando crea una canalización para procesar una gran cantidad de archivos de audio, puede automatizar este paso para filtrar los archivos que no cumplen con los requisitos.

Como paso previo adicional, cree un depósito de Amazon Simple Storage Service (Amazon S3) para alojar los archivos de audio que se van a transcribir. Para obtener instrucciones, consulte Cree su primer depósito S3.Luego sube el archivo de audio al depósito S3.

Transcribir el archivo de audio con el modelo predeterminado

Ahora podemos iniciar un Amazon Transcribe llamar al trabajo de análisis usando el archivo de audio que subimos. En este ejemplo, usamos el Consola de administración de AWS para transcribir el archivo de audio. También puede utilizar el Interfaz de línea de comandos de AWS (CLI de AWS) o SDK de AWS.

  1. En la consola de Amazon Transcribe, elija Analítica de llamadas en el panel de navegación.
  2. Elige Trabajos de análisis de llamadas.
  3. Elige Crear trabajo.
  4. Nombre, ingresa un nombre.
  5. Ajustes de idioma, seleccione Idioma específico.
  6. Idioma, escoger hindi, IN (hola-IN).
  7. Tipo de modelo, seleccione Modelo general.
  8. Ubicación del archivo de entrada en S3, busque el depósito de S3 que contiene el archivo de audio cargado.Mejore la precisión de la transcripción de las llamadas entre el cliente y el agente con vocabulario personalizado en Amazon Transcribe PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  9. En Datos resultantes sección, deje los valores predeterminados.
  10. En Permisos de acceso sección, seleccionar Crear un rol de IAM.
  11. Crear un nuevo Gestión de identidades y accesos de AWS (IAM) llamado HindiTranscription que proporciona permisos de servicio de Amazon Transcribe para leer los archivos de audio del depósito S3 y usar el Servicio de administración de claves de AWS (AWS KMS) clave para descifrar.Mejore la precisión de la transcripción de las llamadas entre el cliente y el agente con vocabulario personalizado en Amazon Transcribe PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  12. En Configurar trabajo sección, deje los valores predeterminados, incluidos Vocabulario personalizado deseleccionado.
  13. Elige Crear trabajo para transcribir el archivo de audio.

Mejore la precisión de la transcripción de las llamadas entre el cliente y el agente con vocabulario personalizado en Amazon Transcribe PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Cuando el estado del trabajo es Completo, puede revisar la transcripción eligiendo el trabajo (SampleAudio).

Mejore la precisión de la transcripción de las llamadas entre el cliente y el agente con vocabulario personalizado en Amazon Transcribe PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Las oraciones del cliente y del agente están claramente separadas, lo que nos ayuda a identificar si el cliente o el agente hablaron palabras o frases específicas.

Medir la precisión del modelo

La tasa de error de palabras (WER) es la métrica recomendada y más utilizada para evaluar la precisión de los sistemas de reconocimiento automático de voz (ASR). El objetivo es reducir el WER tanto como sea posible para mejorar la precisión del sistema ASR.

Para calcular WER, complete los siguientes pasos. Esta publicación utiliza el código abierto evaluación-asr herramienta de evaluación para calcular WER, pero otras herramientas como SCTK or Jiwer También están disponibles.

  1. Instalar las asr-evaluation herramienta, que hace que el script wer esté disponible en su línea de comando.
    Use una línea de comando en plataformas macOS o Linux para ejecutar los comandos wer que se muestran más adelante en la publicación.
  2. Copie la transcripción de la página de detalles del trabajo de Amazon Transcribe a un archivo de texto llamado hypothesis.txt.
    Cuando copie la transcripción desde la consola, notará un nuevo carácter de línea entre las palabras Agent :, Customer :, y la escritura hindi.
    Los caracteres de nueva línea se han eliminado para ahorrar espacio en esta publicación. Si elige usar el texto tal como está en la consola, asegúrese de que el archivo de texto de referencia que cree también tenga los caracteres de nueva línea, ya que la herramienta wer compara línea por línea.
  3. Revise la transcripción completa e identifique las palabras o frases que deben corregirse:
    Local : हेलो,
    Agente : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात कर ominal हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।।।।।।।
    Local : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। ¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿
    Agente :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    Local : हाँ बढिय sigue थैंक यू अगले सैटatar
    Agente : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के तसे
    Local : सिरियसली एनी टिप्स Pollo शेर
    Agente : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    Local Las palabras resaltadas son las que el modelo predeterminado de Amazon Transcribe no representó correctamente.
  4. Crea otro archivo de texto llamado reference.txt, reemplazando las palabras resaltadas con las palabras deseadas que espera ver en la transcripción:
    Local : हेलो,
    Agente : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर ominal हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।।।।।।।
    Local : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। ¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿
    Agente : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    Local : हाँ बढिय sigue थैंक यू अगले सैटatar
    Agente : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के तसे
    Local : सिरियसली एनी टिप्स यू केन शेर
    Agente : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    Local : ग्रेट आइडिया थैंक्यू सो मच।
  5. Use el siguiente comando para comparar los archivos de texto de referencia e hipótesis que creó:
    wer -i reference.txt hypothesis.txt

    Obtiene el siguiente resultado:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

El comando wer compara el texto de los archivos reference.txt y hypothesis.txt. Informa errores para cada oración y también el número total de errores (WER: 9.848% ( 13 / 132)) en toda la transcripción.

Del resultado anterior, se informaron 13 errores de 132 palabras en la transcripción. Estos errores pueden ser de tres tipos:

  • Errores de sustitución – Estos ocurren cuando Amazon Transcribe escribe una palabra en lugar de otra. Por ejemplo, en nuestra transcripción, la palabra “महीना (Mahina)” se escribió en lugar de “मिनार (Minar)” en la oración 4.
  • Errores de borrado – Esto ocurre cuando Amazon Transcribe omite una palabra por completo en la transcripción. En nuestra transcripción, la palabra “सौथ (Sur)” se perdió en la oración 2.
  • Errores de inserción – Esto ocurre cuando Amazon Transcribe inserta una palabra que no se pronunció. No vemos ningún error de inserción en nuestra transcripción.

Observaciones de la transcripción creada por el modelo predeterminado

Podemos hacer las siguientes observaciones basadas en la transcripción:

  • El WER total es del 9.848 %, lo que significa que el 90.152 % de las palabras se transcriben con precisión.
  • El modelo hindi predeterminado transcribió la mayoría de las palabras en inglés con precisión. Esto se debe a que el modelo predeterminado está capacitado para reconocer las palabras en inglés más comunes de manera inmediata. El modelo también está capacitado para reconocer el idioma Hinglish, donde las palabras en inglés aparecen aleatoriamente en las conversaciones en hindi. Por ejemplo:
    • गुड मोर्निग – Buenos días (oración 2).
    • ट्रेवल एजेंसी – Agencia de viajes (oración 2).
    • ग्रेट आइडिया थैंक्यू सो मच – Gran idea, muchas gracias (oración 9).
  • La oración 4 tiene la mayor cantidad de errores, que son los nombres de lugares en la ciudad india de Hyderabad:
    • हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

En el siguiente paso, demostramos cómo corregir las palabras resaltadas en la oración anterior usando vocabulario personalizado en Amazon Transcribe:

  • चार महीना (Carbonizarse mahina) debería ser चार मिनार (Carbonizarse Socavar)
  • Rondaकुंडा फो (golcuy four) debería ser गोलकोंडा फोर्ट (golcoy fort)
  • लार जंग (Salar Jung) debe ser सालार जंग (Salirlar jung)

Entrene el modelo predeterminado con un vocabulario personalizado

A crear un vocabulario personalizado, debe crear un archivo de texto en formato tabular con las palabras y frases para entrenar el modelo predeterminado de Amazon Transcribe. Su tabla debe contener las cuatro columnas (Phrase, SoundsLike, IPAy DisplayAs), pero el Phrase columna es la única que debe contener una entrada en cada fila. Puede dejar las otras columnas vacías. Cada columna debe estar separada por un carácter de tabulación, incluso si algunas columnas se dejan vacías. Por ejemplo, si deja el IPA y SoundsLike columnas vacías por una fila, el Phrase y DisplaysAs las columnas de esa fila deben estar separadas con tres caracteres de tabulación (entre Phrase y IPA, IPA y SoundsLikey SoundsLike y DisplaysAs).

Para entrenar el modelo con un vocabulario personalizado, complete los siguientes pasos:

  1. Crea un archivo llamado HindiCustomVocabulary.txt con el siguiente contenido.
    Frase ipa sonidos similares a las pantallas गोलकुंडanzas गोलकुंडा-फो debe

    Solo puede usar caracteres compatibles con su idioma. Consulte su idioma conjunto de caracteres para obtener más detalles.

    Las columnas contienen la siguiente información:

    1. Phrase – Contiene las palabras o frases que desea transcribir con precisión. Las palabras o frases resaltadas en la transcripción creada por el modelo predeterminado de Amazon Transcribe aparecen en esta columna. Estas palabras son generalmente acrónimos, nombres propios o palabras y frases específicas de un dominio que el modelo predeterminado no conoce. Este es un campo obligatorio para cada fila en la tabla de vocabulario personalizado. En nuestra transcripción, para corregir “गोलकुंडा फोर (Golcunda Cuatro)” de la oración 4, use “गोलकुंडा-फोर (Golcunda-Cuatro)” en esta columna. Si su entrada contiene varias palabras, separe cada palabra con un guión (-); no use espacios.
    2. IPA – Contiene las palabras o frases que representan los sonidos del habla en forma escrita. La columna es opcional; puede dejar sus filas vacías. Esta columna está destinada a la ortografía fonética utilizando solo caracteres del Alfabeto Fonético Internacional (IPA). Consulte el conjunto de caracteres hindi para conocer los caracteres IPA permitidos para el idioma hindi. En nuestro ejemplo, no estamos usando IPA. Si tiene una entrada en esta columna, su SoundsLike la columna debe estar vacía.
    3. SoundsLike – Contiene palabras o frases desglosadas en partes más pequeñas (generalmente basadas en sílabas o palabras comunes) para proporcionar una pronunciación para cada parte en función de cómo suena esa parte. Esta columna es opcional; puede dejar las filas vacías. Solo agregue contenido a esta columna si su entrada incluye una palabra no estándar, como una marca, o para corregir una palabra que se transcribe incorrectamente. En nuestra transcripción, para corregir “सलार जंग (Salar Jung)” de la oración 4, use “सा-लार-जंग (Saa-lar-jung)” en esta columna. No use espacios en esta columna. Si tiene una entrada en esta columna, su IPA la columna debe estar vacía.
    4. DisplaysAs – Contiene palabras o frases con la ortografía que desea ver en la salida de transcripción para las palabras o frases en el Phrase campo. Esta columna es opcional; puede dejar las filas vacías. Si no especifica este campo, Amazon Transcribe utiliza el contenido del Phrase campo en el archivo de salida. Por ejemplo, en nuestra transcripción, para corregir “गोलकुंडा फोर (Golcunda Four)” de la oración 4, use “गोलकोंडा फोर्ट (Golconda Fort)” en esta columna.
  2. Subir el archivo de texto (HindiCustomVocabulary.txt) a un depósito S3. Ahora creamos un vocabulario personalizado en Amazon Transcribe.
  3. En la consola de Amazon Transcribe, elija Vocabulario personalizado en el panel de navegación.
  4. Nombre, ingresa un nombre.
  5. Idioma, escoger hindi, IN (hola-IN).
  6. Fuente de entrada de vocabulario, seleccione Ubicación S3.
  7. Ubicación del archivo de vocabulario en S3, ingrese la ruta S3 del HindiCustomVocabulary.txt archivo.
  8. Elige Crea vocabulario. Mejore la precisión de la transcripción de las llamadas entre el cliente y el agente con vocabulario personalizado en Amazon Transcribe PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  9. Transcribir el SampleAudio.wav archivo con el vocabulario personalizado, con los siguientes parámetros:
    1. Nombre del trabajo , introduzca SampleAudioCustomVocabulary.
    2. Idioma, escoger hindi, IN (hola-IN).
    3. Ubicación del archivo de entrada en S3, busque la ubicación de SampleAudio.wav.
    4. Rol de IAM, seleccione Usar un rol de IAM existente y elija el rol que creó anteriormente.
    5. En Configurar trabajo sección, seleccionar Vocabulario personalizado y elige el vocabulario personalizado HindiCustomVocabulary.
  10. Elige Crear trabajo.

Mejore la precisión de la transcripción de las llamadas entre el cliente y el agente con vocabulario personalizado en Amazon Transcribe PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Mida la precisión del modelo después de usar un vocabulario personalizado

Copie la transcripción de la página de detalles del trabajo de Amazon Transcribe a un archivo de texto llamado hypothesis-custom-vocabulary.txt:

Local : हेलो,

Agente : लावन्या बात कर ominal हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।।।।।।।

Local : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहok था। ¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿¿

Agente : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

Local : हाँ बढिय sigue थैंक यू अगले सैटatar

Agente : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के तसे

Local : सिरि यसली एनी टिप्स चिकन

Agente : आप टेक्सी यूस कर लो ड्रैब औecer

Local : ग्रेट आइडिया थैंक्यू सो मच।

Tenga en cuenta que las palabras resaltadas se transcriben como desee.

Ejecute el wer comando de nuevo con la nueva transcripción:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Obtiene el siguiente resultado:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Observaciones de la transcripción creada con vocabulario personalizado

El WER total es del 6.061 %, lo que significa que el 93.939 % de las palabras se transcriben con precisión.

Comparemos la salida wer para la oración 4 con y sin vocabulario personalizado. Lo siguiente es sin vocabulario personalizado:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Lo siguiente es con vocabulario personalizado:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

No hay errores en la oración 4. Los nombres de los lugares se transcriben con precisión con la ayuda de un vocabulario personalizado, lo que reduce el WER general del 9.848 % al 6.061 % para este archivo de audio. Esto significa que la precisión de la transcripción mejoró en casi un 4%.

Cómo el vocabulario personalizado mejoró la precisión

Utilizamos el siguiente vocabulario personalizado:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe comprueba si hay alguna palabra en el archivo de audio que suene como las palabras mencionadas en el Phrase columna. Entonces el modelo usa las entradas en el IPA, SoundsLikey DisplaysAs columnas para que esas palabras específicas se transcriban con la ortografía deseada.

Con este vocabulario personalizado, cuando Amazon Transcribe identifica una palabra que suena como "गोलकुंडा-फोर (Golcunda-Four)", la transcribe como "गोलकोंडा फोर्ट (Golconda Fort)".

Recomendaciones

La precisión de la transcripción también depende de parámetros como la pronunciación de los hablantes, la superposición de los hablantes, la velocidad de conversación y el ruido de fondo. Por lo tanto, le recomendamos que siga el proceso con una variedad de llamadas (con diferentes clientes, agentes, interrupciones, etc.) que cubran las palabras específicas del dominio más utilizadas para que pueda crear un vocabulario personalizado completo.

En esta publicación, aprendimos el proceso para mejorar la precisión de la transcripción de una llamada de audio usando un vocabulario personalizado. Para procesar miles de grabaciones de llamadas de su centro de contacto todos los días, puede usar análisis posteriores a la llamada, una solución integral totalmente automatizada, escalable y rentable que se encarga de la mayor parte del trabajo pesado. Simplemente cargue sus archivos de audio en un depósito S3 y, en cuestión de minutos, la solución proporciona análisis de llamadas como sentimiento en una interfaz de usuario web. El análisis posterior a la llamada proporciona información procesable para detectar tendencias emergentes, identificar oportunidades de capacitación de agentes y evaluar el sentimiento general de las llamadas. El análisis posterior a la llamada es un solución de código abierto que puedes implementar usando Formación en la nube de AWS.

Tenga en cuenta que los vocabularios personalizados no utilizan el contexto en el que se pronunciaron las palabras, solo se centran en las palabras individuales que proporciona. Para mejorar aún más la precisión, puede utilizar modelos de idioma personalizados. A diferencia de los vocabularios personalizados, que asocian la pronunciación con la ortografía, los modelos de lenguaje personalizados aprenden el contexto asociado con una palabra determinada. Esto incluye cómo y cuándo se usa una palabra, y la relación que tiene una palabra con otras palabras. Para crear un modelo de idioma personalizado, puede usar las transcripciones derivadas del proceso que aprendimos para una variedad de llamadas y combinarlas con contenido de sus sitios web o manuales de usuario que contengan palabras y frases específicas del dominio.

Para lograr la mayor precisión de transcripción con transcripciones por lotes, puede usar vocabularios personalizados junto con sus modelos de lenguaje personalizados.

Conclusión

En esta publicación, brindamos pasos detallados para procesar con precisión los archivos de audio en hindi que contienen palabras en inglés utilizando análisis de llamadas y vocabularios personalizados en Amazon Transcribe. Puede usar estos mismos pasos para procesar llamadas de audio con cualquier Idioma compatible por Amazon Transcribe.

Después de obtener las transcripciones con la precisión deseada, puede mejorar sus conversaciones entre agentes y clientes capacitando a sus agentes. También puede comprender los sentimientos y las tendencias de sus clientes. Con la ayuda de las funciones de diarización del hablante, detección de volumen y filtrado de vocabulario en el análisis de llamadas, puede identificar si fue el agente o el cliente quien subió el tono o pronunció alguna palabra específica. Puede categorizar las llamadas en función de palabras específicas del dominio, capturar información procesable y ejecutar análisis para mejorar sus productos. Finalmente, puede traducir sus transcripciones al inglés u otros idiomas compatibles de su elección usando Traductor de Amazon.


Acerca de los autores

Mejore la precisión de la transcripción de las llamadas entre el cliente y el agente con vocabulario personalizado en Amazon Transcribe PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. Sarat Guttikonda es arquitecto de soluciones sénior en el sector público mundial de AWS. Sarat disfruta ayudando a los clientes a automatizar, administrar y gobernar sus recursos en la nube sin sacrificar la agilidad comercial. En su tiempo libre, le encanta construir Legos con su hijo y jugar tenis de mesa.

Mejore la precisión de la transcripción de las llamadas entre el cliente y el agente con vocabulario personalizado en Amazon Transcribe PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Lavanya Sood es un arquitecto de soluciones en el sector público mundial de AWS con sede en Nueva Delhi, India. Lavanya disfruta aprendiendo nuevas tecnologías y ayudando a los clientes en su proceso de adopción de la nube. En su tiempo libre le encanta viajar y probar diferentes comidas.

Sello de tiempo:

Mas de Aprendizaje automático de AWS