Identifique automáticamente idiomas en audio multilingüe mediante Amazon Transcribe

Reeditado por Platón

seguidores: 0

Si opera en un país con varios idiomas oficiales o en varias regiones, sus archivos de audio pueden contener diferentes idiomas. Los participantes pueden estar hablando idiomas completamente diferentes o pueden cambiar de idioma. Considere una llamada de servicio al cliente para informar un problema en un área con una población multilingüe sustancial. Aunque la conversación podría comenzar en un idioma, es factible que el cliente cambie a otro idioma para describir el problema, según el nivel de comodidad o las preferencias de uso con otros idiomas. De manera similar, el representante de atención al cliente puede cambiar de idioma mientras transmite instrucciones de operación o solución de problemas.

Con un mínimo de 3 segundos de audio, Amazon Transcribe puede identificar automáticamente y generar eficientemente transcripciones en los idiomas que se hablan en el audio sin necesidad de que los humanos especifiquen los idiomas. Esto se aplica a varios casos de uso, como la transcripción de llamadas de clientes, la conversión de mensajes de voz a texto, la captura de interacciones de reuniones, el seguimiento de las comunicaciones del foro de usuarios o la supervisión de flujos de trabajo de localización y producción de contenido multimedia.

Esta publicación explica los pasos para transcribir un archivo de audio en varios idiomas con Amazon Transcribe. Analizamos cómo hacer que los archivos de audio estén disponibles para Amazon Transcribe y habilitar la transcripción de archivos de audio en varios idiomas al llamar a las API de Amazon Transcribe.

Resumen de la solución

Amazon Transcribe es un servicio de AWS que le facilita la conversión de voz a texto. Agregar funcionalidad de voz a texto a cualquier aplicación es simple con la ayuda de Amazon Transcribe, un servicio de reconocimiento de voz automatizado (ASR). Puede incorporar la entrada de audio con Amazon Transcribe, crear transcripciones claras que sean fáciles de leer y revisar, aumentar la precisión con la personalización y filtrar la información para proteger la privacidad del cliente.

La solución también utiliza Servicio de almacenamiento simple de Amazon (Amazon S3), un servicio de almacenamiento de objetos creado para almacenar y recuperar cualquier cantidad de datos desde cualquier lugar. Es un servicio de almacenamiento simple que ofrece durabilidad, disponibilidad, rendimiento, seguridad y escalabilidad virtualmente ilimitadas líderes en la industria a un costo muy bajo. Cuando almacena datos en Amazon S3, trabaja con recursos conocidos como cubos y objetos. Un balde es un contenedor de objetos. Un objeto es un archivo y cualquier metadato que describa el archivo.

En esta publicación, lo guiamos a través de los siguientes pasos para implementar una solución de transcripción de audio multilingüe:

Cree un depósito de S3.
Sube tu archivo de audio al depósito.
Cree el trabajo de transcripción.
Revise la salida del trabajo.

Requisitos previos

Para este tutorial, debe tener los siguientes requisitos previos:

Amazon Transcribe brinda la opción de almacenar la salida transcrita en un depósito de S3 administrado por un servicio o administrado por el cliente. Para esta publicación, Amazon Transcribe escribe los resultados en un depósito de S3 administrado por un servicio.

Tenga en cuenta que Amazon Transcribe es un servicio regional y los puntos de enlace de la API de Amazon Transcribe que se llaman deben estar en la misma región que los depósitos de S3.

Cree un cubo S3 para almacenar sus archivos de entrada de audio

Para crear su depósito S3, complete los siguientes pasos:

En la consola de Amazon S3, elija Crear cubeta.
Nombre del cubo, ingrese un nombre único global para el depósito.
Región de AWS, elija la misma región que los puntos finales de la API de Amazon Transcribe.
Deje todos los valores predeterminados como están.
Elige Crear cubeta.

Cargue su archivo de audio en el depósito S3

Cargue su archivo de audio multilingüe en el depósito S3 de su cuenta de AWS. Para el propósito de este ejercicio, usamos la siguiente muestra archivo de audio multilingüe. Captura una llamada de atención al cliente que involucra los idiomas inglés y español..

En la consola de Amazon S3, elija cubos en el panel de navegación.
Elija el cubo que creó anteriormente para almacenar los archivos de audio de entrada.
Elige Subir.
Elige Añadir archivos.
Elija el archivo de audio que desea transcribir desde su computadora local.
Elige Subir.

Su archivo de audio estará disponible en breve en el depósito S3.

Crear el trabajo de transcripción

Con el archivo de audio cargado, ahora creamos un trabajo de transcripción.

En la consola de Amazon Transcribe, elija Trabajos de transcripción en el panel de navegación.
Elige Crear trabajo.
Nombre, ingrese un nombre único para el trabajo.
Este también será el nombre del archivo de transcripción de salida.
Ajustes de idioma, seleccione Identificación automática de varios idiomas.
Esta función permite que Amazon Transcribe identifique y transcriba automáticamente todos los idiomas hablados en el archivo de audio.
Opciones de idioma para la identificación automática de idioma, déjelo sin seleccionar.
Amazon Transcribe identifica y transcribe automáticamente todos los idiomas hablados en el audio. Para mejorar la precisión de la transcripción, puede seleccionar opcionalmente dos o más idiomas que sepa que se hablaron en el audio.
Tipo de modelo, Solo el Modelo general opción está disponible en el momento de escribir esta publicación.
Datos de entrada, escoger Examinar S3.
Elija el archivo fuente de audio que cargamos anteriormente.
Datos resultantes, puede seleccionar Cubo de S3 administrado por servicio or Depósito S3 especificado por el cliente. Para esta publicación, seleccione Cubo de S3 administrado por servicio.
Elige Siguiente.
Elige Crear trabajo.

Revisar la salida del trabajo

Cuando se complete el trabajo de transcripción, abra el trabajo de transcripción.

Desplázate hacia abajo hasta Vista previa de la transcripción sección. La transcripción de audio se muestra en la Texto pestaña. La transcripción incluye las partes de la conversación en inglés y en español.

Opcionalmente, puede descargar una copia de la transcripción como un archivo JSON, que podría usar para más análisis posteriores a la llamada.

Limpiar

Para evitar incurrir en cargos futuros, vacíe y elimine el depósito S3 que creó para almacenar el archivo fuente de audio de entrada. Asegúrese de tener los archivos almacenados en otro lugar porque esto eliminará permanentemente todos los objetos contenidos en el cubo. En la consola de Amazon Transcribe, seleccione y elimine el trabajo creado anteriormente para la transcripción.

Conclusión

En esta publicación, creamos un flujo de trabajo integral para automatizar la identificación y transcripción de archivos de audio multilingües, sin escribir ningún código. Usamos la nueva funcionalidad en Amazon Transcribe para identificar automáticamente diferentes idiomas en un archivo de audio y transcribir cada idioma correctamente.

Para obtener más información, consulte Identificación de idioma con trabajos de transcripción por lotes.

Acerca de los autores

Murtuza Bootwala es arquitecto sénior de soluciones en AWS interesado en tecnologías de IA/ML. Le gusta trabajar con los clientes para ayudarlos a lograr sus resultados comerciales. Fuera del trabajo, disfruta de las actividades al aire libre y de pasar tiempo con la familia.

Víctor Rojo es un apasionado de la IA/ML y el desarrollo de software. Ayudó a poner en marcha Amazon Alexa en los EE. UU. y México. También trajo Amazon Textract a los socios de AWS y puso en marcha AWS Contact Center Intelligence (CCI). Actualmente es el líder tecnológico global para socios de inteligencia artificial conversacional.

Babu Srinivasan es un especialista sénior de AWS SA (Servicios de IA de idiomas) con sede en Chicago. Se enfoca en Amazon Transcribe (voz a texto), ayudando a nuestros clientes a usar los servicios de inteligencia artificial para resolver problemas comerciales. Fuera del trabajo, le gusta trabajar la madera y realizar espectáculos de magia.

Sello de tiempo: 14 de diciembre de 202214 de diciembre de 2022

Sello de tiempo: 8 de jul, 2022

Transferir aprendizaje para modelos de clasificación de imágenes de TensorFlow en Amazon SageMaker

Clúster de origen:

Aprendizaje automático de AWS

Nodo de origen: 1655641

Sello de tiempo: 7 de septiembre de 2022

Amazon SageMaker integrado LightGBM ahora ofrece capacitación distribuida usando Dask

Clúster de origen:

Aprendizaje automático de AWS

Nodo de origen: 1797416

Sello de tiempo: 30 de enero de 2023

Identifique automáticamente idiomas en audio multilingüe con Amazon Transcribe

Reeditado por Platón

Resumen de la solución

Requisitos previos

Cree un cubo S3 para almacenar sus archivos de entrada de audio

Cargue su archivo de audio en el depósito S3

Crear el trabajo de transcripción

Revisar la salida del trabajo

Limpiar

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Cree una solución de mantenimiento predictivo con Amazon Kinesis, AWS Glue y Amazon SageMaker

Permita que las personas con problemas de visión escuchen los documentos con Amazon Textract y Amazon Polly

Escale el entrenamiento y la inferencia de miles de modelos de ML con Amazon SageMaker | Servicios web de Amazon

AWS ofrece nuevas guías de inteligencia artificial, aprendizaje automático e IA generativa para planificar su estrategia de IA | Servicios web de Amazon

Incorpore PaddleOCR con Amazon SageMaker Projects for MLOps para realizar reconocimiento óptico de caracteres en documentos de identidad

Transferir aprendizaje para modelos de clasificación de imágenes de TensorFlow en Amazon SageMaker

Amazon SageMaker integrado LightGBM ahora ofrece capacitación distribuida usando Dask

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta