Amazon Polly, un servicio de conversión de texto a voz generado por IA, le permite automatizar y escalar sus soluciones de voz interactivas, lo que ayuda a mejorar la productividad y reducir los costos.
A medida que nuestros clientes continúan utilizando Amazon Polly por su amplio conjunto de funciones y facilidad de uso, hemos observado una demanda de la capacidad de generar simultáneamente audio sincronizado y subtítulos o subtítulos ocultos para una entrada de texto determinada. En AWS, trabajamos continuamente hacia atrás a partir de las solicitudes de nuestros clientes, por lo que en esta publicación, describimos un método para generar audio y subtítulos al mismo tiempo para un texto determinado.
Aunque los subtítulos y las leyendas a menudo se usan indistintamente, incluso en esta publicación, existen diferencias sutiles entre ellos:
- Subtítulos – En los subtítulos, el idioma del texto que se muestra en la pantalla es diferente del idioma del audio y no muestra nada que no sea diálogo, como sonidos significativos. El objetivo principal es llegar a la audiencia que no habla el idioma del audio del video.
- Subtítulos (cerrados/abiertos) – Los subtítulos muestran los diálogos que se hablan en el audio en el mismo idioma. Su objetivo principal es aumentar la accesibilidad en los casos en que el consumidor final no puede escuchar el audio debido a una variedad de problemas. Los subtítulos cerrados son parte de un archivo diferente a la fuente de audio/video y se pueden apagar y encender a discreción del usuario, mientras que los subtítulos abiertos son parte del archivo de video y el usuario no puede apagarlos.
Beneficios de usar Amazon Polly para generar audio con subtítulos o subtítulos
Imagine el siguiente caso de uso: prepara una presentación basada en diapositivas para un portal de aprendizaje en línea. Cada diapositiva incluye contenido en pantalla y narración. El contenido en pantalla es un esquema básico y la narración entra en detalles. En lugar de grabar una voz humana, que puede ser engorrosa e inconsistente, puede usar Amazon Polly para generar la narración. Amazon Polly produce voces consistentes y de alta calidad. No hay necesidad de postproducción. En el futuro, si necesita actualizar una parte de la presentación, solo necesita actualizar las diapositivas afectadas. La voz coincide con las diapositivas originales. Además, cuando Amazon Polly genera su audio, se incluyen subtítulos que aparecen al mismo tiempo que el audio. Ahorra tiempo porque no hay que realizar grabaciones manuales y ahorra tiempo adicional cuando se necesitan actualizaciones. Su presentación también ofrece más valor porque los subtítulos ayudan a los estudiantes a consumir el contenido. Es una solución ganar-ganar-ganar.
Hay una multitud de casos de uso para los subtítulos, como anuncios en espacios sociales, gimnasios, cafeterías y otros lugares donde normalmente hay algo en un televisor con el audio silenciado y música de fondo; formación y clases en línea; reuniones virtuales; anuncios electrónicos públicos; ver videos mientras viaja sin auriculares y sin molestar a los pasajeros; y varios más.
Independientemente del campo de aplicación, los subtítulos pueden ayudar con lo siguiente:
- Accesibilidad – Las personas con discapacidad auditiva pueden consumir mejor tu contenido.
- Retention – El aprendizaje en línea es más fácil de comprender y retener para los estudiantes electrónicos cuando se involucran más sentidos humanos.
- Accesibilidad – Su contenido puede llegar a personas que tienen prioridades contrapuestas, como jugar y ver noticias simultáneamente, o personas que tienen un idioma nativo diferente al idioma del audio.
- Capacidad de búsqueda – El contenido es buscable por los motores de búsqueda. Mientras que la mayoría de los motores de búsqueda no pueden buscar videos de manera óptima, los motores de búsqueda pueden usar los archivos de texto de subtítulos y hacer que su contenido sea más reconocible.
- Cortesía social – A veces puede ser de mala educación reproducir audio debido a su entorno, o el audio puede ser difícil de escuchar debido al ruido de su entorno.
- Comprensión – El contenido es más fácil de comprender independientemente del acento del hablante, el idioma nativo del hablante o la velocidad del habla. También puede tomar notas sin mirar repetidamente la misma escena.
Resumen de la solución
La biblioteca presentada en esta publicación utiliza Amazon Polly para generar subtítulos ocultos y de sonido para un texto de entrada. Puede integrar fácilmente esta biblioteca en sus aplicaciones de texto a voz. Admite varios formatos de audio y subtítulos en formatos de archivo VTT y SRT, que son los más utilizados en la industria.
En esta publicación, nos enfocamos en el PollyVTT()
sintaxis y opciones, y ofrece algunos ejemplos que demuestran cómo usar Python SubtitleGeneratorForPolly
para generar simultáneamente archivos de audio y subtítulos sincrónicos para una entrada de texto determinada. El formato de archivo de audio de salida puede ser PCM (wav), OGG o MP3, y el formato de archivo de subtítulos puede ser VTT o SRT. Es más, SubtitleGeneratorForPolly
es compatible con todos los Amazon Polly synthesize_speech
parámetros y se suma al rico conjunto de características de Amazon Polly.
El polly-vtt
biblioteca y sus dependencias están disponibles en GitHub.
Instalar y usar la función
Antes de ver algunos ejemplos del uso PollyVTT()
, la función que alimenta SubtitleGeneratorForPolly
, veamos la instalación y la sintaxis de la misma.
Instale la biblioteca usando el siguiente código:
Para ejecutar desde la línea de comando, simplemente ejecute polly-vtt
:
El siguiente código muestra sus opciones:
Veamos ahora algunos ejemplos.
ejemplo 1
Este ejemplo genera un archivo de audio PCM junto con un archivo de subtítulos SRT para dos oraciones simples:
ejemplo 2
Este ejemplo demuestra cómo usar un párrafo de texto como entrada. Esto genera archivos de audio en WAV, MP3 y OGG, y subtítulos en SRT y VTT. El siguiente ejemplo crea seis archivos para el texto de entrada dado:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Ver el siguiente código:
ejemplo 3
Sin embargo, en la mayoría de los casos, desea pasar el texto como un archivo de entrada. El siguiente es un ejemplo de Python de esto, con el mismo resultado que el ejemplo anterior:
La siguiente es una publicación testimonial del equipo de capacitación interna de AWS sobre el uso de Amazon Polly con subtítulos:
El siguiente video ofrece una breve demostración de cómo el equipo de capacitación interna de AWS utiliza PollyVTT()
:
Conclusión
En esta publicación, compartimos un método para generar audio y subtítulos al mismo tiempo para un texto determinado. los PollyVTT()
función y SubtitleGeneratorForPolly
abordar un requisito común para los subtítulos de manera eficiente y eficaz. El equipo de Amazon Polly continúa inventando y ofreciendo soluciones simplificadas para los complejos requisitos de los clientes.
Para obtener más tutoriales e información sobre Amazon Polly, consulte el Blog de aprendizaje automático de AWS.
Acerca de los autores
Abhishek Soni es un arquitecto de soluciones para socios en AWS. Trabaja con los clientes para proporcionar orientación técnica para obtener el mejor resultado de las cargas de trabajo en AWS.
Dan McKee utiliza audio, video y café para destilar el contenido en cursos dirigidos, modulares y estructurados. En su rol como gerente de proyectos de desarrollo de planes de estudio para el dominio NetSec en Amazon Web Services, aprovecha su experiencia en redes de centros de datos para ayudar a los expertos en la materia a dar vida a las ideas.
orlando karam es desarrollador de planes de estudios técnicos en Amazon Web Services, lo que significa que puede jugar con nuevas tecnologías geniales y luego hablar sobre ellas. Ocasionalmente, también usa esas tecnologías geniales para facilitar su trabajo.
- AI
- arte ai
- generador de arte ai
- robot ai
- Amazon Polly
- inteligencia artificial
- certificación de inteligencia artificial
- inteligencia artificial en banca
- robots de inteligencia artificial
- robots de inteligencia artificial
- software de inteligencia artificial
- Aprendizaje automático de AWS
- blockchain
- conferencia blockchain ai
- Coingenius
- inteligencia artificial conversacional
- criptoconferencia ai
- de dall
- deep learning
- google ai
- máquina de aprendizaje
- Platón
- platón ai
- Inteligencia de datos de Platón
- Juego de Platón
- PlatónDatos
- juego de platos
- escala ia
- sintaxis
- zephyrnet