Cree subtítulos de video con Amazon Transcribe usando este flujo de trabajo sin código

Reeditado por Platón

seguidores: 0

La creación de subtítulos en contenido de video plantea desafíos sin importar cuán grande o pequeña sea la organización. Para hacer frente a esos desafíos, Amazon Transcribe tiene una función útil que permite la creación de subtítulos directamente dentro del servicio. No se requiere aprendizaje automático (ML) ni escritura de código para comenzar. Esta publicación lo guía a través de la configuración de un flujo de trabajo sin código para crear subtítulos de video usando Amazon Transcribe dentro de su cuenta de Amazon Web Services.

Subtítulos frente a subtítulos ocultos

Los términos subtítulos y subtítulos se usan comúnmente indistintamente, y ambos se refieren al texto hablado que se muestra en la pantalla. Sin embargo, una diferencia principal entre los subtítulos y los subtítulos ocultos (según las definiciones de la industria y la accesibilidad) es que los subtítulos ocultos contienen tanto la transcripción de la palabra hablada como una descripción de la música de fondo o los sonidos que ocurren dentro de la pista de audio para una experiencia de accesibilidad más rica. . Esta publicación solo se enfoca en la creación de archivos de subtítulos de palabras habladas transcritas utilizando tecnología de reconocimiento automático de voz (ASR) que no contienen identificación del hablante, efectos de sonido o descripciones de música. Amazon Transcribe es compatible con los formatos estándar de la industria SubRip Text (*.srt) y Web Video Text Tracks (*.vtt) para creación de subtítulos.

La siguiente imagen muestra un ejemplo de subtítulos activados dentro de un reproductor de video web.

Los subtítulos benefician a los creadores de videos al ampliar tanto el alcance como la inclusión de su contenido de video. Al mostrar la porción de audio hablada de un video en la pantalla, los subtítulos hacen que el contenido de audio/video sea accesible para una audiencia más amplia, incluidos aquellos que no hablan un idioma nativo y aquellos que se encuentran en un entorno donde el sonido es inaudible.

Aunque los beneficios de los subtítulos son claros, los creadores de videos tradicionalmente han enfrentado obstáculos en la creación de subtítulos. Los obstáculos surgen debido a los requisitos que consumen mucho tiempo y recursos del proceso de creación tradicional que depende en gran medida del esfuerzo manual. Los métodos tradicionales de subtitulado son manuales y pueden tardar días o semanas en completarse y, por lo tanto, es posible que no sean compatibles con todos los programas de producción. Del mismo modo, muchas empresas utilizan servicios de transcripción manual, pero estos procesos a menudo no se escalan y su mantenimiento es costoso. Amazon Transcribe le facilita la conversión de voz a texto mediante tecnologías basadas en ML y ayuda a los creadores de videos a abordar estos problemas.

Resumen de la solución

Esta publicación recorre un flujo de trabajo sin código para generar subtítulos usando Servicio de almacenamiento simple de Amazon (Amazon S3) y Amazon Transcribe.

Amazon S3 es un almacenamiento de objetos creado para almacenar y recuperar cualquier cantidad de datos desde cualquier lugar. Esta publicación recorre el proceso para crear un cubo S3 y sube un archivo de audio. Cuando los usuarios almacenan datos en Amazon S3, trabajan con recursos conocidos como depósitos y objetos. UN cubo es un contenedor de objetos. Un objeto es un archivo y cualquier metadato que describa ese archivo.

Amazon Transcribe es un servicio ASR que utiliza modelos de aprendizaje automático completamente administrados y capacitados continuamente para convertir archivos de audio/video en texto. Las entradas y salidas de Amazon Transcribe se almacenan en Amazon S3. Amazon Transcribe toma datos de audio, ya sea un archivo multimedia en un depósito de Amazon S3 o una transmisión de medios, y los convierte en datos de texto. Amazon Transcribe le permite ingerir entrada de audio, producir transcripciones fáciles de leer con un alto grado de precisión, personalizar su salida para el vocabulario específico del dominio usando modelos de idioma personalizados (CLM) y vocabularios personalizadosy filtrar el contenido para garantizar la privacidad del cliente. Los clientes pueden elegir usar Amazon Transcribe para una variedad de aplicaciones comerciales, que incluyen transcripción de llamadas de atención al cliente basadas en voz, generación de subtítulos sobre contenidos de audio/videoy realizar análisis de contenido (basado en texto) en contenido de audio/video. Para esta publicación, demostramos la creación de un trabajo de transcripción y la revisión del resultado del trabajo.

Si prefiere un tutorial en video, consulte el episodio de refrigerios en video de Amazon Transcribe Crear subtítulos de video sin escribir ningún código.

Requisitos previos

Para recorrer la solución, debe tener los siguientes requisitos previos:

An Cuenta de AWS con suficiente Gestión de identidades y accesos de AWS (IAM) privilegios de usuario
Un archivo de audio/vídeo con palabras habladas en un Idioma compatible con Amazon Transcribe y en una formato de entrada admitido

Si aún no tiene un archivo de audio/video de muestra, puede crear uno usando una aplicación de grabación de video en su computadora o teléfono inteligente. Asegúrese de hablar claramente al micrófono para garantizar el más alto nivel de calidad de transcripción al grabar. Otra opción es encontrar una descarga disponible gratuitamente con palabras habladas, como un podcasto el video tutorial proporcionado en esta publicación, que Amazon Transcribe puede ingerir. El archivo grabado o descargado debe estar accesible en su escritorio para cargarlo en su cuenta de AWS.

Antes de comenzar, revise el Amazon Transcribe y Amazon S3 páginas de precios para los precios de los servicios.

Crea los cubos de S3

Para esta publicación, creamos dos cubos S3 para mantener la entrada y la salida separadas.

En la consola de Amazon S3, elija Crear cubeta.
Asigne a cada cubo un nombre globalmente único.
Utilice la configuración predeterminada para garantizar el cumplimiento de las políticas de su organización.
permitir control de versiones del cubo y cifrado predeterminado del lado del servidor (recomendado).
Elige Crear cubeta.

La siguiente captura de pantalla muestra la configuración del depósito de entrada.

El depósito S3 para la entrada ahora está listo para cargar el archivo de audio/video. Al momento de esta publicación, el el tamaño máximo de entrada para Amazon Transcribe es de 2 GB. Si el archivo de video excede esa cantidad o está en un formato que Amazon Transcribe no admite de forma nativa, Considere usar AWS Elemental MediaConversión a crear una salida de solo audio. Esto es beneficioso porque los archivos de audio suelen ser mucho más pequeños que los archivos de video y Amazon Transcribe solo requiere la pista de audio, y no la pista de video, para generar transcripciones y subtítulos.

Cargue el archivo de origen en el depósito de S3

Para cargar su archivo fuente, complete los siguientes pasos:

En la consola de Amazon S3, seleccione su depósito de entrada.
Elige Subir.
Elija el archivo de su escritorio.
Acepte la clase de almacenamiento predeterminada y la configuración de cifrado o modifíquelos según las políticas de su organización.
Elige Subir.

Crear un trabajo de transcripción

Con el archivo de entrada listo en Amazon S3, ahora creamos un trabajo de transcripción en Amazon Transcribe.

En Consola de Amazon Transcribe, escoger Trabajos de transcripción en el panel de navegación.
Elige Crear trabajo.

Este tutorial utiliza en gran medida las opciones predeterminadas; sin embargo, debe elegir la configuración que mejor se adapte a los requisitos de su organización.

Nombre, ingrese un nombre para este trabajo y el archivo resultante.
Ajustes de idioma, seleccione Idioma específico.
Idioma, elija el idioma de origen del archivo de entrada.
Tipo de modeloSeleccione Modelo general.

Usamos el modelo general para esta demostración, pero lo alentamos a que explore la capacitación y el uso modelos de idioma personalizados para mejorar la precisión en casos de uso específicos, como términos o acrónimos específicos de la industria. Para una inmersión más profunda en los modelos de lenguaje personalizados, vea el refrigerio de video de Amazon Transcribe Uso de modelos de lenguaje personalizados (CLM) para potenciar la precisión de la transcripción.

Ubicación del archivo de entrada en S3, escoger Examinar S3.
Elija el contenedor de entrada y el archivo de audio/video que se transcribirá.
Información de tipo de ubicación de datos de salida, seleccione Depósito S3 especificado por el cliente.
Destino del archivo de salida en S3, escoger Examinar S3.
Elija el cubo de salida recién creado.

La Formato de archivo de subtítulos La sección proporciona las dos opciones más esenciales de toda esta publicación. Puede seleccionar las salidas con formato *.srt y *.vtt como parte del trabajo de transcripción de Amazon Transcribe. Al momento de escribir este artículo, seleccionar uno o ambos no agrega ningún costo adicional al trabajo de Amazon Transcribe.

Para esta publicación, seleccione ambos SRT y VTT.
Especificar el índice de inicio, escoger 0 or 1.

Este valor se refiere al número inicial del primer subtítulo en secuencia. Si no está seguro de qué valor elegir, 1 Es el más común.

Cuando la configuración esté en su lugar, elija Siguiente.
Configure los ajustes opcionales según sus necesidades.

Amazon Transcribe presenta opciones de identificación de audio para canales or altavoces, resultados alternativos, Redacción de PII, filtrado de vocabularioy vocabulario personalizado. Para esta publicación en particular, puede omitir estas opciones de configuración. Para profundizar en las opciones de configuración de trabajos, vea los episodios de refrigerios en video de Amazon Transcribe para vocabulario personalizado, modelos de idioma personalizadosy filtrado de vocabulario.

Elige Crear trabajo.

Revisar la salida del trabajo

Comienza el trabajo de transcripción para crear los subtítulos de su video. El estado del trabajo, como se muestra en la siguiente captura de pantalla, se muestra en el panel de detalles del trabajo. Cuando se complete el trabajo, elija la ubicación de los datos de salida para ubicar los subtítulos recién creados en el depósito S3.

Los subtítulos se identifican con las extensiones *.srt o *.vtt. Cuando selecciona el objeto en el depósito S3, tiene la opción de descargar el archivo.

Debido a que estos subtítulos están en formato de texto sin formato, cualquier editor de texto puede ver y editar la transcripción resultante. La comparación de los archivos *.srt y *.vtt revela muchas similitudes, con sutiles diferencias.

El siguiente es un ejemplo de formato *.srt:

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

El siguiente es un ejemplo de formato *.vtt:

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

Los números indican el orden en que se muestran los subtítulos. El código de tiempo indica cuándo se muestra el subtítulo. El texto es el texto del subtítulo en sí.

Cualquier cambio o revisión ahora es posible directamente dentro del editor de texto y sigue siendo compatible cuando se guarda con la extensión *.srt o *.vtt. También puede obtener una vista previa de los cambios en la propia plataforma de video, dentro de una aplicación de edición de video o dentro de un reproductor de video.

VLC es un popular reproductor de video multiplataforma y de código abierto que admite subtítulos *.srt y *.vtt. Para reproducir automáticamente subtítulos sobre un video dentro de VLC, coloque tanto el video original como el archivo de subtítulos en el mismo directorio con exactamente el mismo nombre de archivo antes de la extensión del archivo.

Ahora, cuando abra el archivo de video dentro de VLC, el archivo de subtítulos debería detectarse y reproducirse automáticamente dentro de la ventana del reproductor de video.

Limpiar

Para evitar incurrir en cargos futuros, vacío y borrar los cubos S3 utilizados para entrada y salida. Asegúrese de tener almacenados todos los archivos necesarios, ya que esto eliminará permanentemente todos los objetos contenidos en los cubos. Sobre el Consola de transcripción, seleccione y elimine los trabajos que ya no necesite.

Conclusión

Ahora ha creado un flujo de trabajo completo de creación de subtítulos de extremo a extremo para aumentar y acelerar el proceso de creación de subtítulos de video, y todo sin escribir ningún código. En cuestión de minutos, creó depósitos de almacenamiento S3, cargó un archivo en Amazon S3 y utilizó Amazon Transcribe para la creación de subtítulos. A continuación, puede descargar los archivos de subtítulos *.srt y *.vtt resultantes para revisarlos y cargarlos en la plataforma de destino.

Este flujo de trabajo se centró en los subtítulos de audio/video creados con la tecnología de reconocimiento automático de voz (ASR) en Amazon Transcribe específicamente para flujos de trabajo de video. Este flujo de trabajo por sí solo no es un sustituto de un proceso de subtítulos ocultos basado en humanos, que puede cumplir con estándares más altos de accesibilidad, incluida la identificación del orador, los efectos de sonido, la descripción de la música y la revisión de la corrección de estilo para garantizar la precisión. Puede utilizar el método de edición de texto descrito en esta publicación para agregar estos elementos después de que se complete el trabajo inicial de Amazon Transcribe. Además, para una creación, vista previa y corrección de estilo de subtítulos basadas en navegador más avanzadas, puede explorar la implementación del Localización de contenido en AWS solución examinada por AWS Solution Architects e incluye un Guía de implementación. Esta solución ofrece características adicionales tales como vista previa en el navegador y edición de subtítulos, traducción de subtítulos con tecnología de Traductor de Amazony las capacidades de visión artificial que ofrece Reconocimiento de amazonas.

Si disfrutó de esta demostración de la capacidad de Amazon Transcribe para crear subtítulos, considere profundizar en las funciones y capacidades adicionales para acelerar sus flujos de trabajo de audio/video. Para obtener detalles adicionales y muestras de código para admitir la automatización y escalado de la creación de subtítulos, consulte Creación de subtítulos de vídeo. Buena suerte en su exploración y desarrollo de su flujo de trabajo de creación de subtítulos.

Sobre la autora

Jason O'Malley es Arquitecto sénior de soluciones de socios en AWS que brinda apoyo a los socios que diseñan soluciones de la industria de medios, comunicaciones y tecnología. Antes de unirse a AWS, Jason pasó 13 años en la industria de los medios y el entretenimiento en empresas como Team Coco de Conan O'Brien, WarnerMedia y Media.Monks. Jason comenzó su carrera en producción y posproducción de televisión antes de crear cargas de trabajo de medios en AWS. Cuando Jason no está creando soluciones para socios y clientes, se le puede encontrar aventurándose con su esposa e hijo, o leyendo sobre sustentabilidad.

Sello de tiempo: 10 de mayo de 2022

Sello de tiempo: 10 de enero de 2023

Cree subtítulos de video con Amazon Transcribe usando este flujo de trabajo sin código

Reeditado por Platón

Subtítulos frente a subtítulos ocultos

Resumen de la solución

Requisitos previos

Crea los cubos de S3

Cargue el archivo de origen en el depósito de S3

Crear un trabajo de transcripción

Revisar la salida del trabajo

Limpiar

Conclusión

Sobre la autora

Mas de Aprendizaje automático de AWS

Mejore la precisión de la transcripción de las llamadas entre clientes y agentes con vocabulario personalizado en Amazon Transcribe

Anuncio del conector ServiceNow actualizado (V2) para Amazon Kendra

Cómo los proveedores de servicios pueden usar el procesamiento del lenguaje natural para obtener información de los tickets de los clientes con Amazon Comprehend

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta