Créez des sous-titres vidéo avec Amazon Transcribe à l'aide de ce flux de travail sans code

Republié par Platon

Suiveurs: 0

La création de sous-titres sur le contenu vidéo pose des défis, quelle que soit la taille de l'organisation. Pour relever ces défis, Amazon Transcribe a une fonctionnalité utile qui permet la création de sous-titres directement dans le service. Il n'y a pas d'apprentissage automatique (ML) ou d'écriture de code requis pour commencer. Cet article vous guide dans la configuration d'un flux de travail sans code pour créer des sous-titres vidéo à l'aide d'Amazon Transcribe dans votre compte Amazon Web Services.

Sous-titres vs sous-titres codés

Les termes les sous-titres ainsi que sous-titres sont couramment utilisés de manière interchangeable et font tous deux référence au texte parlé affiché à l'écran. Cependant, une différence principale entre les sous-titres et les sous-titres (basés sur les définitions de l'industrie et de l'accessibilité) est que les sous-titres contiennent à la fois la transcription du mot parlé ainsi qu'une description de la musique de fond ou des sons se produisant dans la piste audio pour une expérience d'accessibilité plus riche. . Cet article se concentre uniquement sur la création de fichiers de sous-titres de mots parlés transcrits à l'aide de la technologie de reconnaissance automatique de la parole (ASR) qui ne contiennent pas d'identification du locuteur, d'effets sonores ou de descriptions musicales. Amazon Transcribe prend en charge les formats standard de l'industrie SubRip Text (*.srt) et Web Video Text Tracks (*.vtt) pour création de sous-titres.

L'image suivante montre un exemple de sous-titres activés dans un lecteur vidéo Web.

Les sous-titres profitent aux créateurs de vidéos en étendant à la fois la portée et l'inclusivité de leur contenu vidéo. En affichant la partie audio parlée d'une vidéo à l'écran, les sous-titres rendent le contenu audio/vidéo accessible à un public plus large, y compris ceux qui ne sont pas des locuteurs de langue maternelle et ceux qui se trouvent dans un environnement où le son est inaudible.

Bien que les avantages des sous-titres soient clairs, les créateurs de vidéos ont traditionnellement rencontré des obstacles dans la création de sous-titres. Des obstacles surviennent en raison des exigences chronophages et gourmandes en ressources du processus de création traditionnel qui repose fortement sur l'effort manuel. Les méthodes de sous-titrage traditionnelles sont manuelles et peuvent prendre des jours, voire des semaines, et peuvent donc ne pas être compatibles avec tous les calendriers de production. De même, de nombreuses entreprises utilisent des services de transcription manuelle, mais ces processus n'évoluent souvent pas et sont coûteux à entretenir. Amazon Transcribe vous permet de convertir facilement la parole en texte à l'aide de technologies basées sur ML et aide les créateurs de vidéos à résoudre ces problèmes.

Vue d'ensemble de la solution

Cet article décrit un flux de travail sans code pour générer des sous-titres à l'aide de Service de stockage simple Amazon (Amazon S3) et Amazon Transcribe.

Amazon S3 est un stockage d'objets conçu pour stocker et récupérer n'importe quelle quantité de données de n'importe où. Ce message décrit le processus pour créer un compartiment S3 et télécharger un fichier audio. Lorsque les utilisateurs stockent des données dans Amazon S3, ils travaillent avec des ressources appelées compartiments et objets. UN seau est un conteneur d'objets. Un objet est un fichier et toutes les métadonnées qui décrivent ce fichier.

Amazon Transcribe est un service ASR qui utilise des modèles ML entièrement gérés et formés en continu pour convertir des fichiers audio/vidéo en texte. Les entrées et les sorties d'Amazon Transcribe sont stockées dans Amazon S3. Amazon Transcribe prend des données audio, soit un fichier multimédia dans un compartiment Amazon S3, soit un flux multimédia, et les convertit en données texte. Amazon Transcribe vous permet d'ingérer une entrée audio, de produire des transcriptions faciles à lire avec un haut degré de précision, de personnaliser votre sortie pour un vocabulaire spécifique à un domaine à l'aide de modèles de langue personnalisés (CLM) et vocabulaires personnaliséset une filtrer le contenu pour garantir la confidentialité des clients. Les clients peuvent choisir d'utiliser Amazon Transcribe pour une variété d'applications professionnelles, y compris transcription d'appels vocaux au service client, génération de sous-titres sur un contenu audio/vidéoet une mener une analyse de contenu (basée sur du texte) sur le contenu audio/vidéo. Pour cet article, nous montrons la création d'une tâche de transcription et l'examen de la sortie de la tâche.

Si vous préférez une présentation vidéo, reportez-vous à l'épisode des collations vidéo d'Amazon Transcribe Créer des sous-titres vidéo sans écrire de code.

Pré-requis

Pour parcourir la solution, vous devez avoir les prérequis suivants :

An Compte AWS avec suffisamment Gestion des identités et des accès AWS (IAM) privilèges d'utilisateur
Un fichier audio/vidéo avec des paroles prononcées dans un Langue prise en charge par Amazon Transcribe ainsi que dans une format d'entrée pris en charge

Si vous n'avez pas encore d'exemple de fichier audio/vidéo, vous pouvez en créer un à l'aide d'une application d'enregistrement vidéo sur votre ordinateur ou votre smartphone. Assurez-vous de parler clairement dans le microphone pour garantir le plus haut niveau de qualité de transcription lors de l'enregistrement. Une autre option consiste à trouver un téléchargement disponible gratuitement contenant des mots parlés, comme un podcastou la vidéo pas à pas fournie dans ce post, qui peut être ingéré par Amazon Transcribe. Le fichier enregistré ou téléchargé doit être accessible sur votre bureau pour être chargé sur votre compte AWS.

Avant de commencer, passez en revue les Amazon Transcribe ainsi que Amazon S3 pages de tarification pour la tarification des services.

Créer les compartiments S3

Pour cet article, nous créons deux compartiments S3 pour séparer l'entrée et la sortie.

Sur la console Amazon S3, choisissez Créer un seau.
Attribuez à chaque compartiment un nom unique au monde.
Utilisez les paramètres par défaut pour garantir la conformité avec les stratégies de votre organisation.
Activer gestion des versions de bucket ainsi que chiffrement côté serveur par défaut (conseillé).
Selectionnez Créer un seau.

La capture d'écran suivante montre la configuration du compartiment d'entrée.

Le compartiment S3 pour l'entrée est maintenant prêt à charger le fichier audio/vidéo. Au moment de cette publication, le la taille d'entrée maximale pour Amazon Transcribe est de 2 Go. Si le fichier vidéo dépasse ce montant ou est dans un format qui n'est pas pris en charge nativement par Amazon Transcribe, pensez à utiliser AWS Elemental MediaConvert à créer une sortie audio uniquement. Ceci est avantageux car les fichiers audio sont généralement beaucoup plus petits que les fichiers vidéo et Amazon Transcribe ne nécessite que la piste audio, et non la piste vidéo, pour générer des transcriptions et des sous-titres.

Chargez le fichier source dans le compartiment S3

Pour importer votre fichier source, procédez comme suit :

Sur la console Amazon S3, sélectionnez votre compartiment d'entrée.
Selectionnez Téléchargement.
Choisissez le fichier sur votre bureau.
Acceptez les paramètres de classe de stockage et de chiffrement par défaut ou modifiez-les en fonction des stratégies de votre organisation.
Selectionnez Téléchargement.

Créer une tâche de transcription

Avec le fichier d'entrée prêt dans Amazon S3, nous créons maintenant une tâche de transcription dans Amazon Transcribe.

Sur le Console de transcription Amazon, choisissez Emplois de transcription dans le volet de navigation.
Selectionnez Créer un emploi.

Cette procédure pas à pas utilise en grande partie les options par défaut ; cependant, vous devez choisir la configuration la mieux adaptée aux exigences de votre organisation.

Pour Nom, entrez un nom pour ce travail et le fichier résultant.
Pour Paramètres de langue, sélectionnez Langue spécifique.
Pour Connection Linguistique, choisissez la langue source du fichier d'entrée.
Pour Type de modèlesélectionner Modèle général.

Nous utilisons le modèle général pour cette démonstration, mais nous vous encourageons à explorer la formation et l'utilisation modèles de langue personnalisés pour une précision améliorée pour des cas d'utilisation spécifiques tels que des termes ou des acronymes spécifiques à l'industrie. Pour une plongée plus approfondie dans les modèles de langage personnalisés, regardez l'en-cas vidéo Amazon Transcribe Utilisation de modèles de langage personnalisés (CLM) pour améliorer la précision de la transcription.

Pour Emplacement du fichier d'entrée sur S3, choisissez Parcourir S3.
Choisissez le compartiment d'entrée et le fichier audio/vidéo à transcrire.
Pour Informations sur le type d'emplacement des données de sortie, sélectionnez Compartiment S3 spécifié par le client.
Pour Destination du fichier de sortie sur S3, choisissez Parcourir S3.
Choisissez le compartiment de sortie nouvellement créé.

La Format de fichier de sous-titres La section fournit les deux options les plus essentielles de l'ensemble de cet article. Vous pouvez sélectionner les sorties au format *.srt et *.vtt dans le cadre de la tâche de transcription Amazon Transcribe. Au moment d'écrire ces lignes, la sélection de l'un ou des deux n'ajoute aucun coût supplémentaire au travail Amazon Transcribe.

Pour ce post, sélectionnez les deux SRT ainsi que VTT.
Pour Spécifiez l'index de départ, choisissez 0 or 1.

Cette valeur fait référence au numéro de départ du premier sous-titre de la séquence. Si vous ne savez pas quelle valeur choisir, 1 est le plus courant.

Lorsque les paramètres sont en place, choisissez Suivant.
Configurez tous les paramètres facultatifs selon vos besoins.

Amazon Transcribe présente des options d'identification audio pour Voies or haut-parleurs, résultats alternatifs, Caviardage des PII, filtrage de vocabulaireet une vocabulaire personnalisé. Pour ce poste particulier, vous pouvez ignorer ces options de configuration. Pour une plongée plus approfondie dans les options de configuration des tâches, regardez les épisodes de collations vidéo Amazon Transcribe pour vocabulaire personnalisé, modèles de langue personnaliséset une filtrage de vocabulaire.

Selectionnez Créer un emploi.

Examiner la sortie du travail

Le travail de transcription pour créer vos sous-titres vidéo démarre. L'état de la tâche, comme illustré dans la capture d'écran suivante, s'affiche dans le panneau des détails de la tâche. Lorsque la tâche est terminée, choisissez l'emplacement des données de sortie pour localiser les sous-titres nouvellement créés dans le compartiment S3.

Les sous-titres sont identifiés par les extensions *.srt ou *.vtt. Lorsque vous sélectionnez l'objet dans le compartiment S3, vous avez la possibilité de télécharger le fichier.

Étant donné que ces sous-titres sont au format texte brut, n'importe quel éditeur de texte peut afficher et modifier la transcription résultante. La comparaison des fichiers *.srt et *.vtt révèle de nombreuses similitudes, avec des différences subtiles.

Voici un exemple de format *.srt :

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

Voici un exemple de format *.vtt :

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

Les chiffres indiquent l'ordre d'affichage des sous-titres. Le code temporel indique quand le sous-titre est affiché. Le texte est le texte du sous-titre lui-même.

Toutes les modifications ou révisions sont désormais possibles directement dans l'éditeur de texte et restent compatibles lorsqu'elles sont enregistrées avec l'extension *.srt ou *.vtt. Vous pouvez également prévisualiser les modifications sur la plate-forme vidéo elle-même, dans une application de montage vidéo ou dans un lecteur vidéo.

VLC est un lecteur vidéo open source et multiplateforme populaire qui prend en charge les sous-titres *.srt et *.vtt. Pour lire automatiquement les sous-titres sur une vidéo dans VLC, placez à la fois la vidéo d'origine et le fichier de sous-titres dans le même répertoire avec exactement le même nom de fichier avant l'extension de fichier.

Désormais, lorsque vous ouvrez le fichier vidéo dans VLC, le fichier de sous-titres doit automatiquement être détecté et lu dans la fenêtre du lecteur vidéo.

Nettoyer

Pour éviter des frais futurs, vide ainsi que effacer les compartiments S3 utilisés pour l'entrée et la sortie. Assurez-vous que tous les fichiers nécessaires sont stockés car cela supprimera définitivement tous les objets contenus dans les compartiments. Sur le Transcrire la console, sélectionnez et supprimez les travaux qui ne sont plus nécessaires.

Conclusion

Vous avez maintenant créé un flux de travail complet de création de sous-titres de bout en bout pour augmenter et accélérer votre processus de création de sous-titres vidéo, et tout cela sans écrire de code. En quelques minutes, vous avez créé des compartiments de stockage S3, téléchargé un fichier sur Amazon S3 et utilisé Amazon Transcribe pour la création de sous-titres. Vous pouvez ensuite télécharger les fichiers de sous-titres *.srt et *.vtt résultants pour examen, et les télécharger sur la plate-forme de destination.

Ce flux de travail s'est concentré sur les sous-titres audio/vidéo créés à l'aide de la technologie de reconnaissance automatique de la parole (ASR) d'Amazon Transcribe spécifiquement pour les flux de travail vidéo. Ce flux de travail à lui seul ne remplace pas un processus de sous-titrage humain, qui est capable de répondre à des normes d'accessibilité plus élevées, y compris l'identification du locuteur, les effets sonores, la description de la musique et la révision de la précision. Vous pouvez utiliser la méthode d'édition de texte décrite dans cet article pour ajouter ces éléments une fois la tâche initiale d'Amazon Transcribe terminée. De plus, pour une création, un aperçu et une édition de sous-titres plus avancés basés sur un navigateur, vous pouvez explorer le déploiement de Localisation de contenu sur AWS solution approuvée par AWS Solution Architects et comprend une guide de mise en œuvre. Cette solution offre des fonctionnalités supplémentaires telles que prévisualisation et édition des sous-titres dans le navigateur, traduction des sous-titres alimentée par Amazon Traduire, et les capacités de vision par ordinateur offertes par Amazon Reconnaissance.

Si vous avez apprécié cette démonstration de la capacité d'Amazon Transcribe à créer des sous-titres, envisagez de vous plonger plus profondément dans des fonctionnalités et des capacités supplémentaires pour accélérer vos workflows audio/vidéo. Pour plus de détails et des exemples de code pour prendre en charge l'automatisation et la mise à l'échelle de la création de sous-titres, reportez-vous à Création de sous-titres vidéo. Bonne chance dans votre exploration et développement de votre workflow de création de sous-titres.

À propos de l’auteur

Jason O'Malley est un architecte de solutions partenaire senior chez AWS qui soutient les partenaires qui conçoivent des solutions pour les médias, les communications et les technologies. Avant de rejoindre AWS, Jason a passé 13 ans dans l'industrie des médias et du divertissement dans des entreprises telles que Team Coco de Conan O'Brien, WarnerMedia et Media.Monks. Jason a commencé sa carrière dans la production et la post-production télévisuelle avant de créer des charges de travail multimédia sur AWS. Lorsque Jason ne crée pas de solutions pour les partenaires et les clients, on peut le trouver en train de s'aventurer avec sa femme et son fils, ou de lire sur la durabilité.

Horodatage: 10 mai 2022

Horodatage: Le 10 janvier 2023

Créez des sous-titres vidéo avec Amazon Transcribe à l'aide de ce flux de travail sans code

Republié par Platon

Sous-titres vs sous-titres codés

Vue d'ensemble de la solution

Pré-requis

Créer les compartiments S3

Chargez le fichier source dans le compartiment S3

Créer une tâche de transcription

Examiner la sortie du travail

Nettoyer

Conclusion

À propos de l’auteur

Plus de Apprentissage automatique AWS

Améliorez la précision de la transcription des appels client-agent avec un vocabulaire personnalisé dans Amazon Transcribe

Annonce de la mise à jour du connecteur ServiceNow (V2) pour Amazon Kendra

Comment les fournisseurs de services peuvent utiliser le traitement du langage naturel pour obtenir des informations à partir des tickets clients avec Amazon Comprehend

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte