Erstellen Sie Videountertitel mit Amazon Transcribe mit diesem No-Code-Workflow

Neuauflage von Plato

Verfolger: 0

Die Erstellung von Untertiteln für Videoinhalte stellt Herausforderungen dar, egal wie groß oder klein das Unternehmen ist. Um diese Herausforderungen anzugehen, Amazon Transcribe hat eine hilfreiche Funktion, die die Erstellung von Untertiteln direkt innerhalb des Dienstes ermöglicht. Es ist kein maschinelles Lernen (ML) oder Codeschreiben erforderlich, um loszulegen. Dieser Beitrag führt Sie durch die Einrichtung eines No-Code-Workflows zum Erstellen von Videountertiteln mit Amazon Transcribe in Ihrem Amazon Web Services-Konto.

Untertitel vs. Untertitel

Die Begriffe Untertitel und Untertitel werden üblicherweise synonym verwendet, und beide beziehen sich auf gesprochenen Text, der auf dem Bildschirm angezeigt wird. Ein Hauptunterschied zwischen Untertiteln und erweiterten Untertiteln (basierend auf Branchen- und Barrierefreiheitsdefinitionen) besteht jedoch darin, dass erweiterte Untertitel sowohl die Transkription des gesprochenen Wortes als auch eine Beschreibung der Hintergrundmusik oder Geräusche enthalten, die in der Audiospur vorkommen, um eine umfassendere Barrierefreiheit zu ermöglichen . Dieser Beitrag konzentriert sich nur auf die Erstellung von transkribierten Untertiteldateien mit gesprochenem Wort unter Verwendung der automatischen Spracherkennungstechnologie (ASR), die keine Sprecheridentifikation, Soundeffekte oder Musikbeschreibungen enthält. Amazon Transcribe unterstützt die branchenüblichen Formate SubRip Text (*.srt) und Web Video Text Tracks (*.vtt) für Untertitelerstellung.

Das folgende Bild zeigt ein Beispiel für eingeschaltete Untertitel in einem Webvideoplayer.

Untertitel kommen Videokünstlern zugute, indem sie sowohl die Reichweite als auch die Inklusivität ihrer Videoinhalte erhöhen. Durch die Anzeige des gesprochenen Audioteils eines Videos auf dem Bildschirm machen Untertitel Audio-/Videoinhalte für ein größeres Publikum zugänglich, einschließlich derer, die keine Muttersprachler sind, und derer, die sich in einer Umgebung befinden, in der der Ton nicht hörbar ist.

Obwohl die Vorteile von Untertiteln klar sind, stoßen Videokünstler traditionell auf Hindernisse bei der Erstellung von Untertiteln. Hindernisse ergeben sich aus den zeit- und ressourcenintensiven Anforderungen des traditionellen Erstellungsprozesses, die stark auf manuellen Aufwand angewiesen sind. Herkömmliche Untertitelungsmethoden sind manuell und können Tage bis Wochen dauern und sind daher möglicherweise nicht mit allen Produktionsplänen kompatibel. Ebenso nutzen viele Unternehmen manuelle Transkriptionsdienste, aber diese Prozesse lassen sich oft nicht skalieren und sind teuer in der Wartung. Amazon Transcribe macht es Ihnen leicht, Sprache mithilfe von ML-basierten Technologien in Text umzuwandeln, und hilft Videokünstlern, diese Probleme zu lösen.

Lösungsüberblick

Dieser Beitrag geht durch einen No-Code-Workflow zum Generieren von Untertiteln Amazon Simple Storage-Service (Amazon S3) und Amazon Transcribe.

Amazon S3 ist ein Objektspeicher zum Speichern und Abrufen beliebiger Datenmengen von überall. Dieser Beitrag führt Sie durch den Prozess Erstellen Sie einen S3-Bucket und eine Audiodatei hochladen. Wenn Benutzer Daten in Amazon S3 speichern, arbeiten sie mit Ressourcen, die als Buckets und Objekte bekannt sind. EIN Eimer ist ein Container für Objekte. Ein Objekt ist eine Datei und alle Metadaten, die diese Datei beschreiben.

Amazon Transcribe ist ein ASR-Dienst, der vollständig verwaltete und kontinuierlich trainierte ML-Modelle verwendet, um Audio-/Videodateien in Text umzuwandeln. Amazon Transcribe-Eingaben und -Ausgaben werden in Amazon S3 gespeichert. Amazon Transcribe nimmt Audiodaten, entweder eine Mediendatei in einem Amazon S3-Bucket oder einen Medienstream, und wandelt sie in Textdaten um. Mit Amazon Transcribe können Sie Audioeingaben aufnehmen, leicht lesbare Transkripte mit einem hohen Maß an Genauigkeit erstellen und Ihre Ausgabe an domänenspezifisches Vokabular anpassen benutzerdefinierte Sprachmodelle (CLM) und benutzerdefinierte Vokabeln und Inhalte filtern, um die Privatsphäre der Kunden zu gewährleisten. Kunden können Amazon Transcribe für eine Vielzahl von Geschäftsanwendungen verwenden, darunter Transkription von sprachbasierten Kundendienstanrufen, Generierung von Untertiteln für Audio-/Videoinhalte und (textbasierte) Inhaltsanalysen durchführen zu Audio-/Videoinhalten. Für diesen Beitrag demonstrieren wir das Erstellen eines Transkriptionsauftrags und das Überprüfen der Auftragsausgabe.

Wenn Sie eine Video-Komplettlösung bevorzugen, lesen Sie die Video-Snacks-Episode von Amazon Transcribe Videountertitel erstellen, ohne Code zu schreiben.

Voraussetzungen:

Um durch die Lösung zu gehen, müssen Sie die folgenden Voraussetzungen erfüllen:

An AWS-Konto mit ausreichend AWS Identity and Access Management and (IAM)-Benutzerrechte
Eine Audio-/Videodatei mit gesprochenen Worten in einer Von Amazon Transcribe unterstützte Sprache und erhältlich unterstütztes Eingabeformat

Wenn Sie noch keine Beispiel-Audio-/Videodatei haben, können Sie eine mit einer Videoaufzeichnungsanwendung auf Ihrem Computer oder Smartphone erstellen. Stellen Sie sicher, dass Sie deutlich in das Mikrofon sprechen, um bei der Aufnahme die höchste Transkriptionsqualität zu gewährleisten. Eine andere Möglichkeit ist, einen frei verfügbaren Download mit gesprochenem Wort zu finden, wie ein Podcast, oder die in diesem Beitrag bereitgestellte Video-Komplettlösung, die von Amazon Transcribe aufgenommen werden kann. Die aufgezeichnete oder heruntergeladene Datei muss auf Ihrem Desktop zugänglich sein, damit sie in Ihr AWS-Konto hochgeladen werden kann.

Bevor Sie beginnen, überprüfen Sie die Amazon Transcribe und Amazon S3 Preisseiten für Servicepreise.

Erstellen Sie die S3-Buckets

Für diesen Beitrag erstellen wir zwei S3-Buckets, um Eingabe und Ausgabe getrennt zu halten.

Wählen Sie in der Amazon S3-Konsole aus Eimer erstellen.
Geben Sie jedem Bucket einen global eindeutigen Namen.
Verwenden Sie die Standardeinstellungen, um die Einhaltung der Richtlinien Ihrer Organisation sicherzustellen.
Ermöglichen Bucket-Versionierung und standardmäßige serverseitige Verschlüsselung (empfohlen).
Auswählen Eimer erstellen.

Der folgende Screenshot zeigt die Konfiguration für den Eingabe-Bucket.

Der S3-Bucket für die Eingabe ist jetzt bereit, die Audio-/Videodatei hochzuladen. Zum Zeitpunkt dieser Veröffentlichung war die Die maximale Eingabegröße für Amazon Transcribe beträgt 2 GB. Wenn die Videodatei diese Menge überschreitet oder sich in einem Format, das von Amazon Transcribe nicht nativ unterstützt wirderwägen, zu verwenden AWS Elemental MediaConvert zu Erstellen Sie eine reine Audioausgabe. Dies ist vorteilhaft, da Audiodateien normalerweise viel kleiner als Videodateien sind und Amazon Transcribe nur die Audiospur und nicht die Videospur benötigt, um Transkriptionen und Untertitel zu generieren.

Laden Sie die Quelldatei in den S3-Bucket hoch

Führen Sie die folgenden Schritte aus, um Ihre Quelldatei hochzuladen:

Wählen Sie auf der Amazon S3-Konsole Ihren Eingabe-Bucket aus.
Auswählen Hochladen.
Wählen Sie die Datei von Ihrem Desktop aus.
Akzeptieren Sie die standardmäßigen Speicherklassen- und Verschlüsselungseinstellungen oder ändern Sie sie basierend auf den Richtlinien Ihrer Organisation.
Auswählen Hochladen.

Erstellen Sie einen Transkriptionsauftrag

Nachdem die Eingabedatei in Amazon S3 fertig ist, erstellen wir jetzt einen Transkriptionsauftrag in Amazon Transcribe.

Auf dem Amazon Transcribe-Konsole, wählen Transkriptionsjobs im Navigationsbereich.
Auswählen Job erstellen.

Diese exemplarische Vorgehensweise verwendet weitgehend Standardoptionen; Sie sollten jedoch die Konfiguration wählen, die den Anforderungen Ihrer Organisation am besten entspricht.

Aussichten für Name und Vorname, geben Sie einen Namen für diesen Job und die resultierende Datei ein.
Aussichten für SpracheinstellungenWählen Spezifische Sprache.
Aussichten für Sprache, wählen Sie die Ausgangssprache der Eingabedatei.
Aussichten für Modelltypwählen Allgemeines Modell.

Wir verwenden das allgemeine Modell für diese Demo, aber wir empfehlen Ihnen, das Training und die Verwendung zu erkunden benutzerdefinierte Sprachmodelle für eine verbesserte Genauigkeit für bestimmte Anwendungsfälle wie branchenspezifische Begriffe oder Akronyme. Um tiefer in benutzerdefinierte Sprachmodelle einzutauchen, sehen Sie sich den Video-Snack von Amazon Transcribe an Verwenden von benutzerdefinierten Sprachmodellen (CLM), um die Transkriptionsgenauigkeit zu verbessern.

Aussichten für Speicherort der Eingabedatei auf S3, wählen Durchsuchen Sie S3.
Wählen Sie den Eingabe-Bucket und die zu transkribierende Audio-/Videodatei aus.
Aussichten für Informationen zum Speicherort der AusgabedatenWählen Vom Kunden angegebener S3-Bucket.
Aussichten für Ziel der Ausgabedatei auf S3, wählen Durchsuchen Sie S3.
Wählen Sie den neu erstellten Ausgabe-Bucket aus.

Das Untertiteldateiformat Abschnitt enthält die beiden wichtigsten Optionen dieses gesamten Beitrags. Sie können die formatierten *.srt- und *.vtt-Ausgaben als Teil des Amazon Transcribe-Transkriptionsauftrags auswählen. Zum Zeitpunkt der Erstellung dieses Artikels verursacht die Auswahl eines oder beider keine zusätzlichen Kosten für den Amazon Transcribe-Auftrag.

Wählen Sie für diesen Beitrag beides aus SRT und MTB.
Aussichten für Geben Sie den Startindex an, wählen 0 or 1.

Dieser Wert bezieht sich auf die Startnummer des ersten Untertitels in Folge. Wenn Sie sich nicht sicher sind, welchen Wert Sie wählen sollen, 1 ist am häufigsten.

Wenn die Einstellungen vorgenommen wurden, wählen Sie Weiter.
Konfigurieren Sie alle optionalen Einstellungen gemäß Ihren Anforderungen.

Amazon Transcribe bietet Optionen zur Audioidentifikation für Kanäle or Lautsprecher, alternative Ergebnisse, PII-Schwärzung, Vokabeln filtern und benutzerdefiniertes Vokabular. Für diesen speziellen Beitrag können Sie diese Konfigurationsoptionen überspringen. Sehen Sie sich die Amazon Transcribe-Video-Snack-Episoden für einen tieferen Einblick in die Jobkonfigurationsoptionen an benutzerdefiniertes Vokabular, benutzerdefinierte Sprachmodelle und Vokabeln filtern.

Auswählen Job erstellen.

Überprüfen Sie die Jobausgabe

Der Transkriptionsauftrag zum Erstellen Ihrer Videountertitel beginnt. Der Auftragsstatus, wie im folgenden Screenshot gezeigt, wird im Bereich Auftragsdetails angezeigt. Wenn der Job abgeschlossen ist, wählen Sie den Speicherort der Ausgabedaten aus, um die neu erstellten Untertitel im S3-Bucket zu finden.

Untertitel werden durch die Erweiterungen *.srt oder *.vtt gekennzeichnet. Wenn Sie das Objekt im S3-Bucket auswählen, haben Sie die Möglichkeit, die Datei herunterzuladen.

Da diese Untertitel im Nur-Text-Format vorliegen, kann jeder Texteditor die resultierende Transkription anzeigen und bearbeiten. Der Vergleich der *.srt- und *.vtt-Dateien zeigt viele Ähnlichkeiten mit feinen Unterschieden.

Das Folgende ist ein Beispiel für das *.srt-Format:

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

Das Folgende ist ein Beispiel für das *.vtt-Format:

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

Die Zahlen geben die Reihenfolge an, in der die Untertitel angezeigt werden. Der Timecode gibt an, wann der Untertitel angezeigt wird. Der Text ist der Untertiteltext selbst.

Alle Änderungen oder Überarbeitungen sind jetzt direkt im Texteditor möglich und bleiben kompatibel, wenn sie mit der Erweiterung *.srt oder *.vtt gespeichert werden. Sie können Änderungen auch auf der Videoplattform selbst, in einer Videobearbeitungsanwendung oder in einem Videoplayer in der Vorschau anzeigen.

VLC ist ein beliebter Open-Source- und plattformübergreifender Videoplayer, der *.srt- und *.vtt-Untertitel unterstützt. Um Untertitel automatisch über ein Video in VLC abzuspielen, platzieren Sie sowohl das Originalvideo als auch die Untertiteldatei im selben Verzeichnis mit genau demselben Dateinamen vor der Dateierweiterung.

Wenn Sie nun die Videodatei in VLC öffnen, sollte die Untertiteldatei automatisch erkannt und im Videoplayer-Fenster wiedergegeben werden.

Aufräumen

Um zukünftige Gebühren zu vermeiden, leer und löschen die für Eingabe und Ausgabe verwendeten S3-Buckets. Stellen Sie sicher, dass Sie alle erforderlichen Dateien gespeichert haben, da dadurch alle in den Buckets enthaltenen Objekte dauerhaft entfernt werden. Auf der Konsole transkribieren, markieren und löschen Sie nicht mehr benötigte Jobs.

Zusammenfassung

Sie haben jetzt einen vollständigen End-to-End-Workflow zur Untertitelerstellung erstellt, um Ihren Prozess zur Erstellung von Videountertiteln zu erweitern und zu beschleunigen, und das alles, ohne Code schreiben zu müssen. Innerhalb weniger Minuten haben Sie S3-Speicher-Buckets erstellt, eine Datei auf Amazon S3 hochgeladen und Amazon Transcribe für die Untertitelerstellung verwendet. Anschließend können Sie die resultierenden *.srt- und *.vtt-Untertiteldateien zur Überprüfung herunterladen und auf die Zielplattform hochladen.

Dieser Workflow konzentrierte sich auf Audio-/Video-Untertitel, die mit der automatischen Spracherkennungstechnologie (ASR) in Amazon Transcribe speziell für Video-Workflows erstellt wurden. Dieser Workflow allein ist kein Ersatz für einen von Menschen durchgeführten Untertitelungsprozess, der höhere Standards für die Barrierefreiheit erfüllen kann, einschließlich Sprecheridentifikation, Soundeffekte, Musikbeschreibung und Lektoratsprüfung auf Genauigkeit. Sie können die in diesem Beitrag beschriebene Textbearbeitungsmethode verwenden, um diese Elemente hinzuzufügen, nachdem der ursprüngliche Amazon Transcribe-Auftrag abgeschlossen ist. Darüber hinaus können Sie für eine erweiterte browserbasierte Untertitelerstellung, Vorschau und Textbearbeitung die Bereitstellung von erkunden Lokalisierung von Inhalten auf AWS Lösung, die von AWS Solution Architects geprüft wurde und eine Implementierungsanleitung. Diese Lösung bietet zusätzliche Funktionen wie z Vorschau im Browser und Bearbeiten von Untertiteln, Untertitelübersetzung powered by Amazon Übersetzenund Computer-Vision-Fähigkeiten, die von angeboten werden Amazon-Anerkennung.

Wenn Ihnen diese Demonstration der Fähigkeit von Amazon Transcribe zum Erstellen von Untertiteln gefallen hat, sollten Sie in Betracht ziehen, sich eingehender mit zusätzlichen Funktionen und Möglichkeiten zu befassen, um Ihre Audio-/Video-Workflows zu beschleunigen. Weitere Details und Codebeispiele zur Unterstützung der Automatisierung und Skalierung der Untertitelerstellung finden Sie unter Erstellen von Videountertiteln. Viel Glück bei Ihrer Erforschung und Entwicklung Ihres Workflows zur Untertitelerstellung.

Über den Autor

Jason O'Malley ist Sr. Partner Solutions Architect bei AWS und unterstützt Partner, die Lösungen für die Medien-, Kommunikations- und Technologiebranche entwickeln. Bevor er zu AWS kam, verbrachte Jason 13 Jahre in der Medien- und Unterhaltungsbranche bei Unternehmen wie Conan O'Briens Team Coco, WarnerMedia und Media.Monks. Jason begann seine Karriere in der Fernsehproduktion und Postproduktion, bevor er Medien-Workloads auf AWS erstellte. Wenn Jason keine Lösungen für Partner und Kunden entwickelt, ist er mit seiner Frau und seinem Sohn auf Abenteuerreise oder liest etwas über Nachhaltigkeit.

Zeitstempel: 10. Mai 2022

Zeitstempel: Jan 10, 2023

Erstellen Sie mithilfe dieses No-Code-Workflows Videountertitel mit Amazon Transcribe

Neuauflage von Plato

Untertitel vs. Untertitel

Lösungsüberblick

Voraussetzungen:

Erstellen Sie die S3-Buckets

Laden Sie die Quelldatei in den S3-Bucket hoch

Erstellen Sie einen Transkriptionsauftrag

Überprüfen Sie die Jobausgabe

Aufräumen

Zusammenfassung

Über den Autor

Mehr von AWS Maschinelles Lernen

Verbessern Sie die Transkriptionsgenauigkeit von Kunden-Agent-Anrufen mit benutzerdefiniertem Vokabular in Amazon Transcribe

Ankündigung des aktualisierten ServiceNow-Konnektors (V2) für Amazon Kendra

Wie Dienstleister die Verarbeitung natürlicher Sprache nutzen können, um mit Amazon Comprehend Erkenntnisse aus Kundentickets zu gewinnen

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto