Generieren Sie synchronisierte Untertitel und Audio mit dem Amazon Polly Subtitle Generator

Neuauflage von Plato

Verfolger: 0

Amazonas PollyMit einem von der KI generierten Text-to-Speech-Service können Sie Ihre interaktiven Sprachlösungen automatisieren und skalieren, um die Produktivität zu verbessern und die Kosten zu senken.

Da unsere Kunden Amazon Polly weiterhin wegen seiner umfangreichen Funktionen und Benutzerfreundlichkeit verwenden, haben wir eine Nachfrage nach der Möglichkeit festgestellt, gleichzeitig synchronisierte Audio- und Untertitel oder Untertitel für eine bestimmte Texteingabe zu generieren. Bei AWS arbeiten wir kontinuierlich rückwärts von den Anfragen unserer Kunden, daher skizzieren wir in diesem Beitrag eine Methode zum gleichzeitigen Generieren von Audio und Untertiteln für einen bestimmten Text.

Obwohl Untertitel und Bildunterschriften oft synonym verwendet werden, auch in diesem Beitrag, gibt es feine Unterschiede zwischen ihnen:

Untertitel – In Untertiteln unterscheidet sich die auf dem Bildschirm angezeigte Textsprache von der Audiosprache und zeigt nichts für Nicht-Dialoge wie signifikante Geräusche an. Das Hauptziel besteht darin, das Publikum zu erreichen, das die Audiosprache im Video nicht spricht.
Untertitel (geschlossen/offen) – Untertitel zeigen die im Audio gesprochenen Dialoge in derselben Sprache an. Sein Hauptzweck besteht darin, die Zugänglichkeit in Fällen zu verbessern, in denen das Audio vom Endverbraucher aufgrund einer Reihe von Problemen nicht gehört werden kann. Untertitel sind Teil einer anderen Datei als die Audio-/Videoquelle und können nach Belieben des Benutzers ein- und ausgeschaltet werden, während offene Untertitel Teil der Videodatei sind und vom Benutzer nicht ausgeschaltet werden können.

Vorteile der Verwendung von Amazon Polly zum Generieren von Audio mit Untertiteln oder Untertiteln

Stellen Sie sich folgenden Anwendungsfall vor: Sie bereiten eine folienbasierte Präsentation für ein Online-Lernportal vor. Jede Folie enthält Bildschirminhalte und Kommentare. Der Inhalt auf dem Bildschirm ist ein grundlegender Überblick, und die Erzählung geht ins Detail. Anstatt eine menschliche Stimme aufzuzeichnen, was umständlich und inkonsistent sein kann, können Sie Amazon Polly verwenden, um die Erzählung zu generieren. Amazon Polly produziert qualitativ hochwertige, konsistente Stimmen. Eine Nachbearbeitung ist nicht erforderlich. Wenn Sie in Zukunft einen Teil der Präsentation aktualisieren müssen, müssen Sie nur die betroffenen Folien aktualisieren. Die Stimme entspricht den Originalfolien. Wenn Amazon Polly Ihr Audio generiert, sind außerdem Untertitel enthalten, die zeitgleich mit dem Audio erscheinen. Sie sparen Zeit, da keine manuelle Aufzeichnung erforderlich ist, und sparen zusätzliche Zeit, wenn Aktualisierungen erforderlich sind. Ihre Präsentation bietet auch mehr Wert, da Untertitel den Schülern helfen, den Inhalt zu konsumieren. Es ist eine Win-Win-Win-Lösung.

Es gibt eine Vielzahl von Anwendungsfällen für Untertitel, wie z. B. Werbung in sozialen Räumen, Turnhallen, Cafés und anderen Orten, an denen normalerweise etwas auf einem Fernseher mit stummgeschaltetem Ton und Musik im Hintergrund läuft; Online-Schulungen und -Kurse; virtuelle Treffen; öffentliche elektronische Bekanntmachungen; beim Pendeln Videos ansehen ohne Kopfhörer und ohne Mitfahrer zu stören; und mehrere mehr.

Unabhängig vom Einsatzgebiet kann Closed Captioning bei Folgendem helfen:

Zugänglichkeit – Menschen mit Hörbehinderungen können Ihre Inhalte besser konsumieren.
Speicherung – Online-Lernen ist für E-Lerner leichter zu verstehen und zu behalten, wenn mehr menschliche Sinne einbezogen werden.
Erreichbarkeit – Ihre Inhalte können Menschen erreichen, die konkurrierende Prioritäten haben, wie z. B. gleichzeitig spielen und Nachrichten ansehen, oder Menschen, die eine andere Muttersprache als die Audiosprache haben.
Auffindbarkeit – Der Inhalt ist durch Suchmaschinen durchsuchbar. Während Videos von den meisten Suchmaschinen nicht optimal durchsucht werden können, können Suchmaschinen die Untertitel-Textdateien verwenden und Ihre Inhalte besser auffindbar machen.
Soziale Höflichkeit – Manchmal kann es aufgrund Ihrer Umgebung unhöflich sein, Audio abzuspielen, oder das Audio kann aufgrund der Geräusche Ihrer Umgebung schwer zu hören sein.
Verständnis – Der Inhalt ist leichter verständlich, unabhängig vom Akzent des Sprechers, der Muttersprache des Sprechers oder der Sprechgeschwindigkeit. Sie können sich auch Notizen machen, ohne dieselbe Szene wiederholt anzusehen.

Lösungsüberblick

Die in diesem Beitrag vorgestellte Bibliothek verwendet Amazon Polly, um Ton und Untertitel für einen Eingabetext zu generieren. Sie können diese Bibliothek einfach in Ihre Text-to-Speech-Anwendungen integrieren. Es unterstützt mehrere Audioformate und Untertitel in den Dateiformaten VTT und SRT, die branchenweit am häufigsten verwendet werden.

In diesem Beitrag konzentrieren wir uns auf die PollyVTT() Syntax und Optionen und bieten einige Beispiele, die die Verwendung von Python demonstrieren SubtitleGeneratorForPolly um gleichzeitig synchrone Audio- und Untertiteldateien für eine gegebene Texteingabe zu erzeugen. Das Ausgabe-Audiodateiformat kann PCM(wav), OGG oder MP3 sein, und das Untertiteldateiformat kann VTT oder SRT sein. Außerdem, SubtitleGeneratorForPolly unterstützt alle Amazon Polly synthesize_speech Parameter und fügt dem umfangreichen Funktionsumfang von Amazon Polly hinzu.

Das polly-vtt Bibliothek und ihre Abhängigkeiten sind verfügbar unter GitHub.

Installieren und verwenden Sie die Funktion

Bevor wir uns einige Anwendungsbeispiele ansehen PollyVTT(), die Funktion, die Kräfte SubtitleGeneratorForPolly, schauen wir uns die Installation und Syntax an.

Installieren Sie die Bibliothek mit dem folgenden Code:

pip install

Um von der Befehlszeile aus auszuführen, führen Sie einfach aus polly-vtt:

Usage: polly-vtt [OPTIONS] BASE_FILENAME VOICE_ID OUTPUT_FORMAT TEXT

Der folgende Code zeigt Ihre Optionen:

--caption-format TEXT 'srt' or 'vtt'
--help Show this message and exit. 

BASE_FILENAME: Base filename for both the audio and caption files 
VOICE_ID: Polly voice to use (Case-sensitive)
OUTPUT_FORMAT: Amazon Polly output format: pcm, mp3, ogg_vorbis 
TEXT: Full text to be digitized 
Caption format: srt or vtt

Schauen wir uns jetzt ein paar Beispiele an.

Beispiel 1

Dieses Beispiel generiert eine PCM-Audiodatei zusammen mit einer SRT-Untertiteldatei für zwei einfache Sätze:

$ polly-vtt testfile Joanna pcm "this is a test. this is a second sentence." --caption-format srt 

testfile.wav written successfully.
testfile.wav.srt written successfully.
Total Audio Length: 0:00:03.017500 
# of Sentences: 2

Beispiel 2

Dieses Beispiel zeigt, wie Sie einen Textabsatz als Eingabe verwenden. Dadurch werden Audiodateien in WAV, MP3 und OGG sowie Untertitel in SRT und VTT generiert. Das folgende Beispiel erstellt sechs Dateien für den angegebenen Eingabetext:

pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt

Siehe folgenden Code:

from polly_vtt import PollyVTT 

text = "News content is shaped by its own unique characteristics. Sentences and paragraphs are usually short and highly in formative because writers have to compress information into a limited space. Depending on the theme, news articles may con tain relevant terminology, place names, abbreviations, people’s names, and quotes. Excellent news writing is clear, precis e, and avoids ambiguity. The writing is dynamic, especially in online articles, because content may get updated multiple times per day as new information becomes available." 

polly_vtt = PollyVTT() 

# pcm with VTT captions 
polly_vtt.generate( 
"pcm_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="pcm", 
) 

# mp3 with VTT captions 
polly_vtt.generate( 
"mp3_testfile", 
Text=text, 
VoiceId="Joanna", 
OutputFormat="mp3", 
)
 
# ogg with SRT captions 
polly_vtt.generate( 
"ogg_testfile", 
"srt",
Text=text, 
VoiceId="Joanna", 
OutputFormat="ogg_vorbis", 
)

Beispiel 3

In den meisten Fällen möchten Sie den Text jedoch als Eingabedatei übergeben. Das Folgende ist ein Python-Beispiel dafür, mit der gleichen Ausgabe wie im vorherigen Beispiel:

from polly_vtt import PollyVTT
import os
import boto3
import json

polly_vtt = PollyVTT()

try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"pcm_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="pcm",
	)
	f.close()
except:
	print("error occurred while converting to PCM")
print("end of file")

# mp3 with VTT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"mp3_testfile",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="mp3",
	)
	f.close()
except:
	print("error occurred while converting to MP3")
print("end of file")

# ogg with SRT captions
try:
	f=open("input.txt", "r")
	print("file is opened")
	polly_vtt.generate(
	"ogg_testfile",
	"srt",
	Text=f.read(),
	VoiceId="Joanna",
	OutputFormat="ogg_vorbis",
	)
	f.close()
except:
	print("error occurred while converting to OGG")
print("end of file")

Das Folgende ist ein Testimonial-Beitrag des internen AWS-Schulungsteams zur Verwendung von Amazon Polly mit Untertiteln:

Das folgende Video bietet eine kurze Demo, wie das interne Schulungsteam bei AWS verwendet PollyVTT():

Zusammenfassung

In diesem Beitrag haben wir eine Methode zum gleichzeitigen Generieren von Audio und Untertiteln für einen bestimmten Text geteilt. Das PollyVTT() Funktion und SubtitleGeneratorForPolly eine gemeinsame Anforderung für Untertitel auf effiziente und effektive Weise ansprechen. Das Amazon Polly-Team erfindet und bietet weiterhin vereinfachte Lösungen für komplexe Kundenanforderungen.

Weitere Tutorials und Informationen zu Amazon Polly finden Sie unter AWS-Blog für maschinelles Lernen.

Über die Autoren

Abhishek Soni ist Partner Solutions Architect bei AWS. Er arbeitet mit Kunden zusammen, um technische Anleitungen für das beste Ergebnis von Workloads in AWS bereitzustellen.

Dan McKee verwendet Audio, Video und Kaffee, um Inhalte in zielgerichtete, modulare und strukturierte Kurse zu destillieren. In seiner Rolle als Curriculum Developer Project Manager für die NetSec-Domain bei Amazon Web Services nutzt er seine Erfahrung im Data Center Networking, um Fachexperten dabei zu helfen, Ideen zum Leben zu erwecken.

Orlando Karam ist Technical Curriculum Developer bei Amazon Web Services, was bedeutet, dass er mit coolen neuen Technologien spielen und dann darüber sprechen kann. Gelegentlich nutzt er diese coolen Technologien auch, um seine Arbeit zu erleichtern.