Amazonas PollyMit einem von der KI generierten Text-to-Speech-Service können Sie Ihre interaktiven Sprachlösungen automatisieren und skalieren, um die Produktivität zu verbessern und die Kosten zu senken.
Da unsere Kunden Amazon Polly weiterhin wegen seiner umfangreichen Funktionen und Benutzerfreundlichkeit verwenden, haben wir eine Nachfrage nach der Möglichkeit festgestellt, gleichzeitig synchronisierte Audio- und Untertitel oder Untertitel für eine bestimmte Texteingabe zu generieren. Bei AWS arbeiten wir kontinuierlich rückwärts von den Anfragen unserer Kunden, daher skizzieren wir in diesem Beitrag eine Methode zum gleichzeitigen Generieren von Audio und Untertiteln für einen bestimmten Text.
Obwohl Untertitel und Bildunterschriften oft synonym verwendet werden, auch in diesem Beitrag, gibt es feine Unterschiede zwischen ihnen:
- Untertitel – In Untertiteln unterscheidet sich die auf dem Bildschirm angezeigte Textsprache von der Audiosprache und zeigt nichts für Nicht-Dialoge wie signifikante Geräusche an. Das Hauptziel besteht darin, das Publikum zu erreichen, das die Audiosprache im Video nicht spricht.
- Untertitel (geschlossen/offen) – Untertitel zeigen die im Audio gesprochenen Dialoge in derselben Sprache an. Sein Hauptzweck besteht darin, die Zugänglichkeit in Fällen zu verbessern, in denen das Audio vom Endverbraucher aufgrund einer Reihe von Problemen nicht gehört werden kann. Untertitel sind Teil einer anderen Datei als die Audio-/Videoquelle und können nach Belieben des Benutzers ein- und ausgeschaltet werden, während offene Untertitel Teil der Videodatei sind und vom Benutzer nicht ausgeschaltet werden können.
Vorteile der Verwendung von Amazon Polly zum Generieren von Audio mit Untertiteln oder Untertiteln
Stellen Sie sich folgenden Anwendungsfall vor: Sie bereiten eine folienbasierte Präsentation für ein Online-Lernportal vor. Jede Folie enthält Bildschirminhalte und Kommentare. Der Inhalt auf dem Bildschirm ist ein grundlegender Überblick, und die Erzählung geht ins Detail. Anstatt eine menschliche Stimme aufzuzeichnen, was umständlich und inkonsistent sein kann, können Sie Amazon Polly verwenden, um die Erzählung zu generieren. Amazon Polly produziert qualitativ hochwertige, konsistente Stimmen. Eine Nachbearbeitung ist nicht erforderlich. Wenn Sie in Zukunft einen Teil der Präsentation aktualisieren müssen, müssen Sie nur die betroffenen Folien aktualisieren. Die Stimme entspricht den Originalfolien. Wenn Amazon Polly Ihr Audio generiert, sind außerdem Untertitel enthalten, die zeitgleich mit dem Audio erscheinen. Sie sparen Zeit, da keine manuelle Aufzeichnung erforderlich ist, und sparen zusätzliche Zeit, wenn Aktualisierungen erforderlich sind. Ihre Präsentation bietet auch mehr Wert, da Untertitel den Schülern helfen, den Inhalt zu konsumieren. Es ist eine Win-Win-Win-Lösung.
Es gibt eine Vielzahl von Anwendungsfällen für Untertitel, wie z. B. Werbung in sozialen Räumen, Turnhallen, Cafés und anderen Orten, an denen normalerweise etwas auf einem Fernseher mit stummgeschaltetem Ton und Musik im Hintergrund läuft; Online-Schulungen und -Kurse; virtuelle Treffen; öffentliche elektronische Bekanntmachungen; beim Pendeln Videos ansehen ohne Kopfhörer und ohne Mitfahrer zu stören; und mehrere mehr.
Unabhängig vom Einsatzgebiet kann Closed Captioning bei Folgendem helfen:
- Zugänglichkeit – Menschen mit Hörbehinderungen können Ihre Inhalte besser konsumieren.
- Speicherung – Online-Lernen ist für E-Lerner leichter zu verstehen und zu behalten, wenn mehr menschliche Sinne einbezogen werden.
- Erreichbarkeit – Ihre Inhalte können Menschen erreichen, die konkurrierende Prioritäten haben, wie z. B. gleichzeitig spielen und Nachrichten ansehen, oder Menschen, die eine andere Muttersprache als die Audiosprache haben.
- Auffindbarkeit – Der Inhalt ist durch Suchmaschinen durchsuchbar. Während Videos von den meisten Suchmaschinen nicht optimal durchsucht werden können, können Suchmaschinen die Untertitel-Textdateien verwenden und Ihre Inhalte besser auffindbar machen.
- Soziale Höflichkeit – Manchmal kann es aufgrund Ihrer Umgebung unhöflich sein, Audio abzuspielen, oder das Audio kann aufgrund der Geräusche Ihrer Umgebung schwer zu hören sein.
- Verständnis – Der Inhalt ist leichter verständlich, unabhängig vom Akzent des Sprechers, der Muttersprache des Sprechers oder der Sprechgeschwindigkeit. Sie können sich auch Notizen machen, ohne dieselbe Szene wiederholt anzusehen.
Lösungsüberblick
Die in diesem Beitrag vorgestellte Bibliothek verwendet Amazon Polly, um Ton und Untertitel für einen Eingabetext zu generieren. Sie können diese Bibliothek einfach in Ihre Text-to-Speech-Anwendungen integrieren. Es unterstützt mehrere Audioformate und Untertitel in den Dateiformaten VTT und SRT, die branchenweit am häufigsten verwendet werden.
In diesem Beitrag konzentrieren wir uns auf die PollyVTT()
Syntax und Optionen und bieten einige Beispiele, die die Verwendung von Python demonstrieren SubtitleGeneratorForPolly
um gleichzeitig synchrone Audio- und Untertiteldateien für eine gegebene Texteingabe zu erzeugen. Das Ausgabe-Audiodateiformat kann PCM(wav), OGG oder MP3 sein, und das Untertiteldateiformat kann VTT oder SRT sein. Außerdem, SubtitleGeneratorForPolly
unterstützt alle Amazon Polly synthesize_speech
Parameter und fügt dem umfangreichen Funktionsumfang von Amazon Polly hinzu.
Das polly-vtt
Bibliothek und ihre Abhängigkeiten sind verfügbar unter GitHub.
Installieren und verwenden Sie die Funktion
Bevor wir uns einige Anwendungsbeispiele ansehen PollyVTT()
, die Funktion, die Kräfte SubtitleGeneratorForPolly
, schauen wir uns die Installation und Syntax an.
Installieren Sie die Bibliothek mit dem folgenden Code:
Um von der Befehlszeile aus auszuführen, führen Sie einfach aus polly-vtt
:
Der folgende Code zeigt Ihre Optionen:
Schauen wir uns jetzt ein paar Beispiele an.
Beispiel 1
Dieses Beispiel generiert eine PCM-Audiodatei zusammen mit einer SRT-Untertiteldatei für zwei einfache Sätze:
Beispiel 2
Dieses Beispiel zeigt, wie Sie einen Textabsatz als Eingabe verwenden. Dadurch werden Audiodateien in WAV, MP3 und OGG sowie Untertitel in SRT und VTT generiert. Das folgende Beispiel erstellt sechs Dateien für den angegebenen Eingabetext:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Siehe folgenden Code:
Beispiel 3
In den meisten Fällen möchten Sie den Text jedoch als Eingabedatei übergeben. Das Folgende ist ein Python-Beispiel dafür, mit der gleichen Ausgabe wie im vorherigen Beispiel:
Das Folgende ist ein Testimonial-Beitrag des internen AWS-Schulungsteams zur Verwendung von Amazon Polly mit Untertiteln:
Das folgende Video bietet eine kurze Demo, wie das interne Schulungsteam bei AWS verwendet PollyVTT()
:
Zusammenfassung
In diesem Beitrag haben wir eine Methode zum gleichzeitigen Generieren von Audio und Untertiteln für einen bestimmten Text geteilt. Das PollyVTT()
Funktion und SubtitleGeneratorForPolly
eine gemeinsame Anforderung für Untertitel auf effiziente und effektive Weise ansprechen. Das Amazon Polly-Team erfindet und bietet weiterhin vereinfachte Lösungen für komplexe Kundenanforderungen.
Weitere Tutorials und Informationen zu Amazon Polly finden Sie unter AWS-Blog für maschinelles Lernen.
Über die Autoren
Abhishek Soni ist Partner Solutions Architect bei AWS. Er arbeitet mit Kunden zusammen, um technische Anleitungen für das beste Ergebnis von Workloads in AWS bereitzustellen.
Dan McKee verwendet Audio, Video und Kaffee, um Inhalte in zielgerichtete, modulare und strukturierte Kurse zu destillieren. In seiner Rolle als Curriculum Developer Project Manager für die NetSec-Domain bei Amazon Web Services nutzt er seine Erfahrung im Data Center Networking, um Fachexperten dabei zu helfen, Ideen zum Leben zu erwecken.
Orlando Karam ist Technical Curriculum Developer bei Amazon Web Services, was bedeutet, dass er mit coolen neuen Technologien spielen und dann darüber sprechen kann. Gelegentlich nutzt er diese coolen Technologien auch, um seine Arbeit zu erleichtern.
- AI
- Kunst
- KI-Kunstgenerator
- KI-Roboter
- Amazonas Polly
- künstliche Intelligenz
- Zertifizierung für künstliche Intelligenz
- Künstliche Intelligenz im Bankwesen
- Roboter mit künstlicher Intelligenz
- Roboter mit künstlicher Intelligenz
- Software für künstliche Intelligenz
- AWS Maschinelles Lernen
- Blockchain
- Blockchain-Konferenz ai
- Einfallsreichtum
- dialogorientierte künstliche Intelligenz
- Krypto-Konferenz ai
- Dalls
- tiefe Lernen
- Google Ai
- Maschinelles Lernen
- Plato
- platon ai
- Datenintelligenz von Plato
- Plato-Spiel
- PlatoData
- Platogaming
- Skala ai
- Syntax
- Zephyrnet