Markieren Sie Text, während er gesprochen wird, mit Amazon Polly

Neuauflage von Plato

Verfolger: 0

Amazonas Polly ist ein Dienst, der Texte in lebensechte Sprache umwandelt. Es ermöglicht die Entwicklung einer ganzen Klasse von Anwendungen, die Text in mehreren Sprachen in Sprache umwandeln können.

Dieser Dienst kann von Chatbots, Hörbüchern und anderen Text-to-Speech-Anwendungen in Verbindung mit anderen AWS-KI- oder maschinellen Lerndiensten (ML) verwendet werden. Zum Beispiel, Amazon Lex und Amazon Polly können kombiniert werden, um einen Chatbot zu erstellen, der eine wechselseitige Konversation mit einem Benutzer führt und bestimmte Aufgaben basierend auf den Befehlen des Benutzers ausführt. Amazon Transcribe, Amazon Übersetzenund Amazon Polly können kombiniert werden, um Sprache in Text in der Ausgangssprache zu transkribieren, in eine andere Sprache zu übersetzen und zu sprechen.

In diesem Beitrag stellen wir einen interessanten Ansatz zum Hervorheben von Text vor, während er mit Amazon Polly gesprochen wird. Diese Lösung kann in vielen Text-to-Speech-Anwendungen für Folgendes verwendet werden:

Fügen Sie Audio in Büchern, Websites und Blogs visuelle Funktionen hinzu
Erhöhen Sie das Verständnis, wenn Kunden versuchen, den gesprochenen Text schnell zu verstehen

Unsere Lösung gibt dem Client (in diesem Beispiel dem Browser) die Möglichkeit zu wissen, welcher Text (Wort oder Satz) gerade von Amazon Polly gesprochen wird. Dadurch kann der Kunde den Text während des Sprechens dynamisch hervorheben. Eine solche Fähigkeit ist nützlich, um in den zuvor genannten Anwendungsfällen visuelle Sprachunterstützung bereitzustellen.

Unsere Lösung kann erweitert werden, um neben der Texthervorhebung weitere Aufgaben auszuführen. Beispielsweise kann der Browser im Frontend Bilder anzeigen, Musik abspielen oder andere Animationen ausführen, während der Text gesprochen wird. Diese Funktion ist nützlich für die Erstellung dynamischer Hörbücher, Bildungsinhalte und umfangreicherer Text-to-Speech-Anwendungen.

Lösungsüberblick

Im Kern nutzt die Lösung Amazon Polly, um eine Textfolge in Sprache umzuwandeln. Der Text kann über den Browser oder über einen API-Aufruf an den von unserer Lösung bereitgestellten Endpunkt eingegeben werden. Die von Amazon Polly generierte Rede wird als Audiodatei (MP3-Format) in einem gespeichert Amazon Simple Storage-Service (Amazon S3) Eimer.

Allerdings kann der Browser bei alleiniger Verwendung der Audiodatei nicht erkennen, welche Teile des Textes gerade gesprochen werden, da uns keine detaillierten Informationen darüber vorliegen, wann jedes Wort gesprochen wird.

Amazon Polly bietet eine Möglichkeit, dies mithilfe von Sprachmarkierungen zu erreichen. Sprachmarkierungen werden in einer Textdatei gespeichert, die die Zeit (gemessen in Millisekunden ab Beginn des Audios) anzeigt, zu der jedes Wort oder jeder Satz gesprochen wird.

Amazon Polly gibt Sprachmarkierungsobjekte in einem zeilengetrennten JSON-Stream zurück. Ein Sprachmarkenobjekt enthält die folgenden Felder:

Uhrzeit – Der Zeitstempel in Millisekunden ab Beginn des entsprechenden Audiostreams
Typ – Die Art des Sprachzeichens (Satz, Wort, Mundbild oder SSML)
Startseite – Der Offset in Bytes (nicht Zeichen) des Beginns des Objekts im Eingabetext (ohne Mundzeichen)
Ende – Der Offset in Bytes (nicht Zeichen) des Objektendes im Eingabetext (ohne Mundbildzeichen)
Wert – Dies variiert je nach Art des Sprachzeichens:
- SSML – SSML-Tag
- Mundbild – Der Mundbildname
- Wort oder Satz – Eine Teilzeichenfolge des Eingabetextes, begrenzt durch die Start- und Endfelder

Beispielsweise kann Ihnen der Satz „Maria hatte ein kleines Lamm“ die folgende Sprachmarkendatei liefern, wenn Sie Folgendes verwenden SpeechMarkTypes = [„Wort“, „Satz“] im API-Aufruf, um die Sprachmarken zu erhalten:

{"time":0,"type":"sentence","start":0,"end":23,"value":"Mary had a little lamb."}
{"time":6,"type":"word","start":0,"end":4,"value":"Mary"}
{"time":373,"type":"word","start":5,"end":8,"value":"had"}
{"time":604,"type":"word","start":9,"end":10,"value":"a"}
{"time":643,"type":"word","start":11,"end":17,"value":"little"}
{"time":882,"type":"word","start":18, "end":22,"value":"lamb"}

Das Wort „had“ (am Ende von Zeile 3) beginnt 373 Millisekunden nach Beginn des Audiostreams, beginnt bei Byte 5 und endet bei Byte 8 des Eingabetextes.

Architektur Überblick

Die Architektur unserer Lösung ist im folgenden Diagramm dargestellt.

Markieren Sie mit Amazon Polly den gesprochenen Text

Unsere Website für die Lösung ist auf Amazon S3 als statische Dateien (JavaScript, HTML) gespeichert, die in gehostet werden Amazon CloudFront (1) und an den Browser des Endbenutzers übermittelt (2).

Wenn der Benutzer über ein einfaches HTML-Formular Text in den Browser eingibt, wird dieser von JavaScript im Browser verarbeitet. Dadurch wird eine API (3) aufgerufen Amazon API-Gateway, um ein aufzurufen AWS Lambda Funktion (4). Die Lambda-Funktion ruft Amazon Polly (5) auf, um Sprach- (Audio) und Sprachmarkierungsdateien (JSON) zu generieren. Es werden zwei Anrufe an Amazon Polly getätigt, um die Audio- und Sprachmarkierungsdateien abzurufen. Die Aufrufe erfolgen über asynchrone JavaScript-Funktionen. Die Ausgabe dieser Aufrufe sind die Audio- und Sprachmarkierungsdateien, die in Amazon S3 (6a) gespeichert werden. Um zu vermeiden, dass mehrere Benutzer sich gegenseitig die Dateien im S3-Bucket überschreiben, werden die Dateien in einem Ordner mit Zeitstempel gespeichert. Dies minimiert die Wahrscheinlichkeit, dass zwei Benutzer die Dateien des anderen in Amazon S3 überschreiben. Für eine Produktionsversion können wir robustere Ansätze verwenden, um Benutzerdateien basierend auf Benutzer-ID oder Zeitstempel und anderen eindeutigen Merkmalen zu trennen.

Die Lambda-Funktion erstellt vorsignierte URLs für die Sprach- und Sprachmarkierungsdateien und gibt sie in Form eines Arrays (7, 8, 9) an den Browser zurück.

Wenn der Browser die Textdatei an den API-Endpunkt sendet (3), erhält er in einem synchronen Aufruf zwei vorsignierte URLs für die Audiodatei und die Sprachmarkendatei zurück (9). Dies wird durch das Schlüsselsymbol neben dem Pfeil angezeigt.

Eine JavaScript-Funktion im Browser ruft die Sprachmarkierungsdatei und das Audio von ihren URL-Handles ab (10). Es richtet den Audioplayer für die Audiowiedergabe ein. (Zu diesem Zweck wird der HTML-Audio-Tag verwendet).

Wenn der Benutzer auf die Wiedergabeschaltfläche klickt, werden die im vorherigen Schritt abgerufenen Sprachmarkierungen analysiert, um eine Reihe zeitgesteuerter Ereignisse unter Verwendung von Zeitüberschreitungen zu erstellen. Die Ereignisse rufen eine Rückruffunktion auf, eine weitere JavaScript-Funktion, mit der der gesprochene Text im Browser hervorgehoben wird. Gleichzeitig streamt die JavaScript-Funktion die Audiodatei von ihrem URL-Handle.

Das Ergebnis ist, dass die Ereignisse zu den richtigen Zeiten ausgeführt werden, um den gesprochenen Text während der Audiowiedergabe hervorzuheben. Die Verwendung von JavaScript-Timeouts ermöglicht uns die Synchronisierung des Audios mit dem hervorgehobenen Text.

Voraussetzungen:

Um diese Lösung auszuführen, benötigen Sie eine AWS-Konto sowie einem AWS Identity and Access Management and (IAM) Benutzer, der berechtigt ist, Amazon CloudFront, Amazon API Gateway, Amazon Polly, Amazon S3, AWS Lambda und AWS Step Functions zu verwenden.

Verwenden Sie Lambda, um Sprache und Sprachmarkierungen zu generieren

Der folgende Code ruft Amazon Polly auf synthesize_speech Führen Sie die Funktion zweimal aus, um die Audio- und Sprachmarkierungsdatei abzurufen. Sie werden als asynchrone Funktionen ausgeführt und so koordiniert, dass sie mithilfe von Versprechen gleichzeitig das Ergebnis zurückgeben.

const p1 = new Promise(doSynthesizeSpeech marks);
const p2 = new Promise(doSynthesizeSpeech);
var result; await Promise.all([p1, p2])
.then((values) => {
//return array of presigned urls console.log('Values:', values); result = { "output" : values };
})
.catch((err) => { console.log("Error:" + err); result = err;
});

Auf der JavaScript-Seite erfolgt die Texthervorhebung durch Textmarker (Start, Ende, Wort) und die zeitgesteuerten Ereignisse werden durch festgelegt setTimers():

function highlighter(start, finish, word) { let textarea = document.getElementById("postText"); //console.log(start + "," + finish + "," + word); textarea.focus(); textarea.setSelectionRange(start, finish);
} function setTimers() { let speech marksStr = sessionStorage.getItem("speech marks"); //read through the speech marks file and set timers for every word console.log(speech marksStr); let speech marks = speech marksStr.split("n"); for (let i = 0; i < speech marks.length; i++) { //console.log(i + ":" + speech marks[i]); if (speech marks[i].length == 0) { continue; } smjson = JSON.parse(speech marks[i]); t = smjson["time"]; s = smjson["start"]; f = smjson["end"]; word = smjson["value"]; setTimeout(highlighter, t, s, f, word); }
}

Alternative Ansätze

Anstelle des vorherigen Ansatzes können Sie einige Alternativen in Betracht ziehen:

Erstellen Sie sowohl die Sprachmarkierungen als auch die Audiodateien in einer Step Functions-Zustandsmaschine. Die Zustandsmaschine kann die Parallelverzweigungsbedingung aufrufen, um zwei verschiedene Lambda-Funktionen aufzurufen: eine zum Generieren von Sprache und eine andere zum Generieren von Sprachmarkierungen. Den Code hierfür finden Sie im Verwendung von Schrittfunktionen Unterordner im Github-Repo.
Rufen Sie Amazon Polly asynchron auf, um die Audio- und Sprachmarkierungen zu generieren. Dieser Ansatz kann verwendet werden, wenn der Textinhalt umfangreich ist oder der Benutzer keine Echtzeitantwort benötigt. Weitere Informationen zum Erstellen langer Audiodateien finden Sie unter Lange Audiodateien erstellen.
Lassen Sie Amazon Polly die vorsignierte URL direkt mithilfe von erstellen generate_presigned_url Aufruf des Amazon Polly-Clients in Boto3. Wenn Sie sich für diesen Ansatz entscheiden, generiert Amazon Polly die Audio- und Sprachmarkierungen jedes Mal neu. In unserem aktuellen Ansatz speichern wir diese Dateien in Amazon S3. Obwohl diese gespeicherten Dateien in unserer Version des Codes nicht über den Browser zugänglich sind, können Sie den Code ändern, um zuvor generierte Audiodateien abzuspielen, indem Sie sie von Amazon S3 abrufen (anstatt die Audiodaten für den Text erneut mit Amazon Polly zu generieren). Wir haben mehr Codebeispiele für den Zugriff auf Amazon Polly mit Python in der AWS-Codebibliothek.

Erstellen Sie die Lösung

Die gesamte Lösung erhalten Sie bei uns Github Repo. Um diese Lösung in Ihrem Konto zu erstellen, befolgen Sie die Anweisungen in der Datei README.md. Die Lösung umfasst eine AWS CloudFormation Vorlage zur Bereitstellung Ihrer Ressourcen.

Aufräumen

Um die in dieser Demo erstellten Ressourcen zu bereinigen, führen Sie die folgenden Schritte aus:

Löschen Sie die S3-Buckets, die zum Speichern der CloudFormation-Vorlage (Bucket A), des Quellcodes (Bucket B) und der Website erstellt wurden (pth-cf-text-highlighter-website-[Suffix]).
Löschen Sie den CloudFormation-Stack pth-cf.
Löschen Sie den S3-Bucket mit den Sprachdateien (pth-speech-[Suffix]). Dieser Bucket wurde von der CloudFormation-Vorlage erstellt, um die von Amazon Polly generierten Audio- und Sprachmarkierungsdateien zu speichern.

Zusammenfassung

In diesem Beitrag haben wir ein Beispiel für eine Lösung gezeigt, die mithilfe von Amazon Polly Text hervorheben kann, während er gesprochen wird. Es wurde mit der Sprachmarkierungsfunktion von Amazon Polly entwickelt, die uns Markierungen für die Stelle liefert, an der jedes Wort oder jeder Satz in einer Audiodatei beginnt.

Die Lösung ist als CloudFormation-Vorlage verfügbar. Es kann unverändert für jede Webanwendung bereitgestellt werden, die eine Text-in-Sprache-Konvertierung durchführt. Dies wäre nützlich, um Audio in Büchern, Avataren mit Lippensynchronisationsfunktionen (unter Verwendung von Mundbild-Sprachzeichen), Websites und Blogs visuelle Funktionen hinzuzufügen und Menschen mit Hörbehinderungen zu helfen.

Es kann erweitert werden, um neben der Texthervorhebung weitere Aufgaben auszuführen. Beispielsweise kann der Browser im Frontend Bilder anzeigen, Musik abspielen und andere Animationen ausführen, während der Text gesprochen wird. Diese Funktion kann für die Erstellung dynamischer Hörbücher, Bildungsinhalte und umfangreicherer Text-to-Speech-Anwendungen nützlich sein.

Wir heißen Sie herzlich willkommen, diese Lösung auszuprobieren und über die folgenden Links mehr über die relevanten AWS-Services zu erfahren. Sie können die Funktionalität für Ihre spezifischen Anforderungen erweitern.

Über den Autor

Varad G Varadarajan ist Trusted Advisor und Field CTO für Digital Native Businesses (DNB)-Kunden bei AWS. Er hilft ihnen bei der Entwicklung und dem Aufbau innovativer Lösungen im großen Maßstab mithilfe von AWS-Produkten und -Services. Varads Interessengebiete sind IT-Strategieberatung, Architektur und Produktmanagement. Außerhalb der Arbeit schreibt Varad gerne kreativ, schaut sich mit Familie und Freunden Filme an und reist.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Automobil / Elektrofahrzeuge, Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
BlockOffsets. Modernisierung des Eigentums an Umweltkompensationen. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/highlight-text-as-its-being-spoken-using-amazon-polly/

Zeitstempel: 5. Juli 2023

Zeitstempel: 18. März 2024

Markieren Sie Text während des Sprechens mit Amazon Polly | Amazon Web Services

Neuauflage von Plato

Lösungsüberblick

Architektur Überblick

Voraussetzungen:

Verwenden Sie Lambda, um Sprache und Sprachmarkierungen zu generieren

Alternative Ansätze

Erstellen Sie die Lösung

Aufräumen

Zusammenfassung

Über den Autor

Mehr von AWS Maschinelles Lernen

Transformieren, analysieren und gewinnen Sie Erkenntnisse aus unstrukturierten Gesundheitsdaten mit Amazon HealthLake

Erstellen Sie mithilfe der Amazon SageMaker-Modellregistrierung einen kontoübergreifenden MLOps-Workflow

Segmentierung von Hirntumoren im großen Maßstab mit AWS Inferentia

Verbessern Sie die Preisleistung Ihres Modelltrainings mit heterogenen Amazon SageMaker-Clustern

Vorstellung des benutzerdefinierten Modellprogramms des AWS Generative AI Innovation Center für Anthropic Claude | Amazon Web Services

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto