Erstellen Sie Audio für Inhalte in mehreren Sprachen mit derselben TTS-Sprachpersona in Amazon Polly

Neuauflage von Plato

Verfolger: 0

Amazonas Polly ist ein führender Cloud-basierter Dienst, der Text in lebensechte Sprache umwandelt. Nach der Einführung von Neural Text-to-Speech (NTTS) haben wir unser Portfolio an verfügbaren Stimmen kontinuierlich erweitert, um eine große Auswahl an unterschiedlichen Sprechern in unterstützten Sprachen bereitzustellen. Heute freuen wir uns, vier Neuzugänge ankündigen zu können: Pedro spricht US-Spanisch, Daniel spricht Deutsch, Liam spricht kanadisches Französisch und Arthur spricht britisches Englisch. Wie alle neuronalen Stimmen in unserem Portfolio bieten diese Stimmen eine fließende, muttersprachliche Aussprache in ihren Zielsprachen. Das Einzigartige an diesen vier Stimmen ist jedoch, dass sie alle auf derselben Stimme basieren.

Pedro, Daniel, Liam und Arthur wurden einer bestehenden US-englischen Matthew-Stimme nachempfunden. Während Kunden Matthew nach wie vor für seine Natürlichkeit und professionell klingende Qualität schätzen, bedient die Stimme bisher ausschließlich den englischsprachigen Verkehr. Jetzt haben wir mithilfe von Deep-Learning-Methoden die Sprache und die Sprecheridentität entkoppelt, was es uns ermöglichte, eine muttersprachliche Sprachkompetenz über viele Sprachen hinweg zu bewahren, ohne mehrsprachige Daten von demselben Sprecher erhalten zu müssen. In der Praxis bedeutet dies, dass wir die Stimmeigenschaften der US-englischen Matthew-Stimme auf US-Spanisch, Deutsch, kanadisches Französisch und britisches Englisch übertragen haben, was neue Möglichkeiten für Amazon Polly-Kunden eröffnet.

Eine ähnlich klingende Stimme an fünf Orten verfügbar zu haben, erschließt ein großes Potenzial für das Unternehmenswachstum. Erstens können Kunden mit globaler Präsenz ein konsistentes Benutzererlebnis über Sprachen und Regionen hinweg schaffen. Beispielsweise kann ein interaktives Sprachdialogsystem (IVR), das mehrere Sprachen unterstützt, jetzt verschiedene Kundensegmente bedienen, ohne das Gefühl der Marke zu verändern. Dasselbe gilt für alle anderen TTS-Anwendungsfälle, wie z. B. die Sprachausgabe von Nachrichtenartikeln, Bildungsmaterialien oder Podcasts.

Zweitens eignen sich die Stimmen gut für Amazon Polly-Kunden, die nach einer muttersprachlichen Aussprache fremdsprachiger Sätze in einer der fünf unterstützten Sprachen suchen.

Drittens dient die Veröffentlichung von Pedro, Daniel, Liam und Arthur unseren Kunden, die Amazon Polly NTTS in US-Spanisch, Deutsch, kanadischem Französisch und britischem Englisch mögen, aber nach einer hochwertigen männlichen Stimme suchen – sie können diese Stimmen verwenden, um Audio zu erstellen für einsprachige Inhalte und erwarten Sie eine Spitzenqualität, die mit anderen NTTS-Stimmen in diesen Sprachen vergleichbar ist.

Schließlich kann auch die Technologie, die wir entwickelt haben, um die neuen männlichen NTTS-Stimmen zu erzeugen, verwendet werden Markenstimmen. Dadurch können Brand Voice-Kunden nicht nur eine einzigartige NTTS-Stimme genießen, die auf ihre Marke zugeschnitten ist, sondern auch ein konsistentes Erlebnis bewahren, während sie ein internationales Publikum bedienen.

Beispielanwendungsfall

Lassen Sie uns einen beispielhaften Anwendungsfall untersuchen, um zu demonstrieren, was dies in der Praxis bedeutet. Amazon Polly-Kunden, die mit Matthew vertraut sind, können diese Stimme weiterhin wie gewohnt verwenden, indem sie auswählen Uwe auf der Amazon Polly-Konsole und geben einen beliebigen Text ein, den sie in US-Englisch gesprochen hören möchten. Im folgenden Szenario generieren wir Audiobeispiele für ein IVR-System („For English, please press one“):

Dank dieser Version können Sie den Anwendungsfall jetzt erweitern, um ein konsistentes Audioerlebnis in verschiedenen Sprachen bereitzustellen. Alle neuen Stimmen klingen natürlich und behalten einen muttersprachlichen Akzent bei.

Um Sprache in britischem Englisch zu generieren, wählen Sie Arthur („For English, please press one“):
Um einen US-Spanischsprecher zu verwenden, wählen Sie Pedro („Para español, por favor marque dos“):
Daniel bietet Unterstützung auf Deutsch an („Für Deutsch drücken Sie bitte die Drei“):
Sie können Text in kanadischem Französisch synthetisieren, indem Sie Liam auswählen („Pour le français, veuillez appuyer sur le quatre“):

Beachten Sie, dass abgesehen davon, dass mit einem anderen Akzent gesprochen wird, die Arthur-Stimme für UK-Englisch den Eingabetext anders lokalisiert als die Matthew-Stimme für US-Englisch. Zum Beispiel wird „1/2/22“ von Arthur als „1. Februar 2022“ gelesen, während Matthew es als „2. Januar 2022“ liest.

Lassen Sie uns nun diese Eingabeaufforderungen kombinieren:

Zusammenfassung

Pedro, Daniel, Liam und Arthur sind nur als Neural-TTS-Stimmen verfügbar. Um sie also genießen zu können, müssen Sie die Neural-Engine in einer der Stimmen verwenden AWS-Regionen, die NTTS unterstützen. Diese sind hochwertig einsprachige Stimmen in ihren Zielsprachen. Die Tatsache, dass ihre Personas in allen Sprachen konsistent sind, ist ein zusätzlicher Vorteil, von dem wir hoffen, dass er Kunden begeistern wird, die mit Inhalten in mehreren Sprachen arbeiten. Weitere Einzelheiten finden Sie in unserer vollständigen Liste von Amazon Polly Text-zu-Sprache-Stimmen , Neuronale TTS-Preise, Servicelimits und FAQs, und besuchen Sie unsere Preis Seite.

Über die Autoren

Patryk Wainaina ist Sprachingenieur und arbeitet an Text-to-Speech für Englisch, Deutsch und Spanisch. Mit einem Hintergrund in Sprach- und Sprachverarbeitung liegt sein Interesse im maschinellen Lernen, wie es auf TTS-Front-End-Lösungen angewendet wird, insbesondere in Umgebungen mit geringen Ressourcen. In seiner Freizeit hört er gerne elektronische Musik und lernt neue Sprachen.

Marta Smolarek ist Senior Program Manager im Amazon Text-to-Speech-Team, wo sie sich auf den Anwendungsfall Contact Center TTS konzentriert. Sie definiert Go-to-Market-Initiativen, verwendet Kundenfeedback, um die Produkt-Roadmap zu erstellen, und koordiniert TTS-Spracheinführungen. Außerhalb der Arbeit geht sie gerne mit ihrer Familie campen.

Zeitstempel: 28. Juni 2022

Wie Amazon Shopping Amazon Rekognition Content Moderation nutzt, um schädliche Bilder in Produktrezensionen zu überprüfen | Amazon Web Services

Quellcluster:

AWS Maschinelles Lernen

Quellknoten: 1875891

Zeitstempel: 15. August 2023

Erstellen Sie Audio für Inhalte in mehreren Sprachen mit derselben TTS-Sprachpersona in Amazon Polly

Neuauflage von Plato

Beispielanwendungsfall

Zusammenfassung

Über die Autoren

Mehr von AWS Maschinelles Lernen

Wie Amp auf Amazon Daten nutzte, um die Kundenbindung zu steigern, Teil 1: Aufbau einer Datenanalyseplattform

Generieren Sie synchronisierte Untertitel und Audio mit dem Amazon Polly-Untertitelgenerator

Identifizieren Sie Mangrovenwälder mithilfe von Satellitenbildfunktionen mit Amazon SageMaker Studio und Amazon SageMaker Autopilot – Teil 1

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto