Amazonas Polly ist eine Text zu Sprache Dienst, der fortschrittliche Deep-Learning-Technologien verwendet, um natürlich klingende menschliche Sprache zu synthetisieren. Es wird in einer Vielzahl von Anwendungsfällen verwendet, z. B. in Contact-Center-Systemen, die Benutzererfahrungen im Dialog mit menschenähnlichen Stimmen für die automatisierte Echtzeit-Statusprüfung, automatisierte Konto- und Rechnungsabfragen und von Nachrichtenagenturen wie der Washington Post bereitstellen Lesern das Anhören von Nachrichtenartikeln zu ermöglichen.
Ab heute bietet Amazon Polly über 60 Stimmen in über 30 Sprachvarianten. Amazon Polly verwendet auch den Kontext, um bestimmte Wörter basierend auf der Zeitform des Verbs und anderen Kontextinformationen unterschiedlich auszusprechen. Zum Beispiel wird „read“ in „I read a book“ (Präsens) und „I will read a book“ (Futur) unterschiedlich ausgesprochen.
In einigen Situationen möchten Sie jedoch möglicherweise die Art und Weise anpassen, wie Amazon Polly ein Wort ausspricht. Beispielsweise müssen Sie möglicherweise die Aussprache mit dem lokalen Dialekt oder der Umgangssprache abgleichen. Namen von Dingen (z. B. Tomate kann ausgesprochen werden als tom-ah-zu or tom-ay-zu), Menschen, Straßen oder Orte werden oft sehr unterschiedlich ausgesprochen.
In diesem Beitrag zeigen wir, wie Sie Lexika zum Erstellen benutzerdefinierter Aussprachen nutzen können. Sie können Lexika für Anwendungsfälle wie Verlagswesen, Bildung oder Callcenter anwenden.
Passen Sie die Aussprache mit dem SSML-Tag an
Angenommen, Sie streamen einen beliebten Podcast aus Australien und verwenden die Stimme von Amazon Polly Australian English (Olivia), um Ihr Skript in menschenähnliche Sprache umzuwandeln. In einem Ihrer Skripte möchten Sie Wörter verwenden, die der Amazon Polly-Stimme unbekannt sind. Sie möchten beispielsweise Mātariki-Grüße (Māori-Neujahr) an Ihre neuseeländischen Zuhörer senden. Für solche Szenarien unterstützt Amazon Polly die phonetische Aussprache, die Sie verwenden können, um eine Aussprache zu erreichen, die der korrekten Aussprache in der Fremdsprache nahe kommt.
Du kannst den ... benutzen Sprachsynthese-Auszeichnungssprache (SSML)-Tag, um eine phonetische Aussprache im ph-Attribut vorzuschlagen. Lassen Sie mich Ihnen zeigen, wie Sie es verwenden können SSML-Tag.
Melden Sie sich zunächst bei Ihrem an AWS-Konsole und suchen Sie in der Suchleiste oben nach Amazon Polly. Wählen Sie Amazon Polly und dann die Schaltfläche Polly testen aus.
Wählen Sie in der Amazon Polly-Konsole australisches Englisch aus der Dropdown-Liste Sprache aus und geben Sie den folgenden Text in das Textfeld Eingabe ein und klicken Sie dann auf Anhören, um die Aussprache zu testen.
Ich wünsche Ihnen allen ein frohes Mātariki.
Beispielsprache ohne Anwendung der phonetischen Aussprache:
Wenn Sie die obige Beispielsprache hören, können Sie feststellen, dass die Aussprache von Mātariki – ein Wort, das nicht zum australischen Englisch gehört – ist nicht ganz zutreffend. Schauen wir uns nun an, wie wir in solchen Szenarien die phonetische Aussprache verwenden können SSML-Tag zum Anpassen der von Amazon Polly erzeugten Sprache.
Um SSML-Tags zu verwenden, aktivieren Sie die SSML-Option in der Amazon Polly-Konsole. Kopieren Sie dann das folgende SSML-Skript, das die phonetische Aussprache für enthält, und fügen Sie es ein Mātariki innerhalb des ph-Attributs der angegeben Schild.
Mit der Schildverwendet Amazon Polly die durch das Attribut ph angegebene Aussprache anstelle der Standardaussprache, die standardmäßig mit der von der ausgewählten Stimme verwendeten Sprache verknüpft ist.
Beispielsprache nach Anwendung der phonetischen Aussprache:
Wenn Sie den Beispielton hören, werden Sie feststellen, dass wir für einige Vokale (z. B. ā) eine andere Aussprache gewählt haben, damit Amazon Polly die Töne synthetisiert, die der korrekten Aussprache näher kommen. Jetzt haben Sie vielleicht eine Frage, wie erstelle ich die phonetische Transkription?mA:.tA:.ri.ki“ für das Wort Mātariki?
Sie können phonetische Transkriptionen erstellen, indem Sie sich auf die beziehen Phonem- und Viseme-Tabellen für die unterstützten Sprachen. Im obigen Beispiel haben wir die verwendet Phoneme für australisches Englisch.
Amazon Polly bietet Unterstützung in zwei phonetischen Alphabeten: IPA und X-Sampa. Der Vorteil von X-Sampa ist, dass es sich um Standard-ASCII-Zeichen handelt, sodass es einfacher ist, die phonetische Transkription mit einer normalen Tastatur einzugeben. Sie können entweder IPA oder X-Sampa verwenden, um Ihre Transkriptionen zu erstellen, aber stellen Sie sicher, dass Sie bei Ihrer Wahl konsistent bleiben, insbesondere wenn Sie eine Lexikondatei verwenden, die wir im nächsten Abschnitt behandeln werden.
Jedes Phonem in der Phonemtabelle repräsentiert einen Sprachlaut. Die fettgedruckten Buchstaben in der "Beispiel" Spalte der Phonem/Viseme-Tabelle auf der oben verlinkten australischen englischen Seite stellen den Teil des Wortes dar, dem das „Phonem“ entspricht. Zum Beispiel stellt das Phonem /j/ den Ton dar, den ein Sprecher des australischen Englisch macht, wenn er den Buchstaben „y“ in „yes“ ausspricht.
Passen Sie die Aussprache mithilfe von Lexika an
Phoneme-Tags eignen sich für einmalige Situationen, um Einzelfälle anzupassen, diese sind jedoch nicht skalierbar. Wenn Sie große Textmengen verarbeiten, die von verschiedenen Redakteuren und Lektoren verwaltet werden, empfehlen wir die Verwendung von Lexika. Mithilfe von Lexika können Sie Konsistenz beim Hinzufügen benutzerdefinierter Aussprachen erreichen und gleichzeitig den manuellen Aufwand zum Einfügen von Phonem-Tags in das Skript reduzieren.
Es hat sich bewährt, nach dem Testen der benutzerdefinierten Aussprache auf der Amazon Polly-Konsole mit dem -Tag erstellen Sie eine Bibliothek mit benutzerdefinierten Aussprachen Lexika. Sobald die Lexikondatei hochgeladen wurde, wendet Amazon Polly automatisch die phonetische Aussprache an, die in der Lexikondatei angegeben ist, und eliminiert die Notwendigkeit, manuell eine Schild.
Erstellen Sie eine Lexikondatei
Eine Lexikondatei enthält die Zuordnung zwischen Wörtern und ihrer phonetischen Aussprache. Aussprachelexikon-Spezifikation (PLS) ist eine W3C-Empfehlung zur Angabe interoperabler Ausspracheinformationen. Das Folgende ist ein Beispiel für ein PLS-Dokument:
Stellen Sie sicher, dass Sie den richtigen Wert für verwenden xml:lang
Gebiet. Verwenden en-AU
wenn Sie die Lexikondatei hochladen, die mit der Amazon Polly-Stimme für australisches Englisch verwendet werden soll. Eine vollständige Liste der unterstützten Sprachen finden Sie unter Von Amazon Polly unterstützte Sprachen.
Um eine benutzerdefinierte Aussprache festzulegen, müssen Sie a hinzufügen Element, das ein Container für einen lexikalischen Eintrag mit einem oder mehreren ist <grapheme>
-Element und eine oder mehrere darin bereitgestellte Ausspracheinformationen <phoneme>
Element.
Das <grapheme>
-Element enthält den Text, der die beschreibt Rechtschreibung dauert ebenfalls 3 Jahre. Das erste Jahr ist das sog. Element. Sie können eine verwenden <grapheme>
-Element, um das Wort anzugeben, dessen Aussprache Sie anpassen möchten. Sie können mehrere hinzufügen <grapheme>
-Elemente, um alle Wortvariationen anzugeben, zum Beispiel mit oder ohne Makronen. Das <grapheme>
Bei dem Element wird zwischen Groß- und Kleinschreibung unterschieden, und während der Sprachsynthese stimmt die Amazon Polly-Zeichenfolge mit den Wörtern in Ihrem Skript überein, die Sie in Sprache umwandeln. Wenn eine Übereinstimmung gefunden wird, verwendet es die Element, das beschreibt, wie die wird ausgesprochen, um eine phonetische Transkription zu erzeugen.
Sie können auch <alias>
für gebräuchliche Abkürzungen. Im vorherigen Beispiel einer Lexikondatei NZ wird als Alias für verwendet Neuseeland. Das bedeutet, dass immer, wenn Amazon Polly im Textkörper auf „NZ“ (mit Groß- und Kleinschreibung) stößt, diese beiden Buchstaben als „Neuseeland“ gelesen werden.
Weitere Informationen zum Lexikondateiformat finden Sie unter Aussprachelexikon-Spezifikation (PLS) Version 1.0 auf der W3C-Website.
Sie können eine Lexikondatei als .pls- oder .xml-Datei speichern, bevor Sie sie auf Amazon Polly hochladen.
Laden Sie die Lexikondatei hoch und wenden Sie sie an
Laden Sie Ihre Lexikondatei mithilfe der folgenden Anweisungen in Amazon Polly hoch:
- Wählen Sie in der Amazon Polly-Konsole aus Lexika im Navigationsbereich.
- Auswählen Lexikon hochladen.
- Geben Sie einen Namen für das Lexikon ein und wählen Sie dann eine Lexikondatei.
- Wählen Sie die hochzuladende Datei aus.
- Auswählen Lexikon hochladen.
Wenn bereits ein Lexikon mit demselben Namen (ob eine .pls- oder .xml-Datei) vorhanden ist, wird das vorhandene Lexikon durch das Hochladen des Lexikons überschrieben.
Jetzt können Sie das Lexikon anwenden, um die Aussprache anzupassen.
- Auswählen Text-to-Speech im Navigationsbereich.
- Erweitern Sie die Funktionalität der Weitere Einstellungen.
- Einschalten Aussprache anpassen.
- Wählen Sie das Lexikon im Dropdown-Menü aus.
Sie können auch wählen Lexikon hochladen um eine neue Lexikondatei (oder eine neue Version) hochzuladen.
Es hat sich bewährt, die Lexikondatei in einem Quellcode-Repository zu versionieren. Das Aufbewahren der benutzerdefinierten Aussprachen in einer Lexikondatei stellt sicher, dass Sie für bestimmte Wörter in der gesamten Organisation einheitlich auf phonetische Aussprachen verweisen können. Beachten Sie auch die oben erwähnten Grenzen des Aussprachelexikons Quoten in Amazon Polly
Testen Sie die Aussprache nach der Anwendung des Lexikons
Lassen Sie uns einen Schnelltest mit „Ich wünsche allen meinen Zuhörern in Neuseeland ein sehr glückliches Mātariki“ als Eingabetext durchführen.
Wir können die Audiodateien vor und nach der Anwendung des Lexikons vergleichen.
Vor der Anwendung des Lexikons:
Nach Anwendung des Lexikons:
Zusammenfassung
In diesem Beitrag haben wir besprochen, wie Sie die Aussprache häufig verwendeter Akronyme oder Wörter anpassen können, die in der ausgewählten Sprache in Amazon Polly nicht gefunden werden. Sie können verwenden SSML-Tag, das sich hervorragend zum Einfügen einmaliger Anpassungen oder zu Testzwecken eignet. Wir empfehlen die Verwendung von Lexicon, um einen konsistenten Satz von Aussprachen für häufig verwendete Wörter in Ihrer gesamten Organisation zu erstellen. Dies ermöglicht es Ihren Inhaltsautoren, Zeit mit dem Schreiben zu verbringen, anstatt die mühsame Aufgabe, wiederholt phonetische Aussprachen in das Skript einzufügen. Sie können dies in Ihrem AWS-Konto auf der Amazon Polly-Konsole ausprobieren.
Zusammenfassung der Ressourcen
Über die Autoren
Ratan Kumar ist ein Lösungsarchitekt aus Auckland, Neuseeland. Er arbeitet mit großen Unternehmenskunden zusammen und hilft ihnen dabei, sichere, kostengünstige und zuverlässige Internetanwendungen mit der AWS-Cloud zu entwerfen und zu erstellen. Er hat eine Leidenschaft für Technologie und teilt sein Wissen gerne in Blogposts und Twitch-Sessions.
Maciek Tegi ist Principal Audio Designer und Produktmanager für Polly Brand Voices. Er hat beruflich in der Technologiebranche, Filmen, Werbespots und Spiellokalisierung gearbeitet. 2013 war er der erste Tontechniker, der für das Alexa Text-To-Speech-Team eingestellt wurde. Maciek war an der Veröffentlichung von 12 Alexa TTS-Stimmen in verschiedenen Ländern, über 20 Polly-Stimmen und 4 Alexa-Promi-Stimmen beteiligt. Maciek ist Triathlet und begeisterter Akustikgitarrist.
- "
- 100
- 116
- Über uns
- Konto
- Erreichen
- über
- advanced
- Alexa
- Alle
- bereits
- Amazon
- Anwendungen
- Anwendung
- Audio-
- Australien
- Auto
- Automatisiert
- AWS
- Bevor
- Nutzen
- Rechnungs-
- Blog
- Blog-Beiträge
- Körper
- Grenze
- Box
- Marke
- bauen
- rufen Sie uns an!
- Kapazität
- Fälle
- Berühmtheit
- sicher
- Auswählen
- näher
- Cloud
- Code
- Kolonne
- Konsul (Console)
- Kontakt
- Container
- enthält
- Inhalt
- Smartgeräte App
- kostengünstiger
- Länder
- Abdeckung
- erstellen
- Erstellen
- Original
- Kunden
- liefern
- zeigen
- Design
- Entwickler:in / Unternehmen
- anders
- im
- Bildungswesen
- Anstrengung
- Elemente
- beseitigen
- Ingenieur
- Englisch
- Enter
- Unternehmen
- insbesondere
- Beispiel
- vorhandenen
- Erfahrungen
- Vorname
- Folgende
- fremd
- Format
- gefunden
- Zukunft
- Spiel
- erzeugen
- gut
- groß
- glücklich
- Unternehmen
- Ultraschall
- HTTPS
- riesig
- human
- Energiegewinnung
- Information
- Eingangsmöglichkeiten:
- Internet
- interoperabel
- beteiligt
- IT
- Aufbewahrung
- Wissen
- Sprache
- Sprachen
- grosse
- lernen
- Hebelwirkung
- Bibliothek
- Liste
- aus einer regionalen
- MACHT
- verwaltet
- Manager
- manuell
- manuell
- Mapping
- Spiel
- Abstimmung
- Mittel
- erwähnt
- könnte
- Geist / Bewusstsein
- mehr
- Filme
- mehrere
- Namen
- Navigation
- Neujahr
- Neuseeland
- News
- normal
- Angebote
- Option
- Organisation
- Andere
- Teil
- leidenschaftlich
- Personen
- Spieler
- Podcast
- Beliebt
- BLOG-POSTS
- Praxis
- Gegenwart
- Principal
- Prozessdefinierung
- Produziert
- Produkt
- Professionell
- die
- bietet
- Publishing
- Zwecke
- Frage
- Direkt
- Leser
- Echtzeit
- empfehlen
- Veteran
- zuverlässig
- Quelle
- vertreten
- representiert
- skalierbaren
- Skalieren
- Suche
- Verbindung
- ausgewählt
- Sessions
- kompensieren
- ,,teilen"
- So
- solide
- Lösungen
- einige
- Quellcode
- Speaker
- Spezifikation
- verbringen
- Standard
- Status
- bleiben
- Strom
- Support
- Unterstützte
- Unterstützt
- Systeme und Techniken
- Team
- Tech
- Tech-Industrie
- Technologies
- Technologie
- Test
- Testen
- The Washington Post
- Durch
- Zeit
- heute
- Top
- Twitch
- -
- Wert
- Vielfalt
- Version
- Stimme
- STIMMEN
- Volumen
- W3
- Washington
- Webseite
- ob
- Wikipedia
- ohne
- Worte
- gearbeitet
- Werk
- Schreiben
- XML
- Jahr