Amazon Polly is een tekst naar spraak service die gebruikmaakt van geavanceerde deep learning-technologieën om natuurlijk klinkende menselijke spraak te synthetiseren. Het wordt gebruikt in verschillende gebruikssituaties, zoals contactcentersystemen, het leveren van gemoedelijke gebruikerservaringen met mensachtige stemmen voor geautomatiseerde realtime statuscontrole, geautomatiseerde account- en factureringsvragen, en door persbureaus zoals The Washington Post om lezers naar nieuwsartikelen te laten luisteren.
Vanaf vandaag biedt Amazon Polly: meer dan 60 stemmen in meer dan 30 taalvarianten. Amazon Polly gebruikt ook context om bepaalde woorden anders uit te spreken op basis van de werkwoordsvorm en andere contextuele informatie. Bijvoorbeeld, "lezen" in "Ik lees een boek" (tegenwoordige tijd) en "Ik zal een boek lezen" (toekomstige tijd) wordt anders uitgesproken.
In sommige situaties wilt u misschien de manier aanpassen waarop Amazon Polly een woord uitspreekt. Het is bijvoorbeeld mogelijk dat u de uitspraak moet afstemmen op het lokale dialect of de volkstaal. Namen van dingen (bijv. Tomaat kan worden uitgesproken als tom-ah-naar or tom-ay-to), worden mensen, straten of plaatsen vaak op veel verschillende manieren uitgesproken.
In dit bericht laten we zien hoe u lexicons kunt gebruiken voor het maken van aangepaste uitspraken. U kunt lexicons toepassen voor gebruiksscenario's zoals publicaties, onderwijs of callcenters.
Pas de uitspraak aan met de SSML-tag
Stel dat u een populaire podcast uit Australië streamt en dat u de Amazon Polly Australian English (Olivia)-stem gebruikt om uw script om te zetten in menselijke spraak. In een van je scripts wil je woorden gebruiken die onbekend zijn bij de stem van Amazon Polly. U wilt bijvoorbeeld Mātariki-groeten (Māori-nieuwjaar) naar uw luisteraars in Nieuw-Zeeland sturen. Voor dergelijke scenario's ondersteunt Amazon Polly fonetische uitspraak, die u kunt gebruiken om een uitspraak te krijgen die dicht bij de juiste uitspraak in de vreemde taal ligt.
U kunt de Spraaksynthese opmaaktaal (SSML) tag om een fonetische uitspraak in het ph-attribuut voor te stellen. Laat me je laten zien hoe je kunt gebruiken SSML-tag.
Log eerst in op uw AWS-console en zoek naar Amazon Polly in de zoekbalk bovenaan. Selecteer Amazon Polly en kies vervolgens de knop Polly proberen.
Selecteer in de Amazon Polly-console Australisch Engels in de vervolgkeuzelijst taal en voer de volgende tekst in het invoertekstvak in en klik vervolgens op Luister om de uitspraak te testen.
Ik wens jullie allemaal een heel gelukkig Matariki.
Voorbeeldspraak zonder fonetische uitspraak toe te passen:
Als je de voorbeeldspraak hierboven hoort, kun je merken dat de uitspraak van Matariki – een woord dat geen deel uitmaakt van het Australisch Engels – is niet helemaal perfect. Laten we nu eens kijken hoe we in dergelijke scenario's fonetische uitspraak kunnen gebruiken met SSML-tag om de door Amazon Polly geproduceerde spraak aan te passen.
Om SSML-tags te gebruiken, schakelt u de SSML-optie in de Amazon Polly-console in. Kopieer en plak vervolgens het volgende SSML-script met fonetische uitspraak voor Matariki gespecificeerd in het ph-attribuut van de label.
Met de label, gebruikt Amazon Polly de uitspraak die is gespecificeerd door het ph-attribuut in plaats van de standaarduitspraak die standaard is gekoppeld aan de taal die door de geselecteerde stem wordt gebruikt.
Voorbeeldspraak na toepassing van fonetische uitspraak:
Als je het voorbeeldgeluid hoort, zul je merken dat we hebben gekozen voor een andere uitspraak voor sommige klinkers (bijv. ā) om Amazon Polly de geluiden te laten synthetiseren die dichter bij de juiste uitspraak liggen. Nu heb je misschien een vraag, hoe genereer ik de fonetische transcriptie "mA:.tA:.ri.ki” voor het woord Matariki?
U kunt fonetische transcripties maken door te verwijzen naar de Foneem- en Viseme-tabellen voor de ondersteunde talen. In het bovenstaande voorbeeld hebben we de . gebruikt fonemen voor Australisch Engels.
Amazon Polly biedt ondersteuning in twee fonetische alfabetten: IPA en X-Sampa. Voordeel van X-Sampa is dat het standaard ASCII-tekens zijn, waardoor het makkelijker is om de fonetische transcriptie in te typen met een normaal toetsenbord. U kunt IPA of X-Sampa gebruiken om uw transcripties te genereren, maar zorg ervoor dat u consistent blijft met uw keuze, vooral wanneer u een lexiconbestand gebruikt dat we in de volgende sectie zullen behandelen.
Elk foneem in de foneemtabel vertegenwoordigt een spraakgeluid. De vetgedrukte letters in de "Voorbeeld" kolom van de Foneem/Viseme-tabel op de Australisch-Engelse pagina waarnaar hierboven is gelinkt, vertegenwoordigt het deel van het woord waarmee het "Phoneme" overeenkomt. Het foneem /j/ staat bijvoorbeeld voor het geluid dat een Australisch-Engelse spreker maakt bij het uitspreken van de letter "y" in "ja".
Pas de uitspraak aan met behulp van lexicons
Foneemtags zijn geschikt voor eenmalige situaties om geïsoleerde gevallen aan te passen, maar deze zijn niet schaalbaar. Als u grote hoeveelheden tekst verwerkt, beheerd door verschillende redacteuren en recensenten, raden we u aan lexicons te gebruiken. Door lexicons te gebruiken, kunt u consistentie bereiken bij het toevoegen van aangepaste uitspraken en tegelijkertijd de handmatige inspanning van het invoegen van foneemtags in het script verminderen.
Een goede gewoonte is dat nadat u de aangepaste uitspraak op de Amazon Polly-console hebt getest met de tag, creëer je een bibliotheek met aangepaste uitspraken met behulp van lexicons. Zodra het lexiconbestand is geüpload, past Amazon Polly automatisch de fonetische uitspraken toe die zijn gespecificeerd in het lexiconbestand en elimineert het de noodzaak om handmatig een label.
Een lexiconbestand maken
Een lexiconbestand bevat de toewijzing tussen woorden en hun fonetische uitspraken. Uitspraak Lexicon Specificatie (PLS) is een W3C-aanbeveling voor het specificeren van interoperabele uitspraakinformatie. Het volgende is een voorbeeld van een PLS-document:
Zorg ervoor dat u de juiste waarde gebruikt voor de xml:lang
veld. Gebruik maken van en-AU
als u het lexiconbestand uploadt om te gebruiken met de Amazon Polly Australisch-Engelse stem. Voor een volledige lijst van ondersteunde talen, zie: Talen ondersteund door Amazon Polly.
Om een aangepaste uitspraak op te geven, moet je een . toevoegen element dat een container is voor een lexicale invoer met een of meer <grapheme>
element en een of meer uitspraakinformatie die binnenin wordt verstrekt <phoneme>
element.
De <grapheme>
element bevat de tekst die de . beschrijft spelling van de element. U kunt een <grapheme>
element om het woord op te geven waarvan u de uitspraak wilt aanpassen. U kunt meerdere toevoegen <grapheme>
elementen om alle woordvariaties te specificeren, bijvoorbeeld met of zonder macrons. De <grapheme>
element is hoofdlettergevoelig en tijdens spraaksynthese komt de Amazon Polly-tekenreeks overeen met de woorden in uw script die u naar spraak converteert. Als er een match wordt gevonden, gebruikt deze de element, dat beschrijft hoe de wordt uitgesproken om fonetische transcriptie te genereren.
U kunt ook gebruik maken van <alias>
voor veelgebruikte afkortingen. In het voorgaande voorbeeld van een lexiconbestand, NZ wordt gebruikt als een alias voor Nieuw Zeeland. Dit betekent dat wanneer Amazon Polly "NZ" (met bijpassende hoofdletters) in de hoofdtekst van de tekst tegenkomt, deze twee letters worden gelezen als "Nieuw-Zeeland".
Voor meer informatie over de bestandsindeling van lexicons, zie Uitspraak Lexicon Specificatie (PLS) Versie 1.0 op de W3C-website.
U kunt een lexiconbestand opslaan als .pls- of .xml-bestand voordat u het uploadt naar Amazon Polly.
Upload en pas het lexiconbestand toe
Upload uw lexiconbestand naar Amazon Polly met behulp van de volgende instructies:
- Kies op de Amazon Polly-console Lexicons in het navigatievenster.
- Kies Lexicon uploaden.
- Voer een naam in voor het lexicon en kies vervolgens een lexicon-bestand.
- Kies het bestand dat u wilt uploaden.
- Kies Lexicon uploaden.
Als er al een lexicon met dezelfde naam (of het nu een .pls- of .xml-bestand is) bestaat, wordt het bestaande lexicon door het uploaden van het lexicon overschreven.
Nu kunt u het lexicon toepassen om de uitspraak aan te passen.
- Kies Text-to-Speech in het navigatievenster.
- Uitvouwen extra instellingen.
- Turn on Pas uitspraak aan.
- Kies het lexicon in het vervolgkeuzemenu.
U kunt ook kiezen Lexicon uploaden om een nieuw lexiconbestand (of een nieuwe versie) te uploaden.
Het is een goede gewoonte om versiebeheer van het lexiconbestand in een broncoderepository uit te voeren. Door de aangepaste uitspraken in een lexiconbestand te bewaren, kunt u consistent verwijzen naar fonetische uitspraken voor bepaalde woorden in de hele organisatie. Houd ook rekening met de limieten voor het uitspraaklexicon vermeld op Quota in Amazon Polly pagina.
Test de uitspraak na het toepassen van het lexicon
Laten we een snelle test uitvoeren met "Ik wens al mijn luisteraars in NZ, een heel gelukkige Mātariki" als invoertekst.
We kunnen de audiobestanden voor en na het toepassen van het lexicon vergelijken.
Voordat u het lexicon toepast:
Na het toepassen van het lexicon:
Conclusie
In dit bericht hebben we besproken hoe u uitspraken kunt aanpassen van veelgebruikte acroniemen of woorden die niet in de geselecteerde taal in Amazon Polly worden gevonden. Je kunt gebruiken SSML-tag die geweldig is voor het invoegen van eenmalige aanpassingen of testdoeleinden. We raden u aan Lexicon te gebruiken om een consistente set uitspraken te maken voor veelgebruikte woorden in uw organisatie. Hierdoor kunnen uw inhoudschrijvers tijd besteden aan het schrijven in plaats van de vervelende taak om herhaaldelijk fonetische uitspraken in het script toe te voegen. Je kunt dit proberen in je AWS-account op de Amazon Polly-console.
Samenvatting van bronnen
Over de auteurs
Ratan Kumar is een Solutions Architect gevestigd in Auckland, Nieuw-Zeeland. Hij werkt samen met grote zakelijke klanten die hen helpen bij het ontwerpen en bouwen van veilige, kosteneffectieve en betrouwbare internetschaalapplicaties met behulp van de AWS-cloud. Hij is gepassioneerd door technologie en deelt graag kennis via blogposts en twitch-sessies.
Maciek Tegi is Principal Audio Designer en Product Manager voor Polly Brand Voices. Hij heeft in professionele hoedanigheid gewerkt in de technische industrie, films, commercials en game-lokalisatie. In 2013 was hij de eerste geluidstechnicus die werd ingehuurd voor het Alexa Text-To-Speech-team. Maciek was betrokken bij het uitbrengen van 12 Alexa TTS-stemmen in verschillende landen, meer dan 20 Polly-stemmen en 4 Alexa-sterrenstemmen. Maciek is een triatleet en een fervent akoestische gitarist.
- "
- 100
- 116
- Over
- Account
- Bereiken
- over
- vergevorderd
- Alexa
- Alles
- al
- Amazone
- toepassingen
- Het toepassen van
- audio
- Australië
- auto
- geautomatiseerde
- AWS
- vaardigheden
- voordeel
- factuuradres
- Blog
- Blog Posts
- lichaam
- grens
- Box camera's
- merk
- bouw
- Bellen
- Inhoud
- gevallen
- Beroemdheid
- zeker
- Kies
- dichterbij
- Cloud
- code
- Kolom
- troosten
- contact
- Containers
- bevat
- content
- onder controle te houden
- kostenefficient
- landen
- deksel
- en je merk te creëren
- Wij creëren
- gewoonte
- Klanten
- het leveren van
- tonen
- Design
- Ontwikkelaar
- anders
- gedurende
- Onderwijs
- inspanning
- geeft je de mogelijkheid
- elimineren
- ingenieur
- Engels
- Enter
- Enterprise
- vooral
- voorbeeld
- bestaand
- Ervaringen
- Voornaam*
- volgend
- vreemd
- formaat
- gevonden
- toekomst
- spel
- voortbrengen
- goed
- groot
- gelukkig
- het helpen van
- Hoe
- HTTPS
- reusachtig
- menselijk
- -industrie
- informatie
- invoer
- Internet
- interoperabele
- betrokken zijn
- IT
- houden
- kennis
- taal
- Talen
- Groot
- leren
- Hefboomwerking
- Bibliotheek
- Lijst
- lokaal
- MERKEN
- beheerd
- manager
- handboek
- handmatig
- in kaart brengen
- Match
- matching
- middel
- vermeld
- macht
- denken
- meer
- Films
- meervoudig
- namen
- Navigatie
- Nieuwjaar
- Nieuw Zeeland
- nieuws
- een
- Aanbod
- Keuze
- organisatie
- Overige
- deel
- hartstochtelijk
- Mensen
- speler
- Podcast
- Populair
- Berichten
- praktijk
- presenteren
- Principal
- geproduceerd
- Product
- professioneel
- zorgen voor
- biedt
- Reclame
- doeleinden
- vraag
- Quick
- lezers
- real-time
- adviseren
- verminderen
- betrouwbaar
- bewaarplaats
- vertegenwoordigen
- vertegenwoordigt
- schaalbare
- Scale
- Ontdek
- beveiligen
- gekozen
- service
- sessies
- reeks
- delen
- So
- solide
- Oplossingen
- sommige
- broncode
- Spreker
- specificatie
- besteden
- standaard
- Status
- blijven
- stream
- ondersteuning
- ondersteunde
- steunen
- Systems
- team
- tech
- technische industrie
- Technologies
- Technologie
- proef
- Testen
- The Washington Post
- Door
- niet de tijd of
- vandaag
- top
- Trekken
- .
- waarde
- variëteit
- versie
- Stem
- VOICES
- volume
- W3
- Washington
- Website
- of
- Wikipedia
- zonder
- woorden
- werkte
- Bedrijven
- het schrijven van
- XML
- jaar