Amazon Polly är en text till tal tjänst som använder avancerad djupinlärningsteknik för att syntetisera mänskligt tal med naturligt klingande. Den används i en mängd olika användningsfall, såsom kontaktcentersystem, som levererar konversationsanvändarupplevelser med mänskliga röster för automatisk statuskontroll i realtid, automatiska konto- och faktureringsförfrågningar, och av nyhetsbyråer som The Washington Post för att låta läsarna lyssna på nyhetsartiklar.
Från och med idag tillhandahåller Amazon Polly över 60 röster i 30+ språkvarianter. Amazon Polly använder också sammanhang för att uttala vissa ord annorlunda baserat på verbets tid och annan kontextuell information. Till exempel, "läs" i "Jag läser en bok" (nutid) och "Jag kommer att läsa en bok" (framtid) uttalas olika.
Men i vissa situationer kanske du vill anpassa hur Amazon Polly uttalar ett ord. Till exempel kan du behöva matcha uttalet med lokal dialekt eller folkspråk. Namn på saker (t.ex. tomat kan uttalas som tom-ah-to or tom-ay-to), människor, gator eller platser uttalas ofta på många olika sätt.
I det här inlägget visar vi hur du kan använda lexikon för att skapa anpassade uttal. Du kan använda lexikon för användningsfall som publicering, utbildning eller callcenter.
Anpassa uttalet med SSML-tagg
Låt oss säga att du streamar en populär podcast från Australien och att du använder Amazon Polly Australian English (Olivia) röst för att konvertera ditt manus till mänskligt tal. I ett av dina manus vill du använda ord som är okända för Amazon Polly Voice. Till exempel vill du skicka Mātariki (Māori nyår) hälsningar till dina Nya Zeelands lyssnare. För sådana scenarier stöder Amazon Polly fonetiskt uttal, som du kan använda för att uppnå ett uttal som ligger nära det korrekta uttalet på det främmande språket.
Du kan använda Markeringsspråk för talsyntes (SSML) för att föreslå ett fonetiskt uttal i ph-attributet. Låt mig visa dig hur du kan använda SSML-tagg.
Logga först in på din AWS-konsol och sök efter Amazon Polly i sökfältet högst upp. Välj Amazon Polly och välj sedan Try Polly-knappen.
I Amazon Polly-konsolen, välj australisk engelska från rullgardinsmenyn för språk och skriv in följande text i textrutan Inmatning och klicka sedan på Lyssna för att testa uttalet.
Jag önskar er alla en mycket glad Mātariki.
Exempel på tal utan att tillämpa fonetiskt uttal:
Om du hör exempeltalet ovan kan du märka att uttalet av Mātariki – ett ord som inte är en del av australisk engelska – är inte helt perfekt. Låt oss nu titta på hur vi i sådana scenarier kan använda fonetiskt uttal med hjälp av SSML-tagg för att anpassa talet producerat av Amazon Polly.
För att använda SSML-taggar, slå PÅ alternativet SSML i Amazon Polly-konsolen. Kopiera och klistra sedan in följande SSML-skript som innehåller fonetiskt uttal för Mātariki som anges i ph-attributet för märka.
Med märka, Amazon Polly använder det uttal som anges av attributet ph istället för standarduttalet som som standard är kopplat till språket som används av den valda rösten.
Exempel på tal efter tillämpning av fonetiskt uttal:
Om du hör provljudet kommer du att märka att vi valde ett annat uttal för vissa vokaler (t.ex. ā) för att få Amazon Polly att syntetisera de ljud som är närmare det korrekta uttalet. Nu kanske du har en fråga, hur genererar jag den fonetiska transkriptionen "mA:.tA:.ri.ki" för ordet Mātariki?
Du kan skapa fonetiska transkriptioner genom att hänvisa till Fonemen- och Viseme-tabeller för de språk som stöds. I exemplet ovan har vi använt fonem för australisk engelska.
Amazon Polly erbjuder stöd i två fonetiska alfabet: IPA och X-Sampa. Fördelen med X-Sampa är att de är vanliga ASCII-tecken, så det är lättare att skriva den fonetiska transkriptionen med ett vanligt tangentbord. Du kan använda antingen IPA eller X-Sampa för att generera dina transkriptioner, men se till att vara konsekvent med ditt val, särskilt när du använder en lexikonfil som vi kommer att täcka i nästa avsnitt.
Varje fonem i fonemtabellen representerar ett talljud. De fetstilta bokstäverna i "Exempel" kolumnen i Phoneme/Viseme-tabellen på den australiska engelska sidan som länkas till ovan representerar den del av ordet som "Phoneme" motsvarar. Till exempel representerar fonemet /j/ ljudet som en australisk engelsktalande gör när han uttalar bokstaven "y" i "yes".
Anpassa uttalet med hjälp av lexikon
Fonementaggar är lämpliga för enstaka situationer för att anpassa isolerade fall, men dessa är inte skalbara. Om du bearbetar stora volymer text, som hanteras av olika redaktörer och granskare, rekommenderar vi att du använder lexikon. Med hjälp av lexikon kan du uppnå konsekvens i att lägga till anpassade uttal och samtidigt minska den manuella ansträngningen att infoga fonemtaggar i skriptet.
En bra praxis är att efter att du har testat det anpassade uttalet på Amazon Polly-konsolen med hjälp av taggen skapar du ett bibliotek med anpassade uttal med hjälp av lexikon. När lexikonfilen har laddats upp kommer Amazon Polly automatiskt att tillämpa fonetiska uttal som anges i lexikonfilen och eliminera behovet av att manuellt tillhandahålla en märka.
Skapa en lexikonfil
En lexikonfil innehåller kartläggningen mellan ord och deras fonetiska uttal. Pronunciation Lexicon Specification (PLS) är en W3C-rekommendation för att specificera interoperabel uttalsinformation. Följande är ett exempel på PLS-dokument:
Se till att du använder rätt värde för xml:lang
fält. Använda sig av en-AU
om du laddar upp lexikonfilen för att använda den med Amazon Polly australiska engelska röst. För en komplett lista över språk som stöds, se Språk som stöds av Amazon Polly.
För att ange ett anpassat uttal måste du lägga till en element som är en behållare för en lexikal post med en eller flera <grapheme>
element och en eller flera uttalsinformation som tillhandahålls inuti <phoneme>
elementet.
Smakämnen <grapheme>
elementet innehåller texten som beskriver ortografi av element. Du kan använda en <grapheme>
element för att ange ordet vars uttal du vill anpassa. Du kan lägga till flera <grapheme>
element för att specificera alla ordvarianter, till exempel med eller utan makroner. De <grapheme>
element är skiftlägeskänsligt, och under talsyntes matchar Amazon Polly-strängen orden i ditt skript som du konverterar till tal. Om en matchning hittas, använder den element, som beskriver hur uttalas för att generera fonetisk transkription.
Du kan också använda <alias>
för vanliga förkortningar. I det föregående exemplet på en lexikonfil, NZ används som ett alias för Nya Zeeland. Det betyder att när Amazon Polly stöter på "NZ" (med matchande skiftläge) i textens brödtext kommer de två bokstäverna att läsas som "Nya Zeeland".
För mer information om lexikonfilformat, se Pronunciation Lexicon Specification (PLS) Version 1.0 på W3C:s webbplats.
Du kan spara en lexikonfil med som en .pls- eller .xml-fil innan du laddar upp den till Amazon Polly.
Ladda upp och tillämpa lexikonfilen
Ladda upp din lexikonfil till Amazon Polly med följande instruktioner:
- Välj på Amazon Polly-konsolen Lexikon i navigeringsfönstret.
- Välja Ladda upp lexikon.
- Ange ett namn för lexikonet och välj sedan en lexikonfil.
- Välj filen att ladda upp.
- Välja Ladda upp lexikon.
Om ett lexikon med samma namn (oavsett om det är en .pls- eller .xml-fil) redan finns, kommer uppladdningen av lexikonet att skriva över det befintliga lexikonet.
Nu kan du använda lexikonet för att anpassa uttalet.
- Välja Text-to-Speech i navigeringsfönstret.
- Bygga ut Ytterligare inställningar.
- Sätta på Anpassa uttalet.
- Välj lexikon i rullgardinsmenyn.
Du kan också välja Ladda upp lexikon för att ladda upp en ny lexikonfil (eller en ny version).
Det är en god praxis att versionskontrollera lexikonfilen i ett källkodsförråd. Att behålla de anpassade uttalen i en lexikonfil säkerställer att du konsekvent kan referera till fonetiska uttal för vissa ord i hela organisationen. Tänk också på gränserna för uttalslexikonet som nämns på Kvoter i Amazon Polly sida.
Testa uttalet efter att ha tillämpat lexikonet
Låt oss utföra ett snabbt test med "Önskar alla mina lyssnare i NZ, en mycket lycklig Mātariki" som inmatningstext.
Vi kan jämföra ljudfilerna före och efter tillämpning av lexikonet.
Innan du använder lexikonet:
Efter att ha tillämpat lexikonet:
Slutsats
I det här inlägget diskuterade vi hur du kan anpassa uttal av vanliga akronymer eller ord som inte finns på det valda språket i Amazon Polly. Du kan använda SSML-tagg som är bra för att infoga engångsanpassningar eller testsyften. Vi rekommenderar att du använder Lexicon för att skapa en konsekvent uppsättning uttal för ofta använda ord i hela din organisation. Detta gör det möjligt för dina innehållsskribenter att lägga tid på att skriva istället för den tråkiga uppgiften att upprepade gånger lägga till fonetiska uttal i manuset. Du kan prova detta i ditt AWS-konto på Amazon Polly-konsolen.
Sammanfattning av resurser
Om författarna
Ratan Kumar är en lösningsarkitekt baserad i Auckland, Nya Zeeland. Han arbetar med stora företagskunder och hjälper dem att designa och bygga säkra, kostnadseffektiva och pålitliga applikationer i internetskala med hjälp av AWS-molnet. Han brinner för teknik och gillar att dela kunskap genom blogginlägg och twitch-sessioner.
Maciek Tegi är huvudljuddesigner och produktchef för Polly Brand Voices. Han har arbetat i professionell kapacitet inom teknikindustrin, filmer, reklamfilmer och spellokalisering. 2013 var han den första ljudteknikern som anställdes till Alexa Text-To- Speech-teamet. Maciek var involverad i att släppa 12 Alexa TTS-röster i olika länder, över 20 Polly-röster och 4 Alexa-kändisröster. Maciek är en triathlet och en ivrig akustisk gitarrspelare.
- "
- 100
- 116
- Om oss
- Konto
- Uppnå
- tvärs
- avancerat
- alexa
- Alla
- redan
- amason
- tillämpningar
- Tillämpa
- audio
- Australien
- bil
- Automatiserad
- AWS
- innan
- fördel
- fakturering
- Blogg
- Blogginlägg
- kropp
- gränsen
- Box
- varumärke
- SLUTRESULTAT
- Ring
- Kapacitet
- fall
- kändis
- vissa
- Välja
- närmare
- cloud
- koda
- Kolumn
- Konsol
- kontakta
- Behållare
- innehåller
- innehåll
- kontroll
- kostnadseffektiv
- länder
- täcka
- skapa
- Skapa
- beställnings
- Kunder
- leverera
- demonstrera
- Designa
- Utvecklare
- olika
- under
- Utbildning
- ansträngning
- element
- eliminera
- ingenjör
- Engelska
- ange
- Företag
- speciellt
- exempel
- befintliga
- Erfarenheter
- Förnamn
- efter
- utländska
- format
- hittade
- framtida
- lek
- generera
- god
- stor
- lyckligt
- hjälpa
- Hur ser din drömresa ut
- HTTPS
- stor
- humant
- industrin
- informationen
- ingång
- Internet
- kompatibla
- involverade
- IT
- hålla
- kunskap
- språk
- Språk
- Large
- inlärning
- Hävstång
- Bibliotek
- Lista
- lokal
- GÖR
- förvaltade
- chef
- manuell
- manuellt
- kartläggning
- Match
- matchande
- betyder
- nämnts
- kanske
- emot
- mer
- Filmer
- multipel
- namn
- Navigering
- nytt år
- Nya Zeeland
- nyheter
- normala
- Erbjudanden
- Alternativet
- organisation
- Övriga
- del
- brinner
- Personer
- Spelaren
- podcast
- Populära
- inlägg
- praktiken
- presentera
- Principal
- process
- producerad
- Produkt
- professionell
- ge
- ger
- publicering
- syfte
- fråga
- Snabbt
- läsare
- realtid
- rekommenderar
- minska
- pålitlig
- Repository
- representerar
- representerar
- skalbar
- Skala
- Sök
- säkra
- vald
- service
- sessioner
- in
- delning
- So
- fast
- Lösningar
- några
- källkod
- Högtalare
- specifikation
- spendera
- standard
- status
- bo
- ström
- stödja
- Som stöds
- Stöder
- System
- grupp
- tech
- teknisk industri
- Tekniken
- Teknologi
- testa
- Testning
- The Washington Post
- Genom
- tid
- i dag
- topp
- Twitch
- användning
- värde
- mängd
- version
- Röst
- RÖSTER
- volym
- W3
- washington
- Webbplats
- om
- wikipedia
- utan
- ord
- arbetade
- fungerar
- skrivning
- XML
- år