Amazon Polly este text-to-speech serviciu care utilizează tehnologii avansate de învățare profundă pentru a sintetiza vorbirea umană cu sunet natural. Este utilizat într-o varietate de cazuri de utilizare, cum ar fi sistemele de centre de contact, oferind experiențe conversaționale utilizatorilor cu voci asemănătoare oamenilor pentru verificarea automată a stării în timp real, întrebări automate privind contul și facturarea și de către agenții de presă precum The Washington Post pentru a permite cititorilor să asculte articole de știri.
Începând de astăzi, Amazon Polly oferă peste 60 de voci în peste 30 de variante de limbă. Amazon Polly folosește, de asemenea, contextul pentru a pronunța anumite cuvinte în mod diferit, pe baza timpului verbal și a altor informații contextuale. De exemplu, „citește” în „Am citit o carte” (timpul prezent) și „Voi citi o carte” (timpul viitor) se pronunță diferit.
Cu toate acestea, în unele situații este posibil să doriți să personalizați modul în care Amazon Polly pronunță un cuvânt. De exemplu, poate fi necesar să potriviți pronunția cu dialectul local sau limba populară. Numele lucrurilor (de exemplu, Tomate poate fi pronunțată ca tom-ah-to or tom-ay-to), oamenii, străzile sau locurile sunt adesea pronunțate în multe moduri diferite.
În această postare, demonstrăm cum puteți folosi lexiconele pentru a crea pronunții personalizate. Puteți aplica lexiconi pentru cazuri de utilizare, cum ar fi publicații, educație sau centre de apeluri.
Personalizați pronunția folosind eticheta SSML
Să presupunem că transmiți în flux un podcast popular din Australia și folosești vocea Amazon Polly Australian English (Olivia) pentru a-ți converti scenariul în vorbire asemănătoare omului. Într-unul dintre scripturile dvs., doriți să utilizați cuvinte care nu sunt cunoscute de vocea Amazon Polly. De exemplu, doriți să trimiteți felicitări Mātariki (Anul Nou Maori) ascultătorilor tăi din Noua Zeelandă. Pentru astfel de scenarii, Amazon Polly acceptă pronunția fonetică, pe care o puteți folosi pentru a obține o pronunție apropiată de pronunția corectă în limba străină.
Puteți folosi Limbajul de marcare a sintezei vorbirii (SSML) pentru a sugera o pronunție fonetică în atributul ph. Lasă-mă să-ți arăt cum poți folosi etichetă SSML.
Mai întâi, conectați-vă la dvs Consola AWS și căutați Amazon Polly în bara de căutare din partea de sus. Selectați Amazon Polly și apoi alegeți butonul Încercați Polly.
În consola Amazon Polly, selectați engleza australiană din meniul derulant de limbă și introduceți următorul text în caseta de text de introducere, apoi faceți clic pe Ascultă pentru a testa pronunția.
Vă doresc tuturor un Mātariki foarte fericit.
Exemplu de vorbire fără a aplica pronunția fonetică:
Dacă auziți exemplul de discurs de mai sus, puteți observa că pronunția lui Mātariki – un cuvânt care nu face parte din engleza australiană – nu este chiar pe măsură. Acum, să vedem cum în astfel de scenarii putem folosi pronunția fonetică Etichetă SSML pentru a personaliza discursul produs de Amazon Polly.
Pentru a utiliza etichetele SSML, activați opțiunea SSML din consola Amazon Polly. Apoi copiați și lipiți următorul script SSML care conține pronunția fonetică pentru Mātariki specificat în interiorul atributului ph al etichetă.
Cu etichetă, Amazon Polly folosește pronunția specificată de atributul ph în loc de pronunția standard asociată implicit cu limba folosită de vocea selectată.
Exemplu de vorbire după aplicarea pronunției fonetice:
Dacă auziți eșantionul de sunet, veți observa că am optat pentru o pronunție diferită pentru unele vocale (de exemplu, ā) pentru ca Amazon Polly să sintetizeze sunetele care sunt mai apropiate de pronunția corectă. Acum s-ar putea să aveți o întrebare, cum pot genera transcrierea fonetică "mA:.tA:.ri.ki” pentru cuvânt Mātariki?
Puteți crea transcripții fonetice, referindu-vă la Tabelele Foneme și Viseme pentru limbile acceptate. În exemplul de mai sus am folosit foneme pentru engleza australiană.
Amazon Polly oferă suport în două alfabete fonetice: IPA și X-Sampa. Avantajul X-Sampa este că sunt caractere ASCII standard, deci este mai ușor să tastați transcrierea fonetică cu o tastatură normală. Puteți utiliza fie IPA, fie X-Sampa pentru a vă genera transcripțiile, dar asigurați-vă că rămâneți în concordanță cu alegerea dvs., mai ales când utilizați un fișier lexicon pe care îl vom trata în secțiunea următoare.
Fiecare fonem din tabelul de foneme reprezintă un sunet de vorbire. Literele îngroșate din "Exemplu" coloana din tabelul Phoneme/Viseme din pagina de engleză australiană legată de mai sus reprezintă partea din cuvânt căreia îi corespunde „Phoneme”. De exemplu, fonemul /j/ reprezintă sunetul pe care un vorbitor de engleză australian îl face atunci când pronunță litera „y” în „da”.
Personalizați pronunția folosind lexiconele
Etichetele foneme sunt potrivite pentru situații unice pentru a personaliza cazuri izolate, dar acestea nu sunt scalabile. Dacă procesați un volum uriaș de text, gestionat de diferiți editori și recenzori, vă recomandăm să utilizați lexiconele. Folosind lexiconele, puteți obține consecvență în adăugarea pronunțiilor personalizate și, simultan, puteți reduce efortul manual de inserare a etichetelor fonemice în script.
O bună practică este ca, după ce testați pronunția personalizată pe consola Amazon Polly, folosind tag, creați o bibliotecă de pronunții personalizate folosind lexiconele. Odată ce fișierul lexiconelor este încărcat, Amazon Polly va aplica automat pronunțiile fonetice specificate în fișierul lexiconelor și va elimina necesitatea de a furniza manual un etichetă.
Creați un fișier lexicon
Un fișier lexicon conține maparea dintre cuvinte și pronunțiile lor fonetice. Specificația lexicului de pronunție (PLS) este o recomandare W3C pentru specificarea informațiilor de pronunție interoperabile. Următorul este un exemplu de document PLS:
Asigurați-vă că utilizați valoarea corectă pentru xml:lang
camp. Utilizare en-AU
dacă încărcați fișierul lexicon pentru a-l utiliza cu vocea engleză australiană Amazon Polly. Pentru o listă completă a limbilor acceptate, consultați Limbi acceptate de Amazon Polly.
Pentru a specifica o pronunție personalizată, trebuie să adăugați un element care este un container pentru o intrare lexicală cu una sau mai multe <grapheme>
element și una sau mai multe informații de pronunție furnizate în interior <phoneme>
element.
<grapheme>
elementul conține textul care descrie ortografie a element. Puteți folosi a <grapheme>
element pentru a specifica cuvântul a cărui pronunție doriți să o personalizați. Puteți adăuga mai multe <grapheme>
elemente pentru a specifica toate variantele de cuvinte, de exemplu cu sau fără macroni. The <grapheme>
elementul este sensibil la majuscule și minuscule, iar în timpul sintezei vorbirii șirul Amazon Polly se potrivește cu cuvintele din scriptul pe care le convertiți în vorbire. Dacă se găsește o potrivire, se folosește element, care descrie modul în care se pronunță pentru a genera transcriere fonetică.
De asemenea, puteți utiliza <alias>
pentru abrevierile utilizate în mod obișnuit. În exemplul precedent al unui fișier lexicon, NZ este folosit ca alias pentru Noua Zeelandă. Aceasta înseamnă că ori de câte ori Amazon Polly găsește „NZ” (cu majuscule potrivite) în corpul textului, va citi acele două litere ca „Noua Zeelandă”.
Pentru mai multe informații despre formatul fișierului lexicon, consultați Specificația lexicului de pronunție (PLS) Versiunea 1.0 pe site-ul W3C.
Puteți salva un fișier lexicon ca fișier .pls sau .xml înainte de a-l încărca pe Amazon Polly.
Încărcați și aplicați fișierul lexicon
Încărcați fișierul lexicon pe Amazon Polly folosind următoarele instrucțiuni:
- Pe consola Amazon Polly, alegeți Lexiconele în panoul de navigare.
- Alege Încărcați lexicon.
- Introduceți un nume pentru lexic și apoi alegeți un fișier lexicon.
- Alegeți fișierul de încărcat.
- Alege Încărcați lexicon.
Dacă un lexic cu același nume (fie un fișier .pls sau .xml) există deja, încărcarea lexicului suprascrie lexicul existent.
Acum puteți aplica lexicul pentru a personaliza pronunția.
- Alege Text-to-Speech în panoul de navigare.
- Extinde Setari aditionale.
- Porniți Personalizați pronunția.
- Alegeți lexicul din meniul derulant.
Puteți alege, de asemenea Încărcați lexicon pentru a încărca un nou fișier lexicon (sau o nouă versiune).
Este o practică bună să controlați versiunea fișierului lexicon într-un depozit de cod sursă. Păstrarea pronunțiilor personalizate într-un fișier lexicon vă asigură că vă puteți referi în mod constant la pronunțiile fonetice pentru anumite cuvinte din cadrul organizației. De asemenea, țineți cont de limitele lexicului de pronunție menționate Cote în Amazon Polly .
Testați pronunția după aplicarea lexicului
Să efectuăm un test rapid folosind „Le doresc tuturor ascultătorilor mei din NZ, un Mātariki foarte fericit” ca text de intrare.
Putem compara fișierele audio înainte și după aplicarea lexicului.
Înainte de a aplica lexicul:
După aplicarea lexicului:
Concluzie
În această postare, am discutat despre cum puteți personaliza pronunțiile acronimelor utilizate în mod obișnuit sau ale cuvintelor care nu se găsesc în limba selectată în Amazon Polly. Poți să folosești Etichetă SSML, care este excelentă pentru inserarea de personalizări unice sau în scopuri de testare. Vă recomandăm să utilizați Lexicon pentru a crea un set consistent de pronunții pentru cuvintele utilizate frecvent în organizația dvs. Acest lucru le permite scriitorilor dvs. de conținut să petreacă timp scriind în loc de sarcina obositoare de a adăuga pronunții fonetice în scenariu în mod repetitiv. Puteți încerca acest lucru în contul dvs. AWS de pe consola Amazon Polly.
Rezumatul resurselor
Despre Autori
Ratan Kumar este un arhitect de soluții cu sediul în Auckland, Noua Zeelandă. Lucrează cu clienți mari, ajutându-i să proiecteze și să construiască aplicații sigure, rentabile și de încredere la scară internet, folosind cloud-ul AWS. Este pasionat de tehnologie și îi place să împărtășească cunoștințe prin postări pe blog și sesiuni de twitch.
Maciek Tegi este designer audio principal și manager de produs pentru Polly Brand Voices. A lucrat în calitate profesională în industria tehnologiei, filme, reclame și localizare de jocuri. În 2013, a fost primul inginer audio angajat în echipa Alexa Text-To- Speech. Maciek a fost implicat în lansarea a 12 voci Alexa TTS în diferite țări, peste 20 de voci Polly și 4 voci ale celebrităților Alexa. Maciek este un triatlet și un pasionat de chitară acustică.
- Coinsmart. Cel mai bun schimb de Bitcoin și Crypto din Europa.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. ACCES LIBER.
- CryptoHawk. Radar Altcoin. Încercare gratuită.
- Source: https://aws.amazon.com/blogs/machine-learning/customize-pronunciation-using-lexicons-in-amazon-polly/
- "
- 100
- 116
- Despre Noi
- Cont
- Obține
- peste
- avansat
- Alexa
- TOATE
- deja
- Amazon
- aplicatii
- Aplicarea
- audio
- Australia
- Auto
- Automata
- AWS
- înainte
- beneficia
- facturare
- Blog
- Blog
- corp
- frontieră
- Cutie
- marca
- construi
- apel
- Capacitate
- cazuri
- Celebritate
- sigur
- Alege
- mai aproape
- Cloud
- cod
- Coloană
- Consoleze
- contactați-ne
- Recipient
- conține
- conţinut
- Control
- cost-eficiente
- țări
- acoperi
- crea
- Crearea
- personalizat
- clienţii care
- livrarea
- demonstra
- Amenajări
- Dezvoltator
- diferit
- în timpul
- Educaţie
- efort
- element
- elimina
- inginer
- Engleză
- Intrați
- Afacere
- mai ales
- exemplu
- existent
- Experiențe
- First
- următor
- străin
- format
- găsit
- viitor
- joc
- genera
- bine
- mare
- fericit
- ajutor
- Cum
- HTTPS
- mare
- uman
- industrie
- informații
- intrare
- Internet
- interoperabilă
- implicat
- IT
- păstrare
- cunoştinţe
- limbă
- Limbă
- mare
- învăţare
- Pârghie
- Bibliotecă
- Listă
- local
- FACE
- gestionate
- manager
- manual
- manual
- cartografiere
- Meci
- potrivire
- mijloace
- menționat
- ar putea
- minte
- mai mult
- Filme
- multiplu
- nume
- Navigare
- Anul Nou
- Noua Zeelandă
- ştiri
- normală.
- promoții
- Opțiune
- organizație
- Altele
- parte
- pasionat
- oameni
- player
- Podcast
- Popular
- postări
- practică
- prezenta
- Principal
- proces
- Produs
- Produs
- profesional
- furniza
- furnizează
- Editare
- scopuri
- întrebare
- Rapid
- cititori
- în timp real
- recomanda
- reduce
- de încredere
- depozit
- reprezenta
- reprezintă
- scalabil
- Scară
- Caută
- sigur
- selectate
- serviciu
- Sesiunile
- set
- partajarea
- So
- solid
- soluţii
- unele
- cod sursă
- Vorbitor
- specificație
- petrece
- standard
- Stare
- şedere
- curent
- a sustine
- Suportat
- Sprijină
- sisteme
- echipă
- tech
- industria tehnologiei
- Tehnologii
- Tehnologia
- test
- Testarea
- Washington Post
- Prin
- timp
- astăzi
- top
- TIC nervos
- utilizare
- valoare
- varietate
- versiune
- Voce
- VOCI
- volum
- W3
- Washington
- website
- dacă
- Wikipedia
- fără
- cuvinte
- a lucrat
- fabrică
- scris
- XML
- an