Amazon Polly egy olyan text-to-speech olyan szolgáltatás, amely fejlett mély tanulási technológiákat használ a természetes hangzású emberi beszéd szintetizálására. Különböző felhasználási esetekben használják, például a kapcsolatközponti rendszerekben, emberi hangokkal társalgási felhasználói élményt biztosítva automatizált, valós idejű állapotellenőrzéshez, automatizált fiók- és számlázási lekérdezésekhez, valamint olyan hírügynökségeknél, mint a The Washington Post. hogy az olvasók meghallgathassák a híreket.
Mától az Amazon Polly biztosítja több mint 60 hang 30+ nyelvi változatban. Az Amazon Polly a kontextust is használja bizonyos szavak kiejtésére az igeidő és más kontextuális információk alapján. Például az „olvasni” az „olvasok egy könyvet” (jelen idő) és a „olvasni fogok egy könyvet” (jövő idő) kifejezéseket eltérően ejtik.
Bizonyos helyzetekben azonban érdemes személyre szabni az Amazon Polly egy szó kiejtésének módját. Például előfordulhat, hogy a kiejtést a helyi nyelvjárással vagy a népnyelvvel kell egyeztetnie. A dolgok nevei (pl. a paradicsom kiejthető így tom-ah-to or tom-ay-to), az embereket, utcákat vagy helyeket gyakran sokféleképpen ejtik ki.
Ebben a bejegyzésben bemutatjuk, hogyan használhatja fel a lexikonokat egyéni kiejtések létrehozásához. Lexikonokat alkalmazhat olyan használati esetekre, mint például a publikálás, az oktatás vagy a call centerek.
A kiejtés testreszabása SSML-címke használatával
Tegyük fel, hogy Ön egy népszerű podcastot sugároz Ausztráliából, és az Amazon Polly Australian English (Olivia) hangját használja a forgatókönyvének emberszerű beszéddé alakításához. Az egyik szkriptjében olyan szavakat szeretne használni, amelyeket az Amazon Polly voice nem ismer. Például mátariki (maori újév) üdvözletet szeretne küldeni új-zélandi hallgatóinak. Ilyen esetekben az Amazon Polly támogatja a fonetikus kiejtést, amellyel olyan kiejtést érhet el, amely közel áll az idegen nyelv helyes kiejtéséhez.
Használhatja a Beszédszintézis jelölőnyelv (SSML) címkét, amely fonetikus kiejtést javasol a ph attribútumban. Hadd mutassam meg, hogyan használhatod SSML címke.
Először jelentkezzen be AWS konzol és keresse meg az Amazon Polly kifejezést a felső keresősávban. Válassza az Amazon Polly lehetőséget, majd válassza a Polly kipróbálása gombot.
Az Amazon Polly konzolon válassza ki az ausztrál angolt a nyelv legördülő menüjéből, és írja be a következő szöveget a Beviteli szövegmezőbe, majd kattintson a Hallgat gombra a kiejtés teszteléséhez.
Nagyon boldog Mátarikit kívánok mindenkinek.
Példa beszédre fonetikus kiejtés nélkül:
Ha hallja a fenti mintabeszédet, észreveheti, hogy a kiejtése Mátariki – egy szó, amely nem része az ausztrál angolnak – nem igazán találó. Most nézzük meg, hogyan használhatjuk ilyen esetekben a fonetikus kiejtést SSML címke az Amazon Polly által előállított beszéd testreszabásához.
Az SSML-címkék használatához kapcsolja BE az SSML-beállítást az Amazon Polly konzolon. Ezután másolja ki és illessze be a következő SSML-szkriptet, amely a következő fonetikus kiejtését tartalmazza Mátariki a ph attribútumán belül van megadva címke.
Aktivitáskövető címke, az Amazon Polly a ph attribútum által meghatározott kiejtést használja az alapértelmezés szerint a kiválasztott hang által használt nyelvhez társított szabványos kiejtés helyett.
Minta beszéd a fonetikus kiejtés alkalmazása után:
Ha hallja a mintahangot, észre fogja venni, hogy bizonyos magánhangzókhoz (pl. ā) más kiejtést választottunk, hogy az Amazon Polly szintetizálja azokat a hangokat, amelyek közelebb állnak a helyes kiejtéshez. Felmerülhet a kérdés, hogyan állíthatom elő a fonetikus átírást "mA:.tA:.ri.ki” a szóért Mátariki?
Fonetikus átírásokat hozhat létre a Fonéma és Viseme táblák a támogatott nyelvekhez. A fenti példában a fonémák az ausztrál angolhoz.
Az Amazon Polly két fonetikus ábécé támogatását kínálja: IPA és X-Sampa. Az X-Sampa előnye, hogy szabványos ASCII karakterek, így egyszerűbb a fonetikus átírás beírása normál billentyűzettel. Használhatja az IPA-t vagy az X-Sampát az átiratok létrehozásához, de ügyeljen arra, hogy a választása következetes maradjon, különösen ha lexikonfájlt használ, amelyről a következő részben fogunk beszélni.
A fonématáblázatban minden fonéma beszédhangot jelent. A vastagított betűk a "Példa" A fent hivatkozott ausztrál angol oldalon a Phoneme/Viseme táblázat oszlopa a „Phoneme” szónak azt a részét jelenti, amelyre a „Phoneme” felel meg. Például a /j/ fonéma azt a hangot jelöli, amelyet egy ausztrál angol beszélő ad ki az „y” betű „igen”-ben történő kiejtésekor.
A kiejtés testreszabása lexikonok segítségével
A fonémacímkék alkalmasak egyszeri helyzetekre az elszigetelt esetek testreszabására, de ezek nem méretezhetők. Ha hatalmas mennyiségű, különböző szerkesztők és lektorok által kezelt szöveget dolgoz fel, javasoljuk a lexikonok használatát. A lexikonok használatával következetességet érhet el az egyéni kiejtések hozzáadásakor, és ezzel egyidejűleg csökkentheti a fonémacímkék szkriptbe történő beillesztésének manuális erőfeszítéseit.
Jó gyakorlat az, hogy miután tesztelte az egyéni kiejtést az Amazon Polly konzolon a címke segítségével létrehozhat egy könyvtárat a testreszabott kiejtésekből lexikonok. A lexikonfájl feltöltése után az Amazon Polly automatikusan alkalmazza a lexikonfájlban megadott fonetikus kiejtést, és szükségtelenné teszi a lexikonfájl manuális megadását. címke.
Hozzon létre egy lexikon fájlt
Egy lexikonfájl tartalmazza a szavak és azok fonetikai kiejtésének leképezését. Kiejtési lexikon specifikáció (PLS) a W3C ajánlása az interoperábilis kiejtési információk megadására. A következő egy példa PLS-dokumentum:
Győződjön meg arról, hogy a megfelelő értéket használja xml:lang
terület. Használat en-AU
ha feltölti a lexikonfájlt az Amazon Polly ausztrál angol hangjával való használatra. A támogatott nyelvek teljes listáját lásd: Az Amazon Polly által támogatott nyelvek.
Egyéni kiejtés megadásához hozzá kell adni a elem, amely egy vagy több lexikális bejegyzés tárolója <grapheme>
elemet és egy vagy több kiejtési információt tartalmaz <phoneme>
elem.
A <grapheme>
elem tartalmazza a leíró szöveget helyesírás az elem. Használhatja a <grapheme>
elemet annak a szónak a megadásához, amelynek kiejtését testre szeretné szabni. Többet is hozzáadhat <grapheme>
elemek az összes szóváltozat megadásához, például makrókkal vagy anélkül. A <grapheme>
elem megkülönbözteti a kis- és nagybetűket, és a beszédszintézis során az Amazon Polly karakterlánc megfelel a szkriptben lévő szavaknak, amelyeket beszéddé konvertál. Ha talál egyezést, akkor a elem, amely leírja, hogyan a kiejtve fonetikus átírást generál.
Ön is használja <alias>
az általánosan használt rövidítésekre. A lexikonfájl előző példájában NZ aliasként használják Új-Zéland. Ez azt jelenti, hogy amikor az Amazon Polly „NZ”-t talál (a kis- és nagybetűkkel együtt) a szövegben, ezt a két betűt „Új-Zéland”-ként fogja olvasni.
A lexikon fájlformátumról további információkért lásd: Pronunciation Lexicon Specification (PLS) 1.0-s verzió a W3C honlapján.
A lexikonfájlt .pls vagy .xml fájlként mentheti, mielőtt feltölti az Amazon Pollyra.
Töltse fel és alkalmazza a lexikonfájlt
Töltse fel lexikonfájlját az Amazon Polly-ra a következő utasítások szerint:
- Az Amazon Polly konzolon válassza a lehetőséget Lexikonok a navigációs ablaktáblában.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lexikon feltöltése.
- Adja meg a lexikon nevét, majd válassza ki egy lexikon fájl.
- Válassza ki a feltölteni kívánt fájlt.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lexikon feltöltése.
Ha már létezik azonos nevű lexikon (akár .pls, akár .xml fájl), a lexikon feltöltése felülírja a meglévő lexikont.
Most már használhatja a lexikont a kiejtés testreszabásához.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Text-to-Speech a navigációs ablaktáblában.
- Bontsa további beállítások.
- Bekapcsol A kiejtés testreszabása.
- Válassza ki a lexikont a legördülő menüből.
Ön is választhat Lexikon feltöltése új lexikonfájl (vagy új verzió) feltöltéséhez.
Jó gyakorlat a lexikonfájl verziókezelése egy forráskód-tárházban. Az egyéni kiejtések lexikonfájlban tartása biztosítja, hogy a szervezeten belül következetesen hivatkozhasson bizonyos szavak fonetikus kiejtésére. Ne feledje továbbá a kiejtési lexikon határait is Kvóták az Amazon Pollyban cimre.
Tesztelje a kiejtést a lexikon alkalmazása után
Végezzünk el egy gyors tesztet a „Wishing all my listener in NZ, a very Happy Matariki” beviteli szöveggel.
Összehasonlíthatjuk a hangfájlokat a lexikon alkalmazása előtt és után.
A lexikon alkalmazása előtt:
A lexikon alkalmazása után:
Következtetés
Ebben a bejegyzésben megvitattuk, hogyan szabhatja testre a gyakran használt betűszavak vagy a kiválasztott nyelven nem található szavak kiejtését az Amazon Pollyban. Te tudod használni SSML címke, amely kiválóan alkalmas egyszeri testreszabások vagy tesztelési célokra. Azt javasoljuk, hogy használja a Lexicont, hogy egységes kiejtési készletet hozzon létre a szervezetében gyakran használt szavakhoz. Ez lehetővé teszi a tartalom íróinak, hogy időt töltsenek az írással, ahelyett, hogy ismétlődően fonetikus kiejtést adnának a szkripthez. Ezt kipróbálhatja AWS-fiókjában az Amazon Polly konzolon.
A források összefoglalása
A szerzőkről
Ratan Kumar az új-zélandi Aucklandből származó Solutions Architect. Nagyvállalati ügyfelekkel dolgozik, segítve őket biztonságos, költséghatékony és megbízható internetes méretű alkalmazások tervezésében és létrehozásában az AWS felhő használatával. Szenvedélyesen rajong a technológiáért, és szereti megosztani tudását blogbejegyzéseken és twitch üléseken keresztül.
Maciek Tegi a Polly Brand Voices vezető audiotervezője és termékmenedzsere. Professzionális minőségben dolgozott a technológiai iparban, filmekben, reklámokban és játékhonosításban. 2013-ban ő volt az első hangmérnök, akit az Alexa Text-To-Speech csapatához alkalmaztak. Maciek részt vett 12 Alexa TTS hang kiadásában különböző országokban, több mint 20 Polly hang és 4 Alexa híresség hangja. Maciek triatlonista, és lelkes akusztikus gitáros.
- Coinsmart. Európa legjobb Bitcoin- és kriptográfiai tőzsdéje.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. SZABAD HOZZÁFÉRÉS.
- CryptoHawk. Altcoin radar. Ingyenes próbaverzió.
- Forrás: https://aws.amazon.com/blogs/machine-learning/customize-pronunciation-using-lexicons-in-amazon-polly/
- "
- 100
- 116
- Rólunk
- Fiók
- Elérése
- át
- fejlett
- Alexa
- Minden termék
- már
- amazon
- alkalmazások
- Alkalmazása
- hang-
- Ausztrália
- auto
- Automatizált
- AWS
- előtt
- haszon
- számlázás
- Blog
- Blogbejegyzések
- test
- határ
- Doboz
- márka
- épít
- hívás
- Kapacitás
- esetek
- híresség
- bizonyos
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a
- közelebb
- felhő
- kód
- Oszlop
- Konzol
- kapcsolat
- Konténer
- tartalmaz
- tartalom
- ellenőrzés
- költséghatékony
- országok
- terjed
- teremt
- létrehozása
- szokás
- Ügyfelek
- átadó
- bizonyítani
- Design
- Fejlesztő
- különböző
- alatt
- Oktatás
- erőfeszítés
- elemek
- megszüntetése
- mérnök
- Angol
- belép
- Vállalkozás
- különösen
- példa
- létező
- Tapasztalatok
- vezetéknév
- következő
- külföldi
- formátum
- talált
- jövő
- játék
- generál
- jó
- nagy
- boldog
- segít
- Hogyan
- HTTPS
- hatalmas
- emberi
- ipar
- információ
- bemenet
- Internet
- interoperábilis
- részt
- IT
- tartás
- tudás
- nyelv
- Nyelvek
- nagy
- tanulás
- Tőkeáttétel
- könyvtár
- Lista
- helyi
- KÉSZÍT
- sikerült
- menedzser
- kézikönyv
- kézzel
- térképészet
- Mérkőzés
- egyező
- eszközök
- említett
- esetleg
- bánja
- több
- Filmek
- többszörös
- nevek
- Navigáció
- újév
- Új-Zéland
- hír
- normális
- Ajánlatok
- opció
- szervezet
- Más
- rész
- szenvedélyes
- Emberek (People)
- játékos
- podcast
- Népszerű
- Hozzászólások
- gyakorlat
- be
- Fő
- folyamat
- Készült
- Termékek
- szakmai
- ad
- biztosít
- Kiadás
- célokra
- kérdés
- Quick
- olvasók
- real-time
- ajánl
- csökkenteni
- megbízható
- raktár
- képvisel
- jelentése
- skálázható
- Skála
- Keresés
- biztonság
- kiválasztott
- szolgáltatás
- ülések
- készlet
- megosztás
- So
- szilárd
- Megoldások
- néhány
- forráskód
- Hangszóró
- leírás
- költ
- standard
- Állapot
- tartózkodás
- folyam
- támogatás
- Támogatott
- Támogatja
- Systems
- csapat
- tech
- tech ipar
- Technologies
- Technológia
- teszt
- Tesztelés
- The Washington Post
- Keresztül
- idő
- Ma
- felső
- Rángatózik
- használ
- érték
- fajta
- változat
- Hang
- HANGOK
- kötet
- W3
- washington
- weboldal
- vajon
- Wikipedia
- nélkül
- szavak
- dolgozott
- művek
- írás
- XML
- év