Amazon Polly jest Tekst na mowę usługa wykorzystująca zaawansowane technologie uczenia głębokiego do syntezy naturalnie brzmiącej ludzkiej mowy. Jest używany w różnych przypadkach użycia, takich jak systemy contact center, zapewniając konwersacyjne doświadczenia użytkowników z ludzkimi głosami do automatycznego sprawdzania statusu w czasie rzeczywistym, zautomatyzowane zapytania dotyczące kont i rozliczeń oraz przez agencje prasowe, takie jak The Washington Post aby umożliwić czytelnikom słuchanie artykułów prasowych.
Na dzień dzisiejszy Amazon Polly zapewnia ponad 60 głosów w ponad 30 wariantach językowych. Amazon Polly wykorzystuje również kontekst, aby wymawiać pewne słowa w inny sposób, w oparciu o czas czasownika i inne informacje kontekstowe. Na przykład „czytam” w „Czytam książkę” (czas teraźniejszy) i „Będę czytać książkę” (czas przyszły) jest wymawiane inaczej.
Jednak w niektórych sytuacjach możesz chcieć dostosować sposób, w jaki Amazon Polly wymawia słowo. Na przykład może być konieczne dopasowanie wymowy do lokalnego dialektu lub języka ojczystego. Nazwy rzeczy (np. Tomato można wymawiać jako tom-ah-to or od dnia dzisiejszego), ludzie, ulice lub miejsca są często wymawiane na wiele różnych sposobów.
W tym poście pokazujemy, jak wykorzystać leksykony do tworzenia niestandardowych wymowy. Leksykony można stosować do przypadków użycia, takich jak publikacje, edukacja lub centra obsługi telefonicznej.
Dostosuj wymowę za pomocą tagu SSML
Załóżmy, że przesyłasz strumieniowo popularny podcast z Australii i używasz głosu Amazon Polly Australian English (Olivia), aby przekonwertować swój skrypt na mowę podobną do ludzkiej. W jednym ze swoich skryptów chcesz użyć słów nieznanych głosowi Amazon Polly. Na przykład chcesz wysłać życzenia Mātariki (Nowy Rok Maorysów) do słuchaczy w Nowej Zelandii. W takich sytuacjach Amazon Polly obsługuje wymowę fonetyczną, dzięki której można uzyskać wymowę zbliżoną do prawidłowej wymowy w języku obcym.
Możesz użyć Język znaczników syntezy mowy (SSML), aby zasugerować wymowę fonetyczną w atrybucie ph. Pokażę ci, jak możesz użyć tag SSML.
Najpierw zaloguj się do swojego Konsola AWS i wyszukaj Amazon Polly w pasku wyszukiwania u góry. Wybierz Amazon Polly, a następnie wybierz przycisk Wypróbuj Polly.
W konsoli Amazon Polly wybierz język australijski z listy rozwijanej języka i wprowadź następujący tekst w polu tekstowym Input, a następnie kliknij przycisk Listen, aby przetestować wymowę.
Życzę wszystkim bardzo Szczęśliwego Mātariki.
Przykładowa mowa bez stosowania wymowy fonetycznej:
Jeśli usłyszysz przykładową mowę powyżej, możesz zauważyć, że wymowa Matariki – słowo, które nie jest częścią australijskiego angielskiego – nie jest całkiem trafne. Przyjrzyjmy się teraz, jak w takich sytuacjach możemy używać wymowy fonetycznej za pomocą Tag SSML, aby dostosować mowę generowaną przez Amazon Polly.
Aby używać tagów SSML, włącz opcję SSML w konsoli Amazon Polly. Następnie skopiuj i wklej następujący skrypt SSML zawierający wymowę fonetyczną dla Matariki określony w atrybucie ph etykietka.
Z etykietka, Amazon Polly używa wymowy określonej przez atrybut ph zamiast standardowej wymowy skojarzonej domyślnie z językiem używanym przez wybrany głos.
Przykładowa mowa po zastosowaniu wymowy fonetycznej:
Jeśli usłyszysz przykładowy dźwięk, zauważysz, że wybraliśmy inną wymowę niektórych samogłosek (np. ā), aby Amazon Polly zsyntetyzował dźwięki, które są bliższe poprawnej wymowie. Teraz możesz mieć pytanie, jak wygenerować transkrypcję fonetyczną”mA:.tA:.ri.ki” za słowo Matariki?
Możesz tworzyć transkrypcje fonetyczne, odwołując się do Tabele fonemów i Visemów dla obsługiwanych języków. W powyższym przykładzie użyliśmy fonemy dla australijskiego angielskiego.
Amazon Polly oferuje wsparcie w dwóch alfabetach fonetycznych: IPA i X-Sampa. Zaletą X-Sampy jest to, że są to standardowe znaki ASCII, dzięki czemu łatwiej jest wpisać transkrypcję fonetyczną za pomocą normalnej klawiatury. Możesz użyć IPA lub X-Sampa do wygenerowania swoich transkrypcji, ale pamiętaj, aby zachować zgodność z dokonanym wyborem, zwłaszcza gdy używasz pliku leksykonu, który omówimy w następnej sekcji.
Każdy fonem w tabeli fonemów reprezentuje dźwięk mowy. Pogrubione litery w "Przykład" kolumna tabeli Fonem/Viseme na stronie w języku australijskim, do której link znajduje się powyżej, reprezentuje część słowa, której odpowiada „fonem”. Na przykład fonem /j/ reprezentuje dźwięk, jaki wydaje osoba posługująca się językiem australijskim, wymawiając literę „y” w „tak”.
Dostosuj wymowę za pomocą leksykonów
Tagi fonemów nadają się do jednorazowych sytuacji, aby dostosować pojedyncze przypadki, ale nie są skalowalne. Jeśli przetwarzasz ogromne ilości tekstu, którymi zarządzają różni redaktorzy i recenzenci, zalecamy korzystanie z leksykonów. Używając leksykonów, można osiągnąć spójność w dodawaniu niestandardowych wymowy i jednocześnie ograniczyć ręczne wstawianie znaczników fonemów do skryptu.
Dobrą praktyką jest to, że po przetestowaniu niestandardowej wymowy w konsoli Amazon Polly za pomocą tag, tworzysz bibliotekę niestandardowych wymowy za pomocą leksykony. Po przesłaniu pliku leksykonów Amazon Polly automatycznie zastosuje wymowy fonetyczne określone w pliku leksykonów i wyeliminuje konieczność ręcznego etykietka.
Utwórz plik leksykonu
Plik leksykonu zawiera mapowanie między słowami i ich fonetyczną wymową. Specyfikacja leksykonu wymowy (PLS) to zalecenie W3C dotyczące określania interoperacyjnych informacji o wymowie. Poniżej znajduje się przykładowy dokument PLS:
Upewnij się, że używasz prawidłowej wartości dla xml:lang
pole. Posługiwać się en-AU
jeśli przesyłasz plik leksykonu, który ma być używany z głosem Amazon Polly w języku australijskim. Aby uzyskać pełną listę obsługiwanych języków, zobacz Języki obsługiwane przez Amazon Polly.
Aby określić niestandardową wymowę, musisz dodać element będący pojemnikiem na hasło leksykalne z jednym lub kilkoma <grapheme>
element i jedna lub więcej informacji dotyczących wymowy podanych w środku <phoneme>
elementem.
Połączenia <grapheme>
element zawiera tekst opisujący ortografia ukończenia element. Możesz użyć <grapheme>
element, aby określić słowo, którego wymowę chcesz dostosować. Możesz dodać wiele <grapheme>
elementy do określenia wszystkich odmian słów, na przykład z makrami lub bez. ten <grapheme>
W elemencie rozróżniana jest wielkość liter, a podczas syntezy mowy ciąg Amazon Polly dopasowuje słowa w skrypcie, które konwertujesz na mowę. Jeśli zostanie znalezione dopasowanie, używa element, który opisuje, w jaki sposób wymawia się, aby wygenerować transkrypcję fonetyczną.
Można również użyć <alias>
dla powszechnie używanych skrótów. W poprzednim przykładzie pliku leksykonu, NZ jest używany jako alias dla Nowa Zelandia. Oznacza to, że ilekroć Amazon Polly natrafi na „NZ” (z pasującą wielkością liter) w treści tekstu, odczyta te dwie litery jako „Nowa Zelandia”.
Aby uzyskać więcej informacji na temat formatu pliku leksykonu, zobacz Specyfikacja leksykonu wymowy (PLS) Wersja 1.0 na stronie W3C.
Możesz zapisać plik leksykonu jako plik .pls lub .xml przed przesłaniem go do Amazon Polly.
Prześlij i zastosuj plik leksykonu
Prześlij plik leksykonu do Amazon Polly, korzystając z następujących instrukcji:
- W konsoli Amazon Polly wybierz leksykony w okienku nawigacji.
- Dodaj Prześlij leksykon.
- Wprowadź nazwę leksykonu, a następnie wybierz plik leksykonu.
- Wybierz plik do przesłania.
- Dodaj Prześlij leksykon.
Jeśli leksykon o tej samej nazwie (czy to plik .pls, czy .xml) już istnieje, przesłanie leksykonu zastępuje istniejący leksykon.
Teraz możesz zastosować leksykon, aby dostosować wymowę.
- Dodaj Text-to-Speech w okienku nawigacji.
- Rozszerzać Dodatkowe ustawienia.
- włączać Dostosuj wymowę.
- Wybierz leksykon z menu rozwijanego.
Możesz także wybrać Prześlij leksykon aby przesłać nowy plik leksykonu (lub nową wersję).
Dobrą praktyką jest kontrolowanie wersji pliku leksykonu w repozytorium kodu źródłowego. Przechowywanie niestandardowej wymowy w pliku leksykonu gwarantuje, że możesz konsekwentnie odwoływać się do fonetycznej wymowy niektórych słów w całej organizacji. Należy również pamiętać o ograniczeniach leksykonu wymowy, o których mowa na Kwoty w Amazon Polly strona.
Przetestuj wymowę po zastosowaniu leksykonu
Przeprowadźmy szybki test, używając jako tekstu wejściowego „Życzę wszystkim moim słuchaczom w Nowej Zelandii bardzo szczęśliwego Mātariki”.
Możemy porównać pliki audio przed i po zastosowaniu leksykonu.
Przed zastosowaniem leksykonu:
Po zastosowaniu leksykonu:
Wnioski
W tym poście omówiliśmy, jak dostosować wymowę często używanych akronimów lub słów, których nie ma w wybranym języku w Amazon Polly. Możesz użyć Tag SSML, który doskonale nadaje się do wstawiania jednorazowych dostosowań lub celów testowych. Zalecamy używanie leksykonu do tworzenia spójnego zestawu wymowy dla często używanych słów w Twojej organizacji. Dzięki temu autorzy treści mogą spędzać czas na pisaniu zamiast żmudnego zadania polegającego na powtarzalnym dodawaniu wymowy fonetycznej w skrypcie. Możesz to wypróbować na swoim koncie AWS w konsoli Amazon Polly.
Podsumowanie zasobów
O autorach
Ratana Kumara jest architektem rozwiązań z siedzibą w Auckland w Nowej Zelandii. Współpracuje z dużymi klientami korporacyjnymi, pomagając im projektować i budować bezpieczne, ekonomiczne i niezawodne aplikacje na skalę internetową z wykorzystaniem chmury AWS. Pasjonuje się technologią i lubi dzielić się wiedzą poprzez posty na blogu i sesje twitchowe.
Maciek Tegiń jest głównym projektantem dźwięku i menedżerem produktu w firmie Polly Brand Voices. Pracował zawodowo w branży technologicznej, filmowej, reklamowej i lokalizacji gier. W 2013 roku był pierwszym inżynierem dźwięku zatrudnionym w zespole Alexa Text-To-Speech. Maciek był zaangażowany w wydanie 12 głosów Alexa TTS w różnych krajach, ponad 20 głosów Polly i 4 głosy gwiazd Alexa. Maciek jest triathlonistą i zapalonym gitarzystą akustycznym.
- Coinsmart. Najlepsza w Europie giełda bitcoinów i kryptowalut.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. DARMOWY DOSTĘP.
- CryptoJastrząb. Radar Altcoin. Bezpłatna wersja próbna.
- Źródło: https://aws.amazon.com/blogs/machine-learning/customize-pronunciation-using-lexicons-in-amazon-polly/
- "
- 100
- 116
- O nas
- Konto
- Osiągać
- w poprzek
- zaawansowany
- Alexa
- Wszystkie kategorie
- już
- Amazonka
- aplikacje
- Stosowanie
- audio
- Australia
- samochód
- zautomatyzowane
- AWS
- zanim
- korzyści
- billing
- Blog
- Najnowsze wpisy
- ciało
- granica
- Pudełko
- marka
- budować
- wezwanie
- Pojemność
- Etui
- Celebrytki
- pewien
- Dodaj
- bliższy
- Chmura
- kod
- Kolumna
- Konsola
- skontaktuj się
- Pojemnik
- zawiera
- zawartość
- kontrola
- opłacalne
- kraje
- pokrywa
- Stwórz
- Tworzenie
- zwyczaj
- Klientów
- dostarczanie
- wykazać
- Wnętrze
- Deweloper
- różne
- podczas
- Edukacja
- wysiłek
- Elementy
- wyeliminować
- inżynier
- Angielski
- Wchodzę
- Enterprise
- szczególnie
- przykład
- Przede wszystkim system został opracowany
- Doświadczenia
- i terminów, a
- następujący
- obcy
- format
- znaleziono
- przyszłość
- gra
- Generować
- dobry
- wspaniały
- Zaoszczędzić
- pomoc
- W jaki sposób
- HTTPS
- olbrzymi
- człowiek
- przemysł
- Informacja
- wkład
- Internet
- interoperacyjne
- zaangażowany
- IT
- konserwacja
- wiedza
- język
- Języki
- duży
- nauka
- Dźwignia
- Biblioteka
- Lista
- miejscowy
- WYKONUJE
- zarządzane
- kierownik
- podręcznik
- ręcznie
- mapowanie
- Mecz
- dopasowywanie
- znaczy
- wzmiankowany
- może
- nic
- jeszcze
- Kino
- wielokrotność
- Nazwy
- Nawigacja
- nowy rok
- Nowa Zelandia
- aktualności
- normalna
- Oferty
- Option
- organizacja
- Inne
- część
- namiętny
- Ludzie
- gracz
- Podcast
- Popularny
- Wiadomości
- praktyka
- teraźniejszość
- Główny
- wygląda tak
- Wytworzony
- Produkt
- profesjonalny
- zapewniać
- zapewnia
- Wydawniczy
- cele
- pytanie
- Szybki
- czytelnicy
- w czasie rzeczywistym
- polecić
- zmniejszyć
- rzetelny
- składnica
- reprezentować
- reprezentuje
- skalowalny
- Skala
- Szukaj
- bezpieczne
- wybrany
- usługa
- Sesje
- zestaw
- dzielenie
- So
- solidny
- Rozwiązania
- kilka
- Kod źródłowy
- Głośnik
- specyfikacja
- wydać
- standard
- Rynek
- pobyt
- strumień
- wsparcie
- Utrzymany
- podpory
- systemy
- zespół
- tech
- przemysł technologiczny
- Technologies
- Technologia
- test
- Testowanie
- The Washington Post
- Przez
- czas
- już dziś
- Top
- Twitch
- posługiwać się
- wartość
- różnorodność
- wersja
- Głos
- GŁOSY
- Tom
- W3
- Waszyngton
- Strona internetowa
- czy
- Wikipedia
- bez
- słowa
- pracował
- działa
- pisanie
- XML
- rok