Twórz dźwięk dla treści w wielu językach z tą samą personą głosową TTS w Amazon Polly

Opublikowane ponownie przez Plato

Obserwuje: 0

Amazon Polly to wiodąca usługa oparta na chmurze, która konwertuje tekst na mowę realistyczną. Po przyjęciu neuronowego przetwarzania tekstu na mowę (NTTS) stale poszerzaliśmy nasze portfolio dostępnych głosów, aby zapewnić szeroki wybór różnych mówców w obsługiwanych językach. Dzisiaj mamy przyjemność ogłosić cztery nowe dodatki: Pedro mówiący po hiszpańsku amerykańskim, Daniel mówiący po niemiecku, Liam mówiący po kanadyjskim francuskim i Arthur mówiący po angielsku brytyjski. Podobnie jak w przypadku wszystkich głosów Neural w naszym portfolio, głosy te oferują płynną, natywną wymowę w swoich językach docelowych. Jednak wyjątkową cechą tych czterech głosów jest to, że wszystkie opierają się na tej samej osobowości głosowej.

Pedro, Daniel, Liam i Arthur wzorowali się na istniejącym amerykańskim angielskim głosie Matthew. Podczas gdy klienci nadal doceniają Matthew za jego naturalność i profesjonalną jakość brzmienia, głos do tej pory służył wyłącznie ruchowi anglojęzycznemu. Teraz, korzystając z metod głębokiego uczenia, oddzieliliśmy język od tożsamości mówcy, co pozwoliło nam zachować płynność podobną do natywnej w wielu językach bez konieczności uzyskiwania wielojęzycznych danych od tego samego mówcy. W praktyce oznacza to, że przenieśliśmy charakterystykę głosu amerykańskiego angielskiego Matthew do amerykańskiego hiszpańskiego, niemieckiego, kanadyjskiego francuskiego i brytyjskiego angielskiego, otwierając nowe możliwości dla klientów Amazon Polly.

Posiadanie podobnie brzmiącego głosu dostępnego w pięciu lokalizacjach otwiera ogromny potencjał rozwoju biznesu. Przede wszystkim klienci o zasięgu globalnym mogą stworzyć spójne środowisko użytkownika w różnych językach i regionach. Na przykład interaktywny system odpowiedzi głosowych (IVR), który obsługuje wiele języków, może teraz obsługiwać różne segmenty klientów bez zmiany charakteru marki. To samo dotyczy wszystkich innych przypadków użycia TTS, takich jak udźwiękowienie artykułów prasowych, materiałów edukacyjnych lub podcastów.

Po drugie, głosy dobrze pasują do klientów Amazon Polly, którzy szukają natywnej wymowy obcych fraz w jednym z pięciu obsługiwanych języków.

Po trzecie, wydanie Pedro, Daniela, Liama i Arthura obsługuje naszych klientów, którzy lubią Amazon Polly NTTS w języku hiszpańskim (USA), niemieckim, kanadyjskim francuskim i brytyjskim angielskim, ale poszukują wysokiej jakości męskiego głosu — mogą używać tych głosów do tworzenia dźwięku dla treści jednojęzycznych i oczekuj najwyższej jakości, która dorównuje innym głosom NTTS w tych językach.

Wreszcie, technologia, którą opracowaliśmy do tworzenia nowych męskich głosów NTTS, może być również używana do Głosy marki. Dzięki temu klienci Brand Voice mogą nie tylko cieszyć się unikalnym głosem NTTS, który jest dostosowany do ich marki, ale także zachować spójne wrażenia podczas obsługi międzynarodowej publiczności.

Przykładowy przypadek użycia

Przeanalizujmy przykładowy przypadek użycia, aby zademonstrować, co to oznacza w praktyce. Klienci Amazon Polly zaznajomieni z Matthew mogą nadal używać tego głosu w zwykły sposób, wybierając Matthew na konsoli Amazon Polly i wprowadzając dowolny tekst, który chce usłyszeć w języku angielskim. W poniższym scenariuszu generujemy próbki audio dla systemu IVR („W przypadku języka angielskiego proszę nacisnąć jeden”):

Dzięki tej wersji możesz teraz rozszerzyć przypadek użycia, aby zapewnić spójne wrażenia dźwiękowe w różnych językach. Wszystkie nowe głosy brzmią naturalnie i zachowują rodzimy akcent.

Aby wygenerować mowę w brytyjskim języku angielskim, wybierz Arthur („W przypadku języka angielskiego, naciśnij jeden”):
Aby używać amerykańskiego hiszpańskiego, wybierz Pedro („Para español, por favor marque dos”):
Daniel oferuje wsparcie w języku niemieckim („Für Deutsch drücken Sie bitte die Drei”):
Możesz zsyntetyzować tekst w kanadyjskim francuskim, wybierając Liam („Pour le français, veuillez appuyer sur le quatre”):

Zwróć uwagę, że oprócz mówienia z innym akcentem, głos Arthura w języku angielskim z Wielkiej Brytanii będzie lokalizować tekst wejściowy inaczej niż głos Mateusza w języku angielskim z USA. Na przykład „1/2/22” zostanie odczytane przez Artura jako „1 lutego 2022”, podczas gdy Mateusz odczyta je jako „2 stycznia 2022”.

Teraz połączmy te podpowiedzi:

Wnioski

Pedro, Daniel, Liam i Arthur są dostępni tylko jako głosy Neural TTS, więc aby się nimi cieszyć, musisz użyć silnika Neural w jednym z Regiony AWS obsługujące NTTS. Są wysokiej jakości głosy jednojęzyczne w swoich językach docelowych. Dodatkową korzyścią jest to, że ich persony są spójne w różnych językach, co, mamy nadzieję, zachwyci klientów pracujących z treściami w wielu językach. Aby uzyskać więcej informacji, przejrzyj naszą pełną listę Amazon Polly głosy zamiany tekstu na mowę , Ceny neuronowych TTS, limity usług, Najczęściej zadawane pytaniai odwiedź nasze strona cenowa.

O autorach

Patryk Waina jest inżynierem językowym pracującym nad zamianą tekstu na mowę dla języka angielskiego, niemieckiego i hiszpańskiego. Z doświadczeniem w przetwarzaniu mowy i języka, jego zainteresowania skupiają się na uczeniu maszynowym w zastosowaniu do rozwiązań front-endowych TTS, szczególnie w środowiskach o niskich zasobach. W wolnym czasie lubi słuchać muzyki elektronicznej i uczyć się nowych języków.

Marta Smolarek jest Senior Program Manager w zespole Amazon Text-to-Speech, gdzie koncentruje się na przypadku użycia Contact Center TTS. Definiuje inicjatywy Go-to-Market, wykorzystuje opinie klientów do budowania mapy drogowej produktu i koordynuje wprowadzanie głosowe TTS. Poza pracą uwielbia jeździć na kempingi z rodziną.

Znak czasu: 28 czerwca 2022 r.

Jak Amazon Shopping wykorzystuje moderację treści Amazon Rekognition do przeglądania szkodliwych obrazów w recenzjach produktów | Usługi sieciowe Amazona

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1875891

Znak czasu: Sierpnia 15, 2023

Twórz dźwięk dla treści w wielu językach z tą samą osobą głosową TTS w Amazon Polly

Opublikowane ponownie przez Plato

Przykładowy przypadek użycia

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Jak firma Amp na Amazon wykorzystała dane, aby zwiększyć zaangażowanie klientów, część 1: Budowa platformy do analizy danych

Generuj zsynchronizowane napisy kodowane i dźwięk za pomocą generatora napisów Amazon Polly

Identyfikuj lasy namorzynowe za pomocą funkcji zdjęć satelitarnych za pomocą Amazon SageMaker Studio i Amazon SageMaker Autopilot — część 1

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto