Amazon Polly, usługa zamiany tekstu na mowę generowana przez sztuczną inteligencję, umożliwia automatyzację i skalowanie interaktywnych rozwiązań głosowych, pomagając zwiększyć produktywność i obniżyć koszty.
Ponieważ nasi klienci nadal korzystają z Amazon Polly ze względu na bogaty zestaw funkcji i łatwość obsługi, zaobserwowaliśmy zapotrzebowanie na możliwość jednoczesnego generowania zsynchronizowanego dźwięku i napisów lub podpisów kodowanych dla danego tekstu wejściowego. W AWS nieustannie pracujemy wstecz od zapytań naszych klientów, dlatego w tym poście przedstawiamy metodę generowania dźwięku i napisów jednocześnie dla danego tekstu.
Chociaż napisy i podpisy są często używane zamiennie, także w tym poście, istnieją między nimi subtelne różnice:
- Napisy na filmie obcojęzycznym – W napisach język tekstu wyświetlany na ekranie różni się od języka audio i nie wyświetla niczego w przypadku niedialogowych dźwięków, takich jak znaczące dźwięki. Głównym celem jest dotarcie do odbiorców, którzy nie mówią językiem audio w filmie.
- Napisy (zamknięte/otwarte) – Napisy wyświetlają dialogi wypowiadane w dźwięku w tym samym języku. Jego głównym celem jest zwiększenie dostępności w przypadkach, gdy dźwięk nie jest słyszalny przez konsumenta końcowego ze względu na szereg problemów. Napisy kodowane są częścią innego pliku niż źródło audio/wideo i mogą być włączane i wyłączane według uznania użytkownika, natomiast napisy otwarte są częścią pliku wideo i użytkownik nie może ich wyłączyć.
Korzyści z używania Amazon Polly do generowania dźwięku z napisami lub zamkniętymi napisami
Wyobraź sobie następujący przypadek użycia: przygotowujesz prezentację opartą na slajdzie dla internetowego portalu edukacyjnego. Każdy slajd zawiera zawartość i narrację na ekranie. Treść na ekranie to podstawowy zarys, a narracja wchodzi w szczegóły. Zamiast nagrywać ludzki głos, który może być niewygodny i niespójny, możesz użyć Amazon Polly do wygenerowania narracji. Amazon Polly produkuje wysokiej jakości, spójne głosy. Nie ma potrzeby postprodukcji. W przyszłości, jeśli chcesz zaktualizować część prezentacji, wystarczy zaktualizować odpowiednie slajdy. Głos pasuje do oryginalnych slajdów. Ponadto, gdy Amazon Polly generuje dźwięk, dołączane są napisy, które pojawiają się w czasie z dźwiękiem. Oszczędzasz czas, ponieważ nie wymaga ręcznego nagrywania i oszczędzasz dodatkowy czas, gdy potrzebne są aktualizacje. Twoja prezentacja zapewnia również większą wartość, ponieważ podpisy pomagają uczniom korzystać z treści. To rozwiązanie korzystne dla obu stron.
Istnieje wiele przypadków użycia napisów, takich jak reklamy w przestrzeniach społecznościowych, salach gimnastycznych, kawiarniach i innych miejscach, w których zazwyczaj jest coś w telewizji z wyciszonym dźwiękiem i muzyką w tle; szkolenia i zajęcia online; wirtualne spotkania; publiczne ogłoszenia elektroniczne; oglądanie filmów w drodze do pracy bez słuchawek i bez przeszkadzania współpasażerom; i kilka innych.
Niezależnie od zakresu zastosowania, napisy mogą pomóc w następujących kwestiach:
- dostępność – Osoby z wadami słuchu mogą lepiej konsumować Twoje treści.
- Retencja – Nauka online jest łatwiejsza do uchwycenia i zapamiętania przez e-uczniów, gdy zaangażowanych jest więcej ludzkich zmysłów.
- Osiągalność – Twoje treści mogą dotrzeć do osób o konkurencyjnych priorytetach, takich jak jednoczesne granie i oglądanie wiadomości, lub osób, które posługują się innym językiem ojczystym niż język audio.
- Możliwość przeszukiwania – Treść można przeszukiwać przez wyszukiwarki. Podczas gdy większość wyszukiwarek nie może optymalnie przeszukiwać filmów, wyszukiwarki mogą korzystać z plików tekstowych napisów i ułatwiać znajdowanie treści.
- Uprzejmość społeczna – Czasami odtwarzanie dźwięku może być niegrzeczne ze względu na otoczenie lub dźwięk może być trudny do usłyszenia z powodu hałasu otoczenia.
- Zrozumienie – Treść jest łatwiejsza do zrozumienia niezależnie od akcentu mówiącego, języka ojczystego mówiącego czy szybkości mowy. Możesz także robić notatki bez wielokrotnego oglądania tej samej sceny.
Omówienie rozwiązania
Biblioteka prezentowana w tym poście wykorzystuje Amazon Polly do generowania dźwięku i napisów dla tekstu wejściowego. Możesz łatwo zintegrować tę bibliotekę z aplikacjami zamiany tekstu na mowę. Obsługuje kilka formatów audio i podpisów w formatach plików VTT i SRT, które są najczęściej używane w branży.
W tym poście skupiamy się na PollyVTT()
składni i opcji oraz zaoferuj kilka przykładów, które pokazują, jak używać Pythona SubtitleGeneratorForPolly
do jednoczesnego generowania synchronicznych plików audio i napisów dla danego tekstu wejściowego. Wyjściowy format pliku audio może być PCM (wav), OGG lub MP3, a format pliku napisów może być VTT lub SRT. Ponadto, SubtitleGeneratorForPolly
obsługuje wszystkie Amazon Polly synthesize_speech
parametry i dodaje do bogatego zestawu funkcji Amazon Polly.
Połączenia polly-vtt
biblioteka i jej zależności są dostępne na GitHub.
Zainstaluj i korzystaj z funkcji
Zanim przyjrzymy się kilku przykładom użycia PollyVTT()
, funkcja, która zasila SubtitleGeneratorForPolly
, spójrzmy na instalację i składnię tego.
Zainstaluj bibliotekę, używając następującego kodu:
Aby uruchomić z wiersza poleceń, po prostu uruchom polly-vtt
:
Poniższy kod przedstawia dostępne opcje:
Spójrzmy teraz na kilka przykładów.
1 przykład
Ten przykład generuje plik audio PCM wraz z plikiem podpisów SRT dla dwóch prostych zdań:
2 przykład
Ten przykład pokazuje, jak używać akapitu tekstu jako danych wejściowych. To generuje pliki audio w formacie WAV, MP3 i OGG oraz napisy w SRT i VTT. Poniższy przykład tworzy sześć plików dla podanego tekstu wejściowego:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Zobacz następujący kod:
3 przykład
Jednak w większości przypadków chcesz przekazać tekst jako plik wejściowy. Poniżej znajduje się przykład w Pythonie, z takimi samymi danymi wyjściowymi jak w poprzednim przykładzie:
Poniżej znajduje się wpis z referencjami wewnętrznego zespołu szkoleniowego AWS w zakresie korzystania z Amazon Polly z napisami:
Poniższy film przedstawia krótkie demo tego, jak wykorzystuje wewnętrzny zespół szkoleniowy w AWS PollyVTT()
:
Wnioski
W tym poście udostępniliśmy metodę jednoczesnego generowania dźwięku i napisów dla danego tekstu. The PollyVTT()
funkcja i SubtitleGeneratorForPolly
rozwiązać wspólny wymóg dotyczący napisów w sposób wydajny i skuteczny. Zespół Amazon Polly nadal wymyśla i oferuje uproszczone rozwiązania dla złożonych wymagań klientów.
Więcej samouczków i informacji o Amazon Polly znajdziesz na Blog dotyczący uczenia maszynowego AWS.
O autorach
Abhiszek Soni jest architektem rozwiązań partnerskich w AWS. Współpracuje z klientami, aby zapewnić wskazówki techniczne dotyczące najlepszego wyniku obciążeń w AWS.
Dan McKee wykorzystuje audio, wideo i kawę do destylacji treści w ukierunkowane, modułowe i ustrukturyzowane kursy. Pełniąc rolę Curriculum Developer Project Manager dla domeny NetSec w Amazon Web Services, wykorzystuje swoje doświadczenie w sieciach centrów danych, aby pomóc ekspertom w danej dziedzinie wcielać pomysły w życie.
Orlando Karama jest programistą ds. technicznych programów nauczania w Amazon Web Services, co oznacza, że może bawić się fajnymi nowymi technologiami, a następnie o nich mówić. Od czasu do czasu używa również tych fajnych technologii, aby ułatwić sobie pracę.
- AI
- ai sztuka
- generator sztuki ai
- masz robota
- Amazon Polly
- sztuczna inteligencja
- certyfikacja sztucznej inteligencji
- sztuczna inteligencja w bankowości
- robot sztucznej inteligencji
- roboty sztucznej inteligencji
- oprogramowanie sztucznej inteligencji
- Uczenie maszynowe AWS
- blockchain
- konferencja blockchain ai
- pomysłowość
- sztuczna inteligencja konwersacyjna
- konferencja kryptograficzna
- Dall's
- głęboka nauka
- google to
- uczenie maszynowe
- plato
- Platon Ai
- Analiza danych Platona
- Gra Platona
- PlatoDane
- platogaming
- skala ai
- składnia
- zefirnet