Jak eMagazines wykorzystuje Amazon Polly do głosowania artykułów dla dzieci w wieku szkolnym?

Opublikowane ponownie przez Plato

Obserwuje: 0

Jest to gościnny post Andrew Degenholtza, dyrektora generalnego i założyciela eMagazines, firmy macierzystej ReadAlong.ai. Technologia eMagazines bezproblemowo przekształca produkty drukowane w wysokiej jakości cyfrowe i dźwiękowe wrażenia. Wykorzystując technologię Amazon, ReadAlong.ai oferuje wydawcom prosty, gotowy do użycia sposób dodawania dźwięku do swoich witryn internetowych za pomocą jednej linii kodu.

e-Magazyn wspiera wydawców w dostarczaniu wysokiej jakości treści dziennikarskich czytelnikom na różnych platformach cyfrowych. Nasza marka ReadAlong.ai pozwala naszym klientom pogłębić ich kontakt z czytelnikami, dodając dźwięk do tradycyjnych formatów publikowania tekstu. W marcu 2020 roku pomogliśmy TIME for Kids uruchomić cyfrową wersję popularnego magazynu dla dzieci w wieku szkolnym. Ten premium subskrypcyjny produkt pomógł ich użytkownikom przejść na technologię cyfrową, gdy pandemia zmusiła szkoły do zamknięcia, a rodziny potrzebowały wysokiej jakości narzędzi edukacyjnych uzupełniających materiały do nauki w klasie.

W tym poście dzielimy się, w jaki sposób stworzyliśmy automatyczny sposób, aby TIME for Kids bezproblemowo dodawał dźwięk dla wczesnych czytelników i pre-readers za pośrednictwem ReadAlong.ai, który używa Amazon Polly technologia.

Dlaczego TIME for Kids zdecydowało się rozpocząć tworzenie narracji dźwiękowej swoich artykułów?

Dodanie dźwięku z automatycznym przewijaniem i podświetlaniem tekstu wspiera osoby czytające wcześniej i tych uczniów, którzy wciąż uczą się czytać. Słuchanie podczas czytania wspiera rozwój słownictwa i czytanie ze zrozumieniem, a nowe słowa mają większą szansę nauczenia się, gdy zapewniona jest zarówno ich forma ustna, jak i pisemna. A raport z Narodowego Centrum Wczesnego Rozwoju, Nauczania i Uczenia się stwierdza, że rozwijające się mózgi muszą słyszeć język jeszcze przed nauczeniem się mówić, a nawet mózgi niemowląt przygotowują się do mówienia na kilka miesięcy przed wypowiedzeniem pierwszych słów. Co więcej, raport ujawnił również, że słuchanie opowiadań czytanych na głos pomaga zwiększyć zarówno objętość, jak i różnorodność słów wchodzących do młodych słowników i obszarów rozumienia. Eksperci w raporcie Scholastic czytanie pomaga również wczesnym czytelnikom „skoncentrować się na dźwiękach słów czytanych bez przerwy i zapewnia model płynnego czytania”, a także zauważono, że zasoby, takie jak dźwięk, pomagają dzieciom nauczyć się słuchać, co jest warunkiem wstępnym do nauki czytania.

Jakie było wyzwanie biznesowe, które podjęliśmy?

TIME for Kids początkowo zajmował się dostępnością dla osób przed czytaniem, zatrudniając aktorów głosowych do nagrywania swoich historii. Wcześniejsza iteracja przycisku odtwarzania dźwięku wykorzystywała odtwarzacz audio HTML bez zmiany szybkości ani opcji przewijania strony lub podświetlania tekstu. Doświadczenie było kosztowne i czasochłonne, a wrażenia użytkownika nie były tak wciągające, jak mogłyby być. TIME for Kids nie był również w stanie wyświetlić nawet podstawowych danych dotyczących liczby zabaw lub ukończenia.

Dlaczego Amazon Polly?

Wybraliśmy Amazon Polly, ponieważ jego interfejsy API i usługi sieciowe wspierają nasz cel, jakim jest automatyzacja procesów i ułatwienie naszym klientom.

Neuronowe Amazon Polly Tekst na mowę synteza najlepiej radzi sobie z wypowiadaniem słów w kontekście zdania, a spójność jakości mowy pozwala na automatyzację renderowania artykułów.

Dodatkowo Amazon Polly oferuje responsywne API i potężne Obsługa SSML. Zapewnia to wsparcie w przypadkach, w których konieczna jest większa kontrola, aby zmienić fleksję oraz w przypadku, gdy tekst zawiera trudne nazwy (osoby, marki, firmy) lub zamienniki słów i fraz (odczytywanie skrótów lub akronimów w określony sposób).

Amazon Polly również obsługuje znaki mowy, które mają kluczowe znaczenie dla wyróżnienia aktualnie czytanego tekstu.

W TIME for Kids głos Kevina był wyraźnym zwycięzcą. TIME for Kids uwielbiali przystępny dźwięk głosu Kevina — chcieli mieć głos, który brzmiałby jak głos dziecka, aby pomóc w nawiązaniu poczucia kontaktu z młodymi czytelnikami. Posłuchaj przykładowego artykułu TIME for Kids używającego głosu Kevina.

Wyzwanie techniczne

TIME for Kids potrzebował edukacyjnego rozwiązania audio dla swojej strony internetowej. Musiała to być jednorazowa konfiguracja, która była wysoce zautomatyzowana i miała bardzo niski współczynnik tarcia. Rozwiązanie wymagało również przetwarzania nowych artykułów, ponieważ były one codziennie dodawane dynamicznie. A kiedy użytkownik słucha dźwięku, strona musiała przewijać się wraz z tekstem i podświetlać aktualnie czytane zdanie.

Częścią naszego wyzwania było rzetelne i programistyczne określenie, które treści należy czytać na głos. W typowym kontekście publikowania odtwarzacz audio musi czytać tytuł i treść artykułu, ale unikaj czytania tekstu nagłówka i stopki, pasków nawigacyjnych oraz niektórych rodzajów reklam i podpisów. Nasze rozwiązanie do analizy stron łączy pozytywne i negatywne selektory zapytań. Dla każdej konfiguracji, zdefiniowanej przez zestaw artykułów, które mają tę samą strukturę i układ, http://readalong.ai rozwiązanie obsługuje zestaw selektorów list dozwolonych i zestaw selektorów list zablokowanych, które razem przechwytują odpowiednią zawartość do syntezy mowy.

Co więcej, witryna TIME for Kids stawiała wiele wyzwań technicznych, ponieważ niektóre strony są dostępne tylko dla płatnych subskrybentów, a niektóre są ogólnodostępne. TIME for Kids oferuje cztery edycje dla poszczególnych klas, materiały dydaktyczne, przewodniki po programach nauczania i cotygodniowe wirtualne plany nauki dla każdego wydania, a także arkusze i quizy. Dlatego każdy artykuł ma wiele wersji dla różnych poziomów czytania zarówno w języku angielskim, jak i hiszpańskim — niektóre z aż siedmioma różnymi poziomami czytania w obu językach.

Nasze rozwiązanie

Stworzyliśmy prosty skrypt umożliwiający programowi TIME for Kids dodanie tylko jednego wiersza kodu do nagłówka dowolnej strony, na której chcą oferować dźwięk. Skrypt zautomatyzował wszystko, od dostarczania treści strony, przez syntezę dźwięku, po integrację strony internetowej. Od początku roku szkolnego dodaliśmy głosy Kevina i Lupe (odpowiednio dla treści w języku angielskim i hiszpańskim) do tysięcy artykułów na temat timeforkids.com.

Nasze rozwiązanie pozwalało na automatyczne dostarczanie treści i syntezę dźwięku, co oznaczało brak konieczności logowania się do pulpitu nawigacyjnego, FTP, Dropbox lub w inny sposób wysyłania nowej treści artykułu do ReadAlong.ai za każdym razem, gdy dodawana była nowa strona. The przyjazny dla użytkownika backend rozwiązania umożliwia również TIME for Kids łatwe zastępowanie słów, w tym globalne zasady, aby dać leksykonom silnika syntezatora audio wskazówki dotyczące kontekstowej wymowy i trudnych nazw, marek lub akronimów.

Oprócz pozycjonowania i stylizacji programu uruchamiającego i odtwarzacza, aby pasowały do projektu witryny TIME for Kids, w ramach dostosowywania dodaliśmy funkcję podświetlania i przewijania tekstu podczas głośnego czytania artykułu, co jest kolejnym pomocnym narzędziem wspierającym dzieci w nauka rozpoznawania słów i łączenia ich z dźwiękami. Dostosowaliśmy tę funkcję tak, aby była widoczna, ale nie rozpraszała, aby elementy dźwiękowe i wizualne mogły działać razem, pomagając młodym czytelnikom. Aby obsługiwać tę ulepszoną funkcję, wdrożyliśmy szczegółowe metadane na poziomie słów i zdań dostępne w Amazon Polly, aby zapewnić płynne podświetlanie, które pomaga czytelnikom śledzić nowe słowa i pojęcia. Dzięki temu słuchacz może rozpoznać, co słyszy, gdy przegląda treść tak, jak jest podświetlona w przeglądarce.

Stworzyliśmy również domyślną opcję dla głosów Amazon Polly Kevin i Lupe, aby zaczynały się od wolniejsza prędkość, więc domyślna częstotliwość to .9x, a nie 1x, co jest kolejnym sposobem na ułatwienie początkującym czytelnikom i czytelnikom wstępnym lepszego dostępu do treści. Słuchacze mają możliwość obniżenia domyślnej szybkości głosu do 75x lub zwiększenia do 1.5x, aby dostosować się do większej liczby poziomów czytania.

Korzyści biznesowe dla klienta

Dzięki naszemu produktowi na swojej stronie, TIME for Kids mógł wyrażać swoje treści w skalowalny sposób. Dostarczają treści na zasadzie artykuł po artykule w dwóch różnych językach (angielskim i hiszpańskim) i na siedmiu różnych poziomach czytania.

Mogą teraz z łatwością zbierać i analizować dane w czasie rzeczywistym, w tym zarówno wskaźniki odtworzeń, jak i ukończenia, a także przeglądać najpopularniejsze artykuły, a także artykuły z największym zaangażowaniem audio.

Obecnie wiemy, że 55% dzieci, które klikają, aby posłuchać artykułu, uzupełnia go w 100%, a 66% dzieci, które słuchają, uzupełnia ponad połowę artykułu. Te znaczące wskaźniki ukończenia wzmacniają korzyści i potwierdzają, że słuchacze czują się komfortowo z technologią, a głos jest możliwy do odniesienia. Dźwięk ReadAlong.ai pomógł również TIME for Kids promować zaawansowane funkcje ułatwień dostępu, w tym kluczowe artykuły z tłumaczeniem na język hiszpański i funkcją czytania na głos, ponieważ obecność dźwięku jest wyraźnie widoczna w podglądzie każdego artykułu wraz z innymi korzyściami (takimi jak Hiszpańskie tłumaczenie).

Stacy Bien, dyrektor Curriculum for TIME for Kids, była pod wrażeniem zarówno rozwiązania, jak i danych dotyczących zaangażowania, mówiąc:

„To naprawdę piękna rzecz. To rozwiązanie pomoże tak wielu wczesnym czytelnikom rozwinąć umiejętności czytania i z łatwością konsumować więcej treści. Dla nas zaobserwowaliśmy ogromny wzrost zaangażowania. To, w połączeniu z łatwością użytkowania i opłacalnością, sprawia, że jest to bardzo proste”.

Wnioski

Czytaj wzdłuż.ai wykorzystał Amazon Polly, aby pomóc firmie TIME for Kids usprawnić proces dodawania wysokiej jakości treści audio do swojego produktu subskrypcji premium. Nasze rozwiązanie pozwoliło klientowi znacznie skrócić czas, precyzję i koszt produktu. Na przykład lektor zazwyczaj spędza godzinę lub więcej, aby nagrać artykuł, edytować dźwięk i opanować końcowy dźwięk. Teraz, gdy skrypt ReadAlong.ai zostanie dodany do witryny, gdy tworzone są nowe artykuły, treść jest automatycznie przetwarzana bez poświęcania czasu przez lektora, redaktora audio lub administratora. Dźwięk odczytuje artykuły precyzyjnie i rzadko wymaga korekt, tworząc cenne i niewymierne oszczędności zarówno czasu, jak i kosztów.

Zebrane wskaźniki KPI mówią nam, że nie tylko stało się to łatwym sposobem dla zespołu TIME for Kids na zarządzanie funkcjami audio, ale że użytkownicy końcowi — dzieci na wczesnym etapie rozwoju umiejętności czytania — traktują tę funkcjonalność jako kolejne narzędzie w swoich ścieżka czytania.

O autorze

Andrzeja Degenholtza jest CEO i założycielem eMagazines i Czytaj wzdłuż.ai, i jest prezesem firmy ValueMags, którą założył w 1999 roku. Degenholtz posiada tytuł magistra marketingu na Northwestern University oraz licencjat z Muhlenberg College. Wcześniej był członkiem grupy zadaniowej Alliance for Audited Media ds. edycji cyfrowej, utworzonej w celu wypracowania najlepszych praktyk w zakresie pozyskiwania prenumeratorów czasopism cyfrowych.

Znak czasu: 9 czerwca 2022 r.

Znak czasu: Październik 24, 2022

AWS Deep Learning Challenge widzi innowacyjne i efektywne wykorzystanie instancji Amazon EC2 DL1

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1637640

Znak czasu: Sierpnia 24, 2022

W jaki sposób rejestr kodów kreskowych wykrywa podrabiane produkty za pomocą wykrywania obiektów i Amazon SageMaker

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1223264

Znak czasu: Mar 8, 2022

Amazon SageMaker Automatic Model Tuning obsługuje teraz trzy nowe kryteria ukończenia dla optymalizacji hiperparametrów

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1800323

Znak czasu: Luty 7, 2023

Opublikowane ponownie przez Plato

Łagodzenie halucynacji poprzez generację rozszerzoną odzyskiwania przy użyciu bazy danych wektorów Pinecone i Lamy-2 z Amazon SageMaker JumpStart | Usługi internetowe Amazona

Włącz inteligentne podejmowanie decyzji dzięki Amazon SageMaker Canvas i Amazon QuickSight

Koduj wielojęzyczne właściwości tekstu w Amazon Neptune, aby trenować modele predykcyjne

Skróć czas i koszty szkolenia głębokiego uczenia dzięki MosaicML Composer na AWS

AWS Deep Learning Challenge widzi innowacyjne i efektywne wykorzystanie instancji Amazon EC2 DL1

W jaki sposób rejestr kodów kreskowych wykrywa podrabiane produkty za pomocą wykrywania obiektów i Amazon SageMaker

Amazon SageMaker Automatic Model Tuning obsługuje teraz trzy nowe kryteria ukończenia dla optymalizacji hiperparametrów

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto