Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą usługi Amazon Transcribe

Opublikowane ponownie przez Plato

Obserwuje: 0

Jeśli prowadzisz działalność w kraju, w którym obowiązuje wiele języków urzędowych lub w wielu regionach, Twoje pliki audio mogą zawierać różne języki. Uczestnicy mogą mówić zupełnie różnymi językami lub mogą przełączać się między językami. Rozważ telefon do działu obsługi klienta, aby zgłosić problem na obszarze o znacznej populacji wielojęzycznej. Chociaż rozmowa może rozpocząć się w jednym języku, klient może zmienić język, aby opisać problem, w zależności od poziomu komfortu lub preferencji korzystania z innych języków. W podobny sposób przedstawiciel obsługi klienta może przełączać się między językami, przekazując instrukcje obsługi lub rozwiązywania problemów.

Z co najmniej 3 sekundami dźwięku, Amazon Transcribe może automatycznie identyfikować i skutecznie generować transkrypcje w językach używanych w nagraniu bez potrzeby określania języków przez ludzi. Dotyczy to różnych zastosowań, takich jak transkrypcja rozmów telefonicznych z klientami, konwertowanie wiadomości głosowych na tekst, przechwytywanie interakcji podczas spotkań, śledzenie komunikacji użytkowników na forach lub monitorowanie procesów produkcji i lokalizacji treści multimedialnych.

W tym poście opisano kroki transkrypcji wielojęzycznego pliku audio za pomocą Amazon Transcribe. Omawiamy, jak udostępnić pliki audio Amazon Transcribe i włączyć transkrypcję wielojęzycznych plików audio podczas wywoływania interfejsów API Amazon Transcribe.

Omówienie rozwiązania

Amazon Transcribe to usługa AWS, która ułatwia konwersję mowy na tekst. Dodanie funkcji mowy do tekstu w dowolnej aplikacji jest proste dzięki Amazon Transcribe, usłudze automatycznego rozpoznawania mowy (ASR). Możesz przetwarzać dane wejściowe audio za pomocą Amazon Transcribe, tworzyć przejrzyste transkrypcje, które są łatwe do odczytania i przejrzenia, zwiększyć dokładność dzięki dostosowaniu i filtrować informacje w celu ochrony prywatności klienta.

Rozwiązanie wykorzystuje również Usługa Amazon Simple Storage (Amazon S3), obiektowa usługa przechowywania stworzona do przechowywania i pobierania dowolnej ilości danych z dowolnego miejsca. Jest to prosta usługa pamięci masowej, która oferuje wiodącą w branży trwałość, dostępność, wydajność, bezpieczeństwo i praktycznie nieograniczoną skalowalność przy bardzo niskich kosztach. Kiedy przechowujesz dane w Amazon S3, pracujesz z zasobami znanymi jako Wiadra i obiekty. Wiadro to pojemnik na przedmioty. Obiekt to plik i wszelkie metadane opisujące plik.

W tym poście przeprowadzimy Cię przez następujące kroki, aby wdrożyć wielojęzyczne rozwiązanie do transkrypcji audio:

Utwórz zasobnik S3.
Prześlij swój plik audio do zasobnika.
Utwórz zadanie transkrypcji.
Przejrzyj dane wyjściowe zadania.

Wymagania wstępne

W tej instrukcji należy spełnić następujące wymagania wstępne:

Amazon Transcribe zapewnia opcję przechowywania transkrybowanych danych wyjściowych w zasobniku S3 zarządzanym przez usługę lub zarządzanym przez klienta. W tym poście Amazon Transcribe zapisuje wyniki do zarządzanego przez usługę segmentu S3.

Należy pamiętać, że usługa Amazon Transcribe jest usługą regionalną, a wywoływane punkty końcowe interfejsu API usługi Amazon Transcribe muszą znajdować się w tym samym regionie co zasobniki S3.

Utwórz wiadro S3 do przechowywania wejściowych plików audio

Aby utworzyć zasobnik S3, wykonaj następujące czynności:

Na konsoli Amazon S3 wybierz Utwórz wiadro.
W razie zamówieenia projektu Nazwa wiadra, wprowadź globalnie unikatową nazwę zasobnika.
W razie zamówieenia projektu Region AWS, wybierz ten sam region, w którym znajdują się punkty końcowe API Amazon Transcribe.
Pozostaw wszystkie wartości domyślne bez zmian.
Dodaj Utwórz wiadro.

Prześlij swój plik audio do zasobnika S3

Prześlij swój wielojęzyczny plik audio do zasobnika S3 na swoim koncie AWS. Na potrzeby tego ćwiczenia użyjemy następującej próbki wielojęzyczny plik audio. Przechwytuje połączenie obsługi klienta w języku angielskim i hiszpańskim.

Na konsoli Amazon S3 wybierz Wiadra w okienku nawigacji.
Wybierz zasobnik, który utworzyłeś wcześniej do przechowywania wejściowych plików audio.
Dodaj Prześlij.
Dodaj Dodaj pliki.
Wybierz plik audio, który chcesz transkrybować z komputera lokalnego.
Dodaj Prześlij.

Twój plik audio będzie wkrótce dostępny w zasobniku S3.

Utwórz zadanie transkrypcji

Po przesłaniu pliku audio tworzymy teraz zadanie transkrypcji.

W konsoli Amazon Transscribe wybierz Zadania transkrypcyjne w okienku nawigacji.
Dodaj Utwórz pracę.
W razie zamówieenia projektu Imię, wprowadź unikatową nazwę zadania.
Będzie to również nazwa wyjściowego pliku transkrypcji.
W razie zamówieenia projektu Ustawienia języka, Wybierz Automatyczna identyfikacja wielu języków.
Ta funkcja umożliwia Amazon Transcribe automatyczną identyfikację i transkrypcję wszystkich języków używanych w pliku audio.
W razie zamówieenia projektu Opcje językowe do automatycznej identyfikacji języka, pozostaw to pole niezaznaczone.
Amazon Transcribe automatycznie identyfikuje i dokonuje transkrypcji wszystkich języków używanych w nagraniu. Aby poprawić dokładność transkrypcji, możesz opcjonalnie wybrać dwa lub więcej języków, o których wiesz, że były używane w nagraniu.
W razie zamówieenia projektu Typ modelu, tylko Ogólny model opcja jest dostępna w chwili pisania tego posta.
W razie zamówieenia projektu Dane wejściowewybierz Przeglądaj S3.
Wybierz źródłowy plik audio, który przesłaliśmy wcześniej.
W razie zamówieenia projektu Dane wyjściowe, możesz wybrać jedną z nich Łyżka S3 zarządzana przez serwis or Określony przez klienta wiadro S3. Wybierz dla tego wpisu Łyżka S3 zarządzana przez serwis.
Dodaj Następna.
Dodaj Utwórz pracę.

Przejrzyj wyniki pracy

Po zakończeniu zadania transkrypcji otwórz zadanie transkrypcji.

Przewiń w dół do Podgląd transkrypcji Sekcja. Transkrypcja audio jest wyświetlana na Tekst patka. Transkrypcja obejmuje zarówno angielską, jak i hiszpańską część rozmowy.

Opcjonalnie możesz pobrać kopię transkrypcji jako plik JSON, którego możesz użyć do dalszych celów analityka po rozmowie.

Sprzątać

Aby uniknąć naliczania przyszłych opłat, opróżnij i usuń zasobnik S3 utworzony do przechowywania źródłowego pliku wejściowego audio. Upewnij się, że pliki są przechowywane w innym miejscu, ponieważ spowoduje to trwałe usunięcie wszystkich obiektów znajdujących się w zasobniku. W konsoli Amazon Transcribe wybierz i usuń zadanie utworzone wcześniej na potrzeby transkrypcji.

Wnioski

W tym poście stworzyliśmy kompleksowy przepływ pracy, aby zautomatyzować identyfikację i transkrypcję wielojęzycznych plików audio bez pisania żadnego kodu. Wykorzystaliśmy nową funkcjonalność Amazon Transcribe do automatycznego rozpoznawania różnych języków w pliku audio i poprawnej transkrypcji każdego języka.

Aby uzyskać więcej informacji, zobacz Identyfikacja języka z zadaniami transkrypcji wsadowej.

O autorach

Murtuza Bootwala jest starszym architektem rozwiązań w AWS i interesuje się technologiami AI/ML. Lubi pracować z klientami, pomagając im osiągać wyniki biznesowe. Poza pracą lubi zajęcia na świeżym powietrzu i spędzanie czasu z rodziną.

Victor Red jest pasjonatem AI/ML i tworzenia oprogramowania. Pomógł uruchomić Amazon Alexa w Stanach Zjednoczonych i Meksyku. Wprowadził także Amazon Texttract do AWS Partners i uruchomił AWS Contact Center Intelligence (CCI). Obecnie jest globalnym liderem technologicznym ds. konwersacyjnych partnerów AI.

Babu Srinivasana jest AWS Senior Specialist SA (Language AI Services) z siedzibą w Chicago. Koncentruje się na Amazon Transcribe (speech to text), pomagając naszym klientom korzystać z usług AI do rozwiązywania problemów biznesowych. Poza pracą zajmuje się obróbką drewna i pokazami magii.

Znak czasu: 14 grudnia 2022 r.14 grudnia 2022 r.

Znak czasu: Lipiec 8, 2022

Transfer uczenia się dla modeli klasyfikacji obrazów TensorFlow w Amazon SageMaker

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1655641

Znak czasu: Września 7, 2022

Amazon SageMaker wbudowany LightGBM oferuje teraz szkolenia rozproszone przy użyciu Dask

Klaster źródłowy:

Uczenie maszynowe AWS

Węzeł źródłowy: 1797416

Znak czasu: Jan 30, 2023

Automatycznie identyfikuj języki w wielojęzycznych plikach audio za pomocą usługi Amazon Transcribe

Opublikowane ponownie przez Plato

Omówienie rozwiązania

Wymagania wstępne

Utwórz wiadro S3 do przechowywania wejściowych plików audio

Prześlij swój plik audio do zasobnika S3

Utwórz zadanie transkrypcji

Przejrzyj wyniki pracy

Sprzątać

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Zbuduj rozwiązanie konserwacji predykcyjnej za pomocą Amazon Kinesis, AWS Glue i Amazon SageMaker

Pozwól osobom niedowidzącym słyszeć dokumenty za pomocą Amazon Text i Amazon Polly

Skaluj szkolenie i wnioskowanie tysięcy modeli ML za pomocą Amazon SageMaker | Usługi sieciowe Amazona

AWS oferuje nowe przewodniki dotyczące sztucznej inteligencji, uczenia maszynowego i generatywnej sztucznej inteligencji, które pomogą Ci zaplanować strategię AI | Usługi sieciowe Amazona

Wbudowany PaddleOCR z Amazon SageMaker Projects dla MLOps do optycznego rozpoznawania znaków w dokumentach tożsamości

Transfer uczenia się dla modeli klasyfikacji obrazów TensorFlow w Amazon SageMaker

Amazon SageMaker wbudowany LightGBM oferuje teraz szkolenia rozproszone przy użyciu Dask

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto