Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Automatycznie identyfikuj języki w wielojęzycznych plikach audio za pomocą usługi Amazon Transcribe

Jeśli prowadzisz działalność w kraju, w którym obowiązuje wiele języków urzędowych lub w wielu regionach, Twoje pliki audio mogą zawierać różne języki. Uczestnicy mogą mówić zupełnie różnymi językami lub mogą przełączać się między językami. Rozważ telefon do działu obsługi klienta, aby zgłosić problem na obszarze o znacznej populacji wielojęzycznej. Chociaż rozmowa może rozpocząć się w jednym języku, klient może zmienić język, aby opisać problem, w zależności od poziomu komfortu lub preferencji korzystania z innych języków. W podobny sposób przedstawiciel obsługi klienta może przełączać się między językami, przekazując instrukcje obsługi lub rozwiązywania problemów.

Z co najmniej 3 sekundami dźwięku, Amazon Transcribe może automatycznie identyfikować i skutecznie generować transkrypcje w językach używanych w nagraniu bez potrzeby określania języków przez ludzi. Dotyczy to różnych zastosowań, takich jak transkrypcja rozmów telefonicznych z klientami, konwertowanie wiadomości głosowych na tekst, przechwytywanie interakcji podczas spotkań, śledzenie komunikacji użytkowników na forach lub monitorowanie procesów produkcji i lokalizacji treści multimedialnych.

W tym poście opisano kroki transkrypcji wielojęzycznego pliku audio za pomocą Amazon Transcribe. Omawiamy, jak udostępnić pliki audio Amazon Transcribe i włączyć transkrypcję wielojęzycznych plików audio podczas wywoływania interfejsów API Amazon Transcribe.

Omówienie rozwiązania

Amazon Transcribe to usługa AWS, która ułatwia konwersję mowy na tekst. Dodanie funkcji mowy do tekstu w dowolnej aplikacji jest proste dzięki Amazon Transcribe, usłudze automatycznego rozpoznawania mowy (ASR). Możesz przetwarzać dane wejściowe audio za pomocą Amazon Transcribe, tworzyć przejrzyste transkrypcje, które są łatwe do odczytania i przejrzenia, zwiększyć dokładność dzięki dostosowaniu i filtrować informacje w celu ochrony prywatności klienta.

Rozwiązanie wykorzystuje również Usługa Amazon Simple Storage (Amazon S3), obiektowa usługa przechowywania stworzona do przechowywania i pobierania dowolnej ilości danych z dowolnego miejsca. Jest to prosta usługa pamięci masowej, która oferuje wiodącą w branży trwałość, dostępność, wydajność, bezpieczeństwo i praktycznie nieograniczoną skalowalność przy bardzo niskich kosztach. Kiedy przechowujesz dane w Amazon S3, pracujesz z zasobami znanymi jako Wiadra i obiekty. Wiadro to pojemnik na przedmioty. Obiekt to plik i wszelkie metadane opisujące plik.

W tym poście przeprowadzimy Cię przez następujące kroki, aby wdrożyć wielojęzyczne rozwiązanie do transkrypcji audio:

  1. Utwórz zasobnik S3.
  2. Prześlij swój plik audio do zasobnika.
  3. Utwórz zadanie transkrypcji.
  4. Przejrzyj dane wyjściowe zadania.

Wymagania wstępne

W tej instrukcji należy spełnić następujące wymagania wstępne:

Amazon Transcribe zapewnia opcję przechowywania transkrybowanych danych wyjściowych w zasobniku S3 zarządzanym przez usługę lub zarządzanym przez klienta. W tym poście Amazon Transcribe zapisuje wyniki do zarządzanego przez usługę segmentu S3.

Należy pamiętać, że usługa Amazon Transcribe jest usługą regionalną, a wywoływane punkty końcowe interfejsu API usługi Amazon Transcribe muszą znajdować się w tym samym regionie co zasobniki S3.

Utwórz wiadro S3 do przechowywania wejściowych plików audio

Aby utworzyć zasobnik S3, wykonaj następujące czynności:

  1. Na konsoli Amazon S3 wybierz Utwórz wiadro.
  2. W razie zamówieenia projektu Nazwa wiadra, wprowadź globalnie unikatową nazwę zasobnika.
  3. W razie zamówieenia projektu Region AWS, wybierz ten sam region, w którym znajdują się punkty końcowe API Amazon Transcribe.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  4. Pozostaw wszystkie wartości domyślne bez zmian.
  5. Dodaj Utwórz wiadro.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Prześlij swój plik audio do zasobnika S3

Prześlij swój wielojęzyczny plik audio do zasobnika S3 na swoim koncie AWS. Na potrzeby tego ćwiczenia użyjemy następującej próbki wielojęzyczny plik audio. Przechwytuje połączenie obsługi klienta w języku angielskim i hiszpańskim.

  1. Na konsoli Amazon S3 wybierz Wiadra w okienku nawigacji.
  2. Wybierz zasobnik, który utworzyłeś wcześniej do przechowywania wejściowych plików audio.
  3. Dodaj Prześlij.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  4. Dodaj Dodaj pliki.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  5. Wybierz plik audio, który chcesz transkrybować z komputera lokalnego.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  6. Dodaj Prześlij.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Twój plik audio będzie wkrótce dostępny w zasobniku S3.

Utwórz zadanie transkrypcji

Po przesłaniu pliku audio tworzymy teraz zadanie transkrypcji.

  1. W konsoli Amazon Transscribe wybierz Zadania transkrypcyjne w okienku nawigacji.
  2. Dodaj Utwórz pracę.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  3. W razie zamówieenia projektu Imię, wprowadź unikatową nazwę zadania.
    Będzie to również nazwa wyjściowego pliku transkrypcji.
  4. W razie zamówieenia projektu Ustawienia języka, Wybierz Automatyczna identyfikacja wielu języków.
    Ta funkcja umożliwia Amazon Transcribe automatyczną identyfikację i transkrypcję wszystkich języków używanych w pliku audio.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  5. W razie zamówieenia projektu Opcje językowe do automatycznej identyfikacji języka, pozostaw to pole niezaznaczone.
    Amazon Transcribe automatycznie identyfikuje i dokonuje transkrypcji wszystkich języków używanych w nagraniu. Aby poprawić dokładność transkrypcji, możesz opcjonalnie wybrać dwa lub więcej języków, o których wiesz, że były używane w nagraniu.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  6. W razie zamówieenia projektu Typ modelu, tylko Ogólny model opcja jest dostępna w chwili pisania tego posta.
  7. W razie zamówieenia projektu Dane wejściowewybierz Przeglądaj S3.
  8. Wybierz źródłowy plik audio, który przesłaliśmy wcześniej.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  9. W razie zamówieenia projektu Dane wyjściowe, możesz wybrać jedną z nich Łyżka S3 zarządzana przez serwis or Określony przez klienta wiadro S3. Wybierz dla tego wpisu Łyżka S3 zarządzana przez serwis.
    Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  10. Dodaj Następna.
  11. Dodaj Utwórz pracę.

Przejrzyj wyniki pracy

Po zakończeniu zadania transkrypcji otwórz zadanie transkrypcji.
Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Przewiń w dół do Podgląd transkrypcji Sekcja. Transkrypcja audio jest wyświetlana na Tekst patka. Transkrypcja obejmuje zarówno angielską, jak i hiszpańską część rozmowy.
Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Opcjonalnie możesz pobrać kopię transkrypcji jako plik JSON, którego możesz użyć do dalszych celów analityka po rozmowie.

Sprzątać

Aby uniknąć naliczania przyszłych opłat, opróżnij i usuń zasobnik S3 utworzony do przechowywania źródłowego pliku wejściowego audio. Upewnij się, że pliki są przechowywane w innym miejscu, ponieważ spowoduje to trwałe usunięcie wszystkich obiektów znajdujących się w zasobniku. W konsoli Amazon Transcribe wybierz i usuń zadanie utworzone wcześniej na potrzeby transkrypcji.

Wnioski

W tym poście stworzyliśmy kompleksowy przepływ pracy, aby zautomatyzować identyfikację i transkrypcję wielojęzycznych plików audio bez pisania żadnego kodu. Wykorzystaliśmy nową funkcjonalność Amazon Transcribe do automatycznego rozpoznawania różnych języków w pliku audio i poprawnej transkrypcji każdego języka.

Aby uzyskać więcej informacji, zobacz Identyfikacja języka z zadaniami transkrypcji wsadowej.


O autorach

Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Murtuza Bootwala jest starszym architektem rozwiązań w AWS i interesuje się technologiami AI/ML. Lubi pracować z klientami, pomagając im osiągać wyniki biznesowe. Poza pracą lubi zajęcia na świeżym powietrzu i spędzanie czasu z rodziną.

Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Victor Red jest pasjonatem AI/ML i tworzenia oprogramowania. Pomógł uruchomić Amazon Alexa w Stanach Zjednoczonych i Meksyku. Wprowadził także Amazon Texttract do AWS Partners i uruchomił AWS Contact Center Intelligence (CCI). Obecnie jest globalnym liderem technologicznym ds. konwersacyjnych partnerów AI.

Automatycznie identyfikuj języki w wielojęzycznym dźwięku za pomocą Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Babu Srinivasana jest AWS Senior Specialist SA (Language AI Services) z siedzibą w Chicago. Koncentruje się na Amazon Transcribe (speech to text), pomagając naszym klientom korzystać z usług AI do rozwiązywania problemów biznesowych. Poza pracą zajmuje się obróbką drewna i pokazami magii.

Znak czasu:

Więcej z Uczenie maszynowe AWS