Popraw dokładność transkrypcji połączeń klient-agent dzięki niestandardowemu słownictwu w Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Popraw dokładność transkrypcji połączeń klienta z agentem dzięki niestandardowemu słownictwu w Amazon Transscribe

Wiele AWS klienci z powodzeniem używali Amazon Transcribe aby dokładnie, wydajnie i automatycznie konwertować rozmowy dźwiękowe klientów na tekst i wydobywać z nich przydatne informacje. Te spostrzeżenia mogą pomóc w ciągłym ulepszaniu procesów i produktów, które bezpośrednio poprawiają jakość i doświadczenie klientów.

W wielu krajach, takich jak Indie, angielski nie jest podstawowym językiem komunikacji. Konwersacje z indyjskimi klientami zawierają języki regionalne, takie jak hindi, a angielskie słowa i wyrażenia są wypowiadane losowo podczas rozmów. W źródłowych plikach multimedialnych mogą znajdować się rzeczowniki własne, akronimy, słowa lub frazy specyficzne dla domeny, których domyślny model transkrypcji Amazon nie jest świadomy. Transkrypcje takich plików multimedialnych mogą mieć niedokładną pisownię tych słów.

W tym poście pokazujemy, w jaki sposób możesz przekazać więcej informacji Amazon Transscribe z słowniki niestandardowe aby zaktualizować sposób, w jaki Amazon Transcribe obsługuje transkrypcję plików audio za pomocą terminologii biznesowej. Pokazujemy, jak poprawić dokładność transkrypcji połączeń w języku Hinglish (połączenia w języku hindi w języku hindi zawierające słowa i zwroty w języku indyjskim). Możesz użyć tego samego procesu do transkrypcji połączeń audio za pomocą dowolnego obsługiwany język przez Amazon Transscribe. Po utworzeniu niestandardowych słowników możesz transkrybować rozmowy audio z dokładnością i na dużą skalę, korzystając z naszego analityka postów rozwiązanie, które omówimy szerzej w dalszej części tego wpisu.

Omówienie rozwiązania

Korzystamy z następującej rozmowy audio w języku hindi w języku hindi (SampleAudio.wav) z losowymi angielskimi słowami, aby zademonstrować proces.

Następnie przeprowadzimy Cię przez następujące ogólne kroki:

  1. Przeprowadź transkrypcję pliku audio przy użyciu domyślnego modelu Amazon Transcribe Hindi.
  2. Zmierz dokładność modelu.
  3. Trenuj modelkę z niestandardowym słownictwem.
  4. Zmierz dokładność wytrenowanego modelu.

Wymagania wstępne

Zanim zaczniemy, musimy potwierdzić, że wejściowy plik audio spełnia transkrypcja wymagań dotyczących wprowadzania danych.

A monofoniczny nagrywanie, określane również jako mono, zawiera jeden sygnał audio, w którym wszystkie elementy audio agenta i klienta są połączone w jeden kanał. A stereofoniczny nagrywanie, określane również jako stereofoniczny, zawiera dwa sygnały audio do przechwytywania elementów audio agenta i klienta w dwóch oddzielnych kanałach. Każdy plik nagrania agent-klient zawiera dwa kanały audio, jeden dla agenta i jeden dla klienta.

Nagrania audio o niskiej wierności, takie jak nagrania telefoniczne, zazwyczaj wykorzystują częstotliwość próbkowania 8,000 Hz. Amazon Transcribe obsługuje przetwarzanie nagranych monofonicznie, a także plików audio o wysokiej wierności z częstotliwościami próbkowania od 16,000 48,000 do XNUMX XNUMX Hz.

W celu uzyskania lepszych wyników transkrypcji i wyraźnego odróżnienia słów wypowiadanych przez agenta i klienta, zalecamy użycie plików audio nagranych z częstotliwością próbkowania 8,000 Hz i rozdzielonymi kanałami stereo.

Możesz użyć narzędzia takiego jak ffmpeg aby zweryfikować wejściowe pliki audio z wiersza poleceń:

ffmpeg -i SampleAudio.wav

W zwróconej odpowiedzi sprawdź linię zaczynającą się od Strumienia w sekcji Wejście i potwierdź, że pliki audio mają 8,000 Hz i są oddzielone kanałami stereo:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Gdy tworzysz potok do przetwarzania dużej liczby plików audio, możesz zautomatyzować ten krok, aby filtrować pliki, które nie spełniają wymagań.

Jako dodatkowy warunek wstępny utwórz zasobnik Amazon Simple Storage Service (Amazon S3), w którym będą przechowywane pliki audio do transkrypcji. Aby uzyskać instrukcje, zobacz Utwórz swój pierwszy zasobnik S3.Następnie prześlij plik audio do wiadra S3.

Transkrybuj plik audio z domyślnym modelem

Teraz możemy rozpocznij transkrypcję Amazon zadanie analizy połączeń przy użyciu przesłanego przez nas pliku audio. W tym przykładzie używamy Konsola zarządzania AWS do transkrypcji pliku audio. Możesz także użyć Interfejs wiersza poleceń AWS (AWS CLI) lub AWS SDK.

  1. W konsoli Amazon Transscribe wybierz Analiza połączeń w okienku nawigacji.
  2. Dodaj Zadania analizy połączeń.
  3. Dodaj Utwórz pracę.
  4. W razie zamówieenia projektu Imię, Wpisz imię.
  5. W razie zamówieenia projektu Ustawienia języka, Wybierz Określony język.
  6. W razie zamówieenia projektu Wybierz językwybierz hindi, IN (hi-IN).
  7. W razie zamówieenia projektu Typ modelu, Wybierz Ogólny model.
  8. W razie zamówieenia projektu Wejściowa lokalizacja pliku na S3, przejdź do zasobnika S3 zawierającego przesłany plik audio.Popraw dokładność transkrypcji połączeń klient-agent dzięki niestandardowemu słownictwu w Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  9. W Dane wyjściowe sekcji, pozostaw wartości domyślne.
  10. W Uprawnienia dostępu sekcja, wybierz Utwórz rolę IAM.
  11. Stwórz nowy AWS Zarządzanie tożsamością i dostępem (IAM) rola o nazwie HindiTranscription, która zapewnia usłudze Amazon Transscribe uprawnienia do odczytywania plików audio z zasobnika S3 i używania Usługa zarządzania kluczami AWS (AWS KMS) klucz do odszyfrowania.Popraw dokładność transkrypcji połączeń klient-agent dzięki niestandardowemu słownictwu w Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  12. W Skonfiguruj zadanie sekcji, pozostaw wartości domyślne, w tym Słownictwo niestandardowe odznaczone.
  13. Dodaj Utwórz pracę do transkrypcji pliku audio.

Popraw dokładność transkrypcji połączeń klient-agent dzięki niestandardowemu słownictwu w Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Gdy stan zadania to Ukończone, możesz przejrzeć transkrypcję, wybierając zadanie (SampleAudio).

Popraw dokładność transkrypcji połączeń klient-agent dzięki niestandardowemu słownictwu w Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zdania klienta i agenta są wyraźnie oddzielone, co pomaga nam określić, czy klient lub agent wypowiadali określone słowa lub wyrażenia.

Zmierz dokładność modelu

Współczynnik błędów słów (WER) jest zalecaną i najczęściej stosowaną miarą do oceny dokładności systemów automatycznego rozpoznawania mowy (ASR). Celem jest maksymalne zmniejszenie WER, aby poprawić dokładność systemu ASR.

Aby obliczyć WER, wykonaj następujące kroki. Ten post używa open-source ocena asr narzędzie oceny do obliczania WER, ale inne narzędzia, takie jak ZRÓB TO or JiWER Są również dostępne.

  1. Zainstalować dotychczasowy asr-evaluation narzędzie, które udostępnia skrypt wer w linii poleceń.
    Użyj wiersza poleceń na platformach macOS lub Linux, aby uruchomić polecenia wer pokazane w dalszej części wpisu.
  2. Skopiuj transkrypcję ze strony szczegółów zadania Amazon Transscribe do pliku tekstowego o nazwie hypothesis.txt.
    Kiedy skopiujesz transkrypcję z konsoli, zauważysz znak nowej linii między słowami Agent :, Customer :, i pismo hindi.
    Znaki nowej linii zostały usunięte, aby zaoszczędzić miejsce w tym poście. Jeśli zdecydujesz się użyć tekstu w postaci, w jakiej pochodzi z konsoli, upewnij się, że utworzony plik tekstowy odniesienia zawiera również znaki nowego wiersza, ponieważ narzędzie wer porównuje wiersz po wierszu.
  3. Przejrzyj całą transkrypcję i zidentyfikuj słowa lub frazy, które wymagają poprawy:
    Klient : ,
    Agent : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम हैja लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    Klient : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। ?
    Agent :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    Klient : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे ट Twojej
    Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांจ
    Klient : सिरियसली एनी टिप्स Kurczak शेर
    Agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    Klient : ग्रेट आइडिया थैंक्यू सो मच।Podświetlone słowa to te, których domyślny model Transkrypcji Amazon nie renderował poprawnie.
  4. Utwórz kolejny plik tekstowy o nazwie reference.txt, zastępując wyróżnione słowa żądanymi słowami, które spodziewasz się zobaczyć w transkrypcji:
    Klient : ,
    Agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं ja लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    Klient : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। ?
    Agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    Klient : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे ट Twojej
    Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांจ
    Klient : सिरियसली एनी टिप्स यू केन शेर
    Agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    Klient : ग्रेट आइडिया थैंक्यू सो मच।
  5. Użyj następującego polecenia, aby porównać utworzone pliki tekstowe odniesienia i hipotezy:
    wer -i reference.txt hypothesis.txt

    Otrzymasz następujące dane wyjściowe:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

Polecenie wer porównuje tekst z plików reference.txt i hypothesis.txt. Raportuje błędy dla każdego zdania, a także całkowitą liczbę błędów (WER: 9.848% ( 13 / 132)) w całym transkrypcie.

Z poprzedniego wyniku zgłoszono 13 błędów na 132 słowa w transkrypcji. Te błędy mogą mieć trzy typy:

  • Błędy podstawienia – Dzieje się tak, gdy Amazon Transcribe zapisuje jedno słowo w miejsce drugiego. Na przykład w naszym transkrypcji słowo „महीना (Mahina)” zamiast „मिनार (Minar)” w zdaniu 4.
  • Błędy usuwania – Dzieje się tak, gdy Amazon Transcribe całkowicie pomija słowo w transkrypcji. W naszym transkrypcji słowo „सौथ (South)” pominięto w zdaniu 2.
  • Błędy wstawiania – Dzieje się tak, gdy Amazon Transcribe wstawia słowo, które nie zostało wypowiedziane. W naszej transkrypcji nie widzimy żadnych błędów wstawiania.

Obserwacje z transkrypcji utworzonej przez model domyślny

Na podstawie transkrypcji możemy poczynić następujące obserwacje:

  • Całkowity WER wynosi 9.848%, co oznacza, że ​​90.152% słów zostało przepisanych dokładnie.
  • Domyślny model języka hindi dokładnie transkrypował większość angielskich słów. Dzieje się tak, ponieważ domyślny model jest wyszkolony do rozpoznawania najpopularniejszych angielskich słów po wyjęciu z pudełka. Model jest również wyszkolony w rozpoznawaniu języka Hinglish, w którym angielskie słowa pojawiają się losowo w rozmowach w języku hindi. Na przykład:
    • गुड मोर्निग – Dzień dobry (zdanie 2).
    • ट्रेवल एजेंसी – Biuro podróży (zdanie 2).
    • ग्रेट आइडिया थैंक्यू सो मच – Bardzo dziękuję za świetny pomysł (zdanie 9).
  • Zdanie 4 zawiera najwięcej błędów, które są nazwami miejscowości w indyjskim mieście Hyderabad:
    • हाँ हैदराबाद में बहुत सारे प्लेस है। से महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

W następnym kroku pokazujemy, jak poprawić wyróżnione słowa w poprzednim zdaniu, używając niestandardowego słownictwa w Amazon Transcribe:

  • चार महीना (Zwęglać Miesiąc) powinno być चार मिनार (Zwęglać Podkopać)
  • गोल.कुंडा फो (Golcuale Four) powinno być गोलकोंडा फोर्ट (Golcoale Fort)
  • लार जंग (Salar Jung) powinno być सालार जंग (SaaLar Jung)

Trenuj domyślny model z niestandardowym słownictwem

Do stworzyć własne słownictwo, musisz utworzyć plik tekstowy w formacie tabelarycznym ze słowami i frazami, aby wytrenować domyślny model transkrypcji Amazon. Twoja tabela musi zawierać wszystkie cztery kolumny (Phrase, SoundsLike, IPA, DisplayAs), ale Phrase kolumna jest jedyną, która musi zawierać wpis w każdym wierszu. Pozostałe kolumny możesz pozostawić puste. Każda kolumna musi być oddzielona znakiem tabulacji, nawet jeśli niektóre kolumny są puste. Na przykład, jeśli opuścisz IPA i SoundsLike kolumny puste dla wiersza, Phrase i DisplaysAs kolumny w tym wierszu muszą być oddzielone trzema znakami tabulacji (pomiędzy Phrase i IPA, IPA i SoundsLike, SoundsLike i DisplaysAs).

Aby trenować model z niestandardowym słownictwem, wykonaj następujące kroki:

  1. Utwórz plik o nazwie HindiCustomVocabulary.txt o następującej treści.
    Fraza IPA Soundslike DisplayAs गोलकुंडा-फोर गोलकोंडा फोर्ट सालार-जंग सा-लार-जंग सालार जंग चार-महीना चार मिनार

    Możesz używać tylko znaków obsługiwanych w Twoim języku. Odnieś się do swojego języka zestaw znaków dla szczegółów.

    Kolumny zawierają następujące informacje:

    1. Phrase – Zawiera słowa lub frazy, które chcesz dokładnie przepisać. W tej kolumnie pojawiają się wyróżnione słowa lub frazy w transkrypcji utworzonej przez domyślny model Amazon Transscribe. Te słowa są zazwyczaj akronimami, rzeczownikami własnymi lub słowami i wyrażeniami specyficznymi dla domeny, których domyślny model nie jest świadomy. To pole jest obowiązkowe dla każdego wiersza w niestandardowej tabeli słownika. W naszym transkrypcie, aby poprawić „गोलकुंडा फोर (Golcunda Cztery)” ze zdania 4, użyj „गोलकुंडा-फोर (Golcunda-Czwórka)” w tej kolumnie. Jeśli wpis zawiera wiele słów, oddziel każde słowo łącznikiem (-); nie używaj spacji.
    2. IPA – Zawiera słowa lub frazy reprezentujące dźwięki mowy w formie pisemnej. Kolumna jest opcjonalna; możesz pozostawić puste wiersze. Ta kolumna jest przeznaczona do pisowni fonetycznej przy użyciu wyłącznie znaków z międzynarodowego alfabetu fonetycznego (IPA). Dozwolone znaki IPA dla języka hindi można znaleźć w zestawie znaków hindi. W naszym przykładzie nie używamy IPA. Jeśli masz wpis w tej kolumnie, Twój SoundsLike kolumna musi być pusta.
    3. SoundsLike – Zawiera słowa lub frazy podzielone na mniejsze części (zwykle oparte na sylabach lub popularnych słowach), aby zapewnić wymowę każdego utworu na podstawie tego, jak ten utwór brzmi. Ta kolumna jest opcjonalna; możesz zostawić puste wiersze. Dodawaj treść do tej kolumny tylko wtedy, gdy wpis zawiera niestandardowe słowo, takie jak nazwa marki, lub w celu poprawienia słowa, które jest nieprawidłowo transkrybowane. W naszym transkrypcie, aby poprawić „सलार जंग (Salar Jung)” ze zdania 4, użyj „सा-लार-जंग (Saa-lar-jung)” w tej kolumnie. Nie używaj spacji w tej kolumnie. Jeśli masz wpis w tej kolumnie, Twój IPA kolumna musi być pusta.
    4. DisplaysAs – Zawiera słowa lub frazy z pisownią, którą chcesz zobaczyć w wyniku transkrypcji słów lub fraz w Phrase pole. Ta kolumna jest opcjonalna; możesz pozostawić puste wiersze. Jeśli nie określisz tego pola, Amazon Transscribe korzysta z zawartości pola Phrase w pliku wyjściowym. Na przykład w naszym transkrypcie, aby poprawić „गोलकुंडा फोर (Golcunda Four)” ze zdania 4, użyj „गोलकोंडा फोर्ट (Golconda Fort)” w tej kolumnie.
  2. Prześlij plik tekstowy (HindiCustomVocabulary.txt) do wiadra S3. Teraz tworzymy niestandardowe słownictwo w Amazon Transscribe.
  3. W konsoli Amazon Transscribe wybierz Słownictwo niestandardowe w okienku nawigacji.
  4. W razie zamówieenia projektu Imię, Wpisz imię.
  5. W razie zamówieenia projektu Wybierz językwybierz hindi, IN (hi-IN).
  6. W razie zamówieenia projektu Słownictwo źródło wejściowe, Wybierz Lokalizacja S3.
  7. W razie zamówieenia projektu Lokalizacja pliku słownika na S3, wprowadź ścieżkę S3 HindiCustomVocabulary.txt plik.
  8. Dodaj Utwórz słownik. Popraw dokładność transkrypcji połączeń klient-agent dzięki niestandardowemu słownictwu w Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
  9. Transkrybuj SampleAudio.wav plik z niestandardowym słownikiem o następujących parametrach:
    1. W razie zamówieenia projektu Nazwa pracy , wchodzić SampleAudioCustomVocabulary.
    2. W razie zamówieenia projektu Wybierz językwybierz hindi, IN (hi-IN).
    3. W razie zamówieenia projektu Wejściowa lokalizacja pliku na S3, przejdź do lokalizacji SampleAudio.wav.
    4. W razie zamówieenia projektu Rola IAM, Wybierz Użyj istniejącej roli IAM i wybierz wcześniej utworzoną rolę.
    5. W Skonfiguruj zadanie sekcja, wybierz Słownictwo niestandardowe i wybierz niestandardowe słownictwo HindiCustomVocabulary.
  10. Dodaj Utwórz pracę.

Popraw dokładność transkrypcji połączeń klient-agent dzięki niestandardowemu słownictwu w Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Zmierz dokładność modelu po użyciu niestandardowego słownictwa

Skopiuj transkrypcję ze strony szczegółów zadania Amazon Transscribe do pliku tekstowego o nazwie hypothesis-custom-vocabulary.txt:

Klient : ,

Agent : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात कर रही हूँ किस तरह से मैं सह XNUMX कर सकती।।

Klient : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। ?

Agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। से मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

Klient : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे ट Twojej

Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांจ

Klient : सिरियसली एनी टिप्स चिकन शेर

Agent : आप टेक्सी यूस कjs

Klient : ग्रेट आइडिया थैंक्यू सो मच।

Zwróć uwagę, że podświetlone słowa są transkrybowane zgodnie z potrzebami.

Uruchom wer polecenie ponownie z nowym zapisem:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Otrzymasz następujące dane wyjściowe:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Obserwacje z transkrypcji utworzone za pomocą niestandardowego słownictwa

Całkowity WER wynosi 6.061%, co oznacza, że ​​93.939% słów zostało przepisanych dokładnie.

Porównajmy wyjście wer dla zdania 4 z i bez niestandardowego słownictwa. Poniższy tekst jest bez niestandardowego słownictwa:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Poniżej znajduje się słownictwo niestandardowe:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

W zdaniu 4 nie ma błędów. Nazwy miejsc są dokładnie przepisywane za pomocą niestandardowego słownictwa, co zmniejsza ogólny WER z 9.848% do 6.061% dla tego pliku audio. Oznacza to, że dokładność transkrypcji poprawiła się o blisko 4%.

Jak niestandardowe słownictwo poprawiło dokładność

Użyliśmy następującego niestandardowego słownictwa:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transscribe sprawdza, czy w pliku audio znajdują się słowa, które brzmią jak słowa wymienione w Phrase kolumna. Następnie model wykorzystuje wpisy w IPA, SoundsLike, DisplaysAs kolumny dla tych konkretnych słów do transkrypcji z żądaną pisownią.

Dzięki temu niestandardowemu słownictwu, gdy Amazon Transcribe identyfikuje słowo, które brzmi jak „गोलकुंडा-फोर (Golcunda-Cztery),” transkrybuje to słowo jako „गोलकोंडा फोर्ट (Fort Golconda)”.

Zalecenia

Dokładność transkrypcji zależy również od parametrów, takich jak wymowa mówców, nakładanie się mówców, szybkość mówienia i hałas w tle. Dlatego zalecamy śledzenie procesu za pomocą różnych połączeń (z różnymi klientami, agentami, przerwami itd.), które obejmują najczęściej używane słowa specyficzne dla domeny, aby stworzyć obszerne niestandardowe słownictwo.

W tym poście poznaliśmy proces poprawy dokładności transkrypcji jednego połączenia audio przy użyciu niestandardowego słownictwa. Aby przetwarzać tysiące nagrań rozmów z centrum kontaktowego każdego dnia, możesz użyć analityka postów, w pełni zautomatyzowane, skalowalne i ekonomiczne, kompleksowe rozwiązanie, które zajmuje się większością podnoszenia ciężkich przedmiotów. Po prostu przesyłasz pliki audio do zasobnika S3, a w ciągu kilku minut rozwiązanie zapewnia analizę połączeń, taką jak nastroje w interfejsie internetowym. Analityka po rozmowie zapewnia przydatne wglądy w pojawiające się trendy, identyfikuje możliwości coachingu agentów i ocenia ogólny nastrój rozmów. rozwiązanie open source które możesz wdrożyć za pomocą Tworzenie chmury AWS.

Pamiętaj, że słowniki niestandardowe nie korzystają z kontekstu, w którym zostały wypowiedziane słowa, skupiają się tylko na pojedynczych słowach, które podajesz. Aby jeszcze bardziej poprawić dokładność, możesz użyć niestandardowe modele językowe. W przeciwieństwie do niestandardowych słowników, które kojarzą wymowę z pisownią, niestandardowe modele językowe uczą się kontekstu związanego z danym słowem. Obejmuje to, jak i kiedy słowo jest używane oraz związek, jaki ma słowo z innymi słowami. Aby utworzyć niestandardowy model języka, możesz użyć transkrypcji pochodzących z procesu, którego się nauczyliśmy, dla różnych połączeń i połączyć je z treściami ze swoich witryn internetowych lub podręczników użytkownika, które zawierają słowa i wyrażenia specyficzne dla domeny.

Aby osiągnąć najwyższą dokładność transkrypcji za pomocą transkrypcji wsadowych, możesz używać niestandardowych słowników w połączeniu z niestandardowymi modelami języka.

Wnioski

W tym poście przedstawiliśmy szczegółowe kroki, aby dokładnie przetworzyć pliki audio w języku hindi zawierające angielskie słowa za pomocą analizy połączeń i niestandardowych słowników w Amazon Transcribe. Możesz wykonać te same czynności, aby przetwarzać połączenia audio z dowolnym obsługiwany język przez Amazon Transscribe.

Po uzyskaniu transkrypcji z pożądaną dokładnością możesz usprawnić rozmowy agent-klient, szkoląc agentów. Możesz także zrozumieć nastroje i trendy swoich klientów. Za pomocą funkcji dializy rozmówcy, wykrywania głośności i funkcji filtrowania słownictwa w analizie połączeń możesz określić, czy to agent lub klient podniósł ton lub wypowiedział określone słowa. Możesz kategoryzować połączenia na podstawie słów specyficznych dla domeny, przechwytywać przydatne informacje i przeprowadzać analizy, aby ulepszać swoje produkty. Na koniec możesz przetłumaczyć swoje transkrypcje na angielski lub inne obsługiwane języki, które wybierzesz, używając Tłumacz Amazon.


O autorach

Popraw dokładność transkrypcji połączeń klient-agent dzięki niestandardowemu słownictwu w Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Sarata Guttikondy jest starszym architektem rozwiązań w ogólnoświatowym sektorze publicznym AWS. Sarat lubi pomagać klientom w automatyzacji, zarządzaniu i zarządzaniu zasobami w chmurze bez poświęcania elastyczności biznesowej. W wolnym czasie uwielbia budować klocki z synem i grać w tenisa stołowego.

Popraw dokładność transkrypcji połączeń klient-agent dzięki niestandardowemu słownictwu w Amazon Transcribe PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Sód Lavanya jest architektem rozwiązań w AWS World Wide Public Sector z siedzibą w New Delhi w Indiach. Lavanya lubi uczyć się nowych technologii i pomagać klientom w ich przygodzie z chmurą. W wolnym czasie uwielbia podróżować i próbować różnych potraw.

Znak czasu:

Więcej z Uczenie maszynowe AWS