Förbättra transkriptionsnoggrannheten för kund-agentsamtal med anpassad vokabulär i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Förbättra transkriptionsnoggrannheten för kundagentsamtal med anpassat ordförråd i Amazon Transcribe

Många AWS kunder har använts framgångsrikt Amazon Transcribe att exakt, effektivt och automatiskt konvertera sina kunders ljudkonversationer till text och extrahera handlingsbara insikter från dem. Dessa insikter kan hjälpa dig att kontinuerligt förbättra de processer och produkter som direkt förbättrar kvaliteten och upplevelsen för dina kunder.

I många länder, som Indien, är engelska inte det primära kommunikationsspråket. Indiska kundkonversationer innehåller regionala språk som hindi, med engelska ord och fraser som talas slumpmässigt under samtalen. I källmediefilerna kan det finnas egennamn, domänspecifika akronymer, ord eller fraser som standardmodellen för Amazon Transcribe inte är medveten om. Transkriptioner för sådana mediefiler kan ha felaktiga stavningar för dessa ord.

I det här inlägget visar vi hur du kan ge mer information till Amazon Transcribe med anpassade vokabularer för att uppdatera hur Amazon Transcribe hanterar transkription av dina ljudfiler med affärsspecifik terminologi. Vi visar stegen för att förbättra noggrannheten i transkriptioner för Hinglish-samtal (indiska hindi-samtal som innehåller indiska engelska ord och fraser). Du kan använda samma process för att transkribera ljudsamtal med alla språk som stöds av Amazon Transcribe. När du har skapat anpassade ordförråd kan du transkribera ljudsamtal med noggrannhet och i skala genom att använda vår analys efter samtal lösning, som vi diskuterar mer senare i det här inlägget.

Lösningsöversikt

Vi använder följande indiska hindi-ljudsamtal (SampleAudio.wav) med slumpmässiga engelska ord för att demonstrera processen.

Vi leder dig sedan genom följande steg på hög nivå:

  1. Transkribera ljudfilen med standardmodellen Amazon Transcribe Hindi.
  2. Mät modellens noggrannhet.
  3. Träna modellen med anpassat ordförråd.
  4. Mät noggrannheten hos den tränade modellen.

Förutsättningar

Innan vi börjar måste vi bekräfta att ingångsljudfilen uppfyller transkribera datainmatningskrav.

A monofoniska inspelning, även kallad mono, innehåller en ljudsignal, där alla ljudelement från agenten och kunden kombineras till en kanal. A stereofonisk inspelning, även kallad stereo-, innehåller två ljudsignaler för att fånga agentens och kundens ljudelement i två separata kanaler. Varje agent-kund inspelningsfil innehåller två ljudkanaler, en för agenten och en för kunden.

Lågfientliga ljudinspelningar, som telefoninspelningar, använder vanligtvis 8,000 16,000 Hz samplingsfrekvenser. Amazon Transcribe stöder bearbetning av monoinspelade och även högfientliga ljudfiler med samplingshastigheter mellan 48,000 XNUMX–XNUMX XNUMX Hz.

För förbättrade transkriptionsresultat och för att tydligt skilja orden som talas av agenten och kunden rekommenderar vi att du använder ljudfiler inspelade med 8,000 XNUMX Hz samplingsfrekvens och är stereokanalseparerade.

Du kan använda ett verktyg som ffmpeg för att validera dina inmatade ljudfiler från kommandoraden:

ffmpeg -i SampleAudio.wav

I det returnerade svaret, kontrollera raden som börjar med Stream i avsnittet Input och bekräfta att ljudfilerna är 8,000 XNUMX Hz och stereokanalseparerade:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

När du bygger en pipeline för att bearbeta ett stort antal ljudfiler kan du automatisera detta steg för att filtrera filer som inte uppfyller kraven.

Som ett ytterligare förutsättningssteg, skapa en Amazon Simple Storage Service (Amazon S3) hink för att vara värd för ljudfilerna som ska transkriberas. För instruktioner, se Skapa din första S3-skopa.Sedan ladda upp ljudfilen till S3-skopan.

Transkribera ljudfilen med standardmodellen

Nu kan vi starta en Amazon-transkribering call analytics job med hjälp av ljudfilen vi laddade upp.I det här exemplet använder vi AWS Management Console för att transkribera ljudfilen. Du kan också använda AWS-kommandoradsgränssnitt (AWS CLI) eller AWS SDK.

  1. På Amazon Transcribe-konsolen väljer du Ring analys i navigeringsfönstret.
  2. Välja Ring analysjobb.
  3. Välja Skapa jobb.
  4. För Namn , ange ett namn.
  5. För Språkinställningar, Välj Specifikt språk.
  6. För Språkväljer hindi, IN (hi-IN).
  7. För Modell typ, Välj Allmän modell.
  8. För Inmatningsfilens plats på S3, bläddra till S3-hinken som innehåller den uppladdade ljudfilen.Förbättra transkriptionsnoggrannheten för kund-agentsamtal med anpassad vokabulär i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  9. I Utdata sektion, lämna standardinställningarna.
  10. I Åtkomstbehörigheter avsnitt, välj Skapa en IAM-roll.
  11. Skapa en ny AWS identitets- och åtkomsthantering (IAM) roll med namnet HindiTranscription som ger Amazon Transcribe-tjänsten behörighet att läsa ljudfilerna från S3-hinken och använda AWS nyckelhanteringstjänst (AWS KMS) nyckel för att dekryptera.Förbättra transkriptionsnoggrannheten för kund-agentsamtal med anpassad vokabulär i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  12. I Konfigurera jobb sektion, lämna standardinställningarna, inklusive Anpassad ordförråd avmarkerad.
  13. Välja Skapa jobb för att transkribera ljudfilen.

Förbättra transkriptionsnoggrannheten för kund-agentsamtal med anpassad vokabulär i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

När statusen för jobbet är Slutfört kan du granska transkriptionen genom att välja jobbet (SampleAudio).

Förbättra transkriptionsnoggrannheten för kund-agentsamtal med anpassad vokabulär i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Kund- och agentmeningarna är tydligt åtskilda, vilket hjälper oss att identifiera om kunden eller agenten talade några specifika ord eller fraser.

Mät modellens noggrannhet

Word error rate (WER) är det rekommenderade och mest använda måttet för att utvärdera noggrannheten hos Automatic Speech Recognition (ASR) system. Målet är att minska WER så mycket som möjligt för att förbättra ASR-systemets noggrannhet.

Utför följande steg för att beräkna WER. Det här inlägget använder öppen källkod asr-utvärdering utvärderingsverktyg för att beräkna WER, men andra verktyg som SCTK or JiWER är också tillgängliga.

  1. installera d asr-evaluation verktyg, som gör wer-skriptet tillgängligt på din kommandorad.
    Använd en kommandorad på macOS- eller Linux-plattformar för att köra wer-kommandona som visas senare i inlägget.
  2. Kopiera utskriften från Amazon Transcribe-jobbinformationssidan till en textfil med namnet hypothesis.txt.
    När du kopierar transkriptionen från konsolen kommer du att märka ett nytt linjetecken mellan orden Agent :, Customer :, och hindi-skriften.
    De nya radtecknen har tagits bort för att spara utrymme i det här inlägget. Om du väljer att använda texten som den är från konsolen, se till att referenstextfilen du skapar också har de nya radtecken, eftersom wer-verktyget jämför rad för rad.
  3. Granska hela utskriften och identifiera alla ord eller fraser som behöver korrigeras:
    Kund : हेलो,
    Recensioner : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। ल ब क हूँ किस त से मैं आपकी सह क सकती। हूँ
    Kund : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच र।ा ा ा क्या आप मुझे कुछ अच्छे लोकेशन के बेंरे बेर
    Recensioner :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियश हरियश
    Kund : ह बढिय थैंक यू मैं सैट औ को ट क क।
    Recensioner : एक सजेशन वीकेंड में ट्रैफिक ज्यानइइयानइ
    Kund : सिरियसली एनी टिप्स Kyckling शेर
    Recensioner : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    Kund : ग्रेट आइडिया थैंक्यू सो मच।De markerade orden är de som standardmodellen Amazon Transcribe inte återgav korrekt.
  4. Skapa en annan textfil med namnet reference.txt, genom att ersätta de markerade orden med de önskade orden du förväntar dig att se i transkriptionen:
    Kund : हेलो,
    Recensioner : गुड मोर्निग सौथ इंडिया ट्रेवल एजेीत से मैं । ल ब क हूँ किस त से मैं आपकी सह क सकती। हूँ
    Kund : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच र।ा ा ा क्या आप मुझे कुछ अच्छे लोकेशन के बेंरे बेर
    Recensioner : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियश हरियश
    Kund : ह बढिय थैंक यू मैं सैट औ को ट क क।
    Recensioner : एक सजेशन वीकेंड में ट्रैफिक ज्यानइइयानइ
    Kund : सिरियसली एनी टिप्स यू केन शेर
    Recensioner : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    Kund : ग्रेट आइडिया थैंक्यू सो मच।
  5. Använd följande kommando för att jämföra referens- och hypotestextfilerna som du skapade:
    wer -i reference.txt hypothesis.txt

    Du får följande utgång:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

Kommandot wer jämför text från filerna reference.txt och hypothesis.txt. Den rapporterar fel för varje mening och även det totala antalet fel (WER: 9.848 % ( 13 / 132)) i hela avskriften.

Från föregående utdata rapporterades 13 fel av 132 ord i utskriften. Dessa fel kan vara av tre typer:

  • Ersättningsfel – Dessa inträffar när Amazon Transcribe skriver ett ord i stället för ett annat. Till exempel, i vår utskrift, ordet "महीना (Mahina)" skrevs istället för "मिनार (Minar)” i mening 4.
  • Raderingsfel – Dessa inträffar när Amazon Transcribe missar ett ord helt i transkriptionen. I vår transkription, ordet "सौथ (Söder)” missades i mening 2.
  • Insättningsfel – Dessa inträffar när Amazon Transcribe infogar ett ord som inte har sagts. Vi ser inga infogningsfel i vår utskrift.

Observationer från transkriptionen skapad av standardmodellen

Vi kan göra följande observationer baserat på utskriften:

  • Den totala WER är 9.848 %, vilket betyder att 90.152 % av orden är korrekt transkriberade.
  • Hindi-standardmodellen transkriberade de flesta engelska orden korrekt. Detta beror på att standardmodellen är tränad att känna igen de vanligaste engelska orden direkt. Modellen är också tränad att känna igen Hinglish-språket, där engelska ord slumpmässigt förekommer i hindi-konversationer. Till exempel:
    • गुड मोर्निग – God morgon (mening 2).
    • ट्रेवल एजेंसी – Resebyrå (mening 2).
    • ग्रेट आइडिया थैंक्यू सो मच – Bra idé tack så mycket (mening 9).
  • Mening 4 har flest fel, vilket är namnen på platser i den indiska staden Hyderabad:
    • हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियश हरियश

I nästa steg visar vi hur man korrigerar de markerade orden i föregående mening med hjälp av anpassat ordförråd i Amazon Transcribe:

  • चार महीना (Röding Månad) bör vara चार मिनार (Röding underminera)
  • Rundaकुंडा फो (Golcunda Four) bör vara गोलकोंडा फोर्ट (Golconda Fort)
  • लार जंग (Salar Jung) borde vara सालार जंग (saalar Jung)

Träna standardmodellen med ett anpassat ordförråd

Till skapa ett anpassat ordförråd, måste du bygga en textfil i ett tabellformat med orden och fraserna för att träna standardmodellen för Amazon Transcribe. Din tabell måste innehålla alla fyra kolumner (Phrase, SoundsLike, IPAoch DisplayAs), men Phrase kolumnen är den enda som måste innehålla en post på varje rad. Du kan lämna de andra kolumnerna tomma. Varje kolumn måste separeras med ett tabbtecken, även om vissa kolumner lämnas tomma. Till exempel, om du lämnar IPA och SoundsLike kolumner tomma för en rad, den Phrase och DisplaysAs kolumner i den raden måste separeras med tre tabbtecken (mellan Phrase och IPA, IPA och SoundsLikeoch SoundsLike och DisplaysAs).

Utför följande steg för att träna modellen med ett anpassat ordförråd:

  1. Skapa en fil med namnet HindiCustomVocabulary.txt med följande innehåll.
    Fras ipa-ljudliknande displayas गोलकुंड-फो गोलकोंड फो स स स-ल-जंग स जंग च-महीन च मिन

    Du kan bara använda tecken som stöds för ditt språk. Se ditt språk teckenuppsättning för mer information.

    Kolumnerna innehåller följande information:

    1. Phrase – Innehåller de ord eller fraser som du vill transkribera korrekt. De markerade orden eller fraserna i transkriptionen som skapats av standardmodellen för Amazon Transcribe visas i den här kolumnen. Dessa ord är i allmänhet akronymer, egennamn eller domänspecifika ord och fraser som standardmodellen inte känner till. Detta är ett obligatoriskt fält för varje rad i den anpassade ordförrådstabellen. I vår transkription, för att korrigera "गोलकुंडा फोर (Golcunda Four)" från mening 4, använd "गोलकुंडा-फोर (Golcunda Four)" i denna kolumn. Om din post innehåller flera ord, separera varje ord med ett bindestreck (-); använd inte mellanslag.
    2. IPA – Innehåller de ord eller fraser som representerar talljud i skriftlig form. Kolumnen är valfri; du kan lämna dess rader tomma. Den här kolumnen är avsedd för fonetiska stavningar med endast tecken i det internationella fonetiska alfabetet (IPA). Se hindi-teckenuppsättningen för tillåtna IPA-tecken för hindispråket. I vårt exempel använder vi inte IPA. Om du har en post i den här kolumnen, din SoundsLike kolumnen måste vara tom.
    3. SoundsLike – Innehåller ord eller fraser uppdelade i mindre bitar (vanligen baserat på stavelser eller vanliga ord) för att ge ett uttal för varje del baserat på hur den biten låter. Denna kolumn är valfri; du kan lämna raderna tomma. Lägg bara till innehåll i den här kolumnen om ditt inlägg innehåller ett ord som inte är standard, till exempel ett varumärke, eller för att korrigera ett ord som transkriberas felaktigt. I vår transkription, för att korrigera "सलार जंग (Salar Jung)" från mening 4, använd "सा-लार-जंग (Saa-lar-jung)" i den här kolumnen. Använd inte mellanslag i den här kolumnen. Om du har en post i den här kolumnen, din IPA kolumnen måste vara tom.
    4. DisplaysAs – Innehåller ord eller fraser med de stavningar du vill se i transkriptionsutdata för orden eller fraserna i Phrase fält. Denna kolumn är valfri; du kan lämna raderna tomma. Om du inte anger det här fältet använder Amazon Transcribe innehållet i Phrase fältet i utdatafilen. Till exempel, i vår transkription, för att korrigera "गोलकुंडा फोर (Golcunda Four)" från mening 4, använd "गोलकोंडा फ्टोा फ्ट)॥ in this column
  2. Ladda textfilen (HindiCustomVocabulary.txt) till en S3-hink. Nu skapar vi ett anpassat ordförråd i Amazon Transcribe.
  3. På Amazon Transcribe-konsolen väljer du Anpassad ordförråd i navigeringsfönstret.
  4. För Namn , ange ett namn.
  5. För Språkväljer hindi, IN (hi-IN).
  6. För Ingångskälla för ordförråd, Välj S3-plats.
  7. För Ordförrådsfilens plats på S3, ange S3-sökvägen för HindiCustomVocabulary.txt fil.
  8. Välja Skapa ordförråd. Förbättra transkriptionsnoggrannheten för kund-agentsamtal med anpassad vokabulär i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  9. Transkribera SampleAudio.wav fil med det anpassade ordförrådet, med följande parametrar:
    1. För Jobb namn , stiga på SampleAudioCustomVocabulary.
    2. För Språkväljer hindi, IN (hi-IN).
    3. För Inmatningsfilens plats på S3, bläddra till platsen för SampleAudio.wav.
    4. För IAM-roll, Välj Använd en befintlig IAM-roll och välj den roll du skapade tidigare.
    5. I Konfigurera jobb avsnitt, välj Anpassad ordförråd och välj det anpassade ordförrådet HindiCustomVocabulary.
  10. Välja Skapa jobb.

Förbättra transkriptionsnoggrannheten för kund-agentsamtal med anpassad vokabulär i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Mät modellens noggrannhet efter att ha använt anpassat ordförråd

Kopiera utskriften från Amazon Transcribe-jobbinformationssidan till en textfil med namnet hypothesis-custom-vocabulary.txt:

Kund : हेलो,

Recensioner : गुड मोर्निग इंडिया ट्रेवल एजेंसॹसी सी ल ब क हूँ किस त से मैं आपकी सह क सकती। हूँ

Kund : मैं बहुत दिनों उनसे हैद ट के ब में सोच सोच थ। क्या आप मुझे कुछ अच्छे लोकेशन के बेंरे बेर

Recensioner : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियश हरियश

Kund : ह बढिय थैंक यू मैं सैट औ को ट क क।

Recensioner : एक सजेशन वीकेंड में ट्रैफिक ज्यानइइयानइ

Kund : सिरियसली एनी टिप्स चिकन शेर

Recensioner : आप टेक यूस क लो ड औ प क प नहीं होग।

Kund : ग्रेट आइडिया थैंक्यू सो मच।

Observera att de markerade orden transkriberas efter önskemål.

Kör wer kommandot igen med den nya avskriften:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Du får följande utgång:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Observationer från transkriptionen skapad med anpassat ordförråd

Den totala WER är 6.061 %, vilket betyder att 93.939 % av orden är korrekt transkriberade.

Låt oss jämföra wer-utgången för mening 4 med och utan anpassat ordförråd. Följande är utan anpassat ordförråd:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Följande är med anpassat ordförråd:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

Det finns inga fel i mening 4. Namnen på platserna transkriberas noggrant med hjälp av anpassade ordförråd, vilket minskar den totala WER från 9.848 % till 6.061 % för denna ljudfil. Detta innebär att transkriptionsnoggrannheten förbättrades med nästan 4 %.

Hur anpassat ordförråd förbättrade noggrannheten

Vi använde följande anpassade ordförråd:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe kontrollerar om det finns några ord i ljudfilen som låter som orden som nämns i Phrase kolumn. Sedan använder modellen posterna i IPA, SoundsLikeoch DisplaysAs kolumner för de specifika orden att transkribera med önskad stavning.

Med detta anpassade ordförråd, när Amazon Transcribe identifierar ett ord som låter som "गोलकुंडा-फोर (Golcunda-Four)," transkriberar det ordet som "गोलकोंडकोंड (ोंड).

Rekommendationer

Noggrannheten i transkriptionen beror också på parametrar som högtalarnas uttal, överlappande högtalare, talhastighet och bakgrundsljud. Därför rekommenderar vi att du följer processen med en mängd olika samtal (med olika kunder, agenter, avbrott och så vidare) som täcker de vanligaste domänspecifika orden för att du ska kunna bygga ett heltäckande anpassat ordförråd.

I det här inlägget lärde vi oss processen för att förbättra noggrannheten för att transkribera ett ljudsamtal med hjälp av anpassat ordförråd. För att bearbeta tusentals samtalsinspelningar från ditt kontaktcenter varje dag kan du använda analys efter samtal, en helautomatisk, skalbar och kostnadseffektiv helhetslösning som tar hand om det mesta av tunga lyft. Du laddar helt enkelt upp dina ljudfiler till en S3-bucket, och inom några minuter ger lösningen samtalsanalyser som sentiment i ett webbgränssnitt. Analyser efter samtal ger handlingskraftiga insikter för att upptäcka nya trender, identifiera möjligheter till agentcoachning och bedöma den allmänna känslan av samtal. Analyser efter samtal är en öppen källkodslösning som du kan distribuera med AWS molnformation.

Observera att anpassade vokabulärer inte använder sammanhanget där orden uttalades, de fokuserar bara på enskilda ord som du anger. För att ytterligare förbättra noggrannheten kan du använda anpassade språkmodeller. Till skillnad från anpassade vokabulärer, som associerar uttal med stavning, lär sig anpassade språkmodeller sammanhanget som är kopplat till ett givet ord. Detta inkluderar hur och när ett ord används, och relationen ett ord har med andra ord. För att skapa en anpassad språkmodell kan du använda transkriptionerna från processen vi lärt oss för en mängd olika samtal och kombinera dem med innehåll från dina webbplatser eller användarmanualer som innehåller domänspecifika ord och fraser.

För att uppnå den högsta transkriptionsnoggrannheten med batchtranskriptioner kan du använda anpassade vokabulärer i kombination med dina anpassade språkmodeller.

Slutsats

I det här inlägget gav vi detaljerade steg för att korrekt bearbeta hindi-ljudfiler som innehåller engelska ord med hjälp av samtalsanalys och anpassade vokabulärer i Amazon Transcribe. Du kan använda samma steg för att behandla ljudsamtal med vilken som helst språk som stöds av Amazon Transcribe.

När du har härlett transkriptionerna med önskad noggrannhet kan du förbättra dina agent-kundsamtal genom att träna dina agenter. Du kan också förstå dina kunders känslor och trender. Med hjälp av högtalardiarisering, loudness-detektering och ordförrådsfiltreringsfunktioner i samtalsanalysen kan du identifiera om det var agenten eller kunden som höjde sin ton eller sa några specifika ord. Du kan kategorisera anrop baserat på domänspecifika ord, fånga upp handlingsbara insikter och köra analyser för att förbättra dina produkter. Slutligen kan du översätta dina utskrifter till engelska eller andra språk som stöds av ditt val med hjälp av Amazon Translate.


Om författarna

Förbättra transkriptionsnoggrannheten för kund-agentsamtal med anpassad vokabulär i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Sarat Guttikonda är Sr. Solutions Architect inom AWS World Wide Public Sector. Sarat tycker om att hjälpa kunder att automatisera, hantera och styra sina molnresurser utan att ge avkall på affärsflexibilitet. På fritiden älskar han att bygga lego tillsammans med sin son och spela bordtennis.

Förbättra transkriptionsnoggrannheten för kund-agentsamtal med anpassad vokabulär i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Lavanya Sood är en lösningsarkitekt inom AWS World Wide Public Sector baserad i New Delhi, Indien. Lavanya tycker om att lära sig ny teknik och hjälpa kunder i deras molnadoptionsresa. På fritiden älskar hon att resa och prova olika maträtter.

Tidsstämpel:

Mer från AWS maskininlärning