Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset vokabular i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset ordforråd i Amazon Transcribe

Mange AWS kunder har blitt brukt Amazon Transcribe å nøyaktig, effektivt og automatisk konvertere kundelydsamtalene deres til tekst, og trekke ut handlingsvennlig innsikt fra dem. Denne innsikten kan hjelpe deg kontinuerlig å forbedre prosessene og produktene som direkte forbedrer kvaliteten og opplevelsen for kundene dine.

I mange land, som India, er ikke engelsk det primære kommunikasjonsspråket. Indiske kundesamtaler inneholder regionale språk som hindi, med engelske ord og setninger som snakkes tilfeldig gjennom samtalene. I kildemediefilene kan det være egennavn, domenespesifikke akronymer, ord eller fraser som standard Amazon Transcribe-modellen ikke er klar over. Transkripsjoner for slike mediefiler kan ha unøyaktige stavemåter for disse ordene.

I dette innlegget viser vi hvordan du kan gi mer informasjon til Amazon Transcribe med tilpassede vokabularer for å oppdatere måten Amazon Transcribe håndterer transkripsjon av lydfilene dine med bedriftsspesifikk terminologi. Vi viser trinnene for å forbedre nøyaktigheten av transkripsjoner for Hinglish-anrop (indiske hindi-anrop som inneholder indiske engelske ord og uttrykk). Du kan bruke den samme prosessen til å transkribere lydanrop med alle språk støttet av Amazon Transcribe. Etter at du har opprettet tilpassede ordforråd, kan du transkribere lydanrop med nøyaktighet og skala ved å bruke vår statistikk etter anrop løsning, som vi diskuterer mer senere i dette innlegget.

Løsningsoversikt

Vi bruker følgende indisk hindi lydanrop (SampleAudio.wav) med tilfeldige engelske ord for å demonstrere prosessen.

Vi leder deg deretter gjennom følgende trinn på høyt nivå:

  1. Transkriber lydfilen ved å bruke standard Amazon Transcribe Hindi-modellen.
  2. Mål modellens nøyaktighet.
  3. Tren modellen med tilpasset vokabular.
  4. Mål nøyaktigheten til den trente modellen.

Forutsetninger

Før vi setter i gang, må vi bekrefte at inndatalydfilen oppfyller transkribere datainndatakrav.

A mono opptak, også referert til som mono, inneholder ett lydsignal, der alle lydelementene til agenten og kunden er kombinert til én kanal. EN stereofonisk opptak, også referert til som stereo, inneholder to lydsignaler for å fange opp lydelementene til agenten og kunden i to separate kanaler. Hver agent-kunde opptaksfil inneholder to lydkanaler, en for agenten og en for kunden.

Low-fidelity-lydopptak, for eksempel telefonopptak, bruker vanligvis 8,000 Hz samplingsfrekvenser. Amazon Transcribe støtter behandling av mono-innspilte og også høykvalitets lydfiler med samplingsfrekvenser mellom 16,000 48,000–XNUMX XNUMX Hz.

For forbedrede transkripsjonsresultater og for å tydelig skille ordene som er sagt av agenten og kunden, anbefaler vi å bruke lydfiler som er tatt opp med 8,000 Hz samplingsfrekvens og er stereokanalseparert.

Du kan bruke et verktøy som ffmpeg for å validere lydfilene dine fra kommandolinjen:

ffmpeg -i SampleAudio.wav

I det returnerte svaret, sjekk linjen som starter med Stream i Input-delen, og bekreft at lydfilene er 8,000 Hz og stereokanalseparert:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Når du bygger en pipeline for å behandle et stort antall lydfiler, kan du automatisere dette trinnet for å filtrere filer som ikke oppfyller kravene.

Som et ekstra forutsetningstrinn kan du opprette en Amazon Simple Storage Service (Amazon S3)-bøtte for å være vert for lydfilene som skal transkriberes. For instruksjoner, se Lag din første S3-bøtte.Deretter last opp lydfilen til S3-bøtta.

Transkriber lydfilen med standardmodellen

Nå kan vi starte en Amazon-transkribering call analytics jobb ved hjelp av lydfilen vi lastet opp.I dette eksempelet bruker vi AWS-administrasjonskonsoll for å transkribere lydfilen. Du kan også bruke AWS kommandolinjegrensesnitt (AWS CLI) eller AWS SDK.

  1. På Amazon Transkriberingskonsollen velger du Ring analytics i navigasjonsruten.
  2. Velg Ring analysejobber.
  3. Velg Lag jobb.
  4. Til Navn, skriv inn et navn.
  5. Til Språkinnstillinger, plukke ut Spesifikt språk.
  6. Til Språk, velg Hindi, IN (hi-IN).
  7. Til Modell type, plukke ut Generell modell.
  8. Til Inndatafilplassering på S3, bla til S3-bøtten som inneholder den opplastede lydfilen.Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset vokabular i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  9. Utdata seksjon, la standardinnstillingene stå.
  10. Adgangstillatelser seksjon, velg Lag en IAM-rolle.
  11. Lage en ny AWS identitets- og tilgangsadministrasjon (IAM) rolle kalt HindiTranscription som gir Amazon Transcribe-tjenestetillatelser til å lese lydfilene fra S3-bøtten og bruke AWS nøkkelstyringstjeneste (AWS KMS) nøkkel for å dekryptere.Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset vokabular i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  12. Konfigurer jobb seksjon, la standardinnstillingene, inkludert Egendefinert ordforråd fravalgt.
  13. Velg Lag jobb for å transkribere lydfilen.

Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset vokabular i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Når statusen til jobben er Fullført, kan du se gjennom transkripsjonen ved å velge jobben (SampleAudio).

Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset vokabular i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Kunden og agentsetningene er tydelig atskilt, noe som hjelper oss med å identifisere om kunden eller agenten sa noen spesifikke ord eller uttrykk.

Mål modellens nøyaktighet

Ordfeilfrekvens (WER) er den anbefalte og mest brukte metrikken for å evaluere nøyaktigheten til systemer for automatisk talegjenkjenning (ASR). Målet er å redusere WER så mye som mulig for å forbedre nøyaktigheten til ASR-systemet.

For å beregne WER, fullfør følgende trinn. Dette innlegget bruker åpen kildekode asr-evaluering evalueringsverktøy for å beregne WER, men andre verktøy som f.eks SCTK or JiWER Er også tilgjengelig.

  1. Install de asr-evaluation verktøyet, som gjør wer-skriptet tilgjengelig på kommandolinjen.
    Bruk en kommandolinje på macOS- eller Linux-plattformer for å kjøre wer-kommandoene som vises senere i innlegget.
  2. Kopier transkripsjonen fra Amazon Transcribe jobbdetaljsiden til en tekstfil med navnet hypothesis.txt.
    Når du kopierer transkripsjonen fra konsollen, vil du legge merke til et nytt linjetegn mellom ordene Agent :, Customer :, og hindi-skriftet.
    De nye linjetegnene er fjernet for å spare plass i dette innlegget. Hvis du velger å bruke teksten som den er fra konsollen, sørg for at referansetekstfilen du oppretter også har de nye linjetegnene, fordi wer-verktøyet sammenligner linje for linje.
  3. Se gjennom hele transkripsjonen og identifiser eventuelle ord eller uttrykk som må rettes:
    Kunde- : हेलो,
    Agent : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। ल ब क ही हूँ किस त से आपकी आपकी सह क सकती हूँ।
    Kunde- : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच र।ाा क्या आप मुझे कुछ अच्छे लोकेशन के बेंतस
    Agent :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरिम।श जंग
    Kunde- : ह बढिय थैंक यू मैं अगले सैट औ संडे ट क क।।
    Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यानइइ्ानइ
    Kunde- : सिरियसली एनी टिप्स Kylling शेर
    Agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    Kunde- : ग्रेट आइडिया थैंक्यू सो मच।De uthevede ordene er de som standard Amazon Transcribe-modellen ikke gjengav riktig.
  4. Lag en annen tekstfil med navnet reference.txt, erstatte de uthevede ordene med de ønskede ordene du forventer å se i transkripsjonen:
    Kunde- : हेलो,
    Agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेीं से मैं । ल ब क ही हूँ किस त से आपकी आपकी सह क सकती हूँ।
    Kunde- : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच र।ाा क्या आप मुझे कुछ अच्छे लोकेशन के बेंतस
    Agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरिम।श जंग
    Kunde- : ह बढिय थैंक यू मैं अगले सैट औ संडे ट क क।।
    Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यानइइ्ानइ
    Kunde- : सिरियसली एनी टिप्स यू केन शेर
    Agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    Kunde- : ग्रेट आइडिया थैंक्यू सो मच।
  5. Bruk følgende kommando for å sammenligne referanse- og hypotesetekstfilene du opprettet:
    wer -i reference.txt hypothesis.txt

    Du får følgende utdata:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

Wer-kommandoen sammenligner tekst fra filene reference.txt og hypothesis.txt. Den rapporterer feil for hver setning og også det totale antallet feil (WER: 9.848 % ( 13 / 132)) i hele utskriften.

Fra den foregående utgangen ble det rapportert 13 feil av 132 ord i utskriften. Disse feilene kan være av tre typer:

  • Byttefeil – Disse oppstår når Amazon Transcribe skriver ett ord i stedet for et annet. For eksempel, i transkripsjonen vår, ordet "महीना (Mahina)" ble skrevet i stedet for "मिनार (Minar)» i setning 4.
  • Slettingsfeil – Disse skjer når Amazon Transcribe savner et ord helt i transkripsjonen. I transkripsjonen vår er ordet "सौथ (Sør)» ble savnet i setning 2.
  • Innsettingsfeil – Disse oppstår når Amazon Transcribe setter inn et ord som ikke ble sagt. Vi ser ingen innsettingsfeil i transkripsjonen vår.

Observasjoner fra transkripsjonen opprettet av standardmodellen

Vi kan gjøre følgende observasjoner basert på transkripsjonen:

  • Den totale WER er 9.848 %, noe som betyr at 90.152 % av ordene er transkribert nøyaktig.
  • Standard hindi-modellen transkriberte de fleste engelske ordene nøyaktig. Dette er fordi standardmodellen er opplært til å gjenkjenne de vanligste engelske ordene ut av esken. Modellen er også opplært til å gjenkjenne Hinglish-språket, der engelske ord tilfeldig vises i hindi-samtaler. For eksempel:
    • गुड मोर्निग – God morgen (setning 2).
    • ट्रेवल एजेंसी – Reisebyrå (setning 2).
    • ग्रेट आइडिया थैंक्यू सो मच – God idé tusen takk (setning 9).
  • Setning 4 har flest feil, som er navnene på steder i den indiske byen Hyderabad:
    • हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरिम।श जंग

I neste trinn demonstrerer vi hvordan du korrigerer de uthevede ordene i den foregående setningen ved å bruke tilpasset vokabular i Amazon Transcribe:

  • चार महीना (Char Mahina) skal være चार मिनार (Char undergrave)
  • Rundकुंडा फो (Golcunda Four) skal være गोलकोंडा फोर्ट (Golconda Fort)
  • लार जंग (Salar Jung) bør være सालार जंग (Saalar Jung)

Tren standardmodellen med et tilpasset ordforråd

Til lage et tilpasset vokabular, må du bygge en tekstfil i et tabellformat med ordene og setningene for å trene opp standard Amazon Transcribe-modellen. Tabellen din må inneholde alle fire kolonnene (Phrase, SoundsLike, IPAog DisplayAs), men Phrase kolonnen er den eneste som må inneholde en oppføring på hver rad. Du kan la de andre kolonnene være tomme. Hver kolonne må være atskilt med et tabulatortegn, selv om noen kolonner er tomme. For eksempel, hvis du forlater IPA og SoundsLike kolonner tomme for en rad, den Phrase og DisplaysAs kolonner i den raden må skilles med tre tabulatortegn (mellom Phrase og IPA, IPA og SoundsLikeog SoundsLike og DisplaysAs).

For å trene modellen med et tilpasset vokabular, fullfør følgende trinn:

  1. Lag en fil som heter HindiCustomVocabulary.txt med følgende innhold.
    Setningen ipa lydelignende displayas गोलकुंड-फो गोलकोंड ट स-जंग स-ल-जंग स जंग र-महीन च मिन मिन मिन मिन मिन मिन

    Du kan bare bruke tegn som støttes for ditt språk. Se ditt språk tegnsett for mer informasjon.

    Kolonnene inneholder følgende informasjon:

    1. Phrase – Inneholder ordene eller setningene du vil transkribere nøyaktig. De uthevede ordene eller setningene i transkripsjonen opprettet av standard Amazon Transcribe-modell vises i denne kolonnen. Disse ordene er vanligvis akronymer, egennavn eller domenespesifikke ord og fraser som standardmodellen ikke er klar over. Dette er et obligatorisk felt for hver rad i den egendefinerte vokabulartabellen. I transkripsjonen vår, for å korrigere "गोलकुंडा फोर (Golcunda Four)" fra setning 4, bruk "गोलकुंडा-फोर (Golcunda Four)" i denne kolonnen. Hvis oppføringen inneholder flere ord, skiller du hvert ord med en bindestrek (-); ikke bruk mellomrom.
    2. IPA – Inneholder ordene eller uttrykkene som representerer talelyder i skriftlig form. Kolonnen er valgfri; du kan la radene stå tomme. Denne kolonnen er ment for fonetiske stavemåter med kun tegn i det internasjonale fonetiske alfabetet (IPA). Se hindi-tegnsett for tillatte IPA-tegn for hindi-språket. I vårt eksempel bruker vi ikke IPA. Hvis du har en oppføring i denne kolonnen, vil din SoundsLike kolonnen må være tom.
    3. SoundsLike – Inneholder ord eller setninger brutt ned i mindre deler (vanligvis basert på stavelser eller vanlige ord) for å gi en uttale for hver del basert på hvordan det høres ut. Denne kolonnen er valgfri; du kan la radene stå tomme. Bare legg til innhold i denne kolonnen hvis oppføringen inneholder et ikke-standard ord, for eksempel et merkenavn, eller for å korrigere et ord som blir feil transkribert. I transkripsjonen vår, for å korrigere "सलार जंग (Salar Jung)" fra setning 4, bruk "सा-लार-जंग (Saa-lar-jung)" i denne kolonnen. Ikke bruk mellomrom i denne kolonnen. Hvis du har en oppføring i denne kolonnen, vil din IPA kolonnen må være tom.
    4. DisplaysAs – Inneholder ord eller setninger med stavemåten du vil se i transkripsjonsutdataene for ordene eller setningene i Phrase felt. Denne kolonnen er valgfri; du kan la radene stå tomme. Hvis du ikke spesifiserer dette feltet, bruker Amazon Transcribe innholdet i Phrase feltet i utdatafilen. For eksempel, i transkripsjonen vår, for å rette "गोलकुंडा फोर (Golcunda Four)" fra setning 4, bruk "गोलकोंडा फ्टोा फ्ट)॥ in this column
  2. Last opp tekstfilen (HindiCustomVocabulary.txt) til en S3-bøtte.Nå lager vi et tilpasset vokabular i Amazon Transcribe.
  3. På Amazon Transkriberingskonsollen velger du Egendefinert ordforråd i navigasjonsruten.
  4. Til Navn, skriv inn et navn.
  5. Til Språk, velg Hindi, IN (hi-IN).
  6. Til Inndatakilde for ordforråd, plukke ut S3 beliggenhet.
  7. Til Plassering av ordforrådsfil på S3, skriv inn S3-banen til HindiCustomVocabulary.txt filen.
  8. Velg Lag ordforråd. Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset vokabular i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  9. Transkribere SampleAudio.wav fil med det tilpassede vokabularet, med følgende parametere:
    1. Til Jobb navn , Tast inn SampleAudioCustomVocabulary.
    2. Til Språk, velg Hindi, IN (hi-IN).
    3. Til Inndatafilplassering på S3, bla til plasseringen av SampleAudio.wav.
    4. Til IAM-rolle, plukke ut Bruk en eksisterende IAM-rolle og velg rollen du opprettet tidligere.
    5. Konfigurer jobb seksjon, velg Egendefinert ordforråd og velg det tilpassede vokabularet HindiCustomVocabulary.
  10. Velg Lag jobb.

Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset vokabular i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Mål modellens nøyaktighet etter bruk av tilpasset ordforråd

Kopier transkripsjonen fra Amazon Transcribe jobbdetaljsiden til en tekstfil med navnet hypothesis-custom-vocabulary.txt:

Kunde- : हेलो,

Agent : गुड मोर्निग इंडिया ट्रेवल एजेंसॹसी सी ल ब क ही हूँ किस त से आपकी आपकी सह क सकती हूँ।

Kunde- : मैं बहुत उनसे हैद ट के ब में सोच ह थ।। क्या आप मुझे कुछ अच्छे लोकेशन के बेंतस

Agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरिम।श जंग

Kunde- : ह बढिय थैंक यू मैं अगले सैट औ संडे ट क क।।

Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यानइइ्ानइ

Kunde- : सिरियसली एनी टिप्स चिकन शेर

Agent : आप टेक यूस क लो ड औ प क प नहीं नहीं होग।

Kunde- : ग्रेट आइडिया थैंक्यू सो मच।

Merk at de uthevede ordene blir transkribert etter ønske.

Kjør wer kommando igjen med det nye transkripsjonen:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Du får følgende utdata:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Observasjoner fra transkripsjonen laget med tilpasset vokabular

Den totale WER er 6.061 %, noe som betyr at 93.939 % av ordene er transkribert nøyaktig.

La oss sammenligne wer-utdata for setning 4 med og uten tilpasset ordforråd. Følgende er uten egendefinert ordforråd:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Følgende er med tilpasset ordforråd:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

Det er ingen feil i setning 4. Navnene på stedene transkriberes nøyaktig ved hjelp av tilpasset vokabular, og reduserer dermed den totale WER fra 9.848 % til 6.061 % for denne lydfilen. Dette betyr at nøyaktigheten av transkripsjon ble forbedret med nesten 4 %.

Hvordan tilpasset ordforråd forbedret nøyaktigheten

Vi brukte følgende tilpassede ordforråd:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe sjekker om det er noen ord i lydfilen som høres ut som ordene nevnt i Phrase kolonne. Deretter bruker modellen oppføringene i IPA, SoundsLikeog DisplaysAs kolonner for de spesifikke ordene som skal transkriberes med ønsket stavemåte.

Med dette tilpassede vokabularet, når Amazon Transcribe identifiserer et ord som høres ut som "गोलकुंडा-फोर (Golcunda-Four)," transkriberer det ordet som "गोलकोंडकोंडोंडकोंड (Golcunda-Four).

Anbefalinger

Nøyaktigheten av transkripsjon avhenger også av parametere som høyttalernes uttale, overlappende høyttalere, talehastighet og bakgrunnsstøy. Derfor anbefaler vi at du følger prosessen med en rekke samtaler (med forskjellige kunder, agenter, avbrudd og så videre) som dekker de mest brukte domenespesifikke ordene, slik at du kan bygge et omfattende tilpasset vokabular.

I dette innlegget lærte vi prosessen for å forbedre nøyaktigheten ved å transkribere en lydsamtale ved å bruke tilpasset ordforråd. For å behandle tusenvis av samtaleopptak fra kontaktsenteret ditt hver dag, kan du bruke statistikk etter anrop, en helautomatisert, skalerbar og kostnadseffektiv ende-til-ende-løsning som tar seg av det meste av tunge løft. Du laster ganske enkelt opp lydfilene dine til en S3-bøtte, og i løpet av minutter gir løsningen samtaleanalyse som sentiment i et nettgrensesnitt. Analyser etter samtaler gir praktisk innsikt for å oppdage nye trender, identifisere muligheter for agentcoaching og vurdere den generelle følelsen av samtaler. Analyser etter samtaler er en åpen kildekode-løsning som du kan distribuere ved hjelp av AWS skyformasjon.

Vær oppmerksom på at egendefinerte ordforråd ikke bruker konteksten ordene ble sagt i, de fokuserer kun på enkeltord du oppgir. For å forbedre nøyaktigheten ytterligere, kan du bruke tilpassede språkmodeller. I motsetning til tilpassede vokabularer, som forbinder uttale med staving, lærer tilpassede språkmodeller konteksten knyttet til et gitt ord. Dette inkluderer hvordan og når et ord brukes, og forholdet et ord har med andre ord. For å lage en tilpasset språkmodell kan du bruke transkripsjonene fra prosessen vi lærte for en rekke samtaler, og kombinere dem med innhold fra nettsidene dine eller brukermanualer som inneholder domenespesifikke ord og setninger.

For å oppnå den høyeste transkripsjonsnøyaktigheten med batch-transkripsjoner, kan du bruke egendefinerte vokabularer sammen med tilpassede språkmodeller.

konklusjonen

I dette innlegget ga vi detaljerte trinn for nøyaktig å behandle hindi-lydfiler som inneholder engelske ord ved å bruke anropsanalyse og tilpassede vokabularer i Amazon Transcribe. Du kan bruke de samme trinnene til å behandle lydanrop med alle språk støttet av Amazon Transcribe.

Etter at du har utledet transkripsjonene med ønsket nøyaktighet, kan du forbedre agent-kunde-samtalene dine ved å lære opp agentene dine. Du kan også forstå kundenes følelser og trender. Ved hjelp av høyttalerdiarisering, loudness-deteksjon og ordforrådsfiltreringsfunksjoner i samtaleanalysen kan du identifisere om det var agenten eller kunden som hevet tonen eller sa noen spesifikke ord. Du kan kategorisere anrop basert på domenespesifikke ord, fange opp handlingsvennlig innsikt og kjøre analyser for å forbedre produktene dine. Til slutt kan du oversette transkripsjonene dine til engelsk eller andre støttede språk etter eget valg ved å bruke Amazon Oversett.


Om forfatterne

Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset vokabular i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Sarat Guttikonda er en senior løsningsarkitekt i AWS World Wide Public Sector. Sarat liker å hjelpe kunder med å automatisere, administrere og styre skyressursene sine uten å ofre virksomhetens smidighet. På fritiden elsker han å bygge lego sammen med sønnen og spille bordtennis.

Forbedre transkripsjonsnøyaktigheten av kunde-agent-anrop med tilpasset vokabular i Amazon Transcribe PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Lavanya Sood er en løsningsarkitekt i AWS World Wide Public Sector basert i New Delhi, India. Lavanya liker å lære nye teknologier og hjelpe kunder i deres skyadopsjonsreise. På fritiden elsker hun å reise og prøve forskjellige matvarer.

Tidstempel:

Mer fra AWS maskinlæring