Forbedre transskriptionsnøjagtigheden af kundeagentopkald med tilpasset ordforråd i Amazon Transscribe

Genudgivet af Platon

Abonnenter: 0

Mange AWS kunder har brugt med succes Amazon Transcrib til nøjagtigt, effektivt og automatisk at konvertere deres kundelydsamtaler til tekst og udtrække handlingsorienteret indsigt fra dem. Disse indsigter kan hjælpe dig med løbende at forbedre de processer og produkter, der direkte forbedrer kvaliteten og oplevelsen for dine kunder.

I mange lande, såsom Indien, er engelsk ikke det primære kommunikationssprog. Indiske kundesamtaler indeholder regionale sprog som hindi, med engelske ord og sætninger talt tilfældigt under opkaldene. I kildemediefilerne kan der være egennavne, domænespecifikke akronymer, ord eller sætninger, som standard Amazon Transcribe-modellen ikke er opmærksom på. Transskriptioner af sådanne mediefiler kan have unøjagtige stavemåder for disse ord.

I dette indlæg demonstrerer vi, hvordan du kan give mere information til Amazon Transcribe med tilpassede ordforråd at opdatere måden, Amazon Transcribe håndterer transskription af dine lydfiler med forretningsspecifik terminologi. Vi viser trinene til at forbedre nøjagtigheden af transskriptioner for Hinglish-opkald (indiske hindi-opkald, der indeholder indiske engelske ord og sætninger). Du kan bruge den samme proces til at transskribere lydopkald med evt sprog understøttet af Amazon Transscribe. Når du har oprettet brugerdefinerede ordforråd, kan du transskribere lydopkald med nøjagtighed og i skala ved at bruge vores analyser efter opkald løsning, som vi diskuterer mere senere i dette indlæg.

Løsningsoversigt

Vi bruger følgende indiske hindi lydopkald (SampleAudio.wav) med tilfældige engelske ord for at demonstrere processen.

Vi fører dig derefter gennem følgende trin på højt niveau:

Transskriber lydfilen ved hjælp af standard Amazon Transcribe Hindi-modellen.
Mål modellens nøjagtighed.
Træn modellen med brugerdefineret ordforråd.
Mål nøjagtigheden af den trænede model.

Forudsætninger

Før vi går i gang, skal vi bekræfte, at input-lydfilen opfylder transskribere dataindtastningskrav.

A monofoniske optagelse, også kaldet mono, indeholder ét lydsignal, hvor alle agentens og kundens lydelementer er kombineret til én kanal. EN stereofonisk optagelse, også kaldet stereoanlæg, indeholder to lydsignaler til at fange agentens og kundens lydelementer i to separate kanaler. Hver agent-kunde optagelsesfil indeholder to lydkanaler, en til agenten og en til kunden.

Low-fidelity lydoptagelser, såsom telefonoptagelser, bruger typisk 8,000 Hz sample rates. Amazon Transcribe understøtter behandling af mono-optagede og også high-fidelity-lydfiler med samplingsfrekvenser mellem 16,000-48,000 Hz.

For forbedrede transskriptionsresultater og for tydeligt at skelne mellem de ord, der er talt af agenten og kunden, anbefaler vi at bruge lydfiler, der er optaget med 8,000 Hz samplerate og er stereokanalsepareret.

Du kan bruge et værktøj som ffmpeg for at validere dine inputlydfiler fra kommandolinjen:

ffmpeg -i SampleAudio.wav

I det returnerede svar skal du kontrollere linjen, der starter med Stream i Input-sektionen, og bekræfte, at lydfilerne er 8,000 Hz og stereokanalsepareret:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Når du bygger en pipeline til at behandle et stort antal lydfiler, kan du automatisere dette trin for at filtrere filer, der ikke opfylder kravene.

Som et yderligere forudsætningstrin skal du oprette en Amazon Simple Storage Service (Amazon S3)-bøtte til at være vært for de lydfiler, der skal transskriberes. For instruktioner, se Opret din første S3-spand.Derefter uploade lydfilen til S3-spanden.

Transskriber lydfilen med standardmodellen

Nu kan vi starte en Amazon-transskribering call analytics job ved hjælp af den lydfil, vi uploadede. I dette eksempel bruger vi AWS Management Console for at transskribere lydfilen. Du kan også bruge AWS kommandolinjegrænseflade (AWS CLI) eller AWS SDK.

På Amazon Transscribe-konsollen skal du vælge Opkaldsanalyse i navigationsruden.
Vælg Ring til analysejob.
Vælg Skab job.
Til Navn, indtast et navn.
Til Sprogindstillinger, Vælg Specifikt sprog.
Til Sprog, vælg Hindi, IN (hi-IN).
Til Model type, Vælg Generel model.
Til Indtast filplacering på S3, gå til S3-bøtten, der indeholder den uploadede lydfil.
I Outputdata sektion, forlad standardindstillingerne.
I Adgangstilladelser sektion, vælg Opret en IAM-rolle.
Opret en ny AWS identitets- og adgangsstyring (IAM) rolle ved navn HindiTranscription, der giver Amazon Transcribe-tjenestetilladelser til at læse lydfilerne fra S3-bøtten og bruge AWS Key Management Service (AWS KMS) nøgle til at dekryptere.
I Konfigurer job sektion, lad standardindstillingerne, herunder Tilpasset ordforråd fravalgt.
Vælg Skab job for at transskribere lydfilen.

Når status for jobbet er Fuldført, kan du gennemgå transskriptionen ved at vælge jobbet (SampleAudio).

Kunden og agentsætningerne er tydeligt adskilte, hvilket hjælper os med at identificere, om kunden eller agenten talte nogle specifikke ord eller sætninger.

Mål modellens nøjagtighed

Word error rate (WER) er den anbefalede og mest almindeligt anvendte metrik til evaluering af nøjagtigheden af ASR-systemer (Automatic Speech Recognition). Målet er at reducere WER så meget som muligt for at forbedre ASR-systemets nøjagtighed.

Udfør følgende trin for at beregne WER. Dette indlæg bruger open source asr-evaluering evalueringsværktøj til at beregne WER, men andre værktøjer som f.eks SCTK or JiWER Er også tilgængelige.

Installer og asr-evaluation værktøj, som gør wer-scriptet tilgængeligt på din kommandolinje.
Brug en kommandolinje på macOS- eller Linux-platforme til at køre de wer-kommandoer, der vises senere i indlægget.
Kopiér transskriptionen fra Amazon Transcribe-jobdetaljer-siden til en tekstfil med navnet hypothesis.txt.
Når du kopierer transskriptionen fra konsollen, vil du bemærke et nyt linjetegn mellem ordene Agent :, Customer :, og hindi-skriftet.
De nye linjetegn er blevet fjernet for at spare plads i dette indlæg. Hvis du vælger at bruge teksten, som den er fra konsollen, skal du sørge for, at referencetekstfilen, du opretter, også har de nye linjetegn, fordi wer-værktøjet sammenligner linje for linje.
Gennemgå hele transskriptionen og identificer eventuelle ord eller sætninger, der skal rettes:
Kunden : हेलो,
Agent : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। ल ब क ही हूँ किस त से मैं आपकी सह क सकती हूँ।
Kunden : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच र।ा ा क्या आप मुझे कुछ अच्छे लोकेशन के बेतंर?
Agent :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियश जंग
Kunden : ह बढिय थैंक यू मैं अगले सैट औ संडे ट ट क।
Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यानइइ्ानइ
Kunden : सिरियसली एनी टिप्स Kylling शेर
Agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
Kunden : ग्रेट आइडिया थैंक्यू सो मच।De fremhævede ord er dem, som standardmodellen Amazon Transscribe ikke gengivede korrekt.
Opret en anden tekstfil med navnet reference.txt, og erstatter de fremhævede ord med de ønskede ord, du forventer at se i transskriptionen:
Kunden : हेलो,
Agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेीत से मैं । ल ब क ही हूँ किस त से मैं आपकी सह क सकती हूँ।
Kunden : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच र।ा ा क्या आप मुझे कुछ अच्छे लोकेशन के बेतंर?
Agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियश जंग
Kunden : ह बढिय थैंक यू मैं अगले सैट औ संडे ट ट क।
Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यानइइ्ानइ
Kunden : सिरियसली एनी टिप्स यू केन शेर
Agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
Kunden : ग्रेट आइडिया थैंक्यू सो मच।

Brug følgende kommando til at sammenligne reference- og hypotesetekstfilerne, som du har oprettet:

wer -i reference.txt hypothesis.txt

Du får følgende output:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 92.9% 13 ( 14)

Errors = 7.1% 1 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 9.848% ( 13 / 132)

WRR: 90.909% ( 120 / 132)

SER: 55.556% ( 5 / 9)

Wer-kommandoen sammenligner tekst fra filerne reference.txt , hypothesis.txt. Den rapporterer fejl for hver sætning og også det samlede antal fejl (WER: 9.848 % ( 13 / 132)) i hele udskriften.

Fra det foregående output blev der rapporteret 13 fejl ud af 132 ord i transskriptionen. Disse fejl kan være af tre typer:

Udskiftningsfejl – Disse opstår, når Amazon Transcribe skriver et ord i stedet for et andet. For eksempel i vores udskrift er ordet "महीना (Mahina)" blev skrevet i stedet for "मिनार (Minar)” i sætning 4.
Sletningsfejl – Disse opstår, når Amazon Transcribe går glip af et ord helt i transskriptionen. I vores udskrift er ordet "सौथ (Syd)" blev savnet i sætning 2.
Indsættelsesfejl – Disse opstår, når Amazon Transcribe indsætter et ord, der ikke blev talt. Vi kan ikke se nogen indsættelsesfejl i vores udskrift.

Observationer fra transskriptionen oprettet af standardmodellen

Vi kan gøre følgende observationer baseret på udskriften:

Den samlede WER er 9.848%, hvilket betyder, at 90.152% af ordene er transskriberet nøjagtigt.
Hindi-standardmodellen transskriberede de fleste af de engelske ord nøjagtigt. Dette skyldes, at standardmodellen er trænet til at genkende de mest almindelige engelske ord ud af kassen. Modellen er også trænet til at genkende Hinglish-sprog, hvor engelske ord tilfældigt optræder i hindi-samtaler. For eksempel:
- गुड मोर्निग – Godmorgen (sætning 2).
- ट्रेवल एजेंसी – Rejsebureau (sætning 2).
- ग्रेट आइडिया थैंक्यू सो मच – God idé, mange tak (sætning 9).
Sætning 4 har flest fejl, som er navnene på steder i den indiske by Hyderabad:
- हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियश जंग

I det næste trin demonstrerer vi, hvordan man retter de fremhævede ord i den foregående sætning ved hjælp af brugerdefineret ordforråd i Amazon Transscribe:

चार महीना (Char Måned) skal være चार मिनार (Char underminere)
गोलकुंडा फोर (Golcunda Four) skal være गोलकोंडा फोर्ट (Golconda Fort)
सलार जंग (Salar Jung) burde være सालार जंग (Saalar Jung)

Træn standardmodellen med et brugerdefineret ordforråd

Til oprette et brugerdefineret ordforråd, skal du bygge en tekstfil i et tabelformat med ordene og sætningerne for at træne standard Amazon Transcribe-modellen. Din tabel skal indeholde alle fire kolonner (Phrase, SoundsLike, IPAog DisplayAs), men Phrase kolonne er den eneste, der skal indeholde en post i hver række. Du kan lade de andre kolonner stå tomme. Hver kolonne skal adskilles af et tabulatortegn, selvom nogle kolonner er tomme. For eksempel, hvis du forlader IPA , SoundsLike kolonner tomme for en række, den Phrase , DisplaysAs kolonner i denne række skal adskilles med tre tabulatortegn (mellem Phrase , IPA, IPA , SoundsLikeog SoundsLike , DisplaysAs).

For at træne modellen med et brugerdefineret ordforråd skal du udføre følgende trin:

Opret en navngivet fil HindiCustomVocabulary.txt med følgende indhold.
```
Sætning ipa lydeagtige displayas गोलकुंड-फो गोलकोंड फो स-जंग स-ल-जंग स जंग च-महीन च मिन
```
Du kan kun bruge tegn, der er understøttet for dit sprog. Se dit sprog tegnsæt for yderligere oplysninger.

Kolonnerne indeholder følgende oplysninger:
1. Phrase – Indeholder de ord eller sætninger, som du vil transskribere nøjagtigt. De fremhævede ord eller sætninger i transskriptionen, der er oprettet af standard Amazon Transcribe-modellen, vises i denne kolonne. Disse ord er generelt akronymer, egennavne eller domænespecifikke ord og sætninger, som standardmodellen ikke er opmærksom på. Dette er et obligatorisk felt for hver række i den tilpassede ordforrådstabel. I vores transskription, for at rette "गोलकुंडा फोर (Golcunda Four)" fra sætning 4, skal du bruge "गोलकुंडा-फोर (Golcunda Four)" i denne kolonne. Hvis din post indeholder flere ord, skal du adskille hvert ord med en bindestreg (-); brug ikke mellemrum.
2. IPA – Indeholder de ord eller sætninger, der repræsenterer talelyde i den skrevne form. Kolonnen er valgfri; du kan lade dens rækker være tomme. Denne kolonne er beregnet til fonetiske stavemåder, der kun bruger tegn i det internationale fonetiske alfabet (IPA). Se hindi-tegnsæt for de tilladte IPA-tegn for hindisproget. I vores eksempel bruger vi ikke IPA. Hvis du har en post i denne kolonne, vil din SoundsLike kolonne skal være tom.
3. SoundsLike – Indeholder ord eller sætninger opdelt i mindre stykker (typisk baseret på stavelser eller almindelige ord) for at give en udtale for hvert stykke baseret på, hvordan det stykke lyder. Denne kolonne er valgfri; du kan lade rækkerne stå tomme. Tilføj kun indhold til denne kolonne, hvis din post indeholder et ikke-standardord, såsom et varemærke, eller for at rette et ord, der er ved at blive transskriberet forkert. I vores udskrift, for at rette "सलार जंग (Salar Jung)" fra sætning 4, skal du bruge "सा-लार-जंग (Saa-lar-jung)" i denne kolonne. Brug ikke mellemrum i denne kolonne. Hvis du har en post i denne kolonne, vil din IPA kolonne skal være tom.
4. DisplaysAs – Indeholder ord eller sætninger med de stavemåder, du ønsker at se i transskriptionsoutputtet for ordene eller sætningerne i Phrase Mark. Denne kolonne er valgfri; du kan lade rækkerne stå tomme. Hvis du ikke angiver dette felt, bruger Amazon Transcribe indholdet af Phrase felt i outputfilen. For eksempel, i vores udskrift, for at rette "गोलकुंडा फोर (Golcunda Four)" fra sætning 4, skal du bruge "गोलकोंडा फ्टोा फ्ट)॥ in denne kolonne.
Upload tekstfilen (HindiCustomVocabulary.txt) til en S3-spand. Nu opretter vi et brugerdefineret ordforråd i Amazon Transcribe.
På Amazon Transscribe-konsollen skal du vælge Tilpasset ordforråd i navigationsruden.
Til Navn, indtast et navn.
Til Sprog, vælg Hindi, IN (hi-IN).
Til Ordforråd inputkilde, Vælg S3 placering.
Til Ordforrådsfilplacering på S3, indtast S3-stien til HindiCustomVocabulary.txt fil.
Vælg Skab ordforråd.
Transskriber den SampleAudio.wav fil med det brugerdefinerede ordforråd med følgende parametre:
1. Til Job navn , gå ind SampleAudioCustomVocabulary.
2. Til Sprog, vælg Hindi, IN (hi-IN).
3. Til Indtast filplacering på S3, gå til placeringen af SampleAudio.wav.
4. Til IAM rolle, Vælg Brug en eksisterende IAM-rolle og vælg den rolle, du oprettede tidligere.
5. I Konfigurer job sektion, vælg Tilpasset ordforråd og vælg det brugerdefinerede ordforråd HindiCustomVocabulary.
Vælg Skab job.

Mål modellens nøjagtighed efter brug af brugerdefineret ordforråd

Kopiér transskriptionen fra Amazon Transcribe-jobdetaljer-siden til en tekstfil med navnet hypothesis-custom-vocabulary.txt:

Kunden : हेलो,

Agent : गुड मोर्निग इंडिया ट्रेवल एजेंसॹसी सी ल ब क ही हूँ किस त से मैं आपकी सह क सकती हूँ।

Kunden : मैं बहुत दिनों उनसे हैद ट के ब में सोच ह थ। क्या आप मुझे कुछ अच्छे लोकेशन के बेतंर?

Agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियश जंग

Kunden : ह बढिय थैंक यू मैं अगले सैट औ संडे ट ट क।

Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यानइइ्ानइ

Kunden : सिरियसली एनी टिप्स चिकन शेर

Agent : आप टेक यूस क लो ड औ प क प नहीं नहीं।

Kunden : ग्रेट आइडिया थैंक्यू सो मच।

Bemærk, at de fremhævede ord transskriberes som ønsket.

Kør wer kommando igen med det nye udskrift:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Du får følgende output:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Observationer fra transskriptionen oprettet med tilpasset ordforråd

Den samlede WER er 6.061%, hvilket betyder, at 93.939% af ordene er transskriberet nøjagtigt.

Lad os sammenligne wer-output for sætning 4 med og uden brugerdefineret ordforråd. Følgende er uden brugerdefineret ordforråd:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Følgende er med tilpasset ordforråd:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

Der er ingen fejl i sætning 4. Stedernes navne transskriberes nøjagtigt ved hjælp af tilpasset ordforråd, hvorved den samlede WER reduceres fra 9.848 % til 6.061 % for denne lydfil. Det betyder, at nøjagtigheden af transkriptionen blev forbedret med næsten 4%.

Hvordan tilpasset ordforråd forbedrede nøjagtigheden

Vi brugte følgende brugerdefinerede ordforråd:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe kontrollerer, om der er nogle ord i lydfilen, der lyder som ordene nævnt i Phrase kolonne. Så bruger modellen indtastningerne i IPA, SoundsLikeog DisplaysAs kolonner for de specifikke ord, der skal transskriberes med de ønskede stavemåder.

Med dette brugerdefinerede ordforråd, når Amazon Transcribe identificerer et ord, der lyder som "गोलकुंडा-फोर (Golcunda-Four)," transskriberer det det ord som "गोलकोंडकोंड(Golcunda-Four)".

Anbefalinger

Nøjagtigheden af transskription afhænger også af parametre som højttalernes udtale, overlappende højttalere, talehastighed og baggrundsstøj. Derfor anbefaler vi, at du følger processen med en række opkald (med forskellige kunder, agenter, afbrydelser og så videre), der dækker de mest almindeligt anvendte domænespecifikke ord, så du kan opbygge et omfattende brugerdefineret ordforråd.

I dette indlæg lærte vi processen til at forbedre nøjagtigheden af transskribering af et lydopkald ved hjælp af brugerdefineret ordforråd. For at behandle tusindvis af dit kontaktcenter opkaldsoptagelser hver dag, kan du bruge analyser efter opkald, en fuldautomatisk, skalerbar og omkostningseffektiv end-to-end-løsning, der tager sig af det meste af de tunge løft. Du uploader blot dine lydfiler til en S3-bøtte, og inden for få minutter giver løsningen opkaldsanalyser som følelser i en web-UI. Analyser efter opkald giver praktisk indsigt til at spotte nye tendenser, identificere muligheder for agentcoaching og vurdere den generelle følelse af opkald. Analyser efter opkald er en open source løsning som du kan implementere ved hjælp af AWS CloudFormation.

Bemærk, at brugerdefinerede ordforråd ikke bruger den kontekst, ordene blev talt i, de fokuserer kun på individuelle ord, som du angiver. For yderligere at forbedre nøjagtigheden kan du bruge tilpassede sprogmodeller. I modsætning til brugerdefinerede ordforråd, som forbinder udtale med stavning, lærer brugerdefinerede sprogmodeller konteksten forbundet med et givet ord. Dette inkluderer hvordan og hvornår et ord bruges, og forholdet et ord har til andre ord. For at skabe en brugerdefineret sprogmodel kan du bruge transskriptionerne fra den proces, vi lærte, til en række forskellige opkald, og kombinere dem med indhold fra dine websteder eller brugermanualer, der indeholder domænespecifikke ord og sætninger.

For at opnå den højeste transskriptionsnøjagtighed med batch-transskriptioner kan du bruge brugerdefinerede ordforråd i forbindelse med dine brugerdefinerede sprogmodeller.

Konklusion

I dette indlæg gav vi detaljerede trin til nøjagtigt at behandle hindi-lydfiler, der indeholder engelske ord, ved hjælp af opkaldsanalyse og brugerdefinerede ordforråd i Amazon Transcribe. Du kan bruge de samme trin til at behandle lydopkald med enhver sprog understøttet af Amazon Transscribe.

Når du har udledt transskriptionerne med den ønskede nøjagtighed, kan du forbedre dine agent-kunde-samtaler ved at træne dine agenter. Du kan også forstå dine kundefølelser og -tendenser. Ved hjælp af højttalerdiarisering, loudness-detektion og ordforrådsfiltreringsfunktioner i opkaldsanalysen kan du identificere, om det var agenten eller kunden, der hævede deres tone eller sagde nogle specifikke ord. Du kan kategorisere opkald baseret på domænespecifikke ord, fange handlingsorienteret indsigt og køre analyser for at forbedre dine produkter. Endelig kan du oversætte dine transskriptioner til engelsk eller andre understøttede sprog efter eget valg ved hjælp af Amazon Oversæt.

Om forfatterne

Sarat Guttikonda er en Sr. Solutions Architect i AWS World Wide Public Sector. Sarat nyder at hjælpe kunder med at automatisere, administrere og styre deres cloud-ressourcer uden at ofre virksomhedens agilitet. I sin fritid elsker han at bygge lego sammen med sin søn og spille bordtennis.

Lavanya Sood er en løsningsarkitekt i AWS World Wide Public Sector med base i New Delhi, Indien. Lavanya nyder at lære nye teknologier og hjælpe kunder i deres cloud-adoptionsrejse. I sin fritid elsker hun at rejse og prøve forskellige fødevarer.

Tidsstempel: September 7, 2022September 8, 2022

Tidsstempel: November 22, 2023

Forbedre transskriptionsnøjagtigheden af kunde-agent-opkald med tilpasset ordforråd i Amazon Transcribe

Genudgivet af Platon

Løsningsoversigt

Forudsætninger

Transskriber lydfilen med standardmodellen

Mål modellens nøjagtighed

Observationer fra transskriptionen oprettet af standardmodellen

Træn standardmodellen med et brugerdefineret ordforråd

Mål modellens nøjagtighed efter brug af brugerdefineret ordforråd

Observationer fra transskriptionen oprettet med tilpasset ordforråd

Hvordan tilpasset ordforråd forbedrede nøjagtigheden

Anbefalinger

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Aktiver fuldstændig homomorf kryptering med Amazon SageMaker-slutpunkter for sikker inferencing i realtid

Gør det muligt for synshandicappede at høre dokumenter ved hjælp af Amazon Textract og Amazon Polly

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto