Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v Amazon Transcribe PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v storitvi Amazon Transcribe

Veliko AWS stranke uspešno uporabljali Amazonski prepis za natančno, učinkovito in samodejno pretvorbo zvočnih pogovorov svojih strank v besedilo in iz njih pridobijo koristne vpoglede. Ti vpogledi vam lahko pomagajo nenehno izboljševati procese in izdelke, ki neposredno izboljšujejo kakovost in izkušnje za vaše stranke.

V mnogih državah, na primer v Indiji, angleščina ni primarni jezik komunikacije. Pogovori indijskih strank vključujejo regionalne jezike, kot je hindijščina, z angleškimi besedami in besednimi zvezami, ki se naključno izgovorijo med klici. V izvornih predstavnostnih datotekah so lahko lastna imena, akronimi, specifični za domeno, besede ali besedne zveze, ki jih privzeti model Amazon Transcribe ne pozna. Transkripcije za takšne medijske datoteke imajo lahko netočno črkovanje teh besed.

V tej objavi prikazujemo, kako lahko storitvi Amazon Transcribe zagotovite več informacij pojmi po meri da posodobite način, na katerega Amazon Transcribe obravnava prepisovanje vaših zvočnih datotek s poslovno terminologijo. Prikazujemo korake za izboljšanje natančnosti transkripcij za klice v hindijščini (klici v indijski hindijščini, ki vsebujejo besede in besedne zveze v indijski angleščini). Isti postopek lahko uporabite za prepis zvočnih klicev s katerim koli podprt jezik avtor Amazon Transcribe. Ko ustvarite besednjake po meri, lahko z našim analitika po klicu rešitev, o kateri bomo več razpravljali kasneje v tej objavi.

Pregled rešitev

Uporabljamo naslednji zvočni klic v indijski hindijščini (SampleAudio.wav) z naključnimi angleškimi besedami za prikaz postopka.

Nato vas vodimo skozi naslednje korake na visoki ravni:

  1. Prepišite zvočno datoteko s privzetim hindijskim modelom Amazon Transcribe.
  2. Izmerite natančnost modela.
  3. Usposobite model z besediščem po meri.
  4. Izmerite natančnost naučenega modela.

Predpogoji

Preden začnemo, moramo potrditi, da vhodna zvočna datoteka ustreza prepisati zahteve za vnos podatkov.

A monofonsko snemanje, imenovano tudi mono, vsebuje en zvočni signal, v katerem so vsi zvočni elementi agenta in stranke združeni v en kanal. A stereofoničen snemanje, imenovano tudi stereo, vsebuje dva zvočna signala za zajem zvočnih elementov agenta in stranke v dva ločena kanala. Vsaka datoteka za snemanje agent-stranka vsebuje dva zvočna kanala, enega za agenta in enega za stranko.

Zvočni posnetki nizke ločljivosti, kot so telefonski posnetki, običajno uporabljajo frekvenco vzorčenja 8,000 Hz. Amazon Transcribe podpira obdelavo mono posnetih in tudi zvočnih datotek visoke ločljivosti s frekvenco vzorčenja med 16,000–48,000 Hz.

Za boljše rezultate prepisa in jasno razlikovanje besed, ki jih izgovorita agent in stranka, priporočamo uporabo zvočnih datotek, posnetih s hitrostjo vzorčenja 8,000 Hz in ločenih po stereo kanalih.

Uporabite lahko orodje, kot je ffmpeg za preverjanje vhodnih zvočnih datotek iz ukazne vrstice:

ffmpeg -i SampleAudio.wav

V vrnjenem odgovoru preverite vrstico, ki se začne s Stream v razdelku Input, in potrdite, da so zvočne datoteke 8,000 Hz in stereo kanali ločeni:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Ko zgradite cevovod za obdelavo velikega števila zvočnih datotek, lahko avtomatizirate ta korak za filtriranje datotek, ki ne izpolnjujejo zahtev.

Kot dodatni predpogojni korak ustvarite vedro Amazon Simple Storage Service (Amazon S3) za gostovanje zvočnih datotek, ki jih želite prepisati. Za navodila glejte Ustvarite svoje prvo vedro S3.Potem naložite zvočno datoteko v vedro S3.

Prepišite zvočno datoteko s privzetim modelom

Zdaj lahko zaženite Amazon Transcribe pokličite analitiko z uporabo zvočne datoteke, ki smo jo naložili. V tem primeru uporabljamo Konzola za upravljanje AWS za prepis zvočne datoteke. Uporabite lahko tudi Vmesnik ukazne vrstice AWS (AWS CLI) ali AWS SDK.

  1. Na konzoli Amazon Transcribe izberite Pokličite analitiko v podoknu za krmarjenje.
  2. Izberite Pokličite analitična delovna mesta.
  3. Izberite Ustvari službo.
  4. za Ime, vnesite ime.
  5. za Jezikovne nastavitvetako, da izberete Določen jezik.
  6. za Jezik, izberite hindijščina, IN (hi-IN).
  7. za Vrsta modelatako, da izberete Splošni model.
  8. za Vnesite lokacijo datoteke na S3, poiščite vedro S3, ki vsebuje naloženo zvočno datoteko.Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v Amazon Transcribe PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  9. v Izhodni podatki pustite privzete nastavitve.
  10. v Dovoljenja za dostop izberite, izberite Ustvari IAM vlogo.
  11. Ustvari novo AWS upravljanje identitete in dostopa (IAM) z imenom HindiTranscription, ki zagotavlja dovoljenja storitve Amazon Transcribe za branje zvočnih datotek iz vedra S3 in uporabo AWS Service Key Management (AWS KMS) ključ za dešifriranje.Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v Amazon Transcribe PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  12. v Konfigurirajte opravilo razdelek, pustite privzete vrednosti, vključno z Besedišče po meri preklican izbor.
  13. Izberite Ustvari službo za prepis zvočne datoteke.

Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v Amazon Transcribe PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ko je status opravila Dokončano, lahko pregledate prepis tako, da izberete opravilo (SampleAudio).

Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v Amazon Transcribe PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Stavki stranke in zastopnika so jasno ločeni, kar nam pomaga ugotoviti, ali je stranka ali zastopnik izgovoril kakšne posebne besede ali besedne zveze.

Izmerite natančnost modela

Stopnja besednih napak (WER) je priporočena in najpogosteje uporabljena metrika za ocenjevanje natančnosti sistemov za samodejno prepoznavanje govora (ASR). Cilj je čim bolj zmanjšati WER, da bi izboljšali natančnost sistema ASR.

Za izračun WER izvedite naslednje korake. Ta objava uporablja odprto kodo asr-vrednotenje ocenjevalno orodje za izračun WER, druga orodja, kot so SCTK or JiWER so na voljo tudi.

  1. namestitev o asr-evaluation orodje, s katerim je skript wer na voljo v vaši ukazni vrstici.
    Uporabite ukazno vrstico na platformah macOS ali Linux za zagon ukazov wer, prikazanih kasneje v objavi.
  2. Kopirajte prepis s strani s podrobnostmi o opravilu Amazon Transcribe v besedilno datoteko z imenom hypothesis.txt.
    Ko kopirate prepis iz konzole, boste med besedama opazili znak nove vrstice Agent :, Customer :, in hindijsko pisavo.
    Znaki nove vrstice so bili odstranjeni, da bi prihranili prostor v tej objavi. Če se odločite za uporabo besedila, kakršno je iz konzole, se prepričajte, da ima referenčna besedilna datoteka, ki jo ustvarite, tudi nove znake vrstice, ker orodje wer primerja vrstico za vrstico.
  3. Preglejte celoten zapis in poiščite vse besede ali besedne zveze, ki jih je treba popraviti:
    Pomoč : हेलो,
    Agent : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहाय ता कर सकती हूँ।
    Pomoč : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता स कती हैं?
    Agent :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    Pomoč : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट ्राई करूँगा।
    Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चा ंसेज है।
    Pomoč : सिरियसली एनी टिप्स piščanec शेर
    Agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    Pomoč : ग्रेट आइडिया थैंक्यू सो मच।Označene besede so tiste, ki jih privzeti model Amazon Transcribe ni pravilno upodobil.
  4. Ustvarite drugo besedilno datoteko z imenom reference.txt, pri čemer zamenjate označene besede z želenimi besedami, ki jih pričakujete v prepisu:
    Pomoč : हेलो,
    Agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहाय ता कर सकती हूँ।
    Pomoč : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता स कती हैं?
    Agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    Pomoč : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट ्राई करूँगा।
    Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चा ंसेज है।
    Pomoč : सिरियसली एनी टिप्स यू केन शेर
    Agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    Pomoč : ग्रेट आइडिया थैंक्यू सो मच।
  5. Uporabite naslednji ukaz za primerjavo referenčnih in hipoteznih besedilnih datotek, ki ste jih ustvarili:
    wer -i reference.txt hypothesis.txt

    Dobite naslednji izhod:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

Ukaz wer primerja besedilo iz datotek reference.txt in hypothesis.txt. Poroča o napakah za vsak stavek in tudi o skupnem številu napak (WER: 9.848 % (13 / 132)) v celotnem zapisu.

Iz prejšnjega izhoda smo poročali o 13 napakah od 132 besed v prepisu. Te napake so lahko treh vrst:

  • Napake zamenjave – To se zgodi, ko Amazon Transcribe zapiše eno besedo namesto druge. Na primer, v našem prepisu je beseda "महीना (Mahina)« je bilo napisano namesto »मिनार (Minar)« v 4. stavku.
  • Napake pri brisanju – To se zgodi, ko Amazon Transcribe v prepisu v celoti zgreši besedo. V našem prepisu je beseda »सौथ (Jug)« je bil v 2. stavku izpuščen.
  • Napake pri vstavljanju – Do tega pride, ko Amazon Transcribe vstavi besedo, ki ni bila izgovorjena. V našem prepisu ne vidimo nobenih napak pri vstavljanju.

Opazovanja iz prepisa, ustvarjenega s privzetim modelom

Na podlagi prepisa lahko ugotovimo naslednje:

  • Skupni WER je 9.848 %, kar pomeni, da je 90.152 % besed natančno prepisanih.
  • Privzeti hindujski model je natančno prepisal večino angleških besed. To je zato, ker je privzeti model usposobljen za prepoznavanje najpogostejših angleških besed takoj po namestitvi. Model je tudi usposobljen za prepoznavanje jezika Hinglish, kjer se angleške besede naključno pojavljajo v hindujskih pogovorih. Na primer:
    • गुड मोर्निग – Dobro jutro (2. stavek).
    • ट्रेवल एजेंसी – Potovalna agencija (2. stavek).
    • ग्रेट आइडिया थैंक्यू सो मच – Odlična ideja, najlepša hvala (9. stavek).
  • Največ napak ima 4. stavek, ki so imena krajev v indijskem mestu Hyderabad:
    • हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

V naslednjem koraku pokažemo, kako popraviti označene besede v prejšnjem stavku z uporabo besedišča po meri v Amazon Transcribe:

  • चार महीना (znak mesec) mora biti चार मिनार (znak Podrivajte)
  • .लकुंडा फो (Golcunda Four) mora biti गोलकोंडा फोर्ट (Golconda Fort)
  • लार जंग (Salar Jung) mora biti सालार जंग (saalar jung)

Usposobite privzeti model z besediščem po meri

Da ustvarite besedišče po meri, morate zgraditi besedilno datoteko v obliki tabele z besedami in besednimi zvezami za usposabljanje privzetega modela Amazon Transcribe. Tabela mora vsebovati vse štiri stolpce (Phrase, SoundsLike, IPAin DisplayAs), toda Phrase je edini, ki mora vsebovati vnos v vsaki vrstici. Ostale stolpce lahko pustite prazne. Vsak stolpec mora biti ločen s tabulatorjem, tudi če so nekateri stolpci prazni. Na primer, če zapustite IPA in SoundsLike stolpci prazni za vrstico, Phrase in DisplaysAs stolpci v tej vrstici morajo biti ločeni s tremi tabulatorji (med Phrase in IPA, IPA in SoundsLikein SoundsLike in DisplaysAs).

Če želite usposobiti model z besediščem po meri, dokončajte naslednje korake:

  1. Ustvari datoteko z imenom HindiCustomVocabulary.txt z naslednjo vsebino.
    Phrase IPA SoundsLike DisplayAs गोलकुंडा-फोर गोलकोंडा फोर्ट सालार-जंग सा- लार-जंग सालार जंग चार-महीना चार मिनार

    Uporabljate lahko samo znake, ki so podprti za vaš jezik. Oglejte si svoj jezik nabor znakov za podrobnosti.

    Stolpci vsebujejo naslednje informacije:

    1. Phrase – Vsebuje besede ali besedne zveze, ki jih želite natančno prepisati. Označene besede ali besedne zveze v prepisu, ustvarjenem s privzetim modelom Amazon Transcribe, so prikazane v tem stolpcu. Te besede so na splošno kratice, lastna imena ali besede in besedne zveze, specifične za domeno, ki jih privzeti model ne pozna. To je obvezno polje za vsako vrstico v tabeli besedišča po meri. Če želite v našem prepisu popraviti »गोलकुंडा फोर (Golcunda Four)« iz stavka 4, v tem stolpcu uporabite »गोलकुंडा-फोर (Golcunda-Four)«. Če vaš vnos vsebuje več besed, ločite vsako besedo z vezajem (-); ne uporabljajte presledkov.
    2. IPA – Vsebuje besede ali besedne zveze, ki v pisni obliki predstavljajo glasove govora. Stolpec ni obvezen; njegove vrstice lahko pustite prazne. Ta stolpec je namenjen fonetičnemu črkovanju z uporabo samo znakov v mednarodni fonetični abecedi (IPA). Za dovoljene znake IPA za jezik hindijščine glejte nabor znakov hindijščine. V našem primeru ne uporabljamo IPA. Če imate vnos v tem stolpcu, vaš SoundsLike stolpec mora biti prazen.
    3. SoundsLike – Vsebuje besede ali besedne zveze, razdeljene na manjše dele (običajno na podlagi zlogov ali običajnih besed), da zagotovijo izgovorjavo za vsak del glede na to, kako ta del zveni. Ta stolpec ni obvezen; lahko pustite vrstice prazne. Dodajte vsebino v ta stolpec le, če vaš vnos vključuje nestandardno besedo, kot je ime blagovne znamke, ali da popravite besedo, ki je bila napačno prepisana. Če želite v našem prepisu popraviti »सलार जंग (Salar Jung)« iz 4. stavka, v tem stolpcu uporabite »सा-लार-जंग (Saa-lar-jung)«. V tem stolpcu ne uporabljajte presledkov. Če imate vnos v tem stolpcu, vaš IPA stolpec mora biti prazen.
    4. DisplaysAs – Vsebuje besede ali besedne zveze s črkovanji, ki jih želite videti v izpisu prepisa za besede ali besedne zveze v Phrase polje. Ta stolpec ni obvezen; lahko pustite vrstice prazne. Če tega polja ne določite, Amazon Transcribe uporabi vsebino Phrase polje v izhodni datoteki. Na primer, če želite v našem prepisu popraviti »गोलकुंडा फोर (Golcunda Four)« iz 4. stavka, v tem stolpcu uporabite »गोलकोंडा फोर्ट (Golconda Fort)«.
  2. Pošiljanje besedilna datoteka (HindiCustomVocabulary.txt) v vedro S3. Zdaj ustvarimo besedišče po meri v Amazon Transcribe.
  3. Na konzoli Amazon Transcribe izberite Besedišče po meri v podoknu za krmarjenje.
  4. za Ime, vnesite ime.
  5. za Jezik, izberite hindijščina, IN (hi-IN).
  6. za Vir vnosa besediščatako, da izberete S3 lokacija.
  7. za Lokacija datoteke besedišča na S3, vnesite pot S3 za HindiCustomVocabulary.txt Datoteka.
  8. Izberite Ustvarite besedni zaklad. Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v Amazon Transcribe PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.
  9. Prepišite SampleAudio.wav datoteka z besediščem po meri z naslednjimi parametri:
    1. za Ime delovnega mesta , vnesite SampleAudioCustomVocabulary.
    2. za Jezik, izberite hindijščina, IN (hi-IN).
    3. za Vnesite lokacijo datoteke na S3, poiščite lokacijo SampleAudio.wav.
    4. za Vloga IAMtako, da izberete Uporabite obstoječo vlogo IAM in izberite vlogo, ki ste jo ustvarili prej.
    5. v Konfigurirajte opravilo izberite, izberite Besedišče po meri in izberite besedišče po meri HindiCustomVocabulary.
  10. Izberite Ustvari službo.

Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v Amazon Transcribe PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Izmerite natančnost modela po uporabi besednjaka po meri

Kopirajte prepis s strani s podrobnostmi o opravilu Amazon Transcribe v besedilno datoteko z imenom hypothesis-custom-vocabulary.txt:

Pomoč : हेलो,

Agent : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहाय ता कर सकती हूँ।

Pomoč : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे म ें सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता स कती हैं?

Agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

Pomoč : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट ्राई करूँगा।

Agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चा ंसेज है।

Pomoč : सिरियसली एनी टिप्स चिकन शेर

Agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्रा ब्लम नहीं होगा।

Pomoč : ग्रेट आइडिया थैंक्यू सो मच।

Upoštevajte, da so označene besede prepisane po želji.

Zaženi wer znova ukaz z novim prepisom:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Dobite naslednji izhod:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Opažanja iz prepisa, ustvarjenega s prilagojenim besediščem

Skupni WER je 6.061 %, kar pomeni, da je 93.939 % besed natančno prepisanih.

Primerjajmo rezultat wer za stavek 4 z besediščem po meri in brez njega. Naslednje je brez besednjaka po meri:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Naslednje je z besediščem po meri:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

V stavku 4 ni napak. Imena krajev so natančno prepisana s pomočjo prilagojenega besedišča, s čimer se je skupni WER zmanjšal z 9.848 % na 6.061 % za to zvočno datoteko. To pomeni, da se je natančnost transkripcije izboljšala za skoraj 4 %.

Kako je besedišče po meri izboljšalo natančnost

Uporabili smo naslednji besednjak po meri:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe preveri, ali so v zvočni datoteki besede, ki zvenijo kot besede, omenjene v Phrase stolpec. Nato model uporabi vnose v IPA, SoundsLikein DisplaysAs stolpce za tiste posebne besede, ki jih želite prepisati z želenim črkovanjem.

S tem besediščem po meri, ko Amazon Transcribe identificira besedo, ki zveni kot "गोलकुंडा-फोर (Golcunda-Four)", to besedo prepisuje kot "गोलकोंडा फोर्ट (utrdba Golconda)."

Priporočila

Natančnost prepisa je odvisna tudi od parametrov, kot so izgovorjava govorcev, prekrivajoči se govorci, hitrost govora in hrup v ozadju. Zato vam priporočamo, da sledite procesu z različnimi klici (z različnimi strankami, agenti, prekinitvami itd.), ki zajemajo najpogosteje uporabljene besede, specifične za domeno, da boste lahko zgradili celovit besednjak po meri.

V tej objavi smo se naučili postopka za izboljšanje natančnosti prepisovanja enega zvočnega klica z uporabo besedišča po meri. Če želite vsak dan obdelati na tisoče posnetkov klicev vašega kontaktnega centra, lahko uporabite analitika po klicu, popolnoma avtomatizirana, razširljiva in stroškovno učinkovita rešitev od konca do konca, ki poskrbi za večino težkega dela. Zvočne datoteke preprosto naložite v vedro S3 in v nekaj minutah rešitev zagotovi analitiko klicev, kot je razpoloženje v spletnem uporabniškem vmesniku. Analitika po klicu zagotavlja uporabne vpoglede za odkrivanje nastajajočih trendov, prepoznavanje priložnosti za inštruiranje agentov in oceno splošnega občutka klicev. Analitika po klicu je odprtokodna rešitev ki jih lahko uvedete z uporabo Oblikovanje oblaka AWS.

Upoštevajte, da slovarji po meri ne uporabljajo konteksta, v katerem so bile besede izgovorjene, ampak se osredotočajo le na posamezne besede, ki jih navedete. Za dodatno izboljšanje natančnosti lahko uporabite jezikovni modeli po meri. Za razliko od slovarjev po meri, ki povezujejo izgovorjavo s črkovanjem, se jezikovni modeli po meri naučijo konteksta, povezanega z določeno besedo. To vključuje, kako in kdaj je beseda uporabljena ter razmerje, ki ga ima beseda z drugimi besedami. Če želite ustvariti jezikovni model po meri, lahko uporabite transkripcije, ki izhajajo iz postopka, ki smo se ga naučili za različne klice, in jih združite z vsebino vaših spletnih mest ali uporabniških priročnikov, ki vsebujejo besede in besedne zveze, specifične za domeno.

Če želite doseči najvišjo natančnost prepisovanja s paketnimi prepisi, lahko uporabite besednjake po meri v povezavi s svojimi jezikovnimi modeli po meri.

zaključek

V tej objavi smo navedli podrobne korake za natančno obdelavo hindujskih zvočnih datotek, ki vsebujejo angleške besede, z uporabo analitike klicev in besedišča po meri v storitvi Amazon Transcribe. Te iste korake lahko uporabite za obdelavo zvočnih klicev s katerim koli podprt jezik avtor Amazon Transcribe.

Ko izpeljete transkripcije z želeno natančnostjo, lahko izboljšate svoje pogovore agent-stranka z usposabljanjem svojih agentov. Prav tako lahko razumete občutke in trende svojih strank. S pomočjo diarizacije govorca, zaznavanja glasnosti in funkcij filtriranja besedišča v analitiki klicev lahko ugotovite, ali je agent ali stranka povišala ton ali izgovorila določene besede. Klice lahko kategorizirate na podlagi besed, specifičnih za domeno, zajemate koristne vpoglede in izvajate analitiko za izboljšanje svojih izdelkov. Končno lahko svoje prepise prevedete v angleščino ali druge podprte jezike po vaši izbiri z uporabo Amazon prevod.


O avtorjih

Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v Amazon Transcribe PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Sarat Guttikonda je višji arhitekt rešitev v javnem sektorju AWS World Wide. Sarat uživa v tem, da strankam pomaga avtomatizirati, upravljati in upravljati svoje vire v oblaku, ne da bi pri tem žrtvoval poslovno agilnost. V prostem času s sinom rad sestavlja lego kocke in igra namizni tenis.

Izboljšajte natančnost prepisa klicev stranka-agent z besediščem po meri v Amazon Transcribe PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Lavanya Sood je arhitekt rešitev v AWS World Wide Public Sector s sedežem v New Delhiju v Indiji. Lavanya uživa v učenju novih tehnologij in pomaga strankam na njihovi poti sprejemanja oblaka. V prostem času rada potuje in preizkuša različno hrano.

Časovni žig:

Več od Strojno učenje AWS