Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe

Molti AWS clienti sono stati utilizzati con successo Amazon Transcribe per convertire in modo accurato, efficiente e automatico le conversazioni audio dei clienti in testo ed estrarne informazioni utili. Queste informazioni possono aiutarti a migliorare continuamente i processi e i prodotti che migliorano direttamente la qualità e l'esperienza dei tuoi clienti.

In molti paesi, come l'India, l'inglese non è la lingua principale di comunicazione. Le conversazioni dei clienti indiani contengono lingue regionali come l'hindi, con parole e frasi inglesi pronunciate casualmente durante le chiamate. Nei file multimediali di origine possono essere presenti nomi propri, acronimi, parole o frasi specifiche del dominio di cui il modello Amazon Transcribe predefinito non è a conoscenza. Le trascrizioni per tali file multimediali possono avere un'ortografia imprecisa per quelle parole.

In questo post, dimostriamo come puoi fornire ulteriori informazioni ad Amazon Transcribe con vocabolari personalizzati per aggiornare il modo in cui Amazon Transcribe gestisce la trascrizione dei tuoi file audio con una terminologia specifica per l'azienda. Mostriamo i passaggi per migliorare l'accuratezza delle trascrizioni per le chiamate in inglese (chiamate in hindi indiano contenenti parole e frasi in inglese indiano). Puoi utilizzare lo stesso processo per trascrivere le chiamate audio con qualsiasi lingua supportata di Amazon Trascrivi. Dopo aver creato vocabolari personalizzati, puoi trascrivere le chiamate audio con precisione e su larga scala utilizzando il nostro analisi post chiamata soluzione, di cui parleremo più avanti in questo post.

Panoramica della soluzione

Usiamo la seguente chiamata audio hindi indiana (SampleAudio.wav) con parole inglesi casuali per dimostrare il processo.

Quindi ti guideremo attraverso i seguenti passaggi di alto livello:

  1. Trascrivi il file audio utilizzando il modello Amazon Transcribe Hindi predefinito.
  2. Misura la precisione del modello.
  3. Allena il modello con un vocabolario personalizzato.
  4. Misurare l'accuratezza del modello addestrato.

Prerequisiti

Prima di iniziare, dobbiamo confermare che il file audio di input soddisfi i requisiti trascrivere i requisiti di input dei dati.

A monofonico registrazione, detta anche mono, contiene un segnale audio, in cui tutti gli elementi audio dell'agente e del cliente sono combinati in un unico canale. UN stereofonico registrazione, detta anche stereo, contiene due segnali audio per catturare gli elementi audio dell'agente e del cliente in due canali separati. Ciascun file di registrazione agente-cliente contiene due canali audio, uno per l'agente e uno per il cliente.

Le registrazioni audio a bassa fedeltà, come le registrazioni telefoniche, utilizzano in genere frequenze di campionamento di 8,000 Hz. Amazon Transcribe supporta l'elaborazione di file audio mono registrati e anche ad alta fedeltà con frequenze di campionamento comprese tra 16,000 e 48,000 Hz.

Per risultati di trascrizione migliori e per distinguere chiaramente le parole pronunciate dall'agente e dal cliente, si consiglia di utilizzare file audio registrati a una frequenza di campionamento di 8,000 Hz e separati da canali stereo.

Puoi usare uno strumento come ffmpeg per convalidare i file audio di input dalla riga di comando:

ffmpeg -i SampleAudio.wav

Nella risposta restituita, controlla la riga che inizia con Stream nella sezione Input e conferma che i file audio sono 8,000 Hz e canali stereo separati:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Quando crei una pipeline per elaborare un numero elevato di file audio, puoi automatizzare questo passaggio per filtrare i file che non soddisfano i requisiti.

Come passaggio prerequisito aggiuntivo, crea un bucket Amazon Simple Storage Service (Amazon S3) per ospitare i file audio da trascrivere. Per istruzioni, fare riferimento a Crea il tuo primo bucket S3.Poi carica il file audio al secchio S3.

Trascrivi il file audio con il modello predefinito

Adesso possiamo avviare un Amazon Transcribe chiama il lavoro di analisi utilizzando il file audio che abbiamo caricato. In questo esempio, utilizziamo il file Console di gestione AWS per trascrivere il file audio. Puoi anche usare il Interfaccia della riga di comando di AWS (AWS CLI) o SDK AWS.

  1. Sulla console Amazon Transcribe, scegli Chiama l'analisi nel pannello di navigazione.
  2. Scegli Chiama i lavori di analisi.
  3. Scegli Crea lavoro.
  4. Nel Nome, inserisci un nome.
  5. Nel Impostazioni della lingua, selezionare Linguaggio specifico.
  6. Nel Linguascegli hindi, IN (ciao-IN).
  7. Nel Tipo di modello, selezionare Modello generale.
  8. Nel Inserisci la posizione del file su S3, vai al bucket S3 contenente il file audio caricato.Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
  9. Nel Dati di output sezione, lasciare le impostazioni predefinite.
  10. Nel Autorizzazioni di accesso sezione, selezionare Crea un ruolo IAM.
  11. Crea un nuovo Gestione dell'identità e dell'accesso di AWS (IAM) denominato HindiTranscription che fornisce le autorizzazioni del servizio Amazon Transcribe per leggere i file audio dal bucket S3 e utilizzare il Servizio di gestione delle chiavi AWS (AWS KMS) per decrittografare.Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
  12. Nel Configura lavoro sezione, lasciare le impostazioni predefinite, incluso Vocabolario personalizzato deselezionato.
  13. Scegli Crea lavoro per trascrivere il file audio.

Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Quando lo stato del lavoro è Completo, puoi rivedere la trascrizione scegliendo il lavoro (SampleAudio).

Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Le frasi del cliente e dell'agente sono chiaramente separate, il che ci aiuta a identificare se il cliente o l'agente hanno pronunciato parole o frasi specifiche.

Misura la precisione del modello

Il tasso di errore delle parole (WER) è la metrica consigliata e più comunemente utilizzata per valutare l'accuratezza dei sistemi di riconoscimento vocale automatico (ASR). L'obiettivo è ridurre il più possibile il WER per migliorare la precisione del sistema ASR.

Per calcolare il WER, completare i seguenti passaggi. Questo post utilizza l'open source asr-valutazione strumento di valutazione per calcolare il WER, ma altri strumenti come SCTK or Jiwer sono inoltre disponibili.

  1. Installazione , il asr-evaluation strumento, che rende disponibile lo script wer sulla riga di comando.
    Usa una riga di comando su piattaforme macOS o Linux per eseguire i comandi wer mostrati più avanti nel post.
  2. Copia la trascrizione dalla pagina dei dettagli del lavoro di Amazon Transcribe in un file di testo denominato hypothesis.txt.
    Quando copi la trascrizione dalla console, noterai un nuovo carattere di riga tra le parole Agent :, Customer :, e la scrittura hindi.
    I nuovi caratteri di riga sono stati rimossi per risparmiare spazio in questo post. Se scegli di utilizzare il testo così com'è dalla console, assicurati che il file di testo di riferimento che crei abbia anche i nuovi caratteri di riga, perché lo strumento wer confronta riga per riga.
  3. Esamina l'intera trascrizione e identifica le parole o le frasi che devono essere corrette:
    : ok,
    Agente : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ हूँ
    : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता ऀहकऀ?
    Agente :हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार Non preoccuparti e non ti preoccupare.
    : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट ्राई करूँगा।
    Agente : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चैंंचैंं
    : सिरियसली एनी टिप्स Pollo
    Agente : आप टेक्सी यूस कर लो Bene E tu sei qui.
    : ग्रेट आइडिया थैंक्यू सो मच।Le parole evidenziate sono quelle di cui il modello Amazon Transcribe predefinito non ha eseguito il rendering corretto.
  4. Crea un altro file di testo chiamato reference.txt, sostituendo le parole evidenziate con le parole desiderate che ti aspetti di vedere nella trascrizione:
    : ok,
    Agente : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ हूँ
    : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता ऀहकऀ?
    Agente : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार Non preoccuparti e non ti preoccupare.
    : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट ्राई करूँगा।
    Agente : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चैंंचैंं
    : सिरियसली एनी टिप्स
    Agente : आप टेक्सी यूस कर लो Bene E tu sei qui.
    : ग्रेट आइडिया थैंक्यू सो मच।
  5. Utilizza il comando seguente per confrontare i file di testo di riferimento e di ipotesi che hai creato:
    wer -i reference.txt hypothesis.txt

    Ottieni il seguente output:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

Il comando wer confronta il testo dei file reference.txt ed hypothesis.txt. Riporta gli errori per ogni frase e anche il numero totale di errori (WER: 9.848% ( 13 / 132)) nell'intera trascrizione.

Dall'output precedente, sono stati riportati 13 errori su 132 parole nella trascrizione. Questi errori possono essere di tre tipi:

  • Errori di sostituzione – Si verificano quando Amazon Transcribe scrive una parola al posto di un'altra. Ad esempio, nella nostra trascrizione, la parola "Va bene (Mahina)" è stato scritto invece di "Va bene (Minar)” nella frase 4.
  • Errori di cancellazione – Questi si verificano quando Amazon Transcribe manca completamente una parola nella trascrizione. Nella nostra trascrizione, la parola " (Sud)” è mancato nella frase 2.
  • Errori di inserimento – Si verificano quando Amazon Transcribe inserisce una parola che non è stata pronunciata. Non vediamo alcun errore di inserimento nella nostra trascrizione.

Osservazioni dalla trascrizione creata dal modello predefinito

Possiamo fare le seguenti osservazioni sulla base della trascrizione:

  • Il WER totale è del 9.848%, il che significa che il 90.152% delle parole viene trascritto accuratamente.
  • Il modello hindi predefinito ha trascritto accuratamente la maggior parte delle parole inglesi. Questo perché il modello predefinito è addestrato per riconoscere le parole inglesi più comuni fuori dagli schemi. Il modello è anche addestrato a riconoscere la lingua Hinglish, dove le parole inglesi appaiono casualmente nelle conversazioni Hindi. Per esempio:
    • गुड मोर्निग – Buongiorno (frase 2).
    • ट्रेवल एजेंसी – Agenzia di viaggi (frase 2).
    • ग्रेट आइडिया थैंक्यू सो मच – Ottima idea grazie mille (frase 9).
  • La frase 4 ha il maggior numero di errori, che sono i nomi dei luoghi nella città indiana di Hyderabad:
    • हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार Non preoccuparti e non ti preoccupare.

Nel passaggio successivo, dimostriamo come correggere le parole evidenziate nella frase precedente utilizzando un vocabolario personalizzato in Amazon Transcribe:

  • ? Va bene (char Mahina) dovrebbe essere चार Va bene (char minare)
  • ?E sì (Golcunda Four) dovrebbe essere गोलE sì (Golconda Fort)
  • लार जंग (Salar Jung) dovrebbe essere ?लार जंग (SaaLar Jung)

Addestra il modello predefinito con un vocabolario personalizzato

A creare un vocabolario personalizzato, devi creare un file di testo in formato tabulare con le parole e le frasi per addestrare il modello Amazon Transcribe predefinito. La tua tabella deve contenere tutte e quattro le colonne (Phrase, SoundsLike, IPAe DisplayAs), ma il Phrase colonna è l'unica che deve contenere una voce su ogni riga. Puoi lasciare vuote le altre colonne. Ogni colonna deve essere separata da un carattere di tabulazione, anche se alcune colonne vengono lasciate vuote. Ad esempio, se lasci il IPA ed SoundsLike colonne vuote per una riga, il Phrase ed DisplaysAs le colonne in quella riga devono essere separate da tre caratteri di tabulazione (tra Phrase ed IPA, IPA ed SoundsLikee SoundsLike ed DisplaysAs).

Per addestrare il modello con un vocabolario personalizzato, completare i seguenti passaggi:

  1. Crea un file chiamato HindiCustomVocabulary.txt con il seguente contenuto.
    Frase IPA suoni come displayas गोलकुंडा-फोर गोलकोंडा फोर्ट सालार -जंग सा-लार-जंग सालार जंग चार-महीना चार मिनार

    Puoi utilizzare solo i caratteri supportati per la tua lingua. Fare riferimento alla tua lingua set di caratteri per i dettagli.

    Le colonne contengono le seguenti informazioni:

    1. Phrase – Contiene le parole o le frasi che vuoi trascrivere con precisione. Le parole o le frasi evidenziate nella trascrizione creata dal modello Amazon Transcribe predefinito vengono visualizzate in questa colonna. Queste parole sono generalmente acronimi, nomi propri o parole e frasi specifiche del dominio di cui il modello predefinito non è a conoscenza. Questo è un campo obbligatorio per ogni riga nella tabella del vocabolario personalizzato. Nella nostra trascrizione, per correggere "गोलकुंडा फोर (Golcunda quattro)" dalla frase 4, usa "गोलकुंडा-फोर (Golcunda-quattro)" in questa colonna. Se la tua voce contiene più parole, separa ogni parola con un trattino (-); non utilizzare spazi.
    2. IPA – Contiene le parole o le frasi che rappresentano i suoni del parlato in forma scritta. La colonna è facoltativa; puoi lasciare le sue righe vuote. Questa colonna è destinata all'ortografia fonetica che utilizza solo i caratteri dell'alfabeto fonetico internazionale (IPA). Fare riferimento a Set di caratteri hindi per i caratteri IPA consentiti per la lingua hindi. Nel nostro esempio, non utilizziamo l'IPA. Se hai una voce in questa colonna, il tuo SoundsLike la colonna deve essere vuota.
    3. SoundsLike – Contiene parole o frasi suddivise in parti più piccole (in genere basate su sillabe o parole comuni) per fornire una pronuncia per ogni brano in base a come suona quel brano. Questa colonna è facoltativa; puoi lasciare le righe vuote. Aggiungi contenuto a questa colonna solo se la tua voce include una parola non standard, come il nome di un marchio, o per correggere una parola che è stata trascritta in modo errato. Nella nostra trascrizione, per correggere "सलार जंग (Salar Jung)" dalla frase 4, usa "सा-लार-जंग (Saa-lar-jung)" in questa colonna. Non utilizzare spazi in questa colonna. Se hai una voce in questa colonna, il tuo IPA la colonna deve essere vuota.
    4. DisplaysAs – Contiene parole o frasi con l'ortografia che si desidera visualizzare nell'output della trascrizione per le parole o le frasi nel Phrase campo. Questa colonna è facoltativa; puoi lasciare le righe vuote. Se non specifichi questo campo, Amazon Transcribe utilizza il contenuto di Phrase campo nel file di output. Ad esempio, nella nostra trascrizione, per correggere "गोलकुंडा फोर (Golcunda Four)" dalla frase 4, utilizzare "गोलकोंडा फोर्ट (Golconda Fort)" in questa colonna.
  2. Caricare il file di testo (HindiCustomVocabulary.txt) in un bucket S3. Ora creiamo un vocabolario personalizzato in Amazon Transcribe.
  3. Sulla console Amazon Transcribe, scegli Vocabolario personalizzato nel pannello di navigazione.
  4. Nel Nome, inserisci un nome.
  5. Nel Linguascegli hindi, IN (ciao-IN).
  6. Nel Fonte di input del vocabolario, selezionare Posizione S3.
  7. Nel Posizione del file di vocabolario su S3, immettere il percorso S3 del HindiCustomVocabulary.txt file.
  8. Scegli Crea vocabolario. Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
  9. Trascrivi il SampleAudio.wav file con il vocabolario personalizzato, con i seguenti parametri:
    1. Nel Nome del lavoro , accedere SampleAudioCustomVocabulary.
    2. Nel Linguascegli hindi, IN (ciao-IN).
    3. Nel Inserisci la posizione del file su S3, vai alla posizione di SampleAudio.wav.
    4. Nel Ruolo IAM, selezionare Utilizzare un ruolo IAM esistente e scegli il ruolo che hai creato in precedenza.
    5. Nel Configura lavoro sezione, selezionare Vocabolario personalizzato e scegli il vocabolario personalizzato HindiCustomVocabulary.
  10. Scegli Crea lavoro.

Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Misura la precisione del modello dopo aver utilizzato il vocabolario personalizzato

Copia la trascrizione dalla pagina dei dettagli del lavoro di Amazon Transcribe in un file di testo denominato hypothesis-custom-vocabulary.txt:

: ok,

Agente : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ हूँ

: मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता ऀहकऀ?

Agente : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार Non preoccuparti e non ti preoccupare.

: हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट ्राई करूँगा।

Agente : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चैंंचैंं

: सिरियसली एनी टिप्स चिकन शेर

Agente : आप टेक्सी यूस कर लो ड all'avore

: ग्रेट आइडिया थैंक्यू सो मच।

Si noti che le parole evidenziate vengono trascritte come desiderato.

Corri il wer comando di nuovo con la nuova trascrizione:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Ottieni il seguente output:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Osservazioni dalla trascrizione create con vocabolario personalizzato

Il WER totale è del 6.061%, il che significa che il 93.939% delle parole viene trascritto accuratamente.

Confrontiamo l'output wer per la frase 4 con e senza vocabolario personalizzato. Quanto segue è senza vocabolario personalizzato:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Quanto segue è con vocabolario personalizzato:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

Non ci sono errori nella frase 4. I nomi dei luoghi sono trascritti accuratamente con l'aiuto di un vocabolario personalizzato, riducendo così il WER complessivo dal 9.848% al 6.061% per questo file audio. Ciò significa che l'accuratezza della trascrizione è migliorata di quasi il 4%.

Come il vocabolario personalizzato ha migliorato la precisione

Abbiamo utilizzato il seguente vocabolario personalizzato:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe controlla se nel file audio sono presenti parole che suonano come le parole menzionate in Phrase colonna. Quindi il modello utilizza le voci in IPA, SoundsLikee DisplaysAs colonne per quelle parole specifiche da trascrivere con l'ortografia desiderata.

Con questo vocabolario personalizzato, quando Amazon Transcribe identifica una parola che suona come "गोलकुंडा-फोर (Golcunda-Four)", la trascrive come "गोलकोंडा फोर्ट (Golconda Fort)."

raccomandazioni

L'accuratezza della trascrizione dipende anche da parametri come la pronuncia degli oratori, la sovrapposizione degli oratori, la velocità di conversazione e il rumore di fondo. Pertanto, ti consigliamo di seguire il processo con una varietà di chiamate (con diversi clienti, agenti, interruzioni e così via) che coprono le parole specifiche del dominio più comunemente utilizzate per creare un vocabolario personalizzato completo.

In questo post, abbiamo appreso il processo per migliorare la precisione della trascrizione di una chiamata audio utilizzando un vocabolario personalizzato. Per elaborare migliaia di registrazioni delle chiamate del tuo contact center ogni giorno, puoi utilizzare analisi post chiamata, una soluzione end-to-end completamente automatizzata, scalabile ed economica che si occupa della maggior parte del lavoro pesante. Devi semplicemente caricare i tuoi file audio in un bucket S3 e, in pochi minuti, la soluzione fornisce analisi delle chiamate come il sentiment in un'interfaccia utente web. L'analisi post chiamata fornisce informazioni utili per individuare le tendenze emergenti, identificare opportunità di coaching degli agenti e valutare il sentimento generale delle chiamate. L'analisi post chiamata è un soluzione open source che puoi distribuire utilizzando AWS CloudFormazione.

Tieni presente che i vocabolari personalizzati non utilizzano il contesto in cui sono state pronunciate le parole, ma si concentrano solo sulle singole parole che fornisci. Per migliorare ulteriormente la precisione, è possibile utilizzare modelli linguistici personalizzati. A differenza dei vocabolari personalizzati, che associano la pronuncia all'ortografia, i modelli linguistici personalizzati apprendono il contesto associato a una determinata parola. Ciò include come e quando viene usata una parola e la relazione che una parola ha con altre parole. Per creare un modello linguistico personalizzato, puoi utilizzare le trascrizioni derivate dal processo che abbiamo appreso per una varietà di chiamate e combinarle con i contenuti dei tuoi siti Web o manuali utente che contengono parole e frasi specifiche del dominio.

Per ottenere la massima precisione di trascrizione con le trascrizioni batch, puoi utilizzare vocabolari personalizzati insieme ai tuoi modelli linguistici personalizzati.

Conclusione

In questo post, abbiamo fornito passaggi dettagliati per elaborare accuratamente i file audio hindi contenenti parole inglesi utilizzando l'analisi delle chiamate e i vocabolari personalizzati in Amazon Transcribe. Puoi utilizzare questi stessi passaggi per elaborare le chiamate audio con qualsiasi lingua supportata di Amazon Trascrivi.

Dopo aver ricavato le trascrizioni con la precisione desiderata, puoi migliorare le conversazioni agente-cliente formando i tuoi agenti. Puoi anche capire i sentimenti e le tendenze dei tuoi clienti. Con l'aiuto della diarizzazione degli altoparlanti, del rilevamento del volume e delle funzioni di filtraggio del vocabolario nell'analisi delle chiamate, puoi identificare se è stato l'agente o il cliente a alzare il tono o pronunciare parole specifiche. Puoi classificare le chiamate in base a parole specifiche del dominio, acquisire informazioni utili ed eseguire analisi per migliorare i tuoi prodotti. Infine, puoi tradurre le tue trascrizioni in inglese o in altre lingue supportate a tua scelta utilizzando Amazon Traduttore.


Informazioni sugli autori

Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Sarat Guttikonda è Sr. Solutions Architect nel settore pubblico mondiale di AWS. Sarat ama aiutare i clienti ad automatizzare, gestire e governare le proprie risorse cloud senza sacrificare l'agilità aziendale. Nel tempo libero ama costruire Lego con suo figlio e giocare a ping pong.

Migliora l'accuratezza della trascrizione delle chiamate cliente-agente con il vocabolario personalizzato in Amazon Transcribe PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.Lavania Sood è un Solutions Architect nel settore pubblico mondiale di AWS con sede a Nuova Delhi, in India. Lavanya ama apprendere nuove tecnologie e aiutare i clienti nel loro percorso di adozione del cloud. Nel tempo libero ama viaggiare e provare cibi diversi.

Timestamp:

Di più da Apprendimento automatico di AWS