Melhore a precisão da transcrição de chamadas entre clientes e agentes com vocabulário personalizado no Amazon Transcribe PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Melhore a precisão da transcrição de chamadas de agente do cliente com vocabulário personalizado no Amazon Transcribe

Muitos AWS clientes tem usado com sucesso Amazon Transcribe para converter com precisão, eficiência e automaticamente as conversas de áudio de seus clientes em texto e extrair deles insights acionáveis. Esses insights podem ajudá-lo a aprimorar continuamente os processos e produtos que melhoram diretamente a qualidade e a experiência de seus clientes.

Em muitos países, como a Índia, o inglês não é a principal língua de comunicação. As conversas com clientes indianos contêm idiomas regionais como o hindi, com palavras e frases em inglês faladas aleatoriamente durante as chamadas. Nos arquivos de mídia de origem, pode haver nomes próprios, acrônimos específicos de domínio, palavras ou frases que o modelo padrão do Amazon Transcribe não conhece. As transcrições desses arquivos de mídia podem ter grafias imprecisas para essas palavras.

Nesta postagem, demonstramos como você pode fornecer mais informações ao Amazon Transcribe com vocabulários personalizados para atualizar a maneira como o Amazon Transcribe lida com a transcrição de seus arquivos de áudio com terminologia específica de negócios. Mostramos as etapas para melhorar a precisão das transcrições para chamadas em hinglish (chamadas em hindi indiano que contêm palavras e frases em inglês indiano). Você pode usar o mesmo processo para transcrever chamadas de áudio com qualquer idioma suportado pela Amazon Transcribe. Depois de criar vocabulários personalizados, você pode transcrever chamadas de áudio com precisão e em escala usando nosso análise pós-chamada solução, que discutiremos mais adiante neste post.

Visão geral da solução

Usamos a seguinte chamada de áudio em hindi indiano (SampleAudio.wav) com palavras aleatórias em inglês para demonstrar o processo.

Em seguida, orientamos você pelas seguintes etapas de alto nível:

  1. Transcreva o arquivo de áudio usando o modelo padrão do Amazon Transcribe Hindi.
  2. Meça a precisão do modelo.
  3. Treine o modelo com vocabulário personalizado.
  4. Meça a precisão do modelo treinado.

Pré-requisitos

Antes de começarmos, precisamos confirmar se o arquivo de áudio de entrada atende às transcreva os requisitos de entrada de dados.

A monofônico gravação, também conhecida como mono, contém um sinal de áudio, no qual todos os elementos de áudio do agente e do cliente são combinados em um canal. UMA estereofônico gravação, também conhecida como estéreo, contém dois sinais de áudio para capturar os elementos de áudio do agente e do cliente em dois canais separados. Cada arquivo de gravação agente-cliente contém dois canais de áudio, um para o agente e outro para o cliente.

Gravações de áudio de baixa fidelidade, como gravações telefônicas, normalmente usam taxas de amostragem de 8,000 Hz. O Amazon Transcribe oferece suporte ao processamento de arquivos de áudio gravados em mono e também de alta fidelidade com taxas de amostragem entre 16,000 e 48,000 Hz.

Para melhores resultados de transcrição e para distinguir claramente as palavras faladas pelo agente e pelo cliente, recomendamos o uso de arquivos de áudio gravados com taxa de amostragem de 8,000 Hz e separados por canal estéreo.

Você pode usar uma ferramenta como ffmpeg para validar seus arquivos de áudio de entrada na linha de comando:

ffmpeg -i SampleAudio.wav

Na resposta retornada, verifique a linha que começa com Stream na seção Input e confirme se os arquivos de áudio são de 8,000 Hz e separados por canal estéreo:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Ao criar um pipeline para processar um grande número de arquivos de áudio, você pode automatizar essa etapa para filtrar os arquivos que não atendem aos requisitos.

Como uma etapa de pré-requisito adicional, crie um bucket do Amazon Simple Storage Service (Amazon S3) para hospedar os arquivos de áudio a serem transcritos. Para obter instruções, consulte Crie seu primeiro bucket do S3.Então carregar o arquivo de áudio para o balde S3.

Transcreva o arquivo de áudio com o modelo padrão

Agora podemos iniciar um Amazon Transcribe trabalho de análise de chamadas usando o arquivo de áudio que enviamos. Neste exemplo, usamos o Console de gerenciamento da AWS para transcrever o arquivo de áudio. Você também pode usar o Interface de linha de comando da AWS (AWS CLI) ou AWS SDK.

  1. No console do Amazon Transcribe, escolha Análise de chamadas no painel de navegação.
  2. Escolha Trabalhos de análise de chamadas.
  3. Escolha Criar emprego.
  4. Escolha Nome, Insira o nome.
  5. Escolha Opções de linguagem, selecione Idioma específico.
  6. Escolha Língua, escolha Hindi, IN (oi-IN).
  7. Escolha Tipo de modelo, selecione Modelo geral.
  8. Escolha Local do arquivo de entrada no S3, navegue até o bucket do S3 que contém o arquivo de áudio carregado.Melhore a precisão da transcrição de chamadas entre clientes e agentes com vocabulário personalizado no Amazon Transcribe PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  9. No Dados de saída seção, deixe os padrões.
  10. No Permissões de acesso seção, selecione Crie uma função do IAM.
  11. Crie um novo Gerenciamento de acesso e identidade da AWS (IAM) chamada HindiTranscription que fornece permissões de serviço do Amazon Transcribe para ler os arquivos de áudio do bucket do S3 e usar o Serviço de gerenciamento de chaves AWS (AWS KMS) para descriptografar.Melhore a precisão da transcrição de chamadas entre clientes e agentes com vocabulário personalizado no Amazon Transcribe PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  12. No Configurar trabalho seção, deixe os padrões, incluindo Vocabulário personalizado desmarcada.
  13. Escolha Criar emprego para transcrever o arquivo de áudio.

Melhore a precisão da transcrição de chamadas entre clientes e agentes com vocabulário personalizado no Amazon Transcribe PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Quando o status do trabalho for Concluído, você poderá revisar a transcrição escolhendo o trabalho (SampleAudio).

Melhore a precisão da transcrição de chamadas entre clientes e agentes com vocabulário personalizado no Amazon Transcribe PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

As frases do cliente e do agente são claramente separadas, o que nos ajuda a identificar se o cliente ou o agente falou alguma palavra ou frase específica.

Medir a precisão do modelo

A taxa de erro de palavras (WER) é a métrica recomendada e mais comumente usada para avaliar a precisão dos sistemas de Reconhecimento Automático de Fala (ASR). O objetivo é reduzir o WER o máximo possível para melhorar a precisão do sistema ASR.

Para calcular o WER, conclua as etapas a seguir. Este post usa o código aberto avaliação asr ferramenta de avaliação para calcular WER, mas outras ferramentas, como FAÇA or JiWER também estão disponíveis.

  1. Instale que o asr-evaluation ferramenta, que disponibiliza o script wer em sua linha de comando.
    Use uma linha de comando nas plataformas macOS ou Linux para executar os comandos wer mostrados posteriormente na postagem.
  2. Copie a transcrição da página de detalhes do trabalho do Amazon Transcribe para um arquivo de texto chamado hypothesis.txt.
    Ao copiar a transcrição do console, você notará um novo caractere de linha entre as palavras Agent :, Customer :, e a escrita hindi.
    Os novos caracteres de linha foram removidos para economizar espaço neste post. Se você optar por usar o texto como está no console, certifique-se de que o arquivo de texto de referência criado também tenha os novos caracteres de linha, pois a ferramenta wer compara linha por linha.
  3. Revise toda a transcrição e identifique quaisquer palavras ou frases que precisem ser corrigidas:
    Experiência e dinâmica de loja : sim,
    Agente : Mais informações Então। Linha
    Experiência e dinâmica de loja : मैं बहुत Mais हैदराबाद ट्रेवल के बारे में सोच रहा था। O que fazer?
    Agente :हाँ बिल्कुल। Mais informações उनमें से Mais informações Isso é o que você precisa saber.
    Experiência e dinâmica de loja : हाँ बढिया थैंक यू मैं अगले सैटसैट औ औntas
    Agente : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने ेे चैं
    Experiência e dinâmica de loja : सिरियसली एनी टिप्स Frango Então
    Agente : आप टेक्सी यूस कर लो Adeus O que você pode fazer?
    Experiência e dinâmica de loja : ग्रेट आइडिया थैंक्यू सो मच।As palavras destacadas são aquelas que o modelo padrão do Amazon Transcribe não renderizou corretamente.
  4. Crie outro arquivo de texto chamado reference.txt, substituindo as palavras destacadas pelas palavras desejadas que você espera ver na transcrição:
    Experiência e dinâmica de loja : sim,
    Agente : Mais informações Mais । Linha
    Experiência e dinâmica de loja : मैं बहुत Adeus हैदराबाद ट्रेवल के बारे में सोच रहा था। O que fazer?
    Agente : हाँ बिल्कुल। Mais informações उनमें से Mais informações Isso é o que você precisa saber.
    Experiência e dinâmica de loja : हाँ बढिया थैंक यू मैं अगले सैटसैट औ औntas
    Agente : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने ेे चैं
    Experiência e dinâmica de loja : सिरियसली एनी टिप्स Então Então
    Agente : आप टेक्सी यूस कर लो Mais O que você pode fazer?
    Experiência e dinâmica de loja : Mais informações
  5. Use o seguinte comando para comparar os arquivos de texto de referência e de hipótese que você criou:
    wer -i reference.txt hypothesis.txt

    Você obtém a seguinte saída:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

O comando we compara o texto dos arquivos reference.txt e hypothesis.txt. Ele relata erros para cada frase e também o número total de erros (WER: 9.848% (13/132)) em toda a transcrição.

A partir da saída anterior, foram relatados 13 erros de 132 palavras na transcrição. Esses erros podem ser de três tipos:

  • Erros de substituição – Ocorrem quando o Amazon Transcribe escreve uma palavra no lugar de outra. Por exemplo, em nossa transcrição, a palavra “महीना (Mahina)” foi escrito em vez de “Mais (Minar)” na frase 4.
  • Erros de exclusão – Ocorrem quando o Amazon Transcribe perde completamente uma palavra na transcrição.Em nossa transcrição, a palavra “Então (Sul)” foi omitida na frase 2.
  • Erros de inserção – Ocorrem quando o Amazon Transcribe insere uma palavra que não foi falada. Não vemos erros de inserção em nossa transcrição.

Observações da transcrição criada pelo modelo padrão

Podemos fazer as seguintes observações com base na transcrição:

  • O WER total é de 9.848%, ou seja, 90.152% das palavras são transcritas com precisão.
  • O modelo padrão em hindi transcreveu a maioria das palavras em inglês com precisão. Isso ocorre porque o modelo padrão é treinado para reconhecer as palavras em inglês mais comuns imediatamente. O modelo também é treinado para reconhecer o idioma hinglish, onde palavras em inglês aparecem aleatoriamente em conversas em hindi. Por exemplo:
    • गुड मोर्निग – Bom dia (frase 2).
    • ट्रेवल एजेंसी – Agência de viagens (frase 2).
    • ग्रेट आइडिया थैंक्यू सो मच – Ótima ideia, muito obrigado (frase 9).
  • A frase 4 tem mais erros, que são os nomes de lugares na cidade indiana Hyderabad:
    • हाँ बिल्कुल। Mais informações उनमें से चार Mais informações Isso é o que você precisa saber.

Na próxima etapa, demonstramos como corrigir as palavras destacadas na frase anterior usando vocabulário personalizado no Amazon Transcribe:

  • चार महीना (Caracteres Mahina) deve ser चार Mais (Caracteres Minar)
  • ArredondarEडा फो (golcunda Four) deve ser गोलEntãoडा फोsim (golconda Fort)
  • लार जंग (Salar Jung) deve ser सालार जंग (SaaLar Jung)

Treine o modelo padrão com um vocabulário personalizado

Para criar um vocabulário personalizado, você precisa criar um arquivo de texto em formato tabular com as palavras e frases para treinar o modelo padrão do Amazon Transcribe. Sua tabela deve conter todas as quatro colunas (Phrase, SoundsLike, IPA e DisplayAs), mas o Phrase coluna é a única que deve conter uma entrada em cada linha. Você pode deixar as outras colunas vazias. Cada coluna deve ser separada por um caractere de tabulação, mesmo que algumas colunas sejam deixadas vazias. Por exemplo, se você deixar o IPA e SoundsLike colunas vazias para uma linha, o Phrase e DisplaysAs colunas nessa linha devem ser separadas por três caracteres de tabulação (entre Phrase e IPA, IPA e SoundsLike e SoundsLike e DisplaysAs).

Para treinar o modelo com um vocabulário personalizado, conclua as etapas a seguir:

  1. Crie um arquivo chamado HindiCustomVocabulary.txt com o seguinte conteúdo.
    A frase IPA soa como Displayas गोलकुंडा-फोर गोलकोंडा फोर्ट सालार-जंग सा-ला conseguir

    Você só pode usar caracteres compatíveis com seu idioma. Consulte o seu idioma conjunto de caracteres para obter detalhes.

    As colunas contêm as seguintes informações:

    1. Phrase – Contém as palavras ou frases que você deseja transcrever com precisão. As palavras ou frases destacadas na transcrição criada pelo modelo padrão do Amazon Transcribe aparecem nesta coluna. Essas palavras geralmente são acrônimos, nomes próprios ou palavras e frases específicas do domínio que o modelo padrão não conhece. Este é um campo obrigatório para cada linha na tabela de vocabulário personalizado. Em nossa transcrição, para corrigir “गोलकुंडा फोर (Golcunda Quatro)” da sentença 4, use “गोलकुंडा-फोर (Golcunda-Quatro)” nesta coluna. Se sua entrada contiver várias palavras, separe cada palavra com um hífen (-); não use espaços.
    2. IPA – Contém as palavras ou frases que representam os sons da fala na forma escrita. A coluna é opcional; você pode deixar suas linhas vazias. Esta coluna destina-se a grafias fonéticas usando apenas caracteres do Alfabeto Fonético Internacional (IPA). Consulte o conjunto de caracteres Hindi para os caracteres IPA permitidos para o idioma Hindi. Em nosso exemplo, não estamos usando IPA. Se você tiver uma entrada nesta coluna, seu SoundsLike coluna deve estar vazia.
    3. SoundsLike – Contém palavras ou frases divididas em partes menores (normalmente baseadas em sílabas ou palavras comuns) para fornecer uma pronúncia para cada parte com base em como essa parte soa. Esta coluna é opcional; você pode deixar as linhas vazias. Adicione conteúdo a esta coluna apenas se sua entrada incluir uma palavra fora do padrão, como um nome de marca, ou para corrigir uma palavra que está sendo transcrita incorretamente. Em nossa transcrição, para corrigir “सलार जंग (Salar Jung)” da sentença 4, use “सा-लार-जंग (Saa-lar-jung)” nesta coluna. Não use espaços nesta coluna. Se você tiver uma entrada nesta coluna, seu IPA coluna deve estar vazia.
    4. DisplaysAs – Contém palavras ou frases com as grafias que você deseja ver na saída da transcrição para as palavras ou frases no Phrase campo. Esta coluna é opcional; você pode deixar as linhas vazias. Se você não especificar esse campo, o Amazon Transcribe usará o conteúdo do Phrase campo no arquivo de saída. Por exemplo, em nossa transcrição, para corrigir “गोलकुंडा फोर (Golcunda Four)” da sentença 4, use “गोलकोंडा फोर्ट (Golconda Fort)” nesta coluna.
  2. Escolher arquivo o arquivo de texto (HindiCustomVocabulary.txt) para um bucket do S3. Agora criamos um vocabulário personalizado no Amazon Transcribe.
  3. No console do Amazon Transcribe, escolha Vocabulário personalizado no painel de navegação.
  4. Escolha Nome, Insira o nome.
  5. Escolha Língua, escolha Hindi, IN (oi-IN).
  6. Escolha Fonte de entrada de vocabulário, selecione Localização S3.
  7. Escolha Localização do arquivo de vocabulário no S3, insira o caminho S3 do HindiCustomVocabulary.txt arquivo.
  8. Escolha Crie vocabulário. Melhore a precisão da transcrição de chamadas entre clientes e agentes com vocabulário personalizado no Amazon Transcribe PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  9. Transcreva o SampleAudio.wav arquivo com o vocabulário personalizado, com os seguintes parâmetros:
    1. Escolha Nome do trabalho , entrar SampleAudioCustomVocabulary.
    2. Escolha Língua, escolha Hindi, IN (oi-IN).
    3. Escolha Local do arquivo de entrada no S3, navegue até o local de SampleAudio.wav.
    4. Escolha Papel do IAM, selecione Use uma função existente do IAM e escolha a função que você criou anteriormente.
    5. No Configurar trabalho seção, selecione Vocabulário personalizado e escolha o vocabulário personalizado HindiCustomVocabulary.
  10. Escolha Criar emprego.

Melhore a precisão da transcrição de chamadas entre clientes e agentes com vocabulário personalizado no Amazon Transcribe PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Meça a precisão do modelo depois de usar o vocabulário personalizado

Copie a transcrição da página de detalhes do trabalho do Amazon Transcribe para um arquivo de texto chamado hypothesis-custom-vocabulary.txt:

Experiência e dinâmica de loja : sim,

Agente : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। Linha

Experiência e dinâmica de loja : मैं बहुत दिनों उनसे हैदराब pos O que fazer?

Agente : हाँ बिल्कुल। Mais informações उनमें से चार Mais informações Isso é o que você precisa saber.

Experiência e dinâmica de loja : हाँ बढिया थैंक यू मैं अगले सैटसैट औ औntas

Agente : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने ेे चैं

Experiência e dinâmica de loja : सिरियसली एनी टिप्ह

Agente : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब ्लम नहीं होगा।

Experiência e dinâmica de loja : Mais informações

Observe que as palavras destacadas são transcritas conforme desejado.

execute o wer comando novamente com a nova transcrição:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Você obtém a seguinte saída:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Observações da transcrição criada com vocabulário personalizado

O WER total é de 6.061%, ou seja, 93.939% das palavras são transcritas com precisão.

Vamos comparar a saída wer para a frase 4 com e sem vocabulário personalizado. O seguinte é sem vocabulário personalizado:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

O seguinte é com vocabulário personalizado:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

Não há erros na frase 4. Os nomes dos lugares são transcritos com precisão com a ajuda de vocabulário personalizado, reduzindo assim o WER geral de 9.848% para 6.061% para este arquivo de áudio. Isso significa que a precisão da transcrição melhorou em quase 4%.

Como o vocabulário personalizado melhorou a precisão

Usamos o seguinte vocabulário personalizado:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

O Amazon Transcribe verifica se há alguma palavra no arquivo de áudio que soe como as palavras mencionadas no Phrase coluna. Em seguida, o modelo usa as entradas no IPA, SoundsLike e DisplaysAs colunas para essas palavras específicas para transcrever com as grafias desejadas.

Com esse vocabulário personalizado, quando o Amazon Transcribe identifica uma palavra que soa como “गोलकुंडा-फोर (Golcunda-Four)”, ele transcreve essa palavra como “गोलकोंडा फोर्ट (Golconda Fort)”.

Recomendações

A precisão da transcrição também depende de parâmetros como a pronúncia dos falantes, falantes sobrepostos, velocidade de fala e ruído de fundo. Portanto, recomendamos que você siga o processo com uma variedade de chamadas (com diferentes clientes, agentes, interrupções e assim por diante) que abrangem as palavras específicas de domínio mais usadas para você criar um vocabulário personalizado abrangente.

Neste post, aprendemos o processo para melhorar a precisão da transcrição de uma chamada de áudio usando vocabulário personalizado. Para processar milhares de gravações de chamadas do seu contact center todos os dias, você pode usar análise pós-chamada, uma solução de ponta a ponta totalmente automatizada, escalável e econômica que cuida da maior parte do trabalho pesado. Você simplesmente carrega seus arquivos de áudio para um bucket do S3 e, em poucos minutos, a solução fornece análise de chamadas como sentimento em uma interface do usuário da web. A análise pós-chamada fornece insights acionáveis ​​para identificar tendências emergentes, identificar oportunidades de treinamento de agentes e avaliar o sentimento geral das chamadas. solução de código aberto que você pode implantar usando Formação da Nuvem AWS.

Observe que os vocabulários personalizados não usam o contexto em que as palavras foram ditas, eles se concentram apenas em palavras individuais que você fornece. Para melhorar ainda mais a precisão, você pode usar modelos de linguagem personalizados. Ao contrário dos vocabulários personalizados, que associam a pronúncia à ortografia, os modelos de idioma personalizados aprendem o contexto associado a uma determinada palavra. Isso inclui como e quando uma palavra é usada e a relação que uma palavra tem com outras palavras. Para criar um modelo de idioma personalizado, você pode usar as transcrições derivadas do processo que aprendemos para uma variedade de chamadas e combiná-las com o conteúdo de seus sites ou manuais do usuário que contenham palavras e frases específicas do domínio.

Para obter a mais alta precisão de transcrição com transcrições em lote, você pode usar vocabulários personalizados em conjunto com seus modelos de idioma personalizados.

Conclusão

Nesta postagem, fornecemos etapas detalhadas para processar com precisão arquivos de áudio em hindi contendo palavras em inglês usando análise de chamadas e vocabulários personalizados no Amazon Transcribe. Você pode usar essas mesmas etapas para processar chamadas de áudio com qualquer idioma suportado pela Amazon Transcribe.

Depois de derivar as transcrições com a precisão desejada, você pode melhorar suas conversas entre agente e cliente treinando seus agentes. Você também pode entender os sentimentos e tendências de seus clientes. Com a ajuda da diarização do locutor, detecção de volume e recursos de filtragem de vocabulário na análise de chamadas, você pode identificar se foi o agente ou o cliente que aumentou o tom ou falou alguma palavra específica. Você pode categorizar as chamadas com base em palavras específicas do domínio, capturar insights acionáveis ​​e executar análises para melhorar seus produtos. Por fim, você pode traduzir suas transcrições para inglês ou outros idiomas suportados de sua escolha usando Amazon Tradutor.


Sobre os autores

Melhore a precisão da transcrição de chamadas entre clientes e agentes com vocabulário personalizado no Amazon Transcribe PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Sarat Guttikonda é arquiteto de soluções sênior no setor público mundial da AWS. A Sarat gosta de ajudar os clientes a automatizar, gerenciar e controlar seus recursos de nuvem sem sacrificar a agilidade dos negócios. Em seu tempo livre, ele adora construir Legos com seu filho e jogar tênis de mesa.

Melhore a precisão da transcrição de chamadas entre clientes e agentes com vocabulário personalizado no Amazon Transcribe PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.Lavanya Sood é Arquiteto de Soluções no Setor Público Mundial da AWS, com sede em Nova Delhi, Índia. A Lavanya gosta de aprender novas tecnologias e ajudar os clientes em sua jornada de adoção da nuvem. Em seu tempo livre, ela adora viajar e experimentar comidas diferentes.

Carimbo de hora:

Mais de Aprendizado de máquina da AWS