Amazon Transcribe PlatoBlockchain Data Intelligence의 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도를 개선합니다. 수직 검색. 일체 포함.

Amazon Transcribe에서 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도 향상

많은 AWS 고객 성공적으로 사용하고 있습니다 아마존 전사 고객의 음성 대화를 정확하고 효율적이며 자동으로 텍스트로 변환하고 실행 가능한 통찰력을 추출합니다. 이러한 통찰력은 고객의 품질과 경험을 직접적으로 개선하는 프로세스와 제품을 지속적으로 개선하는 데 도움이 될 수 있습니다.

인도와 같은 많은 국가에서 영어는 의사 소통의 기본 언어가 아닙니다. 인도 고객 대화에는 힌디어와 같은 지역 언어가 포함되어 있으며 통화 내내 영어 단어와 구문이 무작위로 사용됩니다. 원본 미디어 파일에는 기본 Amazon Transcribe 모델이 인식하지 못하는 고유명사, 도메인별 두문자어, 단어 또는 구가 있을 수 있습니다. 이러한 미디어 파일에 대한 전사는 해당 단어의 철자가 정확하지 않을 수 있습니다.

이 게시물에서는 다음을 사용하여 Amazon Transcribe에 추가 정보를 제공하는 방법을 보여줍니다. 맞춤 어휘 Amazon Transcribe가 비즈니스 관련 용어로 오디오 파일의 트랜스크립션을 처리하는 방식을 업데이트합니다. Hinglish 통화(인도 영어 단어 및 구문이 포함된 인도 힌디어 통화)의 전사 정확도를 개선하는 단계를 보여줍니다. 동일한 프로세스를 사용하여 모든 음성 통화를 전사할 수 있습니다. 지원되는 언어 Amazon Transcribe 제공. 맞춤형 어휘를 만든 후에는 당사의 통화 후 분석 이 게시물의 뒷부분에서 더 자세히 설명합니다.

솔루션 개요

우리는 다음 인도 힌디어 음성 통화를 사용합니다(SampleAudio.wav) 과정을 보여주기 위해 임의의 영어 단어와 함께.

그런 다음 다음과 같은 높은 수준의 단계를 안내합니다.

  1. 기본 Amazon Transcribe 힌디어 모델을 사용하여 오디오 파일을 전사합니다.
  2. 모델 정확도를 측정합니다.
  3. 사용자 지정 어휘로 모델을 훈련시킵니다.
  4. 훈련된 모델의 정확도를 측정합니다.

사전 조건

시작하기 전에 입력 오디오 파일이 데이터 입력 요구 사항 기록.

A 모노 포닉 라고도 하는 녹음 모노, 상담원과 고객의 모든 오디오 요소가 하나의 채널로 결합된 하나의 오디오 신호를 포함합니다. ㅏ 스테레오 라고도 하는 녹음 스테레오, 두 개의 개별 채널에서 상담원과 고객의 오디오 요소를 캡처하는 두 개의 오디오 신호가 포함되어 있습니다. 각 상담원-고객 녹음 파일에는 상담원과 고객을 위한 두 개의 오디오 채널이 포함되어 있습니다.

전화 녹음과 같은 저음질 오디오 녹음은 일반적으로 8,000Hz 샘플 속도를 사용합니다. Amazon Transcribe는 16,000–48,000Hz 사이의 샘플 레이트로 모노 녹음 및 고음질 오디오 파일 처리를 지원합니다.

전사 결과를 개선하고 상담원과 고객이 말한 단어를 명확하게 구분하기 위해 8,000Hz 샘플 레이트로 녹음된 오디오 파일을 스테레오 채널로 분리하여 사용하는 것이 좋습니다.

다음과 같은 도구를 사용할 수 있습니다. ffmpeg 명령줄에서 입력 오디오 파일을 확인하려면:

ffmpeg -i SampleAudio.wav

반환된 응답에서 입력 섹션의 스트림으로 시작하는 줄을 확인하고 오디오 파일이 8,000Hz이고 스테레오 채널이 분리되어 있는지 확인합니다.

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

많은 수의 오디오 파일을 처리하는 파이프라인을 구축할 때 이 단계를 자동화하여 요구 사항을 충족하지 않는 파일을 필터링할 수 있습니다.

추가 사전 요구 사항 단계로, 변환할 오디오 파일을 호스팅할 Amazon Simple Storage Service(Amazon S3) 버킷을 생성합니다. 지침은 다음을 참조하십시오. 첫 번째 S3 버킷 생성.그때 오디오 파일을 업로드 S3 버킷에.

기본 모델로 오디오 파일 변환

이제 우리는 할 수 있습니다 Amazon Transcribe 시작 업로드한 오디오 파일을 사용하여 분석 작업을 호출합니다. 이 예에서는 AWS 관리 콘솔 오디오 파일을 기록합니다. AWS 명령 줄 인터페이스 (AWS CLI) 또는 AWS SDK.

  1. Amazon Transcribe 콘솔에서 다음을 선택합니다. 통화 분석 탐색 창에서
  2. 왼쪽 메뉴에서 통화 분석 작업.
  3. 왼쪽 메뉴에서 직업 만들기.
  4. 럭셔리 성함이름을 입력하십시오.
  5. 럭셔리 언어 설정, 고르다 특정 언어.
  6. 럭셔리 지원하는 언어선택한다. 힌디어, IN(하이인).
  7. 럭셔리 모델 유형, 고르다 일반 모델.
  8. 럭셔리 S3의 입력 파일 위치, 업로드된 오디오 파일이 포함된 S3 버킷을 찾습니다.Amazon Transcribe PlatoBlockchain Data Intelligence의 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도를 개선합니다. 수직 검색. 일체 포함.
  9. . 출력 데이터 섹션에서 기본값을 그대로 둡니다.
  10. . 액세스 권한 섹션에서 선택 IAM 역할 생성.
  11. 새 항목 만들기 AWS 자격 증명 및 액세스 관리 (IAM) S3 버킷에서 오디오 파일을 읽고 사용할 수 있는 Amazon Transcribe 서비스 권한을 제공하는 HindiTranscription이라는 역할 AWS 키 관리 서비스 (AWS KMS) 키를 해독합니다.Amazon Transcribe PlatoBlockchain Data Intelligence의 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도를 개선합니다. 수직 검색. 일체 포함.
  12. . 작업 구성 섹션을 포함하여 기본값을 그대로 둡니다. 맞춤 어휘 선택 취소되었습니다.
  13. 왼쪽 메뉴에서 직업 만들기 오디오 파일을 기록합니다.

Amazon Transcribe PlatoBlockchain Data Intelligence의 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도를 개선합니다. 수직 검색. 일체 포함.

작업 상태가 완료이면 작업(SampleAudio)을 선택하여 전사를 검토할 수 있습니다.

Amazon Transcribe PlatoBlockchain Data Intelligence의 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도를 개선합니다. 수직 검색. 일체 포함.

고객과 상담원의 문장이 명확하게 구분되어 고객이나 상담원이 특정 단어나 구를 말했는지 식별하는 데 도움이 됩니다.

모델 정확도 측정

WER(단어 오류율)은 ASR(자동 음성 인식) 시스템의 정확도를 평가하기 위해 권장되고 가장 일반적으로 사용되는 메트릭입니다. 목표는 ASR 시스템의 정확도를 향상시키기 위해 WER을 최대한 줄이는 것입니다.

WER을 계산하려면 다음 단계를 완료하십시오. 이 게시물은 오픈 소스를 사용합니다 asr 평가 평가 도구를 사용하여 WER를 계산하지만 SCTK or 지워 도 사용할 수 있습니다.

  1. 설치 전에, asr-evaluation wer 스크립트를 명령줄에서 사용할 수 있도록 하는 도구입니다.
    macOS 또는 Linux 플랫폼에서 명령줄을 사용하여 게시물 뒷부분에 표시된 wer 명령을 실행합니다.
  2. Amazon Transcribe 작업 세부 정보 페이지의 스크립트를 다음이라는 텍스트 파일로 복사합니다. hypothesis.txt.
    콘솔에서 필사본을 복사하면 단어 사이에 새 줄 문자가 표시됩니다. Agent :, Customer :, 그리고 힌디어 스크립트.
    이 게시물의 공간을 절약하기 위해 줄 바꿈 문자가 제거되었습니다. 콘솔에서 텍스트를 있는 그대로 사용하기로 선택한 경우 wer 도구는 줄 단위로 비교하므로 생성한 참조 텍스트 파일에도 줄 바꿈 문자가 있는지 확인하십시오.
  3. 전체 성적표를 검토하고 수정해야 할 단어나 문구를 식별합니다.
    빠른 : 쯧쯧,
    에이전트 : 그렇군요. ㅋㅋㅋㅋ쥤 짹짹짹짹짹 짹짹
    빠른 : 쯧쯧쯧 쯧쯧쯧 나야말로 나야. 에 대해 알고 계시나요?
    에이전트 :오오오오오오오오오오오오 짹짹짹짹 ㅋㅋㅋㅋㅋㅋㅋ 라고 하세요. जंग म्यूजियम और प्लेनेटोरियम मशम
    빠른 : 그렇군요.
    에이전트 : 그렇군요.
    빠른 : 시리우스 애니 팁 ㅋㅋㅋㅋ 쩝쩝
    에이전트 : आap texy uk er lo 쯧쯧쯧 라고 말하세요.
    빠른 : 강조 표시된 단어는 기본 Amazon Transcribe 모델이 올바르게 렌더링되지 않은 단어입니다.
  4. 라는 다른 텍스트 파일을 만듭니다. reference.txt, 강조 표시된 단어를 필사본에서 볼 것으로 예상되는 원하는 단어로 바꿉니다.
    빠른 : 쯧쯧,
    에이전트 : गुड मोर्निग सौथ इंडियट्रेवल एजेंसी ㅋㅋㅋㅋ 쥤 짹짹짹짹짹 짹짹
    빠른 : 쯧쯧쯧 ㅋㅋㅋㅋ 나야말로 나야. 에 대해 알고 계시나요?
    에이전트 : 쯧쯧쯧 짹짹짹짹 ㅋㅋㅋㅋㅋㅋㅋ 나야 나야 나야 जंग म्यूजियम और प्लेनेटोरियम मशम
    빠른 : 그렇군요.
    에이전트 : 그렇군요.
    빠른 : 시리우스 애니 팁 ㅋㅋㅋㅋ 쩝쩝
    에이전트 : आap texy uk er lo 쯧쯧쯧 라고 말하세요.
    빠른 : 그렇군요.
  5. 다음 명령을 사용하여 생성한 참조 및 가설 텍스트 파일을 비교합니다.
    wer -i reference.txt hypothesis.txt

    다음과 같은 결과가 나타납니다.

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

wer 명령은 파일의 텍스트를 비교합니다. reference.txthypothesis.txt. 각 문장의 오류와 총 오류 수(WER: 9.848% ( 13 / 132)) 전체 성적표에서.

이전 출력에서 ​​wer는 스크립트의 13개 단어 중 132개 오류를 보고했습니다. 이러한 오류는 세 가지 유형일 수 있습니다.

  • 대체 오류 – Amazon Transcribe가 다른 단어 대신 한 단어를 쓸 때 발생합니다. 예를 들어, 우리의 성적표에서 "쯧쯧쯧 (마히나)" 대신 "ㅋㅋㅋㅋ (Minar)" 문장 4.
  • 삭제 오류 – 이는 Amazon Transcribe가 성적표에서 단어를 완전히 누락한 경우 발생합니다. 우리의 성적표에서 "ㅋㅋㅋㅋ (South)”는 문장 2에서 빠졌다.
  • 삽입 오류 – Amazon Transcribe가 말하지 않은 단어를 삽입할 때 발생합니다. 우리의 성적표에는 삽입 오류가 없습니다.

기본 모델에 의해 생성된 성적표에서 관찰

기록을 기반으로 다음과 같은 관찰을 할 수 있습니다.

  • 총 WER은 9.848%로 단어의 90.152%가 정확하게 전사되었음을 의미합니다.
  • 기본 힌디어 모델은 대부분의 영어 단어를 정확하게 전사했습니다. 이는 기본 모델이 기본적으로 가장 일반적인 영어 단어를 인식하도록 훈련되었기 때문입니다. 이 모델은 또한 힌디어 대화에서 영어 단어가 무작위로 나타나는 Hinglish 언어를 인식하도록 훈련되었습니다. 예를 들어:
    • गुड मोर्निग – 좋은 아침입니다(문장 2).
    • ट्रेवल एजेंसी – 여행사(문장 2).
    • ग्रेट आइडिया थैंक्यू सो मच – 좋은 생각 정말 감사합니다(문장 9).
  • 문장 4에는 인도 도시 하이데라바드의 장소 이름인 오류가 가장 많습니다.
    • 큭큭큭 짹짹짹짹 그렇군요. 이렇게 하세요. जंग म्यूजियम और प्लेनेटोरियम मशम

다음 단계에서는 Amazon Transcribe의 사용자 지정 어휘를 사용하여 앞 문장에서 강조 표시된 단어를 수정하는 방법을 보여줍니다.

  • 쩝쩝 쯧쯧쯧 (숯 마 히나)는 다음과 같아야 합니다. ㅋㅋㅋㅋ (숯 미 나르)
  • 가사ㅋㅋㅋㅋ쯧쯧쯧 (골cu난다 포ur)는 गोल이어야 합니다.ㅋㅋㅋㅋ쯧쯧쯧्ट (골co난다 포rt)
  • जंग (Salar Jung)은 쯧쯧जंग (사아라 융)

사용자 정의 어휘로 기본 모델 학습

사용자 정의 어휘 만들기, 기본 Amazon Transcribe 모델을 교육하려면 단어와 구문이 포함된 표 형식의 텍스트 파일을 빌드해야 합니다. 테이블에는 XNUMX개의 열(Phrase, SoundsLike, IPADisplayAs), 하지만 Phrase 열은 각 행에 항목을 포함해야 하는 유일한 것입니다. 다른 열은 비워 둘 수 있습니다. 일부 열이 비어 있더라도 각 열은 탭 문자로 구분해야 합니다. 예를 들어, 당신이 떠나면 IPASoundsLike 행에 대해 비어 있는 열, PhraseDisplaysAs 해당 행의 열은 세 개의 탭 문자(사이 PhraseIPA, IPASoundsLikeSoundsLikeDisplaysAs).

사용자 정의 어휘로 모델을 학습시키려면 다음 단계를 완료하십시오.

  1. 이름이 지정된 파일 만들기 HindiCustomVocabulary.txt 다음 내용으로.
    구절 Ipa 소리 같은 전시와 같은 전시 a गोलकुंड  फो  फो 익 ट는지 स 변효 -जंग स स 아름다운 र जंग जंग स ल 식사

    해당 언어에서 지원되는 문자만 사용할 수 있습니다. 귀하의 언어를 참조하십시오 문자 집합 자세한 내용은.

    열에는 다음 정보가 포함됩니다.

    1. Phrase – 정확하게 필사하고자 하는 단어나 구를 포함합니다. 기본 Amazon Transcribe 모델에 의해 생성된 스크립트에서 강조 표시된 단어 또는 구가 이 열에 나타납니다. 이러한 단어는 일반적으로 기본 모델이 인식하지 못하는 두문자어, 고유 명사 또는 도메인별 단어 및 구입니다. 이것은 사용자 정의 어휘 테이블의 모든 행에 대한 필수 필드입니다. 우리의 대본에서 "गोलकुंडर फोर (Golunda Four)"를 수정하려면 이 칼럼에서 "गोलकुंडר-फोर (Golunda-Four)"를 사용하십시오. 항목에 여러 단어가 포함된 경우 각 단어를 하이픈(-)으로 구분합니다. 공백을 사용하지 마십시오.
    2. IPA – 서면 형식의 말소리를 나타내는 단어 또는 구를 포함합니다. 열은 선택 사항입니다. 행을 비워 둘 수 있습니다. 이 열은 IPA(International Phonetic Alphabet)의 문자만 사용하는 음성 철자를 위한 것입니다. 힌디어에 허용되는 IPA 문자는 힌디어 문자 집합을 참조하십시오. 이 예에서는 IPA를 사용하지 않습니다. 이 열에 항목이 있는 경우 SoundsLike 열은 비어 있어야 합니다.
    3. SoundsLike – 해당 조각이 어떻게 들리는지에 따라 각 조각에 대한 발음을 제공하기 위해 더 작은 조각(일반적으로 음절 또는 일반적인 단어를 기반으로 함)으로 분류된 단어 또는 구를 포함합니다. 이 열은 선택 사항입니다. 행을 비워 둘 수 있습니다. 항목에 브랜드 이름과 같은 비표준 단어가 포함되거나 잘못 표기된 단어를 수정하는 경우에만 이 열에 내용을 추가하십시오. 우리의 녹취록에서 문장 4의 "सलर जंग (Salar Jung)"을 수정하려면 이 칼럼에서 "सर-लर-जंग (Saa-lar-jung)"을 사용하십시오. 이 열에 공백을 사용하지 마십시오. 이 열에 항목이 있는 경우 IPA 열은 비어 있어야 합니다.
    4. DisplaysAs – 의 단어 또는 구에 대한 전사 출력에서 ​​보려는 철자가 있는 단어 또는 구를 포함합니다. Phrase 필드. 이 열은 선택 사항입니다. 행을 비워 둘 수 있습니다. 이 필드를 지정하지 않으면 Amazon Transcribe는 Phrase 출력 파일의 필드. 예를 들어, 우리의 성적표에서 문장 4의 "गोलकुंडा फोर (Golconda Four)"를 수정하려면 이 칼럼에서 "गोलकोंडा फोर्ट(Golconda For.
  2. 가이드라가 텍스트 파일(HindiCustomVocabulary.txt)를 S3 버킷으로 변환합니다. 이제 Amazon Transcribe에서 사용자 지정 어휘를 생성합니다.
  3. Amazon Transcribe 콘솔에서 다음을 선택합니다. 맞춤 어휘 탐색 창에서
  4. 럭셔리 성함이름을 입력하십시오.
  5. 럭셔리 지원하는 언어선택한다. 힌디어, IN(하이인).
  6. 럭셔리 어휘 입력 소스, 고르다 S3 위치.
  7. 럭셔리 S3의 어휘 파일 위치, S3 경로를 입력하십시오. HindiCustomVocabulary.txt 파일.
  8. 왼쪽 메뉴에서 어휘 만들기. Amazon Transcribe PlatoBlockchain Data Intelligence의 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도를 개선합니다. 수직 검색. 일체 포함.
  9. 필사 SampleAudio.wav 다음 매개변수를 사용하여 사용자 정의 어휘가 있는 파일:
    1. 럭셔리 직업 이름 , 입력 SampleAudioCustomVocabulary.
    2. 럭셔리 지원하는 언어선택한다. 힌디어, IN(하이인).
    3. 럭셔리 S3의 입력 파일 위치, 위치로 이동 SampleAudio.wav.
    4. 럭셔리 IAM 역할, 고르다 기존 IAM 역할 사용 그리고 이전에 생성한 역할을 선택합니다.
    5. . 작업 구성 섹션에서 선택 맞춤 어휘 맞춤 어휘를 선택하고 HindiCustomVocabulary.
  10. 왼쪽 메뉴에서 직업 만들기.

Amazon Transcribe PlatoBlockchain Data Intelligence의 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도를 개선합니다. 수직 검색. 일체 포함.

사용자 정의 어휘 사용 후 모델 정확도 측정

Amazon Transcribe 작업 세부 정보 페이지의 스크립트를 다음이라는 텍스트 파일로 복사합니다. hypothesis-custom-vocabulary.txt:

빠른 : 쯧쯧,

에이전트 다음과 같습니다. 짹짹짹짹짹 짹짹

빠른 : 그렇군요. 에 대해 알고 계시나요?

에이전트 : 쯧쯧쯧 짹짹짹짹 그렇군요. 이렇게 하세요. जंग म्यूजियम और प्लेनेटोरियम मशम

빠른 : 그렇군요.

에이전트 : 그렇군요.

빠른 : 시리우스 애니 팁 치칸 셰어

에이전트 : 이다.

빠른 : 그렇군요.

강조 표시된 단어는 원하는 대로 전사됩니다.

실행 wer 새 스크립트로 다시 명령하십시오.

wer -i reference.txt hypothesis-custom-vocabulary.txt

다음과 같은 결과가 나타납니다.

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

사용자 정의 어휘로 생성된 스크립트에서 관찰

총 WER은 6.061%로 단어의 93.939%가 정확하게 전사되었음을 의미합니다.

사용자 지정 어휘가 있는 문장과 없는 문장 4의 wer 출력을 비교해 보겠습니다. 다음은 사용자 정의 어휘가 없습니다.

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

다음은 사용자 정의 어휘입니다.

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

문장 4에는 오류가 없습니다. 장소 이름은 사용자 정의 어휘를 사용하여 정확하게 전사되어 이 오디오 파일에 대한 전체 WER이 9.848%에서 6.061%로 감소합니다. 이는 전사 정확도가 거의 4% 향상되었음을 의미합니다.

사용자 정의 어휘가 정확도를 향상시킨 방법

다음과 같은 맞춤 어휘를 사용했습니다.

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe는 오디오 파일에 언급된 단어와 같은 소리가 나는 단어가 있는지 확인합니다. Phrase 열. 그런 다음 모델은 다음 항목을 사용합니다. IPA, SoundsLikeDisplaysAs 원하는 철자로 전사할 특정 단어에 대한 열.

이 사용자 지정 어휘를 사용하여 Amazon Transcribe는 "गोलकुंडा-फोर(Golunda-Four)"처럼 들리는 단어를 식별하면 해당 단어를 "गोलकोंडर फो"로 변환합니다.

추천

전사의 정확도는 화자의 발음, 겹친 화자, 말하는 속도 및 배경 소음과 같은 매개변수에 따라 달라집니다. 따라서 포괄적인 사용자 정의 어휘를 구축하기 위해 가장 일반적으로 사용되는 도메인별 단어를 다루는 다양한 통화(다른 고객, 상담원, 방해 등)로 프로세스를 따르는 것이 좋습니다.

이 게시물에서는 사용자 지정 어휘를 사용하여 하나의 음성 통화를 전사하는 정확도를 개선하는 프로세스를 배웠습니다. 매일 수천 개의 컨택 센터 통화 녹음을 처리하려면 다음을 사용할 수 있습니다. 통화 후 분석, 대부분의 무거운 작업을 처리하는 완전 자동화되고 확장 가능하며 비용 효율적인 엔드 투 엔드 솔루션입니다. 오디오 파일을 S3 버킷에 업로드하기만 하면 몇 분 안에 솔루션이 웹 UI에서 감정과 같은 통화 분석을 제공합니다. 통화 후 분석은 새로운 추세를 파악하고 상담원 코칭 기회를 식별하며 통화의 일반적인 감정을 평가하기 위한 실행 가능한 통찰력을 제공합니다. 통화 후 분석은 오픈 소스 솔루션 다음을 사용하여 배포할 수 있습니다. AWS 클라우드 포메이션.

사용자 지정 어휘는 단어가 말한 문맥을 사용하지 않고 사용자가 제공한 개별 단어에만 초점을 맞춘다는 점에 유의하십시오. 정확도를 더 높이려면 다음을 사용할 수 있습니다. 사용자 정의 언어 모델. 발음을 철자와 연관시키는 사용자 정의 어휘와 달리 사용자 정의 언어 모델은 주어진 단어와 관련된 컨텍스트를 학습합니다. 여기에는 단어가 언제 어떻게 사용되는지, 단어가 다른 단어와 갖는 관계가 포함됩니다. 사용자 지정 언어 모델을 만들려면 다양한 호출에 대해 학습한 프로세스에서 파생된 전사를 사용하고 도메인별 단어 및 구문이 포함된 웹사이트 또는 사용자 설명서의 콘텐츠와 결합할 수 있습니다.

일괄 변환으로 최고의 전사 정확도를 달성하려면 사용자 정의 언어 모델과 함께 사용자 정의 어휘를 사용할 수 있습니다.

결론

이 게시물에서는 Amazon Transcribe에서 통화 분석 및 사용자 지정 어휘를 사용하여 영어 단어가 포함된 힌디어 오디오 파일을 정확하게 처리하는 자세한 단계를 제공했습니다. 이러한 동일한 단계를 사용하여 모든 음성 통화를 처리할 수 있습니다. 지원되는 언어 Amazon Transcribe 제공.

원하는 정확도로 기록을 도출한 후 에이전트를 교육하여 에이전트-고객 대화를 개선할 수 있습니다. 또한 고객의 감정과 트렌드를 이해할 수 있습니다. 통화 분석의 화자 분할, 소리 크기 감지 및 어휘 필터링 기능을 사용하여 어조를 높였거나 특정 단어를 말한 사람이 상담원인지 고객인지 식별할 수 있습니다. 도메인별 단어를 기반으로 통화를 분류하고, 실행 가능한 통찰력을 포착하고, 분석을 실행하여 제품을 개선할 수 있습니다. 마지막으로 다음을 사용하여 성적표를 영어 또는 선택한 다른 지원 언어로 번역할 수 있습니다. 아마존 번역.


저자에 관하여

Amazon Transcribe PlatoBlockchain Data Intelligence의 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도를 개선합니다. 수직 검색. 일체 포함. 사라트 구티콘다 AWS World Wide Public Sector의 수석 솔루션 설계자입니다. Sarat는 고객이 비즈니스 민첩성을 희생하지 않으면서 클라우드 리소스를 자동화, 관리 및 통제하도록 돕는 것을 즐깁니다. 여가 시간에는 아들과 함께 레고 만들기와 탁구 치는 것을 좋아합니다.

Amazon Transcribe PlatoBlockchain Data Intelligence의 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도를 개선합니다. 수직 검색. 일체 포함.라바냐 수드 인도 뉴델리에 기반을 둔 AWS World Wide Public Sector의 솔루션 아키텍트입니다. Lavanya는 새로운 기술을 배우고 클라우드 채택 여정에서 고객을 돕는 것을 즐깁니다. 여가 시간에는 여행을 하고 다양한 음식을 맛보는 것을 좋아합니다.

타임 스탬프 :

더보기 AWS 기계 학습