Cải thiện độ chính xác của bản ghi của các cuộc gọi giữa tổng đài viên và khách hàng bằng từ vựng tùy chỉnh trong Amazon Transcribe PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Cải thiện độ chính xác của phiên âm của các cuộc gọi từ nhân viên khách hàng với từ vựng tùy chỉnh trong Amazon Transcribe

Nhiều AWS khách hàng đã được sử dụng thành công Phiên âm Amazon để chuyển đổi chính xác, hiệu quả và tự động các cuộc trò chuyện bằng âm thanh của khách hàng thành văn bản, đồng thời trích xuất thông tin chi tiết hữu ích từ họ. Những thông tin chi tiết này có thể giúp bạn liên tục nâng cao các quy trình và sản phẩm trực tiếp cải thiện chất lượng và trải nghiệm cho khách hàng của bạn.

Ở nhiều quốc gia, chẳng hạn như Ấn Độ, tiếng Anh không phải là ngôn ngữ giao tiếp chính. Các cuộc trò chuyện của khách hàng Ấn Độ có các ngôn ngữ khu vực như tiếng Hindi, với các từ và cụm từ tiếng Anh được nói ngẫu nhiên trong suốt các cuộc gọi. Trong các tệp phương tiện nguồn, có thể có danh từ riêng, từ viết tắt của miền cụ thể, từ hoặc cụm từ mà mô hình Amazon Transcribe mặc định không nhận biết được. Phiên âm cho các tệp phương tiện như vậy có thể có cách viết không chính xác cho những từ đó.

Trong bài đăng này, chúng tôi trình bày cách bạn có thể cung cấp thêm thông tin cho Amazon Transcribe với từ vựng tùy chỉnh để cập nhật cách Amazon Transcribe xử lý bản ghi các tệp âm thanh của bạn bằng thuật ngữ dành riêng cho doanh nghiệp. Chúng tôi chỉ ra các bước để cải thiện độ chính xác của phiên âm cho các cuộc gọi bằng tiếng Anh (các cuộc gọi bằng tiếng Hindi của Ấn Độ có chứa các từ và cụm từ tiếng Anh Ấn Độ). Bạn có thể sử dụng quy trình tương tự để ghi âm cuộc gọi âm thanh với bất kỳ ngôn ngữ được hỗ trợ của Amazon Transcribe. Sau khi bạn tạo các từ vựng tùy chỉnh, bạn có thể phiên âm các cuộc gọi âm thanh với độ chính xác và quy mô lớn bằng cách sử dụng đăng phân tích cuộc gọi giải pháp mà chúng ta sẽ thảo luận sau trong bài đăng này.

Tổng quan về giải pháp

Chúng tôi sử dụng cuộc gọi âm thanh tiếng Hindi của Ấn Độ sau đây (SampleAudio.wav) với các từ tiếng Anh ngẫu nhiên để chứng minh quá trình.

Sau đó, chúng tôi sẽ hướng dẫn bạn qua các bước cấp cao sau:

  1. Phiên âm tệp âm thanh bằng mô hình Amazon Transcribe Hindi mặc định.
  2. Đo độ chính xác của mô hình.
  3. Đào tạo mô hình với từ vựng tùy chỉnh.
  4. Đo độ chính xác của mô hình được đào tạo.

Điều kiện tiên quyết

Trước khi bắt đầu, chúng tôi cần xác nhận rằng tệp âm thanh đầu vào đáp ứng phiên âm các yêu cầu đầu vào dữ liệu.

A đơn âm ghi âm, còn được gọi là mono, chứa một tín hiệu âm thanh, trong đó tất cả các yếu tố âm thanh của đại lý và khách hàng được kết hợp thành một kênh. Một âm sắc ghi âm, còn được gọi là âm thanh nổi, chứa hai tín hiệu âm thanh để thu các yếu tố âm thanh của đại lý và khách hàng trong hai kênh riêng biệt. Mỗi tệp ghi âm của đại lý-khách hàng chứa hai kênh âm thanh, một dành cho đại lý và một dành cho khách hàng.

Các bản ghi âm thanh có độ trung thực thấp, chẳng hạn như bản ghi âm qua điện thoại, thường sử dụng tốc độ mẫu 8,000 Hz. Amazon Transcribe hỗ trợ xử lý các tệp âm thanh được ghi đơn âm và cũng có độ trung thực cao với tốc độ lấy mẫu từ 16,000–48,000 Hz.

Để có kết quả phiên âm được cải thiện và để phân biệt rõ ràng những từ mà đại lý và khách hàng nói, chúng tôi khuyên bạn nên sử dụng các tệp âm thanh được ghi ở tốc độ mẫu 8,000 Hz và được tách kênh âm thanh nổi.

Bạn có thể sử dụng một công cụ như ffmpeg để xác thực các tệp âm thanh đầu vào của bạn từ dòng lệnh:

ffmpeg -i SampleAudio.wav

Trong phản hồi được trả lại, hãy kiểm tra dòng bắt đầu bằng Luồng trong phần Đầu vào và xác nhận rằng các tệp âm thanh có tần số 8,000 Hz và kênh âm thanh nổi được phân tách:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

Khi bạn xây dựng một đường dẫn để xử lý một số lượng lớn các tệp âm thanh, bạn có thể tự động hóa bước này để lọc các tệp không đáp ứng yêu cầu.

Như một bước điều kiện tiên quyết bổ sung, hãy tạo nhóm Amazon Simple Storage Service (Amazon S3) để lưu trữ các tệp âm thanh sẽ được phiên âm. Để được hướng dẫn, hãy tham khảo Tạo nhóm S3 đầu tiên của bạn.Sau đó tải lên tệp âm thanh vào nhóm S3.

Phiên âm tệp âm thanh với mô hình mặc định

Bây giờ chúng ta có thể bắt đầu Bản ghi âm trên Amazon gọi công việc phân tích bằng cách sử dụng tệp âm thanh mà chúng tôi đã tải lên. Trong ví dụ này, chúng tôi sử dụng Bảng điều khiển quản lý AWS để phiên âm tệp âm thanh. Bạn cũng có thể sử dụng Giao diện dòng lệnh AWS (AWS CLI) hoặc AWS SDK.

  1. Trên bảng điều khiển Amazon Transcribe, hãy chọn Phân tích cuộc gọi trong khung điều hướng.
  2. Chọn Gọi công việc phân tích.
  3. Chọn Tạo việc làm.
  4. Trong Họ tên, nhập tên.
  5. Trong Cài đặt ngôn ngữ, lựa chọn Ngôn ngữ cụ thể.
  6. Trong Ngôn ngữ, chọn Tiếng Hindi, IN (hi-IN).
  7. Trong Loại mô hình, lựa chọn Mô hình chung.
  8. Trong Nhập vị trí tệp trên S3, duyệt đến bộ chứa S3 chứa tệp âm thanh đã tải lên.Cải thiện độ chính xác của bản ghi của các cuộc gọi giữa tổng đài viên và khách hàng bằng từ vựng tùy chỉnh trong Amazon Transcribe PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  9. Trong tạp chí Dữ liệu đầu ra , hãy để mặc định.
  10. Trong tạp chí Quyền truy cập phần, chọn Tạo vai trò IAM.
  11. Tạo một cái mới Quản lý truy cập và nhận dạng AWS (IAM) có tên là HindiTranscription cung cấp quyền cho dịch vụ Amazon Transcribe để đọc các tệp âm thanh từ nhóm S3 và sử dụng Dịch vụ quản lý khóa AWS (AWS KMS) để giải mã.Cải thiện độ chính xác của bản ghi của các cuộc gọi giữa tổng đài viên và khách hàng bằng từ vựng tùy chỉnh trong Amazon Transcribe PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  12. Trong tạp chí Định cấu hình công việc , hãy để mặc định, bao gồm Từ vựng tùy chỉnh bỏ chọn.
  13. Chọn Tạo việc làm để phiên âm tệp âm thanh.

Cải thiện độ chính xác của bản ghi của các cuộc gọi giữa tổng đài viên và khách hàng bằng từ vựng tùy chỉnh trong Amazon Transcribe PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Khi trạng thái của công việc là Hoàn tất, bạn có thể xem lại bản ghi bằng cách chọn công việc (SampleAudio).

Cải thiện độ chính xác của bản ghi của các cuộc gọi giữa tổng đài viên và khách hàng bằng từ vựng tùy chỉnh trong Amazon Transcribe PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Các câu của khách hàng và đại lý được phân tách rõ ràng, điều này giúp chúng tôi xác định liệu khách hàng hoặc đại lý có nói bất kỳ từ hoặc cụm từ cụ thể nào hay không.

Đo độ chính xác của mô hình

Tỷ lệ lỗi từ (WER) là số liệu được khuyến nghị và sử dụng phổ biến nhất để đánh giá độ chính xác của hệ thống Nhận dạng giọng nói tự động (ASR). Mục đích là giảm WER càng nhiều càng tốt để cải thiện độ chính xác của hệ thống ASR.

Để tính WER, hãy hoàn thành các bước sau. Bài đăng này sử dụng mã nguồn mở asr-đánh giá công cụ đánh giá để tính toán WER, nhưng các công cụ khác như SCTK or JiWER cũng có sẵn.

  1. đặt các asr-evaluation công cụ này làm cho tập lệnh wer có sẵn trên dòng lệnh của bạn.
    Sử dụng dòng lệnh trên nền tảng macOS hoặc Linux để chạy các lệnh wer được hiển thị ở phần sau của bài đăng.
  2. Sao chép bảng điểm từ trang chi tiết công việc Phiên âm Amazon sang tệp văn bản có tên hypothesis.txt.
    Khi bạn sao chép bản ghi âm từ bảng điều khiển, bạn sẽ nhận thấy một ký tự dòng mới giữa các từ Agent :, Customer :, và chữ Hindi.
    Các ký tự dòng mới đã bị xóa để tiết kiệm dung lượng trong bài đăng này. Nếu bạn chọn sử dụng văn bản từ bảng điều khiển, hãy đảm bảo rằng tệp văn bản tham chiếu bạn tạo cũng có các ký tự dòng mới, vì công cụ wer so sánh từng dòng.
  3. Xem lại toàn bộ bản ghi và xác định bất kỳ từ hoặc cụm từ nào cần sửa:
    Khách hàng : xin chào,
    Đại lý : गुड मोर्निग इंडिया ट्रेवल एजेंसी bạn ơi। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहाय ता कर सकती हूँ।
    Khách hàng : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता स Bạn đã làm gì?
    Đại lý : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार Bạn có thể làm điều đó với tôi.
    Khách hàng : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट ्राई करूँगा।
    Đại lý : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चा ंसेज है।
    Khách hàng : सिरियसली एनी टिप्स Thịt gà शेर
    Đại lý : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम .
    Khách hàng : ग्रेट आइडिया थैंक्यू सो मच। Những từ được đánh dấu là những từ mà mô hình Phiên âm Amazon mặc định không hiển thị chính xác.
  4. Tạo một tệp văn bản khác có tên reference.txt, thay thế các từ được đánh dấu bằng các từ mong muốn mà bạn muốn thấy trong bản phiên âm:
    Khách hàng : xin chào,
    Đại lý : . bạn ơi । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहाय ता कर सकती हूँ।
    Khách hàng : मैं बहुत दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता स Bạn đã làm gì?
    Đại lý : हाँ बिल्कुल। हैदराबाद . उनमें से चार मिनार गोलकोंडा फोर्ट सालार Bạn có thể làm điều đó với tôi.
    Khách hàng : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट ्राई करूँगा।
    Đại lý : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चा ंसेज है।
    Khách hàng : सिरियसली एनी टिप्स यू केन शेर
    Đại lý : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम .
    Khách hàng : ग्रेट आइडिया थैंक्यू सो मच।
  5. Sử dụng lệnh sau để so sánh các tệp văn bản tham chiếu và giả thuyết mà bạn đã tạo:
    wer -i reference.txt hypothesis.txt

    Bạn nhận được đầu ra sau:

    REF: customer : हेलो,
    
    HYP: customer : हेलो,
    
    SENTENCE 1
    
    Correct = 100.0% 3 ( 3)
    
    Errors = 0.0% 0 ( 3)
    
    REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।
    
    SENTENCE 2
    
    Correct = 84.0% 21 ( 25)
    
    Errors = 16.0% 4 ( 25)
    
    REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?
    
    SENTENCE 3
    
    Correct = 96.0% 24 ( 25)
    
    Errors = 8.0% 2 ( 25)
    
    REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।
    
    SENTENCE 4
    
    Correct = 83.3% 20 ( 24)
    
    Errors = 16.7% 4 ( 24)
    
    REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
    
    SENTENCE 5
    
    Correct = 100.0% 14 ( 14)
    
    Errors = 0.0% 0 ( 14)
    
    REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।
    
    SENTENCE 6
    
    Correct = 100.0% 12 ( 12)
    
    Errors = 0.0% 0 ( 12)
    
    REF: customer : सिरियसली एनी टिप्स यू केन शेर
    
    HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर
    
    SENTENCE 7
    
    Correct = 75.0% 6 ( 8)
    
    Errors = 25.0% 2 ( 8)
    
    REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।
    
    HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
    
    SENTENCE 8
    
    Correct = 92.9% 13 ( 14)
    
    Errors = 7.1% 1 ( 14)
    
    REF: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।
    
    SENTENCE 9
    
    Correct = 100.0% 7 ( 7)
    
    Errors = 0.0% 0 ( 7)
    
    Sentence count: 9
    
    WER: 9.848% ( 13 / 132)
    
    WRR: 90.909% ( 120 / 132)
    
    SER: 55.556% ( 5 / 9)

Lệnh wer so sánh văn bản từ các tệp reference.txthypothesis.txt. Nó báo cáo lỗi cho từng câu và cũng như tổng số lỗi (WER: 9.848% (13/132)) trong toàn bộ bảng điểm.

Từ đầu ra trước đó, wer đã báo cáo 13 lỗi trong số 132 từ trong bảng điểm. Những lỗi này có thể thuộc ba loại:

  • Lỗi thay thế - Những điều này xảy ra khi Amazon Transcribe viết một từ thay cho một từ khác. Ví dụ: trong bảng điểm của chúng tôi, từ “महीना (Mahina) ”được viết thay vì“मिनार (Minar) ”trong câu 4.
  • Lỗi xóa - Những điều này xảy ra khi Amazon Transcribe bỏ sót hoàn toàn một từ trong bản ghi. Trong bản ghi của chúng tôi, từ “bạn ơi (Nam) ”bị bỏ sót trong câu 2.
  • Lỗi chèn - Những điều này xảy ra khi Amazon Transcribe chèn một từ chưa được nói. Chúng tôi không thấy bất kỳ lỗi chèn nào trong bản ghi của mình.

Các quan sát từ bảng điểm được tạo bởi mô hình mặc định

Chúng ta có thể thực hiện các nhận xét sau dựa trên bảng điểm:

  • Tổng WER là 9.848%, nghĩa là 90.152% các từ được phiên âm chính xác.
  • Mô hình tiếng Hindi mặc định đã phiên âm chính xác hầu hết các từ tiếng Anh. Điều này là do mô hình mặc định được đào tạo để nhận ra các từ tiếng Anh thông dụng nhất. Người mẫu cũng được đào tạo để nhận dạng ngôn ngữ Hinglish, nơi các từ tiếng Anh xuất hiện ngẫu nhiên trong các cuộc trò chuyện bằng tiếng Hindi. Ví dụ:
    • गुड मोर्निग - Chào buổi sáng (câu 2).
    • ट्रेवल एजेंसी - Công ty du lịch (câu 2).
    • ग्रेट आइडिया थैंक्यू सो मच - Đại ý cảm ơn bạn nhiều (câu 9).
  • Câu 4 mắc nhiều lỗi nhất là tên các địa danh ở thành phố Hyderabad của Ấn Độ:
    • हाँ बिल्कुल। हैदराबाद . उनमें से चार महीना गोलकुंडा फोर सलार Bạn có thể làm điều đó với tôi.

Trong bước tiếp theo, chúng tôi trình bày cách sửa các từ được đánh dấu trong câu trước bằng cách sử dụng từ vựng tùy chỉnh trong Amazon Transcribe:

  • चार महीना (Sạc Tháng) nên là चार मिनार (Sạc Làm suy yếu)
  • Chung quanhकुंbạn ơi (Golcunda four) nên गोलकोंbạn ơiर्ट (Golconda fort)
  • लार जंग (SaLar Jung) nên được àलार जंग (SaaLar Jung)

Đào tạo mô hình mặc định với từ vựng tùy chỉnh

Đến tạo một từ vựng tùy chỉnh, bạn cần tạo tệp văn bản ở định dạng bảng với các từ và cụm từ để đào tạo mô hình Amazon Transcribe mặc định. Bảng của bạn phải chứa tất cả bốn cột (Phrase, SoundsLike, IPADisplayAs), nhưng Phrase là cột duy nhất phải chứa mục nhập trên mỗi hàng. Bạn có thể để trống các cột khác. Mỗi cột phải được phân tách bằng một ký tự tab, ngay cả khi một số cột bị bỏ trống. Ví dụ, nếu bạn rời khỏi IPASoundsLike cột trống cho một hàng, PhraseDisplaysAs các cột trong hàng đó phải được phân tách bằng ba ký tự tab (giữa PhraseIPA, IPASoundsLikeSoundsLikeDisplaysAs).

Để huấn luyện mô hình với từ vựng tùy chỉnh, hãy hoàn thành các bước sau:

  1. Tạo một tập tin có tên HindiCustomVocabulary.txt với nội dung sau đây.
    Cụm từ IPA SoundsLike DisplayAs गोलकुंडा-फोर गोलकोंडा फोर्ट सालार-जंग सा-लार-जंग सालार जंग चार-महीना चार मिनार

    Bạn chỉ có thể sử dụng các ký tự được hỗ trợ cho ngôn ngữ của mình. Tham khảo ngôn ngữ của bạn bộ ký tự để biết thêm chi tiết.

    Các cột chứa thông tin sau:

    1. Phrase - Chứa các từ hoặc cụm từ mà bạn muốn phiên âm chính xác. Các từ hoặc cụm từ được đánh dấu trong bản chép lời được tạo bởi mô hình Amazon Transcribe mặc định sẽ xuất hiện trong cột này. Những từ này thường là từ viết tắt, danh từ riêng hoặc các từ và cụm từ theo miền cụ thể mà mô hình mặc định không nhận biết được. Đây là trường bắt buộc cho mọi hàng trong bảng từ vựng tùy chỉnh. Trong bảng điểm của chúng tôi, để sửa “गोलकुंडा फोर (Golcunda Four)” từ câu 4, hãy sử dụng “गोलकुंडा-फोर (Golcunda-Four)” trong cột này. Nếu mục nhập của bạn chứa nhiều từ, hãy phân tách từng từ bằng dấu gạch ngang (-); không sử dụng dấu cách.
    2. IPA - Chứa các từ hoặc cụm từ biểu thị âm thanh lời nói ở dạng viết. Cột là tùy chọn; bạn có thể để trống các hàng của nó. Cột này dành cho cách viết phiên âm chỉ sử dụng các ký tự trong Bảng chữ cái phiên âm quốc tế (IPA). Tham khảo bộ ký tự Hindi để biết các ký tự IPA được phép cho ngôn ngữ Hindi. Trong ví dụ của chúng tôi, chúng tôi không sử dụng IPA. Nếu bạn có một mục trong cột này, SoundsLike cột phải trống.
    3. SoundsLike - Chứa các từ hoặc cụm từ được chia thành các phần nhỏ hơn (thường dựa trên các âm tiết hoặc các từ thông dụng) để cung cấp cách phát âm cho mỗi phần dựa trên cách phát âm của phần đó. Cột này là tùy chọn; bạn có thể để trống các hàng. Chỉ thêm nội dung vào cột này nếu mục nhập của bạn có từ không chuẩn, chẳng hạn như tên thương hiệu hoặc để sửa một từ được phiên âm không chính xác. Trong bảng điểm của chúng tôi, để sửa “सलार जंग (Salar Jung)” từ câu 4, hãy sử dụng “सा-लार-जंग (Saa-lar-jung)” trong cột này. Không sử dụng khoảng trắng trong cột này. Nếu bạn có một mục trong cột này, IPA cột phải trống.
    4. DisplaysAs - Chứa các từ hoặc cụm từ với cách viết bạn muốn xem trong đầu ra phiên âm cho các từ hoặc cụm từ trong Phrase đồng ruộng. Cột này là tùy chọn; bạn có thể để trống các hàng. Nếu bạn không chỉ định trường này, Amazon Transcribe sẽ sử dụng nội dung của Phrase trong tệp đầu ra. Ví dụ: trong bảng điểm của chúng tôi, để sửa “गोलकुंडा फोर (Golcunda Four)” từ câu 4, hãy sử dụng “गोलकोंडा फोर्ट (Golconda Fort)” trong cột này.
  2. Tải lên tệp văn bản (HindiCustomVocabulary.txt) vào nhóm S3. Bây giờ chúng tôi tạo một từ vựng tùy chỉnh trong Amazon Transcribe.
  3. Trên bảng điều khiển Amazon Transcribe, hãy chọn Từ vựng tùy chỉnh trong khung điều hướng.
  4. Trong Họ tên, nhập tên.
  5. Trong Ngôn ngữ, chọn Tiếng Hindi, IN (hi-IN).
  6. Trong Nguồn đầu vào từ vựng, lựa chọn Vị trí S3.
  7. Trong Vị trí tệp từ vựng trên S3, nhập đường dẫn S3 của HindiCustomVocabulary.txt tập tin.
  8. Chọn Tạo từ vựng. Cải thiện độ chính xác của bản ghi của các cuộc gọi giữa tổng đài viên và khách hàng bằng từ vựng tùy chỉnh trong Amazon Transcribe PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  9. Phiên âm SampleAudio.wav tệp với từ vựng tùy chỉnh, với các tham số sau:
    1. Trong Tên công việc , đi vào SampleAudioCustomVocabulary.
    2. Trong Ngôn ngữ, chọn Tiếng Hindi, IN (hi-IN).
    3. Trong Nhập vị trí tệp trên S3, duyệt đến vị trí của SampleAudio.wav.
    4. Trong Vai trò IAM, lựa chọn Sử dụng vai trò IAM hiện có và chọn vai trò bạn đã tạo trước đó.
    5. Trong tạp chí Định cấu hình công việc phần, chọn Từ vựng tùy chỉnh và chọn từ vựng tùy chỉnh HindiCustomVocabulary.
  10. Chọn Tạo việc làm.

Cải thiện độ chính xác của bản ghi của các cuộc gọi giữa tổng đài viên và khách hàng bằng từ vựng tùy chỉnh trong Amazon Transcribe PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Đo độ chính xác của mô hình sau khi sử dụng từ vựng tùy chỉnh

Sao chép bảng điểm từ trang chi tiết công việc Phiên âm Amazon sang tệp văn bản có tên hypothesis-custom-vocabulary.txt:

Khách hàng : xin chào,

Đại lý : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहाय ता कर सकती हूँ।

Khách hàng : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे म ें सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता स Bạn đã làm gì?

Đại lý : हाँ बिल्कुल। हैदराबाद . उनमें से चार मिनार गोलकोंडा फोर्ट सालार Bạn có thể làm điều đó với tôi.

Khách hàng : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट ्राई करूँगा।

Đại lý : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चा ंसेज है।

Khách hàng : सिरियसली एनी टिप्स चिकन शेर

Đại lý : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब ्लम नहीं होगा।

Khách hàng : ग्रेट आइडिया थैंक्यू सो मच।

Lưu ý rằng các từ được đánh dấu sẽ được phiên âm như mong muốn.

Chạy wer lệnh một lần nữa với bản ghi mới:

wer -i reference.txt hypothesis-custom-vocabulary.txt

Bạn nhận được đầu ra sau:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

Các quan sát từ bản chép lời được tạo bằng từ vựng tùy chỉnh

Tổng WER là 6.061%, nghĩa là 93.939% các từ được phiên âm chính xác.

Hãy so sánh đầu ra wer cho câu 4 có và không có từ vựng tùy chỉnh. Sau đây là không có từ vựng tùy chỉnh:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

Sau đây là với từ vựng tùy chỉnh:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

Không có lỗi nào trong câu 4. Tên của các địa điểm được phiên âm chính xác với sự trợ giúp của từ vựng tùy chỉnh, do đó giảm WER tổng thể từ 9.848% xuống 6.061% cho tệp âm thanh này. Điều này có nghĩa là độ chính xác của phiên mã được cải thiện gần 4%.

Từ vựng tùy chỉnh đã cải thiện độ chính xác như thế nào

Chúng tôi đã sử dụng các từ vựng tùy chỉnh sau:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe sẽ kiểm tra xem có bất kỳ từ nào trong tệp âm thanh giống như những từ được đề cập trong Phrase cột. Sau đó, mô hình sử dụng các mục nhập trong IPA, SoundsLikeDisplaysAs cột cho những từ cụ thể đó để phiên âm với cách viết mong muốn.

Với từ vựng tùy chỉnh này, khi Amazon Transcribe xác định một từ phát âm như “गोलकुंडा-फोर (Golcunda-Four)”, nó sẽ phiên âm từ đó thành “गोलकोंडा फोर्ट (Golconda Fort)”.

Khuyến nghị

Độ chính xác của phiên âm cũng phụ thuộc vào các thông số như phát âm của người nói, chồng chéo loa, tốc độ nói và tiếng ồn xung quanh. Do đó, chúng tôi khuyên bạn nên thực hiện theo quy trình với nhiều cuộc gọi (với các khách hàng, đại lý, gián đoạn khác nhau, v.v.) bao gồm các từ cụ thể theo miền thường được sử dụng nhất để bạn xây dựng vốn từ vựng tùy chỉnh toàn diện.

Trong bài đăng này, chúng tôi đã tìm hiểu quy trình cải thiện độ chính xác của việc phiên âm một cuộc gọi âm thanh bằng cách sử dụng từ vựng tùy chỉnh. Để xử lý hàng nghìn bản ghi âm cuộc gọi từ trung tâm liên hệ của bạn mỗi ngày, bạn có thể sử dụng đăng phân tích cuộc gọi, một giải pháp end-to-end hoàn toàn tự động, có thể mở rộng và tiết kiệm chi phí, giúp xử lý hầu hết các công việc nặng nhọc. Bạn chỉ cần tải các tệp âm thanh của mình lên bộ chứa S3 và trong vòng vài phút, giải pháp cung cấp phân tích cuộc gọi như cảm xúc trong giao diện người dùng web. Phân tích cuộc gọi sau cung cấp thông tin chi tiết hữu ích để phát hiện các xu hướng mới nổi, xác định cơ hội huấn luyện đại lý và đánh giá tâm lý chung của các cuộc gọi. giải pháp mã nguồn mở mà bạn có thể triển khai bằng cách sử dụng Hình thành đám mây AWS.

Lưu ý rằng các từ vựng tùy chỉnh không sử dụng ngữ cảnh mà các từ được nói, chúng chỉ tập trung vào các từ riêng lẻ mà bạn cung cấp. Để cải thiện hơn nữa độ chính xác, bạn có thể sử dụng mô hình ngôn ngữ tùy chỉnh. Không giống như các từ vựng tùy chỉnh, kết hợp phát âm với chính tả, các mô hình ngôn ngữ tùy chỉnh học ngữ cảnh liên quan đến một từ nhất định. Điều này bao gồm cách thức và thời điểm một từ được sử dụng, và mối quan hệ của một từ với các từ khác. Để tạo mô hình ngôn ngữ tùy chỉnh, bạn có thể sử dụng các phiên âm thu được từ quá trình chúng tôi đã học được cho nhiều cuộc gọi khác nhau và kết hợp chúng với nội dung từ các trang web hoặc hướng dẫn sử dụng của bạn có chứa các từ và cụm từ dành riêng cho miền.

Để đạt được độ chính xác của phiên âm cao nhất với phiên âm hàng loạt, bạn có thể sử dụng các từ vựng tùy chỉnh kết hợp với các mô hình ngôn ngữ tùy chỉnh của mình.

Kết luận

Trong bài đăng này, chúng tôi đã cung cấp các bước chi tiết để xử lý chính xác các tệp âm thanh tiếng Hindi chứa các từ tiếng Anh bằng cách sử dụng phân tích cuộc gọi và từ vựng tùy chỉnh trong Amazon Transcribe. Bạn có thể sử dụng các bước tương tự này để xử lý cuộc gọi âm thanh với bất kỳ ngôn ngữ được hỗ trợ của Amazon Transcribe.

Sau khi thu được các bản chép lời với độ chính xác mong muốn, bạn có thể cải thiện các cuộc trò chuyện giữa đại lý và khách hàng bằng cách đào tạo các đại lý của mình. Bạn cũng có thể hiểu được cảm xúc và xu hướng của khách hàng. Với sự trợ giúp của phân cực người nói, phát hiện độ ồn và các tính năng lọc từ vựng trong phân tích cuộc gọi, bạn có thể xác định xem chính người đại diện hay khách hàng đã lên giọng hoặc nói bất kỳ từ cụ thể nào. Bạn có thể phân loại cuộc gọi dựa trên các từ dành riêng cho miền, nắm bắt thông tin chi tiết hữu ích và chạy phân tích để cải thiện sản phẩm của mình. Cuối cùng, bạn có thể dịch bảng điểm của mình sang tiếng Anh hoặc các ngôn ngữ được hỗ trợ khác mà bạn chọn bằng cách sử dụng Amazon Dịch.


Về các tác giả

Cải thiện độ chính xác của bản ghi của các cuộc gọi giữa tổng đài viên và khách hàng bằng từ vựng tùy chỉnh trong Amazon Transcribe PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Sarat Guttikonda là Kiến trúc sư Giải pháp Sơ cấp trong Khu vực Công cộng Toàn cầu của AWS. Sarat thích giúp khách hàng tự động hóa, quản lý và điều hành các tài nguyên đám mây của họ mà không phải hy sinh sự nhanh nhạy trong kinh doanh. Khi rảnh rỗi, anh ấy thích xây dựng Legos với con trai và chơi bóng bàn.

Cải thiện độ chính xác của bản ghi của các cuộc gọi giữa tổng đài viên và khách hàng bằng từ vựng tùy chỉnh trong Amazon Transcribe PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Lavanya Sood là Kiến trúc sư Giải pháp trong Khu vực Công cộng Toàn cầu của AWS có trụ sở tại New Delhi, Ấn Độ. Lavanya thích học hỏi các công nghệ mới và giúp đỡ khách hàng trong hành trình sử dụng đám mây của họ. Khi rảnh rỗi, cô thích đi du lịch và thử các món ăn khác nhau.

Dấu thời gian:

Thêm từ Học máy AWS