ปรับปรุงความแม่นยำในการถอดเสียงของการโทรผ่านตัวแทนลูกค้าด้วยคำศัพท์ที่กำหนดเองใน Amazon Transcribe

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

AWS มากมาย ลูกค้า ใช้สำเร็จแล้ว ถอดความจากอเมซอน เพื่อแปลงการสนทนาเสียงของลูกค้าเป็นข้อความได้อย่างแม่นยำ มีประสิทธิภาพ และโดยอัตโนมัติ และดึงข้อมูลเชิงลึกที่นำไปใช้ได้จริงจากพวกเขา ข้อมูลเชิงลึกเหล่านี้สามารถช่วยให้คุณปรับปรุงกระบวนการและผลิตภัณฑ์อย่างต่อเนื่องซึ่งปรับปรุงคุณภาพและประสบการณ์ให้กับลูกค้าของคุณโดยตรง

ในหลายประเทศ เช่น อินเดีย ภาษาอังกฤษไม่ใช่ภาษาหลักในการสื่อสาร การสนทนากับลูกค้าชาวอินเดียประกอบด้วยภาษาประจำภูมิภาค เช่น ฮินดี โดยมีคำและวลีภาษาอังกฤษที่พูดแบบสุ่มตลอดการโทร ในไฟล์สื่อต้นทาง อาจมีคำนามที่เหมาะสม คำย่อเฉพาะโดเมน คำ หรือวลีที่รูปแบบเริ่มต้นของ Amazon Transcribe ไม่ทราบ การถอดเสียงสำหรับไฟล์สื่อดังกล่าวอาจมีการสะกดคำที่ไม่ถูกต้อง

ในโพสต์นี้ เราสาธิตวิธีให้ข้อมูลเพิ่มเติมแก่ Amazon Transcribe ด้วย คำศัพท์ที่กำหนดเอง เพื่ออัปเดตวิธีที่ Amazon Transcribe จัดการกับการถอดเสียงไฟล์เสียงของคุณด้วยคำศัพท์เฉพาะธุรกิจ เราแสดงขั้นตอนในการปรับปรุงความถูกต้องของการถอดเสียงเป็นคำสำหรับการโทรแบบ Hinglish (การโทรแบบภาษาฮินดีของอินเดียที่มีคำและวลีภาษาอังกฤษแบบอินเดีย) คุณสามารถใช้กระบวนการเดียวกันนี้เพื่อถอดเสียงการโทรด้วยเสียงด้วย any ภาษาที่รองรับ โดย Amazon Transcribe หลังจากที่คุณสร้างคำศัพท์ที่กำหนดเองแล้ว คุณสามารถถอดเสียงการโทรด้วยเสียงได้อย่างแม่นยำและหลากหลายโดยใช้ .ของเรา การวิเคราะห์หลังการโทร วิธีแก้ปัญหาซึ่งเราจะพูดถึงเพิ่มเติมในโพสต์นี้

ภาพรวมโซลูชัน

เราใช้การโทรด้วยเสียงภาษาฮินดีของอินเดีย (SampleAudio.wav) พร้อมสุ่มคำศัพท์ภาษาอังกฤษเพื่อสาธิตกระบวนการ

จากนั้นเราจะแนะนำคุณผ่านขั้นตอนระดับสูงดังต่อไปนี้:

ถอดเสียงไฟล์เสียงโดยใช้โมเดล Amazon Transcribe ภาษาฮินดีเริ่มต้น
วัดความถูกต้องของแบบจำลอง
ฝึกโมเดลด้วยคำศัพท์ที่กำหนดเอง
วัดความแม่นยำของแบบจำลองที่ได้รับการฝึกอบรม

เบื้องต้น

ก่อนที่เราจะเริ่มต้นเราต้องยืนยันว่าไฟล์เสียงที่ป้อนเข้าตรงกับ ถอดความข้อกำหนดการป้อนข้อมูล.

A โมโนโฟนิก บันทึก เรียกอีกอย่างว่า โมโนมีสัญญาณเสียงหนึ่งสัญญาณ ซึ่งองค์ประกอบเสียงทั้งหมดของตัวแทนและลูกค้าจะรวมกันเป็นช่องทางเดียว อา สเตอริโอ บันทึก เรียกอีกอย่างว่า สเตอริโอมีสัญญาณเสียงสองสัญญาณเพื่อจับองค์ประกอบเสียงของตัวแทนและลูกค้าในสองช่องทางที่แยกจากกัน ไฟล์บันทึกของตัวแทน-ลูกค้าแต่ละไฟล์ประกอบด้วยช่องสัญญาณเสียงสองช่อง ช่องหนึ่งสำหรับตัวแทนและอีกช่องหนึ่งสำหรับลูกค้า

การบันทึกเสียงที่มีความเที่ยงตรงต่ำ เช่น การบันทึกเสียงทางโทรศัพท์ มักใช้อัตราการสุ่มตัวอย่าง 8,000 Hz Amazon Transcribe รองรับการประมวลผลแบบโมโนที่บันทึกและไฟล์เสียงที่มีความเที่ยงตรงสูงด้วยอัตราตัวอย่างระหว่าง 16,000–48,000 Hz

เพื่อผลลัพธ์การถอดเสียงที่ดีขึ้นและเพื่อแยกแยะคำพูดที่พูดโดยตัวแทนและลูกค้าได้อย่างชัดเจน เราขอแนะนำให้ใช้ไฟล์เสียงที่บันทึกที่อัตราการสุ่มตัวอย่าง 8,000 Hz และแยกช่องสัญญาณสเตอริโอ

คุณสามารถใช้เครื่องมือเช่น ffmpeg เพื่อตรวจสอบไฟล์เสียงอินพุตของคุณจากบรรทัดคำสั่ง:

ffmpeg -i SampleAudio.wav

ในการตอบกลับ ให้ตรวจสอบบรรทัดที่ขึ้นต้นด้วย Stream ในส่วน Input และยืนยันว่าไฟล์เสียงเป็น 8,000 Hz และแยกช่องสัญญาณสเตอริโอ:

Input #0, wav, from 'SampleAudio.wav':
Duration: 00:01:06.36, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 8000 Hz, stereo, s16, 256 kb/s

เมื่อคุณสร้างไปป์ไลน์เพื่อประมวลผลไฟล์เสียงจำนวนมาก คุณสามารถทำให้ขั้นตอนนี้เป็นอัตโนมัติเพื่อกรองไฟล์ที่ไม่ตรงตามข้อกำหนด

ตามขั้นตอนเบื้องต้นเพิ่มเติม ให้สร้างบัคเก็ต Amazon Simple Storage Service (Amazon S3) เพื่อโฮสต์ไฟล์เสียงที่จะถอดเสียง สำหรับคำแนะนำ โปรดดูที่ สร้างที่เก็บข้อมูล S3 แรกของคุณ. แล้ว อัพโหลดไฟล์เสียง ไปที่ถัง S3

ถอดเสียงไฟล์เสียงด้วยโมเดลเริ่มต้น

ตอนนี้เราสามารถ เริ่มต้น Amazon Transcribe เรียกใช้งานการวิเคราะห์โดยใช้ไฟล์เสียงที่เราอัปโหลด ในตัวอย่างนี้ เราใช้ คอนโซลการจัดการ AWS เพื่อถอดเสียงไฟล์เสียง คุณยังสามารถใช้ อินเทอร์เฟซบรรทัดคำสั่ง AWS AWS (AWS CLI) หรือ AWS SDK

บนคอนโซล Amazon Transcribe ให้เลือก การวิเคราะห์การโทร ในบานหน้าต่างนำทาง
Choose งานวิเคราะห์การโทร.
Choose สร้างงาน.
สำหรับ Name, ป้อนชื่อ
สำหรับ ตั้งค่าภาษาให้เลือก ภาษาเฉพาะ.
สำหรับ ภาษาเลือก ฮินดี อิน (hi-IN).
สำหรับ ประเภทรุ่นให้เลือก รุ่นทั่วไป.
สำหรับ ป้อนตำแหน่งไฟล์บน S3เรียกดูที่ฝากข้อมูล S3 ที่มีไฟล์เสียงที่อัปโหลด
ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร ข้อมูลเอาต์พุต ส่วน ปล่อยให้เป็นค่าเริ่มต้น
ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร สิทธิ์การเข้าถึง เลือก สร้างบทบาท IAM.
สร้างใหม่ AWS Identity และการจัดการการเข้าถึง บทบาท (IAM) ชื่อ HindiTranscription ที่ให้สิทธิ์บริการ Amazon Transcribe เพื่ออ่านไฟล์เสียงจากบัคเก็ต S3 และใช้ บริการจัดการคีย์ AWS (AWS KMS) คีย์เพื่อถอดรหัส
ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร กำหนดค่างาน ส่วนปล่อยให้ค่าเริ่มต้นรวมถึง คำศัพท์ที่กำหนดเอง ยกเลิกการเลือก
Choose สร้างงาน เพื่อถอดเสียงไฟล์เสียง

เมื่อสถานะของงานเสร็จสมบูรณ์ คุณสามารถตรวจสอบการถอดเสียงเป็นคำได้โดยเลือกงาน (SampleAudio)

ประโยคลูกค้าและตัวแทนถูกแยกออกอย่างชัดเจน ซึ่งช่วยให้เราระบุได้ว่าลูกค้าหรือตัวแทนพูดคำหรือวลีเฉพาะเจาะจงหรือไม่

วัดความถูกต้องของแบบจำลอง

อัตราข้อผิดพลาดของคำ (WER) เป็นตัวชี้วัดที่แนะนำและใช้กันมากที่สุดสำหรับการประเมินความถูกต้องของระบบรู้จำเสียงอัตโนมัติ (ASR) เป้าหมายคือการลด WER ให้มากที่สุดเพื่อปรับปรุงความแม่นยำของระบบ ASR

ในการคำนวณ WER ให้ทำตามขั้นตอนต่อไปนี้ โพสต์นี้ใช้โอเพ่นซอร์ส การประเมิน asr เครื่องมือประเมินผลเพื่อคำนวณ WER แต่เครื่องมืออื่นๆ เช่น วท or จิวเวอร์ นอกจากนี้ยังมี

การติดตั้ง asr-evaluation เครื่องมือ ซึ่งทำให้สคริปต์ we พร้อมใช้งานบนบรรทัดคำสั่งของคุณ
ใช้บรรทัดคำสั่งบนแพลตฟอร์ม macOS หรือ Linux เพื่อเรียกใช้คำสั่ง we ที่แสดงในภายหลังในโพสต์
คัดลอกการถอดเสียงจากหน้ารายละเอียดงานของ Amazon Transcribe ไปยังไฟล์ข้อความชื่อ hypothesis.txt.
เมื่อคุณคัดลอกการถอดเสียงเป็นคำจากคอนโซล คุณจะสังเกตเห็นอักขระขึ้นบรรทัดใหม่ระหว่างคำ Agent :, Customer :, และอักษรฮินดี
อักขระบรรทัดใหม่ถูกลบออกเพื่อประหยัดพื้นที่ในโพสต์นี้ หากคุณเลือกใช้ข้อความตามที่มาจากคอนโซล ตรวจสอบให้แน่ใจว่าไฟล์ข้อความอ้างอิงที่คุณสร้างมีอักขระขึ้นบรรทัดใหม่ด้วย เนื่องจากเครื่องมือ we เปรียบเทียบทีละบรรทัด
ตรวจสอบการถอดเสียงทั้งหมดและระบุคำหรือวลีที่ต้องแก้ไข:
ลูกค้า : เฮ้,
ตัวแทน : गुड मोर्निग इंडिया ट्रेवल एजेंसी เกาหลี เซม है। อิสรภาพ
ลูกค้า : มึน บาส สุขภาพดี हैदराबाद ट्रेवल के बारे में सोच रहा था। พจนานุกรม
ตัวแทน :ฮะฮะ พิลคลูล। हैदराबाद में बहुत सारे प्लेस है। उनमें से ชารา มาฮินีน่า โกลกีนดา โซระ สาลู ค้นหา
ลูกค้า : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
ตัวแทน : एक सजेशन वीकेंड में टมาก่อน
ลูกค้า : สิรียาสลิ ए นี ที ปิเปส ชิคเก้น เชอเร่
ตัวแทน : आप टेक्सी यूस कर लो ดร.บูรพา ภาษาอังกฤษ
ลูกค้า : ग्रेटआइडिया थैंक्यू सो मच।คำที่ไฮไลต์คือคำที่โมเดล Amazon Transcribe เริ่มต้นแสดงผลไม่ถูกต้อง
สร้างไฟล์ข้อความอื่นชื่อ reference.txtโดยแทนที่คำที่ไฮไลต์ด้วยคำที่ต้องการที่คุณคาดว่าจะเห็นในการถอดเสียงเป็นคำ:
ลูกค้า : เฮ้,
ตัวแทน : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी เกาหลี เซส มูน । อิสรภาพ
ลูกค้า : มึน บาส สุขภาพดี हैदराबाद ट्रेवल के बारे में सोच रहा था। พจนานุกรม
ตัวแทน : ฮะँ พิลคลู้ล। हैदराबाद में बहुत सारे प्लेस है। उनमें से ชารา มินนารา โกลโคนดา โรท สาลาไร ค้นหา
ลูกค้า : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
ตัวแทน : एक सजेशन वीकेंड में टมาก่อน
ลูกค้า : สิรียาสลิ ए นี ที ปิเปส ยัค แคน เชอเร่
ตัวแทน : आप टेक्सी यूस कर लो ดร.วัช ภาษาอังกฤษ
ลูกค้า : ग्रेटआइडिया थैंक्यू सो मच।

ใช้คำสั่งต่อไปนี้เพื่อเปรียบเทียบไฟล์ข้อความอ้างอิงและสมมติฐานที่คุณสร้างขึ้น:

wer -i reference.txt hypothesis.txt

คุณได้รับผลลัพธ์ต่อไปนี้:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 92.9% 13 ( 14)

Errors = 7.1% 1 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 9.848% ( 13 / 132)

WRR: 90.909% ( 120 / 132)

SER: 55.556% ( 5 / 9)

คำสั่ง we เปรียบเทียบข้อความจากไฟล์ reference.txt และ hypothesis.txt. รายงานข้อผิดพลาดสำหรับแต่ละประโยคและจำนวนข้อผิดพลาดทั้งหมด (WER: 9.848% ( 13 / 132)) ในการถอดเสียงทั้งหมด

จากผลลัพธ์ก่อนหน้านี้ มีการรายงานข้อผิดพลาด 13 ข้อจาก 132 คำในการถอดเสียง ข้อผิดพลาดเหล่านี้สามารถเป็นสามประเภท:

ข้อผิดพลาดในการทดแทน – สิ่งเหล่านี้เกิดขึ้นเมื่อ Amazon Transcribe เขียนคำหนึ่งแทนที่อีกคำหนึ่ง ตัวอย่างเช่น ในการถอดเสียงของเรา คำว่า “มานีน่า (มหิหนะ)” ถูกเขียนแทนคำว่า “มินนารา (Minar)” ในประโยคที่ 4
ข้อผิดพลาดในการลบ – สิ่งเหล่านี้เกิดขึ้นเมื่อ Amazon Transcribe พลาดคำใดๆ ในการถอดเสียง ในการถอดเสียง คำว่า “ซอ (ใต้)” พลาดในประโยคที่ 2
ข้อผิดพลาดในการแทรก – สิ่งเหล่านี้เกิดขึ้นเมื่อ Amazon Transcribe แทรกคำที่ไม่ได้พูด เราไม่เห็นข้อผิดพลาดในการแทรกในการถอดเสียงของเรา

การสังเกตจากการถอดเสียงที่สร้างขึ้นโดยโมเดลเริ่มต้น

เราสามารถทำการสังเกตต่อไปนี้ตามการถอดเสียง:

WER ทั้งหมดเท่ากับ 9.848% ซึ่งหมายความว่า 90.152% ของคำถูกถอดความอย่างถูกต้อง
รูปแบบภาษาฮินดูที่เป็นค่าเริ่มต้นถอดเสียงคำภาษาอังกฤษส่วนใหญ่ได้อย่างแม่นยำ เนื่องจากโมเดลเริ่มต้นได้รับการฝึกฝนให้รู้จักคำภาษาอังกฤษทั่วไปส่วนใหญ่ โมเดลนี้ยังได้รับการฝึกฝนให้รู้จักภาษาฮิงลิช โดยคำภาษาอังกฤษจะสุ่มปรากฏขึ้นในการสนทนาภาษาฮินดี ตัวอย่างเช่น:
- गुड मोर्निग – สวัสดีตอนเช้า (ประโยคที่ 2).
- ट्रेवल एजेंसी – บริษัทตัวแทนท่องเที่ยว (ประโยค 2).
- ग्रेटआइडिया थैंक्यू सो मच – ความคิดที่ดี ขอบคุณมาก (ประโยคที่ 9)
ประโยคที่ 4 มีข้อผิดพลาดมากที่สุดซึ่งเป็นชื่อสถานที่ในเมืองไฮเดอราบัดของอินเดีย:
- ฮะँ พิลคลู้ล। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार ค้นหา

ในขั้นตอนต่อไป เราสาธิตวิธีแก้ไขคำที่เน้นสีในประโยคก่อนหน้าโดยใช้คำศัพท์ที่กำหนดเองใน Amazon Transcribe:

ชารี มานีน่า (ชา มหินา) ควรจะเป็น ชารี มินนารา (ชา บ่อนทำลาย)
โกลล่าคึด๊า โर (โกลcunda โฟur) ควรเป็น गोलค็อนด๊า โอาร์ต (โกลconda โฟrt)
सลาร จังง (Saลาร์จัง) ควรจะเป็น สาลาร จังง (สาลาร์จัง)

ฝึกโมเดลเริ่มต้นด้วยคำศัพท์ที่กำหนดเอง

ไปยัง สร้างคำศัพท์ที่กำหนดเองคุณต้องสร้างไฟล์ข้อความในรูปแบบตารางที่มีคำและวลีเพื่อฝึกโมเดล Amazon Transcribe เริ่มต้น ตารางของคุณต้องมีทั้งสี่คอลัมน์ (Phrase, SoundsLike, IPAและ DisplayAs), แต่ Phrase เป็นคอลัมน์เดียวที่ต้องมีรายการในแต่ละแถว คุณสามารถเว้นคอลัมน์อื่นๆ ว่างไว้ได้ แต่ละคอลัมน์ต้องคั่นด้วยอักขระแท็บ แม้ว่าบางคอลัมน์จะเว้นว่างไว้ก็ตาม ตัวอย่างเช่น หากคุณออกจาก IPA และ SoundsLike คอลัมน์ว่างสำหรับแถว, the Phrase และ DisplaysAs คอลัมน์ในแถวนั้นจะต้องคั่นด้วยอักขระแท็บสามตัว (ระหว่าง Phrase และ IPA, IPA และ SoundsLikeและ SoundsLike และ DisplaysAs).

ในการฝึกโมเดลด้วยคำศัพท์ที่กำหนดเอง ให้ทำตามขั้นตอนต่อไปนี้:

สร้างชื่อไฟล์ HindiCustomVocabulary.txt โดยมีเนื้อหาดังต่อไปนี้
```
วลี IPA SoundsLike DisplayAs गोलकुंडा-फोर गोलकोंडा फोर्ट सालार-जंग सा-लार-जंग सालार जंग चार-महीना चार मिनार
```
คุณสามารถใช้ได้เฉพาะอักขระที่รองรับภาษาของคุณเท่านั้น อ้างถึงภาษาของคุณ ชุดตัวอักษร เพื่อดูรายละเอียด

คอลัมน์ประกอบด้วยข้อมูลต่อไปนี้:
1. Phrase – ประกอบด้วยคำหรือวลีที่คุณต้องการถอดเสียงให้ถูกต้อง คำหรือวลีที่ไฮไลต์ในการถอดเสียงที่สร้างโดยโมเดล Amazon Transcribe เริ่มต้นจะปรากฏในคอลัมน์นี้ คำเหล่านี้เป็นคำย่อ คำนามเฉพาะ หรือคำและวลีเฉพาะโดเมนที่รูปแบบเริ่มต้นไม่ทราบ นี่เป็นฟิลด์บังคับสำหรับทุกแถวในตารางคำศัพท์ที่กำหนดเอง ในการถอดเสียงของเรา หากต้องการแก้ไข “गोलकुंडा फोर (Golcunda Four)” จากประโยคที่ 4 ให้ใช้ “गोलकुंडा-फोर (Golcunda-Four)” ในคอลัมน์นี้ หากรายการของคุณมีหลายคำ ให้แยกแต่ละคำด้วยยัติภังค์ (-); อย่าใช้ช่องว่าง
2. IPA – ประกอบด้วยคำหรือวลีที่แสดงเสียงพูดในรูปแบบการเขียน คอลัมน์เป็นตัวเลือก คุณสามารถเว้นแถวว่างไว้ได้ คอลัมน์นี้มีไว้สำหรับการสะกดคำแบบออกเสียงโดยใช้อักขระใน International Phonetic Alphabet (IPA) เท่านั้น อ้างถึงชุดอักขระภาษาฮินดีสำหรับอักขระ IPA ที่อนุญาตสำหรับภาษาฮินดี ในตัวอย่างของเรา เราไม่ได้ใช้ IPA หากคุณมีรายการในคอลัมน์นี้ . ของคุณ SoundsLike คอลัมน์ต้องว่างเปล่า
3. SoundsLike – ประกอบด้วยคำหรือวลีที่แบ่งออกเป็นชิ้นเล็ก ๆ (โดยทั่วไปตามพยางค์หรือคำทั่วไป) เพื่อให้การออกเสียงสำหรับแต่ละชิ้นขึ้นอยู่กับว่าเสียงของเพลงนั้นเป็นอย่างไร คอลัมน์นี้เป็นทางเลือก คุณสามารถเว้นแถวว่างไว้ได้ เพิ่มเนื้อหาในคอลัมน์นี้เฉพาะในกรณีที่รายการของคุณมีคำที่ไม่เป็นมาตรฐาน เช่น ชื่อแบรนด์ หรือเพื่อแก้ไขคำที่ถอดความอย่างไม่ถูกต้อง ในการถอดเสียงของเรา หากต้องการแก้ไข “सलार जंग (Salar Jung)” จากประโยคที่ 4 ให้ใช้ “सा-लार-जंग (Saa-lar-jung)” ในคอลัมน์นี้ อย่าใช้ช่องว่างในคอลัมน์นี้ หากคุณมีรายการในคอลัมน์นี้ . ของคุณ IPA คอลัมน์ต้องว่างเปล่า
4. DisplaysAs – ประกอบด้วยคำหรือวลีที่มีการสะกดคำที่คุณต้องการดูในผลลัพธ์การถอดความสำหรับคำหรือวลีใน Phrase สนาม. คอลัมน์นี้เป็นทางเลือก คุณสามารถเว้นแถวว่างไว้ได้ หากคุณไม่ระบุฟิลด์นี้ Amazon Transcribe จะใช้เนื้อหาของ Phrase ฟิลด์ในไฟล์เอาต์พุต ตัวอย่างเช่น ในการถอดเสียงของเรา หากต้องการแก้ไข “गोलकुंडा फोर (Golcunda Four)” จากประโยคที่ 4 ให้ใช้ “गोलकोंडा फोर्ट (ป้อม Golconda)” ในคอลัมน์นี้
อัพโหลด ไฟล์ข้อความ (HindiCustomVocabulary.txt) ไปยังบัคเก็ต S3 ตอนนี้เราสร้างคำศัพท์ที่กำหนดเองใน Amazon Transcribe
บนคอนโซล Amazon Transcribe ให้เลือก คำศัพท์ที่กำหนดเอง ในบานหน้าต่างนำทาง
สำหรับ Name, ป้อนชื่อ
สำหรับ ภาษาเลือก ฮินดี อิน (hi-IN).
สำหรับ แหล่งป้อนคำศัพท์ให้เลือก ที่ตั้ง S3.
สำหรับ ตำแหน่งไฟล์คำศัพท์ใน S3ป้อนเส้นทาง S3 ของ HindiCustomVocabulary.txt ไฟล์
Choose สร้างคำศัพท์.
ถอดความ SampleAudio.wav ไฟล์ที่มีคำศัพท์ที่กำหนดเอง โดยมีพารามิเตอร์ต่อไปนี้:
1. สำหรับ ชื่องาน ป้อน SampleAudioCustomVocabulary.
2. สำหรับ ภาษาเลือก ฮินดี อิน (hi-IN).
3. สำหรับ ป้อนตำแหน่งไฟล์บน S3, เรียกดูตำแหน่งของ SampleAudio.wav.
4. สำหรับ บทบาท IAMให้เลือก ใช้บทบาท IAM ที่มีอยู่ และเลือกบทบาทที่คุณสร้างไว้ก่อนหน้านี้
5. ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร กำหนดค่างาน เลือก คำศัพท์ที่กำหนดเอง และเลือกคำศัพท์ที่กำหนดเอง HindiCustomVocabulary.
Choose สร้างงาน.

วัดความถูกต้องของแบบจำลองหลังจากใช้คำศัพท์ที่กำหนดเอง

คัดลอกการถอดเสียงจากหน้ารายละเอียดงานของ Amazon Transcribe ไปยังไฟล์ข้อความชื่อ hypothesis-custom-vocabulary.txt:

ลูกค้า : เฮ้,

ตัวแทน : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। อิสรภาพ

ลูกค้า : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोบะ रहा था। พจนานุกรม

ตัวแทน : ฮะँ พิลคลู้ล। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार ขนาด ค้นหา

ลูกค้า : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

ตัวแทน : एक सजेशन वीकेंड में टมาก่อน

ลูกค้า : सिरियसलीएनी टिप्स चिकन शेर

ตัวแทน : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।

ลูกค้า : ग्रेटआइडिया थैंक्यू सो मच।

โปรดทราบว่าคำที่ไฮไลต์จะถูกคัดลอกตามต้องการ

เรียกใช้ wer คำสั่งอีกครั้งด้วยการถอดเสียงใหม่:

wer -i reference.txt hypothesis-custom-vocabulary.txt

คุณได้รับผลลัพธ์ต่อไปนี้:

REF: customer : हेलो,

HYP: customer : हेलो,

SENTENCE 1

Correct = 100.0% 3 ( 3)

Errors = 0.0% 0 ( 3)

REF: agent : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी से मैं । लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

HYP: agent : गुड मोर्निग *** इंडिया ट्रेवल एजेंसी ** सेम है। लावन्या बात कर रही हूँ किस तरह से मैं आपकी सहायता कर सकती हूँ।

SENTENCE 2

Correct = 84.0% 21 ( 25)

Errors = 16.0% 4 ( 25)

REF: customer : मैं बहुत ***** दिनोंसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

HYP: customer : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोच रहा था। क्या आप मुझे कुछ अच्छे लोकेशन के बारे में बता सकती हैं?

SENTENCE 3

Correct = 96.0% 24 ( 25)

Errors = 8.0% 2 ( 25)

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

REF: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

HYP: customer : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।

SENTENCE 5

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

HYP: agent : एक सजेशन वीकेंड में ट्रैफिक ज्यादा रहने के चांसेज है।

SENTENCE 6

Correct = 100.0% 12 ( 12)

Errors = 0.0% 0 ( 12)

REF: customer : सिरियसली एनी टिप्स यू केन शेर

HYP: customer : सिरियसली एनी टिप्स ** चिकन शेर

SENTENCE 7

Correct = 75.0% 6 ( 8)

Errors = 25.0% 2 ( 8)

REF: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

HYP: agent : आप टेक्सी यूस कर लो ड्रैव और पार्किंग का प्राब्लम नहीं होगा।

SENTENCE 8

Correct = 100.0% 14 ( 14)

Errors = 0.0% 0 ( 14)

REF: customer : ग्रेट आइडिया थैंक्यू सो मच।

HYP: customer : ग्रेट आइडिया थैंक्यू सो मच।

SENTENCE 9

Correct = 100.0% 7 ( 7)

Errors = 0.0% 0 ( 7)

Sentence count: 9

WER: 6.061% ( 8 / 132)

WRR: 94.697% ( 125 / 132)

SER: 33.333% ( 3 / 9)

การสังเกตจากการถอดเสียงที่สร้างขึ้นด้วยคำศัพท์ที่กำหนดเอง

WER ทั้งหมดเท่ากับ 6.061% ซึ่งหมายความว่า 93.939% ของคำถูกถอดความอย่างถูกต้อง

มาเปรียบเทียบผลลัพธ์ของประโยคที่ 4 ที่มีและไม่มีคำศัพท์ที่กำหนดเองกัน ต่อไปนี้คือไม่มีคำศัพท์ที่กำหนดเอง:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 83.3% 20 ( 24)

Errors = 16.7% 4 ( 24)

ต่อไปนี้เป็นคำศัพท์ที่กำหนดเอง:

REF: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

HYP: agent : हाँ बिल्कुल। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार मिनार गोलकोंडा फोर्ट सालार जंग म्यूजियम और बिरला प्लेनेटोरियम मशहूर है।

SENTENCE 4

Correct = 100.0% 24 ( 24)

Errors = 0.0% 0 ( 24)

ไม่มีข้อผิดพลาดในประโยคที่ 4 ชื่อของสถานที่ถูกถอดความได้อย่างแม่นยำด้วยความช่วยเหลือของคำศัพท์ที่กำหนดเอง ซึ่งจะช่วยลด WER โดยรวมจาก 9.848% เป็น 6.061% สำหรับไฟล์เสียงนี้ ซึ่งหมายความว่าความแม่นยำของการถอดความดีขึ้นเกือบ 4%

คำศัพท์ที่กำหนดเองช่วยเพิ่มความแม่นยำได้อย่างไร

เราใช้คำศัพท์ที่กำหนดเองดังต่อไปนี้:

Phrase IPA SoundsLike DisplayAs

गोलकुंडा-फोर गोलकोंडा फोर्ट

सालार-जंग सा-लार-जंग सालार जंग

चार-महीना चार मिनार

Amazon Transcribe จะตรวจสอบว่ามีคำใดในไฟล์เสียงที่ฟังดูเหมือนคำที่กล่าวถึงใน Phrase คอลัมน์. จากนั้นโมเดลจะใช้รายการใน IPA, SoundsLikeและ DisplaysAs คอลัมน์สำหรับคำเฉพาะเหล่านั้นเพื่อถอดความด้วยการสะกดคำที่ต้องการ

ด้วยคำศัพท์ที่กำหนดเองนี้ เมื่อ Amazon Transcribe ระบุคำที่ฟังดูเหมือน "गोलकुंडा-फोर (Golcunda-Four)" ก็จะถอดความคำนั้นว่า "गोलकोंडा फोर्ट (ป้อม Golconda)"

แนะนำ

ความแม่นยำของการถอดความยังขึ้นอยู่กับพารามิเตอร์ต่างๆ เช่น การออกเสียงของผู้พูด ลำโพงที่ทับซ้อนกัน ความเร็วในการพูด และเสียงพื้นหลัง ดังนั้น เราขอแนะนำให้คุณทำตามขั้นตอนด้วยการโทรที่หลากหลาย (กับลูกค้า ตัวแทน การรบกวน และอื่นๆ) ที่ครอบคลุมคำเฉพาะโดเมนที่ใช้บ่อยที่สุด เพื่อให้คุณสร้างคำศัพท์ที่กำหนดเองอย่างครอบคลุม

ในโพสต์นี้ เราได้เรียนรู้กระบวนการปรับปรุงความถูกต้องของการถอดเสียงการโทรหนึ่งครั้งโดยใช้คำศัพท์ที่กำหนดเอง ในการประมวลผลบันทึกการโทรของศูนย์ติดต่อนับพันทุกวัน คุณสามารถใช้ การวิเคราะห์หลังการโทรซึ่งเป็นโซลูชันแบบ end-to-end ที่ทำงานอัตโนมัติเต็มรูปแบบ ปรับขนาดได้ และคุ้มค่า ซึ่งดูแลการยกของหนักส่วนใหญ่ คุณเพียงแค่อัปโหลดไฟล์เสียงของคุณไปยังบัคเก็ต S3 และภายในไม่กี่นาที โซลูชันจะให้การวิเคราะห์การโทร เช่น ความรู้สึกใน UI ของเว็บ การวิเคราะห์หลังการโทรให้ข้อมูลเชิงลึกที่ดำเนินการได้เพื่อระบุแนวโน้มที่เกิดขึ้นใหม่ ระบุโอกาสในการฝึกสอนตัวแทน และประเมินความรู้สึกทั่วไปของการโทร การวิเคราะห์หลังการโทรคือ โซลูชันโอเพ่นซอร์ส ที่คุณสามารถปรับใช้ได้โดยใช้ การก่อตัวของ AWS Cloud.

โปรดทราบว่าคำศัพท์ที่กำหนดเองไม่ได้ใช้บริบทที่ใช้พูดคำนั้น แต่จะเน้นที่คำแต่ละคำที่คุณให้ไว้เท่านั้น เพื่อปรับปรุงความแม่นยำเพิ่มเติม คุณสามารถใช้ โมเดลภาษาที่กำหนดเอง. ต่างจากคำศัพท์ที่กำหนดเองซึ่งเชื่อมโยงการออกเสียงกับการสะกดคำ โมเดลภาษาที่กำหนดเองจะเรียนรู้บริบทที่เกี่ยวข้องกับคำที่กำหนด ซึ่งรวมถึงวิธีและเวลาที่มีการใช้คำ และความสัมพันธ์ที่คำมีกับคำอื่นๆ ในการสร้างแบบจำลองภาษาที่กำหนดเอง คุณสามารถใช้การถอดเสียงที่ได้มาจากกระบวนการที่เราเรียนรู้สำหรับการโทรต่างๆ และรวมเข้ากับเนื้อหาจากเว็บไซต์หรือคู่มือผู้ใช้ของคุณที่มีคำและวลีเฉพาะโดเมน

เพื่อให้ได้ความแม่นยำในการถอดความสูงสุดด้วยการถอดความแบบกลุ่ม คุณสามารถใช้คำศัพท์ที่กำหนดเองร่วมกับแบบจำลองภาษาที่คุณกำหนดเองได้

สรุป

ในโพสต์นี้ เราได้ให้ขั้นตอนโดยละเอียดในการประมวลผลไฟล์เสียงภาษาฮินดีที่มีคำภาษาอังกฤษอย่างถูกต้องโดยใช้การวิเคราะห์การโทรและคำศัพท์ที่กำหนดเองใน Amazon Transcribe คุณสามารถใช้ขั้นตอนเดียวกันเหล่านี้เพื่อประมวลผลการโทรด้วยเสียงด้วย any ภาษาที่รองรับ โดย Amazon Transcribe

หลังจากที่คุณได้รับข้อความถอดเสียงที่มีความแม่นยำตามต้องการแล้ว คุณสามารถปรับปรุงการสนทนาระหว่างตัวแทนกับลูกค้าได้โดยการฝึกอบรมตัวแทนของคุณ คุณยังเข้าใจความรู้สึกและแนวโน้มของลูกค้าได้อีกด้วย ด้วยความช่วยเหลือของการแยกเสียงของลำโพง การตรวจจับความดัง และคุณลักษณะการกรองคำศัพท์ในการวิเคราะห์การโทร คุณสามารถระบุได้ว่าตัวแทนหรือลูกค้าเป็นผู้ที่ขึ้นเสียงหรือพูดคำใดคำหนึ่งโดยเฉพาะ คุณสามารถจัดหมวดหมู่การโทรตามคำเฉพาะโดเมน บันทึกข้อมูลเชิงลึกที่นำไปใช้ได้จริง และเรียกใช้การวิเคราะห์เพื่อปรับปรุงผลิตภัณฑ์ของคุณ สุดท้าย คุณสามารถแปลการถอดเสียงเป็นภาษาอังกฤษหรือภาษาอื่นๆ ที่คุณเลือกได้โดยใช้ อเมซอนแปลภาษา.

เกี่ยวกับผู้เขียน

สารัช กุฏิโคทา เป็น Sr. Solutions Architect ใน AWS World Wide Public Sector Sarat สนุกกับการช่วยลูกค้าดำเนินการโดยอัตโนมัติ จัดการ และควบคุมทรัพยากรระบบคลาวด์ของตนโดยไม่สูญเสียความคล่องตัวทางธุรกิจ ในเวลาว่าง เขาชอบสร้างเลโก้กับลูกชายและเล่นปิงปอง

ลาวันยา ซู๊ด เป็นสถาปนิกโซลูชันใน AWS World Wide Public Sector ซึ่งตั้งอยู่ในเมืองนิวเดลี ประเทศอินเดีย Lavanya สนุกกับการเรียนรู้เทคโนโลยีใหม่ๆ และช่วยเหลือลูกค้าในเส้นทางการนำระบบคลาวด์ไปใช้ ในเวลาว่าง เธอชอบท่องเที่ยวและลองอาหารต่างๆ

ประทับเวลา: September 7, 2022September 8, 2022

ประทับเวลา: พฤศจิกายน 22, 2023

ปรับปรุงความถูกต้องของการถอดเสียงการโทรระหว่างลูกค้า-ตัวแทนด้วยคำศัพท์ที่กำหนดเองใน Amazon Transcribe

เผยแพร่ซ้ำโดยเพลโต

ภาพรวมโซลูชัน

เบื้องต้น

ถอดเสียงไฟล์เสียงด้วยโมเดลเริ่มต้น

วัดความถูกต้องของแบบจำลอง

การสังเกตจากการถอดเสียงที่สร้างขึ้นโดยโมเดลเริ่มต้น

ฝึกโมเดลเริ่มต้นด้วยคำศัพท์ที่กำหนดเอง

วัดความถูกต้องของแบบจำลองหลังจากใช้คำศัพท์ที่กำหนดเอง

การสังเกตจากการถอดเสียงที่สร้างขึ้นด้วยคำศัพท์ที่กำหนดเอง

คำศัพท์ที่กำหนดเองช่วยเพิ่มความแม่นยำได้อย่างไร

แนะนำ

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

เปิดใช้งานผู้พิการทางสายตาเพื่อฟังเอกสารโดยใช้ Amazon Texttract และ Amazon Polly

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้