AWS มากมาย ลูกค้า ใช้สำเร็จแล้ว ถอดความจากอเมซอน เพื่อแปลงการสนทนาเสียงของลูกค้าเป็นข้อความได้อย่างแม่นยำ มีประสิทธิภาพ และโดยอัตโนมัติ และดึงข้อมูลเชิงลึกที่นำไปใช้ได้จริงจากพวกเขา ข้อมูลเชิงลึกเหล่านี้สามารถช่วยให้คุณปรับปรุงกระบวนการและผลิตภัณฑ์อย่างต่อเนื่องซึ่งปรับปรุงคุณภาพและประสบการณ์ให้กับลูกค้าของคุณโดยตรง
ในหลายประเทศ เช่น อินเดีย ภาษาอังกฤษไม่ใช่ภาษาหลักในการสื่อสาร การสนทนากับลูกค้าชาวอินเดียประกอบด้วยภาษาประจำภูมิภาค เช่น ฮินดี โดยมีคำและวลีภาษาอังกฤษที่พูดแบบสุ่มตลอดการโทร ในไฟล์สื่อต้นทาง อาจมีคำนามที่เหมาะสม คำย่อเฉพาะโดเมน คำ หรือวลีที่รูปแบบเริ่มต้นของ Amazon Transcribe ไม่ทราบ การถอดเสียงสำหรับไฟล์สื่อดังกล่าวอาจมีการสะกดคำที่ไม่ถูกต้อง
ในโพสต์นี้ เราสาธิตวิธีให้ข้อมูลเพิ่มเติมแก่ Amazon Transcribe ด้วย คำศัพท์ที่กำหนดเอง เพื่ออัปเดตวิธีที่ Amazon Transcribe จัดการกับการถอดเสียงไฟล์เสียงของคุณด้วยคำศัพท์เฉพาะธุรกิจ เราแสดงขั้นตอนในการปรับปรุงความถูกต้องของการถอดเสียงเป็นคำสำหรับการโทรแบบ Hinglish (การโทรแบบภาษาฮินดีของอินเดียที่มีคำและวลีภาษาอังกฤษแบบอินเดีย) คุณสามารถใช้กระบวนการเดียวกันนี้เพื่อถอดเสียงการโทรด้วยเสียงด้วย any ภาษาที่รองรับ โดย Amazon Transcribe หลังจากที่คุณสร้างคำศัพท์ที่กำหนดเองแล้ว คุณสามารถถอดเสียงการโทรด้วยเสียงได้อย่างแม่นยำและหลากหลายโดยใช้ .ของเรา การวิเคราะห์หลังการโทร วิธีแก้ปัญหาซึ่งเราจะพูดถึงเพิ่มเติมในโพสต์นี้
ภาพรวมโซลูชัน
เราใช้การโทรด้วยเสียงภาษาฮินดีของอินเดีย (SampleAudio.wav
) พร้อมสุ่มคำศัพท์ภาษาอังกฤษเพื่อสาธิตกระบวนการ
จากนั้นเราจะแนะนำคุณผ่านขั้นตอนระดับสูงดังต่อไปนี้:
- ถอดเสียงไฟล์เสียงโดยใช้โมเดล Amazon Transcribe ภาษาฮินดีเริ่มต้น
- วัดความถูกต้องของแบบจำลอง
- ฝึกโมเดลด้วยคำศัพท์ที่กำหนดเอง
- วัดความแม่นยำของแบบจำลองที่ได้รับการฝึกอบรม
เบื้องต้น
ก่อนที่เราจะเริ่มต้นเราต้องยืนยันว่าไฟล์เสียงที่ป้อนเข้าตรงกับ ถอดความข้อกำหนดการป้อนข้อมูล.
A โมโนโฟนิก บันทึก เรียกอีกอย่างว่า โมโนมีสัญญาณเสียงหนึ่งสัญญาณ ซึ่งองค์ประกอบเสียงทั้งหมดของตัวแทนและลูกค้าจะรวมกันเป็นช่องทางเดียว อา สเตอริโอ บันทึก เรียกอีกอย่างว่า สเตอริโอมีสัญญาณเสียงสองสัญญาณเพื่อจับองค์ประกอบเสียงของตัวแทนและลูกค้าในสองช่องทางที่แยกจากกัน ไฟล์บันทึกของตัวแทน-ลูกค้าแต่ละไฟล์ประกอบด้วยช่องสัญญาณเสียงสองช่อง ช่องหนึ่งสำหรับตัวแทนและอีกช่องหนึ่งสำหรับลูกค้า
การบันทึกเสียงที่มีความเที่ยงตรงต่ำ เช่น การบันทึกเสียงทางโทรศัพท์ มักใช้อัตราการสุ่มตัวอย่าง 8,000 Hz Amazon Transcribe รองรับการประมวลผลแบบโมโนที่บันทึกและไฟล์เสียงที่มีความเที่ยงตรงสูงด้วยอัตราตัวอย่างระหว่าง 16,000–48,000 Hz
เพื่อผลลัพธ์การถอดเสียงที่ดีขึ้นและเพื่อแยกแยะคำพูดที่พูดโดยตัวแทนและลูกค้าได้อย่างชัดเจน เราขอแนะนำให้ใช้ไฟล์เสียงที่บันทึกที่อัตราการสุ่มตัวอย่าง 8,000 Hz และแยกช่องสัญญาณสเตอริโอ
คุณสามารถใช้เครื่องมือเช่น ffmpeg เพื่อตรวจสอบไฟล์เสียงอินพุตของคุณจากบรรทัดคำสั่ง:
ในการตอบกลับ ให้ตรวจสอบบรรทัดที่ขึ้นต้นด้วย Stream ในส่วน Input และยืนยันว่าไฟล์เสียงเป็น 8,000 Hz และแยกช่องสัญญาณสเตอริโอ:
เมื่อคุณสร้างไปป์ไลน์เพื่อประมวลผลไฟล์เสียงจำนวนมาก คุณสามารถทำให้ขั้นตอนนี้เป็นอัตโนมัติเพื่อกรองไฟล์ที่ไม่ตรงตามข้อกำหนด
ตามขั้นตอนเบื้องต้นเพิ่มเติม ให้สร้างบัคเก็ต Amazon Simple Storage Service (Amazon S3) เพื่อโฮสต์ไฟล์เสียงที่จะถอดเสียง สำหรับคำแนะนำ โปรดดูที่ สร้างที่เก็บข้อมูล S3 แรกของคุณ. แล้ว อัพโหลดไฟล์เสียง ไปที่ถัง S3
ถอดเสียงไฟล์เสียงด้วยโมเดลเริ่มต้น
ตอนนี้เราสามารถ เริ่มต้น Amazon Transcribe เรียกใช้งานการวิเคราะห์โดยใช้ไฟล์เสียงที่เราอัปโหลด ในตัวอย่างนี้ เราใช้ คอนโซลการจัดการ AWS เพื่อถอดเสียงไฟล์เสียง คุณยังสามารถใช้ อินเทอร์เฟซบรรทัดคำสั่ง AWS AWS (AWS CLI) หรือ AWS SDK
- บนคอนโซล Amazon Transcribe ให้เลือก การวิเคราะห์การโทร ในบานหน้าต่างนำทาง
- Choose งานวิเคราะห์การโทร.
- Choose สร้างงาน.
- สำหรับ Name, ป้อนชื่อ
- สำหรับ ตั้งค่าภาษาให้เลือก ภาษาเฉพาะ.
- สำหรับ ภาษาเลือก ฮินดี อิน (hi-IN).
- สำหรับ ประเภทรุ่นให้เลือก รุ่นทั่วไป.
- สำหรับ ป้อนตำแหน่งไฟล์บน S3เรียกดูที่ฝากข้อมูล S3 ที่มีไฟล์เสียงที่อัปโหลด
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร ข้อมูลเอาต์พุต ส่วน ปล่อยให้เป็นค่าเริ่มต้น
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร สิทธิ์การเข้าถึง เลือก สร้างบทบาท IAM.
- สร้างใหม่ AWS Identity และการจัดการการเข้าถึง บทบาท (IAM) ชื่อ HindiTranscription ที่ให้สิทธิ์บริการ Amazon Transcribe เพื่ออ่านไฟล์เสียงจากบัคเก็ต S3 และใช้ บริการจัดการคีย์ AWS (AWS KMS) คีย์เพื่อถอดรหัส
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร กำหนดค่างาน ส่วนปล่อยให้ค่าเริ่มต้นรวมถึง คำศัพท์ที่กำหนดเอง ยกเลิกการเลือก
- Choose สร้างงาน เพื่อถอดเสียงไฟล์เสียง
เมื่อสถานะของงานเสร็จสมบูรณ์ คุณสามารถตรวจสอบการถอดเสียงเป็นคำได้โดยเลือกงาน (SampleAudio)
ประโยคลูกค้าและตัวแทนถูกแยกออกอย่างชัดเจน ซึ่งช่วยให้เราระบุได้ว่าลูกค้าหรือตัวแทนพูดคำหรือวลีเฉพาะเจาะจงหรือไม่
วัดความถูกต้องของแบบจำลอง
อัตราข้อผิดพลาดของคำ (WER) เป็นตัวชี้วัดที่แนะนำและใช้กันมากที่สุดสำหรับการประเมินความถูกต้องของระบบรู้จำเสียงอัตโนมัติ (ASR) เป้าหมายคือการลด WER ให้มากที่สุดเพื่อปรับปรุงความแม่นยำของระบบ ASR
ในการคำนวณ WER ให้ทำตามขั้นตอนต่อไปนี้ โพสต์นี้ใช้โอเพ่นซอร์ส การประเมิน asr เครื่องมือประเมินผลเพื่อคำนวณ WER แต่เครื่องมืออื่นๆ เช่น วท or จิวเวอร์ นอกจากนี้ยังมี
- การติดตั้ง
asr-evaluation
เครื่องมือ ซึ่งทำให้สคริปต์ we พร้อมใช้งานบนบรรทัดคำสั่งของคุณ
ใช้บรรทัดคำสั่งบนแพลตฟอร์ม macOS หรือ Linux เพื่อเรียกใช้คำสั่ง we ที่แสดงในภายหลังในโพสต์ - คัดลอกการถอดเสียงจากหน้ารายละเอียดงานของ Amazon Transcribe ไปยังไฟล์ข้อความชื่อ
hypothesis.txt
.
เมื่อคุณคัดลอกการถอดเสียงเป็นคำจากคอนโซล คุณจะสังเกตเห็นอักขระขึ้นบรรทัดใหม่ระหว่างคำAgent :, Customer :,
และอักษรฮินดี
อักขระบรรทัดใหม่ถูกลบออกเพื่อประหยัดพื้นที่ในโพสต์นี้ หากคุณเลือกใช้ข้อความตามที่มาจากคอนโซล ตรวจสอบให้แน่ใจว่าไฟล์ข้อความอ้างอิงที่คุณสร้างมีอักขระขึ้นบรรทัดใหม่ด้วย เนื่องจากเครื่องมือ we เปรียบเทียบทีละบรรทัด - ตรวจสอบการถอดเสียงทั้งหมดและระบุคำหรือวลีที่ต้องแก้ไข:
ลูกค้า : เฮ้,
ตัวแทน : गुड मोर्निग इंडिया ट्रेवल एजेंसी เกาหลี เซม है। อิสรภาพ
ลูกค้า : มึน บาส สุขภาพดี हैदराबाद ट्रेवल के बारे में सोच रहा था। พจนานุกรม
ตัวแทน :ฮะฮะ พิลคลูล। हैदराबाद में बहुत सारे प्लेस है। उनमें से ชารา มาฮินีน่า โกลกีนดา โซระ สาลู ค้นหา
ลูกค้า : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
ตัวแทน : एक सजेशन वीकेंड में टมาก่อน
ลูกค้า : สิรียาสลิ ए นี ที ปิเปส ชิคเก้น เชอเร่
ตัวแทน : आप टेक्सी यूस कर लो ดร.บูรพา ภาษาอังกฤษ
ลูกค้า : ग्रेटआइडिया थैंक्यू सो मच।คำที่ไฮไลต์คือคำที่โมเดล Amazon Transcribe เริ่มต้นแสดงผลไม่ถูกต้อง - สร้างไฟล์ข้อความอื่นชื่อ
reference.txt
โดยแทนที่คำที่ไฮไลต์ด้วยคำที่ต้องการที่คุณคาดว่าจะเห็นในการถอดเสียงเป็นคำ:
ลูกค้า : เฮ้,
ตัวแทน : गुड मोर्निग सौथ इंडिया ट्रेवल एजेंसी เกาหลี เซส มูน । อิสรภาพ
ลูกค้า : มึน บาส สุขภาพดี हैदराबाद ट्रेवल के बारे में सोच रहा था। พจนานุกรม
ตัวแทน : ฮะँ พิลคลู้ล। हैदराबाद में बहुत सारे प्लेस है। उनमें से ชารา มินนารา โกลโคนดา โรท สาลาไร ค้นหา
ลูกค้า : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
ตัวแทน : एक सजेशन वीकेंड में टมาก่อน
ลูกค้า : สิรียาสลิ ए นี ที ปิเปส ยัค แคน เชอเร่
ตัวแทน : आप टेक्सी यूस कर लो ดร.วัช ภาษาอังกฤษ
ลูกค้า : ग्रेटआइडिया थैंक्यू सो मच। - ใช้คำสั่งต่อไปนี้เพื่อเปรียบเทียบไฟล์ข้อความอ้างอิงและสมมติฐานที่คุณสร้างขึ้น:
คุณได้รับผลลัพธ์ต่อไปนี้:
คำสั่ง we เปรียบเทียบข้อความจากไฟล์ reference.txt
และ hypothesis.txt
. รายงานข้อผิดพลาดสำหรับแต่ละประโยคและจำนวนข้อผิดพลาดทั้งหมด (WER: 9.848% ( 13 / 132)) ในการถอดเสียงทั้งหมด
จากผลลัพธ์ก่อนหน้านี้ มีการรายงานข้อผิดพลาด 13 ข้อจาก 132 คำในการถอดเสียง ข้อผิดพลาดเหล่านี้สามารถเป็นสามประเภท:
- ข้อผิดพลาดในการทดแทน – สิ่งเหล่านี้เกิดขึ้นเมื่อ Amazon Transcribe เขียนคำหนึ่งแทนที่อีกคำหนึ่ง ตัวอย่างเช่น ในการถอดเสียงของเรา คำว่า “มานีน่า (มหิหนะ)” ถูกเขียนแทนคำว่า “มินนารา (Minar)” ในประโยคที่ 4
- ข้อผิดพลาดในการลบ – สิ่งเหล่านี้เกิดขึ้นเมื่อ Amazon Transcribe พลาดคำใดๆ ในการถอดเสียง ในการถอดเสียง คำว่า “ซอ (ใต้)” พลาดในประโยคที่ 2
- ข้อผิดพลาดในการแทรก – สิ่งเหล่านี้เกิดขึ้นเมื่อ Amazon Transcribe แทรกคำที่ไม่ได้พูด เราไม่เห็นข้อผิดพลาดในการแทรกในการถอดเสียงของเรา
การสังเกตจากการถอดเสียงที่สร้างขึ้นโดยโมเดลเริ่มต้น
เราสามารถทำการสังเกตต่อไปนี้ตามการถอดเสียง:
- WER ทั้งหมดเท่ากับ 9.848% ซึ่งหมายความว่า 90.152% ของคำถูกถอดความอย่างถูกต้อง
- รูปแบบภาษาฮินดูที่เป็นค่าเริ่มต้นถอดเสียงคำภาษาอังกฤษส่วนใหญ่ได้อย่างแม่นยำ เนื่องจากโมเดลเริ่มต้นได้รับการฝึกฝนให้รู้จักคำภาษาอังกฤษทั่วไปส่วนใหญ่ โมเดลนี้ยังได้รับการฝึกฝนให้รู้จักภาษาฮิงลิช โดยคำภาษาอังกฤษจะสุ่มปรากฏขึ้นในการสนทนาภาษาฮินดี ตัวอย่างเช่น:
- गुड मोर्निग – สวัสดีตอนเช้า (ประโยคที่ 2).
- ट्रेवल एजेंसी – บริษัทตัวแทนท่องเที่ยว (ประโยค 2).
- ग्रेटआइडिया थैंक्यू सो मच – ความคิดที่ดี ขอบคุณมาก (ประโยคที่ 9)
- ประโยคที่ 4 มีข้อผิดพลาดมากที่สุดซึ่งเป็นชื่อสถานที่ในเมืองไฮเดอราบัดของอินเดีย:
- ฮะँ พิลคลู้ล। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार महीना गोलकुंडा फोर सलार ค้นหา
ในขั้นตอนต่อไป เราสาธิตวิธีแก้ไขคำที่เน้นสีในประโยคก่อนหน้าโดยใช้คำศัพท์ที่กำหนดเองใน Amazon Transcribe:
- ชารี มานีน่า (ชา มหินา) ควรจะเป็น ชารี มินนารา (ชา บ่อนทำลาย)
- โกลล่าคึด๊า โर (โกลcunda โฟur) ควรเป็น गोलค็อนด๊า โอาร์ต (โกลconda โฟrt)
- सลาร จังง (Saลาร์จัง) ควรจะเป็น สาลาร จังง (สาลาร์จัง)
ฝึกโมเดลเริ่มต้นด้วยคำศัพท์ที่กำหนดเอง
ไปยัง สร้างคำศัพท์ที่กำหนดเองคุณต้องสร้างไฟล์ข้อความในรูปแบบตารางที่มีคำและวลีเพื่อฝึกโมเดล Amazon Transcribe เริ่มต้น ตารางของคุณต้องมีทั้งสี่คอลัมน์ (Phrase
, SoundsLike
, IPA
และ DisplayAs
), แต่ Phrase
เป็นคอลัมน์เดียวที่ต้องมีรายการในแต่ละแถว คุณสามารถเว้นคอลัมน์อื่นๆ ว่างไว้ได้ แต่ละคอลัมน์ต้องคั่นด้วยอักขระแท็บ แม้ว่าบางคอลัมน์จะเว้นว่างไว้ก็ตาม ตัวอย่างเช่น หากคุณออกจาก IPA
และ SoundsLike
คอลัมน์ว่างสำหรับแถว, the Phrase
และ DisplaysAs
คอลัมน์ในแถวนั้นจะต้องคั่นด้วยอักขระแท็บสามตัว (ระหว่าง Phrase
และ IPA
, IPA
และ SoundsLike
และ SoundsLike
และ DisplaysAs
).
ในการฝึกโมเดลด้วยคำศัพท์ที่กำหนดเอง ให้ทำตามขั้นตอนต่อไปนี้:
- สร้างชื่อไฟล์
HindiCustomVocabulary.txt
โดยมีเนื้อหาดังต่อไปนี้คุณสามารถใช้ได้เฉพาะอักขระที่รองรับภาษาของคุณเท่านั้น อ้างถึงภาษาของคุณ ชุดตัวอักษร เพื่อดูรายละเอียด
คอลัมน์ประกอบด้วยข้อมูลต่อไปนี้:
Phrase
– ประกอบด้วยคำหรือวลีที่คุณต้องการถอดเสียงให้ถูกต้อง คำหรือวลีที่ไฮไลต์ในการถอดเสียงที่สร้างโดยโมเดล Amazon Transcribe เริ่มต้นจะปรากฏในคอลัมน์นี้ คำเหล่านี้เป็นคำย่อ คำนามเฉพาะ หรือคำและวลีเฉพาะโดเมนที่รูปแบบเริ่มต้นไม่ทราบ นี่เป็นฟิลด์บังคับสำหรับทุกแถวในตารางคำศัพท์ที่กำหนดเอง ในการถอดเสียงของเรา หากต้องการแก้ไข “गोलकुंडा फोर (Golcunda Four)” จากประโยคที่ 4 ให้ใช้ “गोलकुंडा-फोर (Golcunda-Four)” ในคอลัมน์นี้ หากรายการของคุณมีหลายคำ ให้แยกแต่ละคำด้วยยัติภังค์ (-); อย่าใช้ช่องว่างIPA
– ประกอบด้วยคำหรือวลีที่แสดงเสียงพูดในรูปแบบการเขียน คอลัมน์เป็นตัวเลือก คุณสามารถเว้นแถวว่างไว้ได้ คอลัมน์นี้มีไว้สำหรับการสะกดคำแบบออกเสียงโดยใช้อักขระใน International Phonetic Alphabet (IPA) เท่านั้น อ้างถึงชุดอักขระภาษาฮินดีสำหรับอักขระ IPA ที่อนุญาตสำหรับภาษาฮินดี ในตัวอย่างของเรา เราไม่ได้ใช้ IPA หากคุณมีรายการในคอลัมน์นี้ . ของคุณSoundsLike
คอลัมน์ต้องว่างเปล่าSoundsLike
– ประกอบด้วยคำหรือวลีที่แบ่งออกเป็นชิ้นเล็ก ๆ (โดยทั่วไปตามพยางค์หรือคำทั่วไป) เพื่อให้การออกเสียงสำหรับแต่ละชิ้นขึ้นอยู่กับว่าเสียงของเพลงนั้นเป็นอย่างไร คอลัมน์นี้เป็นทางเลือก คุณสามารถเว้นแถวว่างไว้ได้ เพิ่มเนื้อหาในคอลัมน์นี้เฉพาะในกรณีที่รายการของคุณมีคำที่ไม่เป็นมาตรฐาน เช่น ชื่อแบรนด์ หรือเพื่อแก้ไขคำที่ถอดความอย่างไม่ถูกต้อง ในการถอดเสียงของเรา หากต้องการแก้ไข “सलार जंग (Salar Jung)” จากประโยคที่ 4 ให้ใช้ “सा-लार-जंग (Saa-lar-jung)” ในคอลัมน์นี้ อย่าใช้ช่องว่างในคอลัมน์นี้ หากคุณมีรายการในคอลัมน์นี้ . ของคุณIPA
คอลัมน์ต้องว่างเปล่าDisplaysAs
– ประกอบด้วยคำหรือวลีที่มีการสะกดคำที่คุณต้องการดูในผลลัพธ์การถอดความสำหรับคำหรือวลีในPhrase
สนาม. คอลัมน์นี้เป็นทางเลือก คุณสามารถเว้นแถวว่างไว้ได้ หากคุณไม่ระบุฟิลด์นี้ Amazon Transcribe จะใช้เนื้อหาของPhrase
ฟิลด์ในไฟล์เอาต์พุต ตัวอย่างเช่น ในการถอดเสียงของเรา หากต้องการแก้ไข “गोलकुंडा फोर (Golcunda Four)” จากประโยคที่ 4 ให้ใช้ “गोलकोंडा फोर्ट (ป้อม Golconda)” ในคอลัมน์นี้
- อัพโหลด ไฟล์ข้อความ (
HindiCustomVocabulary.txt
) ไปยังบัคเก็ต S3 ตอนนี้เราสร้างคำศัพท์ที่กำหนดเองใน Amazon Transcribe - บนคอนโซล Amazon Transcribe ให้เลือก คำศัพท์ที่กำหนดเอง ในบานหน้าต่างนำทาง
- สำหรับ Name, ป้อนชื่อ
- สำหรับ ภาษาเลือก ฮินดี อิน (hi-IN).
- สำหรับ แหล่งป้อนคำศัพท์ให้เลือก ที่ตั้ง S3.
- สำหรับ ตำแหน่งไฟล์คำศัพท์ใน S3ป้อนเส้นทาง S3 ของ
HindiCustomVocabulary.txt
ไฟล์ - Choose สร้างคำศัพท์.
- ถอดความ
SampleAudio.wav
ไฟล์ที่มีคำศัพท์ที่กำหนดเอง โดยมีพารามิเตอร์ต่อไปนี้:- สำหรับ ชื่องาน ป้อน
SampleAudioCustomVocabulary
. - สำหรับ ภาษาเลือก ฮินดี อิน (hi-IN).
- สำหรับ ป้อนตำแหน่งไฟล์บน S3, เรียกดูตำแหน่งของ
SampleAudio.wav
. - สำหรับ บทบาท IAMให้เลือก ใช้บทบาท IAM ที่มีอยู่ และเลือกบทบาทที่คุณสร้างไว้ก่อนหน้านี้
- ตัว Vortex Indicator ได้ถูกนำเสนอลงในนิตยสาร กำหนดค่างาน เลือก คำศัพท์ที่กำหนดเอง และเลือกคำศัพท์ที่กำหนดเอง
HindiCustomVocabulary
.
- สำหรับ ชื่องาน ป้อน
- Choose สร้างงาน.
วัดความถูกต้องของแบบจำลองหลังจากใช้คำศัพท์ที่กำหนดเอง
คัดลอกการถอดเสียงจากหน้ารายละเอียดงานของ Amazon Transcribe ไปยังไฟล์ข้อความชื่อ hypothesis-custom-vocabulary.txt
:
ลูกค้า : เฮ้,
ตัวแทน : गुड मोर्निग इंडिया ट्रेवल एजेंसी सेम है। อิสรภาพ
ลูกค้า : मैं बहुत दिनों उनसे हैदराबाद ट्रेवल के बारे में सोบะ रहा था। พจนานุกรม
ตัวแทน : ฮะँ พิลคลู้ล। हैदराबाद में बहुत सारे प्लेस है। उनमें से चार ขนาด ค้นหา
ลูกค้า : हाँ बढिया थैंक यू मैं अगले सैटरडे और संडे को ट्राई करूँगा।
ตัวแทน : एक सजेशन वीकेंड में टมาก่อน
ลูกค้า : सिरियसलीएनी टिप्स चिकन शेर
ตัวแทน : आप टेक्सी यूस कर लो ड्रैब और पार्किंग का प्राब्लम नहीं होगा।
ลูกค้า : ग्रेटआइडिया थैंक्यू सो मच।
โปรดทราบว่าคำที่ไฮไลต์จะถูกคัดลอกตามต้องการ
เรียกใช้ wer
คำสั่งอีกครั้งด้วยการถอดเสียงใหม่:
คุณได้รับผลลัพธ์ต่อไปนี้:
การสังเกตจากการถอดเสียงที่สร้างขึ้นด้วยคำศัพท์ที่กำหนดเอง
WER ทั้งหมดเท่ากับ 6.061% ซึ่งหมายความว่า 93.939% ของคำถูกถอดความอย่างถูกต้อง
มาเปรียบเทียบผลลัพธ์ของประโยคที่ 4 ที่มีและไม่มีคำศัพท์ที่กำหนดเองกัน ต่อไปนี้คือไม่มีคำศัพท์ที่กำหนดเอง:
ต่อไปนี้เป็นคำศัพท์ที่กำหนดเอง:
ไม่มีข้อผิดพลาดในประโยคที่ 4 ชื่อของสถานที่ถูกถอดความได้อย่างแม่นยำด้วยความช่วยเหลือของคำศัพท์ที่กำหนดเอง ซึ่งจะช่วยลด WER โดยรวมจาก 9.848% เป็น 6.061% สำหรับไฟล์เสียงนี้ ซึ่งหมายความว่าความแม่นยำของการถอดความดีขึ้นเกือบ 4%
คำศัพท์ที่กำหนดเองช่วยเพิ่มความแม่นยำได้อย่างไร
เราใช้คำศัพท์ที่กำหนดเองดังต่อไปนี้:
Amazon Transcribe จะตรวจสอบว่ามีคำใดในไฟล์เสียงที่ฟังดูเหมือนคำที่กล่าวถึงใน Phrase
คอลัมน์. จากนั้นโมเดลจะใช้รายการใน IPA
, SoundsLike
และ DisplaysAs
คอลัมน์สำหรับคำเฉพาะเหล่านั้นเพื่อถอดความด้วยการสะกดคำที่ต้องการ
ด้วยคำศัพท์ที่กำหนดเองนี้ เมื่อ Amazon Transcribe ระบุคำที่ฟังดูเหมือน "गोलकुंडा-फोर (Golcunda-Four)" ก็จะถอดความคำนั้นว่า "गोलकोंडा फोर्ट (ป้อม Golconda)"
แนะนำ
ความแม่นยำของการถอดความยังขึ้นอยู่กับพารามิเตอร์ต่างๆ เช่น การออกเสียงของผู้พูด ลำโพงที่ทับซ้อนกัน ความเร็วในการพูด และเสียงพื้นหลัง ดังนั้น เราขอแนะนำให้คุณทำตามขั้นตอนด้วยการโทรที่หลากหลาย (กับลูกค้า ตัวแทน การรบกวน และอื่นๆ) ที่ครอบคลุมคำเฉพาะโดเมนที่ใช้บ่อยที่สุด เพื่อให้คุณสร้างคำศัพท์ที่กำหนดเองอย่างครอบคลุม
ในโพสต์นี้ เราได้เรียนรู้กระบวนการปรับปรุงความถูกต้องของการถอดเสียงการโทรหนึ่งครั้งโดยใช้คำศัพท์ที่กำหนดเอง ในการประมวลผลบันทึกการโทรของศูนย์ติดต่อนับพันทุกวัน คุณสามารถใช้ การวิเคราะห์หลังการโทรซึ่งเป็นโซลูชันแบบ end-to-end ที่ทำงานอัตโนมัติเต็มรูปแบบ ปรับขนาดได้ และคุ้มค่า ซึ่งดูแลการยกของหนักส่วนใหญ่ คุณเพียงแค่อัปโหลดไฟล์เสียงของคุณไปยังบัคเก็ต S3 และภายในไม่กี่นาที โซลูชันจะให้การวิเคราะห์การโทร เช่น ความรู้สึกใน UI ของเว็บ การวิเคราะห์หลังการโทรให้ข้อมูลเชิงลึกที่ดำเนินการได้เพื่อระบุแนวโน้มที่เกิดขึ้นใหม่ ระบุโอกาสในการฝึกสอนตัวแทน และประเมินความรู้สึกทั่วไปของการโทร การวิเคราะห์หลังการโทรคือ โซลูชันโอเพ่นซอร์ส ที่คุณสามารถปรับใช้ได้โดยใช้ การก่อตัวของ AWS Cloud.
โปรดทราบว่าคำศัพท์ที่กำหนดเองไม่ได้ใช้บริบทที่ใช้พูดคำนั้น แต่จะเน้นที่คำแต่ละคำที่คุณให้ไว้เท่านั้น เพื่อปรับปรุงความแม่นยำเพิ่มเติม คุณสามารถใช้ โมเดลภาษาที่กำหนดเอง. ต่างจากคำศัพท์ที่กำหนดเองซึ่งเชื่อมโยงการออกเสียงกับการสะกดคำ โมเดลภาษาที่กำหนดเองจะเรียนรู้บริบทที่เกี่ยวข้องกับคำที่กำหนด ซึ่งรวมถึงวิธีและเวลาที่มีการใช้คำ และความสัมพันธ์ที่คำมีกับคำอื่นๆ ในการสร้างแบบจำลองภาษาที่กำหนดเอง คุณสามารถใช้การถอดเสียงที่ได้มาจากกระบวนการที่เราเรียนรู้สำหรับการโทรต่างๆ และรวมเข้ากับเนื้อหาจากเว็บไซต์หรือคู่มือผู้ใช้ของคุณที่มีคำและวลีเฉพาะโดเมน
เพื่อให้ได้ความแม่นยำในการถอดความสูงสุดด้วยการถอดความแบบกลุ่ม คุณสามารถใช้คำศัพท์ที่กำหนดเองร่วมกับแบบจำลองภาษาที่คุณกำหนดเองได้
สรุป
ในโพสต์นี้ เราได้ให้ขั้นตอนโดยละเอียดในการประมวลผลไฟล์เสียงภาษาฮินดีที่มีคำภาษาอังกฤษอย่างถูกต้องโดยใช้การวิเคราะห์การโทรและคำศัพท์ที่กำหนดเองใน Amazon Transcribe คุณสามารถใช้ขั้นตอนเดียวกันเหล่านี้เพื่อประมวลผลการโทรด้วยเสียงด้วย any ภาษาที่รองรับ โดย Amazon Transcribe
หลังจากที่คุณได้รับข้อความถอดเสียงที่มีความแม่นยำตามต้องการแล้ว คุณสามารถปรับปรุงการสนทนาระหว่างตัวแทนกับลูกค้าได้โดยการฝึกอบรมตัวแทนของคุณ คุณยังเข้าใจความรู้สึกและแนวโน้มของลูกค้าได้อีกด้วย ด้วยความช่วยเหลือของการแยกเสียงของลำโพง การตรวจจับความดัง และคุณลักษณะการกรองคำศัพท์ในการวิเคราะห์การโทร คุณสามารถระบุได้ว่าตัวแทนหรือลูกค้าเป็นผู้ที่ขึ้นเสียงหรือพูดคำใดคำหนึ่งโดยเฉพาะ คุณสามารถจัดหมวดหมู่การโทรตามคำเฉพาะโดเมน บันทึกข้อมูลเชิงลึกที่นำไปใช้ได้จริง และเรียกใช้การวิเคราะห์เพื่อปรับปรุงผลิตภัณฑ์ของคุณ สุดท้าย คุณสามารถแปลการถอดเสียงเป็นภาษาอังกฤษหรือภาษาอื่นๆ ที่คุณเลือกได้โดยใช้ อเมซอนแปลภาษา.
เกี่ยวกับผู้เขียน
สารัช กุฏิโคทา เป็น Sr. Solutions Architect ใน AWS World Wide Public Sector Sarat สนุกกับการช่วยลูกค้าดำเนินการโดยอัตโนมัติ จัดการ และควบคุมทรัพยากรระบบคลาวด์ของตนโดยไม่สูญเสียความคล่องตัวทางธุรกิจ ในเวลาว่าง เขาชอบสร้างเลโก้กับลูกชายและเล่นปิงปอง
ลาวันยา ซู๊ด เป็นสถาปนิกโซลูชันใน AWS World Wide Public Sector ซึ่งตั้งอยู่ในเมืองนิวเดลี ประเทศอินเดีย Lavanya สนุกกับการเรียนรู้เทคโนโลยีใหม่ๆ และช่วยเหลือลูกค้าในเส้นทางการนำระบบคลาวด์ไปใช้ ในเวลาว่าง เธอชอบท่องเที่ยวและลองอาหารต่างๆ
- ขั้นสูง (300)
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- ถอดความจากอเมซอน
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล