Amazon Pollyซึ่งเป็นบริการแปลงข้อความเป็นคำพูดที่สร้างโดย AI ช่วยให้คุณสามารถปรับและปรับขนาดโซลูชันเสียงแบบโต้ตอบได้โดยอัตโนมัติ ช่วยปรับปรุงประสิทธิภาพการทำงานและลดต้นทุน
เนื่องจากลูกค้าของเรายังคงใช้ Amazon Polly สำหรับชุดคุณสมบัติที่หลากหลายและใช้งานง่าย เราสังเกตเห็นความต้องการความสามารถในการสร้างเสียงและคำบรรยายที่ซิงโครไนซ์พร้อมกันสำหรับการป้อนข้อความที่กำหนด ที่ AWS เราดำเนินการย้อนกลับอย่างต่อเนื่องจากคำขอของลูกค้า ดังนั้นในโพสต์นี้ เราจึงสรุปวิธีการสร้างเสียงและคำบรรยายพร้อมกันสำหรับข้อความที่กำหนด
แม้ว่าคำบรรยายและคำอธิบายภาพมักจะใช้สลับกันได้ รวมถึงในโพสต์นี้ แต่ก็มีความแตกต่างเล็กน้อยระหว่างพวกเขา:
- คำบรรยาย – ในคำบรรยาย ภาษาของข้อความที่แสดงบนหน้าจอจะแตกต่างจากภาษาของเสียง และไม่แสดงสิ่งใดที่ไม่ใช่เสียงสนทนา เช่น เสียงที่มีนัยสำคัญ วัตถุประสงค์หลักคือการเข้าถึงผู้ชมที่ไม่ได้พูดภาษาของเสียงในวิดีโอ
- คำบรรยายภาพ (ปิด/เปิด) – คำอธิบายภาพแสดงบทสนทนาที่พูดด้วยเสียงในภาษาเดียวกัน จุดประสงค์หลักคือเพื่อเพิ่มความสามารถในการเข้าถึงในกรณีที่ผู้ใช้ปลายทางไม่ได้ยินเสียงเนื่องจากปัญหาหลายประการ คำอธิบายภาพเป็นส่วนหนึ่งของไฟล์ที่แตกต่างจากแหล่งที่มาของเสียง/วิดีโอ และสามารถปิดและเปิดได้ตามดุลยพินิจของผู้ใช้ ในขณะที่คำบรรยายแบบเปิดเป็นส่วนหนึ่งของไฟล์วิดีโอและผู้ใช้ไม่สามารถปิดได้
ประโยชน์ของการใช้ Amazon Polly เพื่อสร้างเสียงพร้อมคำบรรยาย
ลองนึกภาพกรณีการใช้งานต่อไปนี้: คุณเตรียมการนำเสนอแบบสไลด์สำหรับพอร์ทัลการเรียนรู้ออนไลน์ แต่ละสไลด์มีเนื้อหาบนหน้าจอและการบรรยาย เนื้อหาบนหน้าจอเป็นโครงร่างพื้นฐาน และการบรรยายจะลงรายละเอียด แทนที่จะบันทึกเสียงมนุษย์ ซึ่งอาจยุ่งยากและไม่สอดคล้องกัน คุณสามารถใช้ Amazon Polly เพื่อสร้างคำบรรยายได้ Amazon Polly สร้างเสียงที่มีคุณภาพสูงและสม่ำเสมอ ไม่จำเป็นต้องมีขั้นตอนหลังการผลิต ในอนาคต หากคุณต้องการอัปเดตบางส่วนของงานนำเสนอ คุณจะต้องอัปเดตสไลด์ที่ได้รับผลกระทบเท่านั้น เสียงตรงกับสไลด์ต้นฉบับ นอกจากนี้ เมื่อ Amazon Polly สร้างเสียงของคุณ คำบรรยายจะรวมอยู่ด้วยซึ่งปรากฏในเวลาพร้อมกับเสียง คุณประหยัดเวลาเนื่องจากไม่มีการบันทึกด้วยตนเอง และประหยัดเวลาเพิ่มเติมเมื่อจำเป็นต้องอัปเดต การนำเสนอของคุณยังให้คุณค่ามากกว่าเพราะคำบรรยายช่วยให้นักเรียนใช้เนื้อหาได้ เป็นวิธีแก้ปัญหาแบบ win-win-win
มีกรณีการใช้งานมากมายสำหรับคำอธิบายภาพ เช่น โฆษณาในพื้นที่สังคม โรงยิม ร้านกาแฟ และสถานที่อื่นๆ ที่ปกติแล้วจะมีบางสิ่งในโทรทัศน์ที่ปิดเสียงและเพลงอยู่เบื้องหลัง การฝึกอบรมและชั้นเรียนออนไลน์ การประชุมเสมือนจริง ประกาศทางอิเล็กทรอนิกส์สาธารณะ ดูวิดีโอขณะเดินทางโดยไม่ใช้หูฟังและไม่รบกวนผู้โดยสารร่วม และอีกมากมาย
คำบรรยายใต้ภาพสามารถช่วยในเรื่องต่อไปนี้โดยไม่คำนึงถึงสาขาวิชา:
- การเข้าถึง – ผู้ที่มีความบกพร่องทางการได้ยินสามารถบริโภคเนื้อหาของคุณได้ดีขึ้น
- การเก็บรักษา – การเรียนรู้ออนไลน์เป็นเรื่องง่ายสำหรับอีเลิร์นนิงที่จะเข้าใจและรักษาไว้เมื่อมีประสาทสัมผัสของมนุษย์เข้ามาเกี่ยวข้องมากขึ้น
- reachability – เนื้อหาของคุณสามารถเข้าถึงผู้ที่มีลำดับความสำคัญที่แข่งขันกัน เช่น การเล่นเกมและการดูข่าวพร้อมกัน หรือผู้ที่มีภาษาแม่แตกต่างจากภาษาเสียง
- searchability – เนื้อหาสามารถค้นหาได้โดยเครื่องมือค้นหา ในขณะที่เครื่องมือค้นหาส่วนใหญ่ไม่สามารถค้นหาวิดีโอได้อย่างเหมาะสมที่สุด เครื่องมือค้นหาสามารถใช้ไฟล์ข้อความคำอธิบายภาพและทำให้เนื้อหาของคุณถูกค้นพบมากขึ้น
- มารยาททางสังคม – บางครั้งการเล่นเสียงเนื่องจากสภาพแวดล้อมของคุณอาจดูไม่สุภาพ หรือเสียงอาจได้ยินได้ยากเนื่องจากเสียงรบกวนจากสิ่งแวดล้อมของคุณ
- ความเข้าใจ – เนื้อหาเข้าใจง่ายขึ้นโดยไม่คำนึงถึงสำเนียงของผู้พูด ภาษาเจ้าของภาษา หรือความเร็วในการพูด คุณยังสามารถจดบันทึกโดยไม่ต้องดูฉากเดิมซ้ำๆ
ภาพรวมโซลูชัน
ไลบรารีที่นำเสนอในโพสต์นี้ใช้ Amazon Polly เพื่อสร้างเสียงและคำบรรยายสำหรับข้อความที่ป้อน คุณสามารถรวมไลบรารีนี้ในแอปพลิเคชันแปลงข้อความเป็นคำพูดของคุณได้อย่างง่ายดาย รองรับรูปแบบเสียงหลายรูปแบบและคำอธิบายภาพทั้งในรูปแบบไฟล์ VTT และ SRT ซึ่งเป็นที่นิยมใช้กันมากที่สุดในอุตสาหกรรม
ในโพสต์นี้เราเน้นที่ PollyVTT()
ไวยากรณ์และตัวเลือก และนำเสนอตัวอย่างบางส่วนที่สาธิตวิธีใช้Python SubtitleGeneratorForPolly
เพื่อสร้างไฟล์เสียงและคำบรรยายแบบซิงโครนัสพร้อมกันสำหรับการป้อนข้อความที่กำหนด รูปแบบไฟล์เสียงที่ส่งออกอาจเป็น PCM(wav), OGG หรือ MP3 และรูปแบบไฟล์คำบรรยายอาจเป็น VTT หรือ SRT นอกจากนี้, SubtitleGeneratorForPolly
รองรับ Amazon Polly ทั้งหมด synthesize_speech
และเพิ่มไปยังชุดคุณสมบัติ Amazon Polly ที่สมบูรณ์
พื้นที่ polly-vtt
ไลบรารีและการพึ่งพามีอยู่ใน GitHub.
ติดตั้งและใช้ฟังก์ชัน
ก่อนที่เราจะดูตัวอย่างการใช้ PollyVTT()
, ฟังก์ชันที่ให้พลัง SubtitleGeneratorForPolly
ลองดูที่การติดตั้งและไวยากรณ์ของมัน
ติดตั้งไลบรารีโดยใช้รหัสต่อไปนี้:
หากต้องการเรียกใช้จากบรรทัดคำสั่ง คุณเพียงแค่เรียกใช้ polly-vtt
:
รหัสต่อไปนี้แสดงตัวเลือกของคุณ:
ลองดูตัวอย่างบางส่วนตอนนี้
1 ตัวอย่าง
ตัวอย่างนี้สร้างไฟล์เสียง PCM พร้อมกับไฟล์คำบรรยาย SRT สำหรับสองประโยคง่ายๆ:
2 ตัวอย่าง
ตัวอย่างนี้สาธิตวิธีการใช้ย่อหน้าของข้อความเป็นอินพุต สิ่งนี้จะสร้างไฟล์เสียงใน WAV, MP3 และ OGG และคำบรรยายใน SRT และ VTT ตัวอย่างต่อไปนี้สร้างไฟล์หกไฟล์สำหรับข้อความอินพุตที่กำหนด:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
ดูรหัสต่อไปนี้:
3 ตัวอย่าง
อย่างไรก็ตาม ในกรณีส่วนใหญ่ คุณต้องการส่งข้อความเป็นไฟล์อินพุต ต่อไปนี้คือตัวอย่าง Python ของสิ่งนี้ โดยมีผลลัพธ์เหมือนกับตัวอย่างก่อนหน้า:
ต่อไปนี้คือข้อความรับรองจากทีมฝึกอบรมภายในของ AWS เกี่ยวกับการใช้ Amazon Polly พร้อมคำบรรยาย:
วิดีโอต่อไปนี้นำเสนอตัวอย่างสั้นๆ ว่าทีมฝึกอบรมภายในที่ AWS ใช้อย่างไร PollyVTT()
:
สรุป
ในโพสต์นี้ เราได้แชร์วิธีการสร้างเสียงและคำบรรยายพร้อมกันสำหรับข้อความที่กำหนด ดิ PollyVTT()
และฟังก์ชั่น SubtitleGeneratorForPolly
ระบุข้อกำหนดทั่วไปสำหรับคำบรรยายในลักษณะที่มีประสิทธิภาพและประสิทธิผล ทีม Amazon Polly ยังคงคิดค้นและนำเสนอโซลูชันที่ง่ายขึ้นสำหรับความต้องการของลูกค้าที่ซับซ้อน
สำหรับบทแนะนำและข้อมูลเพิ่มเติมเกี่ยวกับ Amazon Polly โปรดดูที่ บล็อก AWS Machine Learning.
เกี่ยวกับผู้เขียน
อภิเษก โสนี เป็น Partner Solutions Architect ที่ AWS เขาทำงานร่วมกับลูกค้าเพื่อให้คำแนะนำทางเทคนิคเพื่อให้ได้ผลลัพธ์ที่ดีที่สุดของปริมาณงานบน AWS
แดน แมค ใช้เสียง วิดีโอ และกาแฟเพื่อกลั่นเนื้อหาเป็นหลักสูตรที่กำหนดเป้าหมาย แบบแยกส่วน และแบบมีโครงสร้าง ในบทบาทของเขาในฐานะผู้จัดการโครงการ Curriculum Developer Project สำหรับโดเมน NetSec ที่ Amazon Web Services เขาใช้ประโยชน์จากประสบการณ์ของเขาใน Data Center Networking เพื่อช่วยให้ผู้เชี่ยวชาญเฉพาะด้านนำแนวคิดมาสู่ชีวิต
ออร์แลนโด้ คารัม เป็นนักพัฒนาหลักสูตรด้านเทคนิคของ Amazon Web Services ซึ่งหมายความว่าเขาจะได้เล่นกับเทคโนโลยีใหม่เจ๋งๆ แล้วพูดถึงมัน ในบางครั้ง เขายังใช้เทคโนโลยีเจ๋งๆ เหล่านี้เพื่อทำให้งานของเขาง่ายขึ้น
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- Amazon Polly
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- AWS Machine Learning AWS
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลมทะเล