แนะนำกระซิบ

เราได้ฝึกอบรมและกำลังโอเพ่นซอร์สโครงข่ายประสาทที่เรียกว่า Whisper ซึ่งเข้าใกล้ความแข็งแกร่งและความแม่นยำในระดับมนุษย์ในการรู้จำคำพูดภาษาอังกฤษ

อ่านกระดาษ


ดูรหัส


ดูบัตรรุ่น

ตัวอย่างเสียงกระซิบ:

Whisper คือระบบรู้จำเสียงพูดอัตโนมัติ (ASR) ที่ได้รับการฝึกอบรมจากข้อมูลภายใต้การดูแลแบบหลายภาษาและแบบมัลติทาสก์ 680,000 ชั่วโมงที่รวบรวมจากเว็บ เราแสดงให้เห็นว่าการใช้ชุดข้อมูลที่มีขนาดใหญ่และหลากหลายดังกล่าวทำให้มีความทนทานต่อสำเนียง เสียงพื้นหลัง และภาษาทางเทคนิคที่ดีขึ้น นอกจากนี้ยังช่วยให้สามารถถอดความในหลายภาษารวมทั้งแปลจากภาษาเหล่านั้นเป็นภาษาอังกฤษได้ เราเป็นโมเดลโอเพนซอร์ซและโค้ดการอนุมานเพื่อใช้เป็นพื้นฐานสำหรับการสร้างแอปพลิเคชันที่มีประโยชน์และสำหรับการวิจัยเพิ่มเติมเกี่ยวกับการประมวลผลคำพูดที่มีประสิทธิภาพ

ภาพ
ภาพ

สถาปัตยกรรม Whisper เป็นแนวทางแบบ end-to-end ที่เรียบง่าย ซึ่งนำมาใช้เป็น Transformer ตัวเข้ารหัส-ถอดรหัส เสียงอินพุตถูกแบ่งออกเป็น 30 วินาที แปลงเป็นสเปกโตรแกรม log-Mel แล้วส่งผ่านไปยังตัวเข้ารหัส ตัวถอดรหัสได้รับการฝึกฝนให้คาดเดาคำบรรยายข้อความที่เกี่ยวข้อง ผสมผสานกับโทเค็นพิเศษที่สั่งให้โมเดลเดียวทำงาน เช่น การระบุภาษา การประทับเวลาระดับวลี การถอดเสียงคำพูดหลายภาษา และการแปลคำพูดเป็นภาษาอังกฤษ

ภาพ
ภาพ

วิธีการอื่นๆ ที่มีอยู่มักใช้ชุดข้อมูลการฝึกอบรมข้อความเสียงและข้อความที่มีขนาดเล็กกว่าและจับคู่กันอย่างใกล้ชิดมากขึ้นหรือใช้การฝึกสอนด้วยเสียงแบบกว้างแต่ไม่มีผู้ดูแล. เนื่องจาก Whisper ได้รับการฝึกฝนเกี่ยวกับชุดข้อมูลที่มีขนาดใหญ่และหลากหลาย และไม่ได้รับการปรับแต่งให้เหมาะกับชุดข้อมูลใดโดยเฉพาะ จึงไม่สามารถเอาชนะโมเดลที่เชี่ยวชาญด้านประสิทธิภาพของ LibriSpeech ซึ่งเป็นเกณฑ์มาตรฐานการแข่งขันที่มีชื่อเสียงในการรู้จำคำพูด อย่างไรก็ตาม เมื่อเราวัดประสิทธิภาพการทำงานแบบ zero-shot ของ Whisper ในชุดข้อมูลที่หลากหลาย เราพบว่ามีประสิทธิภาพมากกว่าและทำให้เกิดข้อผิดพลาดน้อยกว่ารุ่นเหล่านั้น 50%

ประมาณหนึ่งในสามของชุดข้อมูลเสียงของ Whisper ไม่ใช่ภาษาอังกฤษ และได้รับมอบหมายให้แปลเป็นภาษาต้นฉบับหรือแปลเป็นภาษาอังกฤษ เราพบว่าวิธีการนี้มีประสิทธิภาพโดยเฉพาะอย่างยิ่งในการเรียนรู้คำพูดเป็นการแปลข้อความ และมีประสิทธิภาพเหนือกว่า SOTA ที่อยู่ภายใต้การดูแลบน CoVoST2 เป็นการแปลภาษาอังกฤษแบบ zero-shot

ภาพ
ภาพ

เราหวังว่าความแม่นยำและความสะดวกในการใช้งานระดับสูงของ Whisper จะช่วยให้นักพัฒนาสามารถเพิ่มอินเทอร์เฟซเสียงให้กับชุดแอปพลิเคชันที่กว้างขึ้นได้ ตรวจสอบ กระดาษ, การ์ดรุ่นและ รหัส เพื่อเรียนรู้รายละเอียดเพิ่มเติมและทดลองใช้ Whisper

ประทับเวลา:

เพิ่มเติมจาก OpenAI