היכרות עם Whisper

הכשרנו ומבצעים מקורות פתוחים לרשת עצבית בשם Whisper שמתקרבת לחוסן ולדיוק ברמה האנושית בזיהוי דיבור באנגלית.

קרא נייר


הצג קוד


צפה בכרטיס דגם

דוגמאות לחישה:

Whisper היא מערכת זיהוי דיבור אוטומטי (ASR) מאומנת על 680,000 שעות של נתונים בפיקוח רב לשוני ורב משימות שנאספו מהאינטרנט. אנו מראים שהשימוש במערך נתונים כה גדול ומגוון מוביל לשיפור החוסן בהדגשים, רעשי רקע ושפה טכנית. יתר על כן, הוא מאפשר תמלול במספר שפות, כמו גם תרגום משפות אלו לאנגלית. אנחנו מודלים של מקורות פתוחים וקוד מסקנות כדי לשמש בסיס לבניית יישומים שימושיים ולמחקר נוסף על עיבוד דיבור חזק.

תמונה
תמונה

ארכיטקטורת Whisper היא גישה פשוטה מקצה לקצה, המיושמת כשנאי מקודד-מפענח. אודיו קלט מפוצל לנתחים של 30 שניות, מומר לספקטרוגרמה log-Mel ולאחר מכן מועבר למקודד. מפענח מאומן לחזות את כיתוב הטקסט המקביל, מעורבב עם אסימונים מיוחדים המכוונים את המודל היחיד לבצע משימות כגון זיהוי שפה, חותמות זמן ברמת הביטוי, תמלול דיבור רב לשוני ותרגום דיבור לאנגלית.

תמונה
תמונה

גישות קיימות אחרות משתמשות לעתים קרובות יותר במערכי נתונים קטנים יותר של אימון אודיו-טקסט מזווגים יותר, או השתמש באימון מקדים אודיו רחב אך ללא פיקוח. מכיוון ש-Whisper הוכשרה על מערך נתונים גדול ומגוון ולא היה מכוון לאף אחד ספציפי, הוא אינו מנצח מודלים שמתמחים בביצועי LibriSpeech, אמת מידה תחרותית מפורסם בזיהוי דיבור. עם זאת, כאשר אנו מודדים את ביצועי ה-50-shot של Whisper על פני מערכי נתונים רבים ומגוונים, אנו מוצאים שהוא הרבה יותר חזק ויוצר XNUMX% פחות שגיאות ממודלים אלה.

כשליש ממערך השמע של Whisper אינו אנגלי, והוא מקבל לסירוגין את המשימה לתמלל בשפת המקור או לתרגם לאנגלית. אנו מוצאים שגישה זו יעילה במיוחד בלימוד תרגום דיבור לטקסט ועולה על ה-SOTA המפוקח ב-CoVoST2 לתרגום לאנגלית zero-shot.

תמונה
תמונה

אנו מקווים שהדיוק הגבוה וקלות השימוש של Whisper יאפשרו למפתחים להוסיף ממשקים קוליים למערך רחב הרבה יותר של יישומים. בדוק את מאמר, כרטיס דגם, ו קוד כדי ללמוד פרטים נוספים ולנסות את Whisper.

בול זמן:

עוד מ OpenAI