היכרות עם Whisper

הועלה מחדש על ידי אפלטון

עוקב: 0

הכשרנו ומבצעים מקורות פתוחים לרשת עצבית בשם Whisper שמתקרבת לחוסן ולדיוק ברמה האנושית בזיהוי דיבור באנגלית.

Whisper היא מערכת זיהוי דיבור אוטומטי (ASR) מאומנת על 680,000 שעות של נתונים בפיקוח רב לשוני ורב משימות שנאספו מהאינטרנט. אנו מראים שהשימוש במערך נתונים כה גדול ומגוון מוביל לשיפור החוסן בהדגשים, רעשי רקע ושפה טכנית. יתר על כן, הוא מאפשר תמלול במספר שפות, כמו גם תרגום משפות אלו לאנגלית. אנחנו מודלים של מקורות פתוחים וקוד מסקנות כדי לשמש בסיס לבניית יישומים שימושיים ולמחקר נוסף על עיבוד דיבור חזק.

ארכיטקטורת Whisper היא גישה פשוטה מקצה לקצה, המיושמת כשנאי מקודד-מפענח. אודיו קלט מפוצל לנתחים של 30 שניות, מומר לספקטרוגרמה log-Mel ולאחר מכן מועבר למקודד. מפענח מאומן לחזות את כיתוב הטקסט המקביל, מעורבב עם אסימונים מיוחדים המכוונים את המודל היחיד לבצע משימות כגון זיהוי שפה, חותמות זמן ברמת הביטוי, תמלול דיבור רב לשוני ותרגום דיבור לאנגלית.

גישות קיימות אחרות משתמשות לעתים קרובות יותר במערכי נתונים קטנים יותר של אימון אודיו-טקסט מזווגים יותר, או השתמש באימון מקדים אודיו רחב אך ללא פיקוח. מכיוון ש-Whisper הוכשרה על מערך נתונים גדול ומגוון ולא היה מכוון לאף אחד ספציפי, הוא אינו מנצח מודלים שמתמחים בביצועי LibriSpeech, אמת מידה תחרותית מפורסם בזיהוי דיבור. עם זאת, כאשר אנו מודדים את ביצועי ה-50-shot של Whisper על פני מערכי נתונים רבים ומגוונים, אנו מוצאים שהוא הרבה יותר חזק ויוצר XNUMX% פחות שגיאות ממודלים אלה.

כשליש ממערך השמע של Whisper אינו אנגלי, והוא מקבל לסירוגין את המשימה לתמלל בשפת המקור או לתרגם לאנגלית. אנו מוצאים שגישה זו יעילה במיוחד בלימוד תרגום דיבור לטקסט ועולה על ה-SOTA המפוקח ב-CoVoST2 לתרגום לאנגלית zero-shot.

אנו מקווים שהדיוק הגבוה וקלות השימוש של Whisper יאפשרו למפתחים להוסיף ממשקים קוליים למערך רחב הרבה יותר של יישומים. בדוק את מאמר, כרטיס דגם, ו קוד כדי ללמוד פרטים נוספים ולנסות את Whisper.

בול זמן: ספטמבר 21, 2022ספטמבר 21, 2022

בול זמן: אפריל 25, 2023

היכרות עם Whisper

הועלה מחדש על ידי אפלטון

דוגמאות לחישה:

עוד מ OpenAI

עדכוני פורום Frontier Model

היכרות עם אפליקציית ChatGPT עבור iOS

מדידת חוק גודהרט

יצירת תמונה מותנית בטקסט היררכי עם סמויות CLIP

חיזוי שימוש לרעה פוטנציאלי במודלים של שפה עבור מסעות פרסום של דיסאינפורמציה - וכיצד להפחית סיכון

פתרון (כמה) בעיות רשמיות של אולימפיאדת מתמטיקה

שיטות לניהול מערכות AI Agentic

שיפור חשיבה מתמטית עם פיקוח תהליכים

דרכים חדשות לנהל את הנתונים שלך ב-ChatGPT

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן