تقديم Whisper

لقد قمنا بتدريب شبكة عصبية مفتوحة المصدر تسمى Whisper والتي تقترب من المتانة والدقة على المستوى البشري في التعرف على الكلام باللغة الإنجليزية.

اقرأ ورقة


عرض الرمز


مشاهدة نموذج البطاقة

أمثلة الهمس:

Whisper هو نظام التعرف التلقائي على الكلام (ASR) الذي تم تدريبه على 680,000،XNUMX ساعة من البيانات متعددة اللغات والمتعددة المهام التي يتم الإشراف عليها والتي تم جمعها من الويب. نظهر أن استخدام مثل هذه المجموعة الكبيرة والمتنوعة من البيانات يؤدي إلى تحسين متانة اللهجات وضوضاء الخلفية واللغة التقنية. علاوة على ذلك ، فإنه يتيح النسخ بلغات متعددة ، وكذلك الترجمة من تلك اللغات إلى الإنجليزية. نحن نماذج مفتوحة المصدر ورمز الاستدلال ليكون بمثابة أساس لبناء تطبيقات مفيدة ولإجراء مزيد من البحث حول معالجة الكلام القوية.

صورة
صورة

هندسة Whisper هي نهج بسيط من طرف إلى طرف ، يتم تنفيذه كمحول لجهاز فك التشفير. يتم تقسيم الصوت الداخل إلى أجزاء مدتها 30 ثانية ، وتحويلها إلى مخطط طيفي لوغاريتمي ، ثم يتم تمريرها إلى جهاز تشفير. يتم تدريب وحدة فك التشفير على التنبؤ بالتعليق النصي المقابل ، مختلطًا مع الرموز المميزة الخاصة التي توجه النموذج الفردي لأداء مهام مثل تحديد اللغة ، والطوابع الزمنية على مستوى العبارة ، ونسخ الكلام متعدد اللغات ، وترجمة الكلام إلى اللغة الإنجليزية.

صورة
صورة

تستخدم الأساليب الأخرى الموجودة في كثير من الأحيان مجموعات بيانات تدريب نصية صوتية أصغر حجمًا وأكثر اقترانًا بها، أو استخدام تدريب صوتي واسع النطاق ولكن بدون إشراف. نظرًا لأن Whisper تم تدريبه على مجموعة بيانات كبيرة ومتنوعة ولم يتم ضبطه على أي مجموعة محددة ، فإنه لا يتفوق على النماذج المتخصصة في أداء LibriSpeech ، وهو معيار تنافسي شهير في التعرف على الكلام. ومع ذلك ، عندما نقيس أداء Whisper من الصفر عبر العديد من مجموعات البيانات المتنوعة ، نجد أنه أكثر قوة ويحدث أخطاء أقل بنسبة 50٪ من تلك النماذج.

حوالي ثلث مجموعة بيانات Whisper الصوتية ليست باللغة الإنجليزية ، ويتم تكليفها بالتناوب بمهمة النسخ باللغة الأصلية أو الترجمة إلى اللغة الإنجليزية. نجد أن هذا النهج فعال بشكل خاص في تعلم ترجمة الكلام إلى نص ويتفوق على SOTA الخاضع للإشراف على CoVoST2 إلى الترجمة الإنجليزية بدون طلقة.

صورة
صورة

نأمل أن تسمح دقة Whisper العالية وسهولة الاستخدام للمطورين بإضافة واجهات صوتية إلى مجموعة أوسع من التطبيقات. تفحص ال ورقة, بطاقة نموذجيةو الكود لمعرفة المزيد من التفاصيل وتجربة Whisper.

الطابع الزمني:

اكثر من OpenAI