تقديم Whisper

أعاد نشره أفلاطون

المتابعون: 0

لقد قمنا بتدريب شبكة عصبية مفتوحة المصدر تسمى Whisper والتي تقترب من المتانة والدقة على المستوى البشري في التعرف على الكلام باللغة الإنجليزية.

اقرأ ورقة

عرض الرمز

مشاهدة نموذج البطاقة

Whisper هو نظام التعرف التلقائي على الكلام (ASR) الذي تم تدريبه على 680,000،XNUMX ساعة من البيانات متعددة اللغات والمتعددة المهام التي يتم الإشراف عليها والتي تم جمعها من الويب. نظهر أن استخدام مثل هذه المجموعة الكبيرة والمتنوعة من البيانات يؤدي إلى تحسين متانة اللهجات وضوضاء الخلفية واللغة التقنية. علاوة على ذلك ، فإنه يتيح النسخ بلغات متعددة ، وكذلك الترجمة من تلك اللغات إلى الإنجليزية. نحن نماذج مفتوحة المصدر ورمز الاستدلال ليكون بمثابة أساس لبناء تطبيقات مفيدة ولإجراء مزيد من البحث حول معالجة الكلام القوية.

هندسة Whisper هي نهج بسيط من طرف إلى طرف ، يتم تنفيذه كمحول لجهاز فك التشفير. يتم تقسيم الصوت الداخل إلى أجزاء مدتها 30 ثانية ، وتحويلها إلى مخطط طيفي لوغاريتمي ، ثم يتم تمريرها إلى جهاز تشفير. يتم تدريب وحدة فك التشفير على التنبؤ بالتعليق النصي المقابل ، مختلطًا مع الرموز المميزة الخاصة التي توجه النموذج الفردي لأداء مهام مثل تحديد اللغة ، والطوابع الزمنية على مستوى العبارة ، ونسخ الكلام متعدد اللغات ، وترجمة الكلام إلى اللغة الإنجليزية.

تستخدم الأساليب الأخرى الموجودة في كثير من الأحيان مجموعات بيانات تدريب نصية صوتية أصغر حجمًا وأكثر اقترانًا بها، أو استخدام تدريب صوتي واسع النطاق ولكن بدون إشراف. نظرًا لأن Whisper تم تدريبه على مجموعة بيانات كبيرة ومتنوعة ولم يتم ضبطه على أي مجموعة محددة ، فإنه لا يتفوق على النماذج المتخصصة في أداء LibriSpeech ، وهو معيار تنافسي شهير في التعرف على الكلام. ومع ذلك ، عندما نقيس أداء Whisper من الصفر عبر العديد من مجموعات البيانات المتنوعة ، نجد أنه أكثر قوة ويحدث أخطاء أقل بنسبة 50٪ من تلك النماذج.

حوالي ثلث مجموعة بيانات Whisper الصوتية ليست باللغة الإنجليزية ، ويتم تكليفها بالتناوب بمهمة النسخ باللغة الأصلية أو الترجمة إلى اللغة الإنجليزية. نجد أن هذا النهج فعال بشكل خاص في تعلم ترجمة الكلام إلى نص ويتفوق على SOTA الخاضع للإشراف على CoVoST2 إلى الترجمة الإنجليزية بدون طلقة.

نأمل أن تسمح دقة Whisper العالية وسهولة الاستخدام للمطورين بإضافة واجهات صوتية إلى مجموعة أوسع من التطبيقات. تفحص ال ورقة, بطاقة نموذجيةو الكود لمعرفة المزيد من التفاصيل وتجربة Whisper.

الطابع الزمني: 21 سبتمبر 202221 سبتمبر 2022

الطابع الزمني: أبريل 25، 2023

تقديم Whisper

أعاد نشره أفلاطون

أمثلة الهمس:

اكثر من OpenAI

تحديثات منتدى نموذج الحدود

نقدم لكم تطبيق ChatGPT لنظام iOS

قياس قانون جودهارت

إنشاء صورة شرطية نصية متدرجة باستخدام عناصر كامنة لـ CLIP

التنبؤ بإساءة استخدام النماذج اللغوية المحتملة لحملات المعلومات المضللة - وكيفية تقليل المخاطر

حل (بعض) مسائل أولمبياد الرياضيات الرسمية

ممارسات إدارة أنظمة الذكاء الاصطناعي الوكيلة

تحسين التفكير الرياضي مع الإشراف على العملية

طرق جديدة لإدارة بياناتك في ChatGPT

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي