معرفی Whisper

ما یک شبکه عصبی به نام Whisper را آموزش داده‌ایم و در حال تهیه منبع باز هستیم که به استحکام و دقت سطح انسانی در تشخیص گفتار انگلیسی نزدیک می‌شود.

مقاله را بخوانید


کد نمایش


مشاهده مدل کارت

نمونه های زمزمه:

Whisper یک سیستم تشخیص خودکار گفتار (ASR) است که بر روی 680,000 ساعت داده های چندزبانه و تحت نظارت چند وظیفه ای جمع آوری شده از وب آموزش داده شده است. ما نشان می‌دهیم که استفاده از چنین مجموعه داده‌ای بزرگ و متنوع منجر به بهبود استحکام لهجه‌ها، نویز پس‌زمینه و زبان فنی می‌شود. علاوه بر این، رونویسی در چندین زبان و همچنین ترجمه از آن زبان ها به انگلیسی را امکان پذیر می کند. ما مدل های منبع باز و کد استنتاجی هستیم تا به عنوان پایه ای برای ساخت برنامه های کاربردی مفید و برای تحقیقات بیشتر در مورد پردازش گفتار قوی عمل کنیم.

تصویر
تصویر

معماری Whisper یک رویکرد ساده از انتها به انتها است که به عنوان یک ترانسفورماتور رمزگذار - رمزگشا پیاده سازی شده است. صدای ورودی به تکه‌های 30 ثانیه‌ای تقسیم می‌شود، به یک طیف‌نگار log-Mel تبدیل می‌شود و سپس به یک رمزگذار ارسال می‌شود. یک رمزگشا برای پیش‌بینی عنوان متن مربوطه، با نشانه‌های خاصی آمیخته شده است که مدل واحد را برای انجام وظایفی مانند شناسایی زبان، مهرهای زمانی در سطح عبارت، رونویسی گفتار چند زبانه و ترجمه گفتار به انگلیسی هدایت می‌کند.

تصویر
تصویر

سایر رویکردهای موجود اغلب از مجموعه داده‌های آموزشی متنی صوتی کوچک‌تر و نزدیک‌تر استفاده می‌کنند، یا از پیشآموزش صوتی گسترده اما بدون نظارت استفاده کنید. از آنجایی که Whisper بر روی یک مجموعه داده بزرگ و متنوع آموزش داده شده است و برای هیچ مجموعه خاصی تنظیم نشده است، مدل‌هایی را که در عملکرد LibriSpeech تخصص دارند، یک معیار رقابتی معروف در تشخیص گفتار، شکست نمی‌دهد. با این حال، وقتی عملکرد صفر شات Whisper را در بسیاری از مجموعه داده‌های متنوع اندازه‌گیری می‌کنیم، متوجه می‌شویم که بسیار قوی‌تر است و 50٪ خطاهای کمتری نسبت به آن مدل‌ها ایجاد می‌کند.

حدود یک سوم مجموعه داده صوتی Whisper غیرانگلیسی است و به طور متناوب وظیفه رونویسی به زبان اصلی یا ترجمه به انگلیسی را بر عهده دارد. ما متوجه شدیم که این رویکرد به ویژه در یادگیری ترجمه گفتار به متن مؤثر است و از SOTA نظارت شده در CoVoST2 به ترجمه انگلیسی زبان صفر عملکرد بهتری دارد.

تصویر
تصویر

ما امیدواریم که دقت بالای Whisper و سهولت استفاده به توسعه دهندگان اجازه دهد تا رابط های صوتی را به مجموعه بسیار گسترده تری از برنامه ها اضافه کنند. بررسی کنید مقاله, کارت مدلو رمز برای یادگیری جزئیات بیشتر و امتحان Whisper.

تمبر زمان:

بیشتر از OpenAI