معرفی Whisper

بازنشر افلاطون

دنبال: 0

ما یک شبکه عصبی به نام Whisper را آموزش داده‌ایم و در حال تهیه منبع باز هستیم که به استحکام و دقت سطح انسانی در تشخیص گفتار انگلیسی نزدیک می‌شود.

مقاله را بخوانید

کد نمایش

مشاهده مدل کارت

Whisper یک سیستم تشخیص خودکار گفتار (ASR) است که بر روی 680,000 ساعت داده های چندزبانه و تحت نظارت چند وظیفه ای جمع آوری شده از وب آموزش داده شده است. ما نشان می‌دهیم که استفاده از چنین مجموعه داده‌ای بزرگ و متنوع منجر به بهبود استحکام لهجه‌ها، نویز پس‌زمینه و زبان فنی می‌شود. علاوه بر این، رونویسی در چندین زبان و همچنین ترجمه از آن زبان ها به انگلیسی را امکان پذیر می کند. ما مدل های منبع باز و کد استنتاجی هستیم تا به عنوان پایه ای برای ساخت برنامه های کاربردی مفید و برای تحقیقات بیشتر در مورد پردازش گفتار قوی عمل کنیم.

معماری Whisper یک رویکرد ساده از انتها به انتها است که به عنوان یک ترانسفورماتور رمزگذار - رمزگشا پیاده سازی شده است. صدای ورودی به تکه‌های 30 ثانیه‌ای تقسیم می‌شود، به یک طیف‌نگار log-Mel تبدیل می‌شود و سپس به یک رمزگذار ارسال می‌شود. یک رمزگشا برای پیش‌بینی عنوان متن مربوطه، با نشانه‌های خاصی آمیخته شده است که مدل واحد را برای انجام وظایفی مانند شناسایی زبان، مهرهای زمانی در سطح عبارت، رونویسی گفتار چند زبانه و ترجمه گفتار به انگلیسی هدایت می‌کند.

سایر رویکردهای موجود اغلب از مجموعه داده‌های آموزشی متنی صوتی کوچک‌تر و نزدیک‌تر استفاده می‌کنند، یا از پیشآموزش صوتی گسترده اما بدون نظارت استفاده کنید. از آنجایی که Whisper بر روی یک مجموعه داده بزرگ و متنوع آموزش داده شده است و برای هیچ مجموعه خاصی تنظیم نشده است، مدل‌هایی را که در عملکرد LibriSpeech تخصص دارند، یک معیار رقابتی معروف در تشخیص گفتار، شکست نمی‌دهد. با این حال، وقتی عملکرد صفر شات Whisper را در بسیاری از مجموعه داده‌های متنوع اندازه‌گیری می‌کنیم، متوجه می‌شویم که بسیار قوی‌تر است و 50٪ خطاهای کمتری نسبت به آن مدل‌ها ایجاد می‌کند.

حدود یک سوم مجموعه داده صوتی Whisper غیرانگلیسی است و به طور متناوب وظیفه رونویسی به زبان اصلی یا ترجمه به انگلیسی را بر عهده دارد. ما متوجه شدیم که این رویکرد به ویژه در یادگیری ترجمه گفتار به متن مؤثر است و از SOTA نظارت شده در CoVoST2 به ترجمه انگلیسی زبان صفر عملکرد بهتری دارد.

ما امیدواریم که دقت بالای Whisper و سهولت استفاده به توسعه دهندگان اجازه دهد تا رابط های صوتی را به مجموعه بسیار گسترده تری از برنامه ها اضافه کنند. بررسی کنید مقاله, کارت مدلو رمز برای یادگیری جزئیات بیشتر و امتحان Whisper.

تمبر زمان: سپتامبر 21، 2022سپتامبر 21، 2022

تمبر زمان: آوریل 25، 2023

معرفی Whisper

بازنشر افلاطون

نمونه های زمزمه:

بیشتر از OpenAI

به روز رسانی انجمن مدل مرزی

معرفی اپلیکیشن ChatGPT برای iOS

اندازه گیری قانون گودهارت

تولید تصویر مشروط متنی سلسله مراتبی با پنهان‌های CLIP

پیش‌بینی سوءاستفاده‌های احتمالی از مدل‌های زبانی برای کمپین‌های اطلاعات نادرست - و نحوه کاهش خطر

حل (برخی) مسائل المپیاد ریاضی رسمی

شیوه‌های حاکم بر سیستم‌های هوش مصنوعی عاملی

بهبود استدلال ریاضی با نظارت فرآیند

روش های جدید برای مدیریت داده های خود در ChatGPT

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب