ما یک شبکه عصبی به نام Whisper را آموزش دادهایم و در حال تهیه منبع باز هستیم که به استحکام و دقت سطح انسانی در تشخیص گفتار انگلیسی نزدیک میشود.
کد نمایش
مشاهده مدل کارت
نمونه های زمزمه:
Whisper یک سیستم تشخیص خودکار گفتار (ASR) است که بر روی 680,000 ساعت داده های چندزبانه و تحت نظارت چند وظیفه ای جمع آوری شده از وب آموزش داده شده است. ما نشان میدهیم که استفاده از چنین مجموعه دادهای بزرگ و متنوع منجر به بهبود استحکام لهجهها، نویز پسزمینه و زبان فنی میشود. علاوه بر این، رونویسی در چندین زبان و همچنین ترجمه از آن زبان ها به انگلیسی را امکان پذیر می کند. ما مدل های منبع باز و کد استنتاجی هستیم تا به عنوان پایه ای برای ساخت برنامه های کاربردی مفید و برای تحقیقات بیشتر در مورد پردازش گفتار قوی عمل کنیم.
معماری Whisper یک رویکرد ساده از انتها به انتها است که به عنوان یک ترانسفورماتور رمزگذار - رمزگشا پیاده سازی شده است. صدای ورودی به تکههای 30 ثانیهای تقسیم میشود، به یک طیفنگار log-Mel تبدیل میشود و سپس به یک رمزگذار ارسال میشود. یک رمزگشا برای پیشبینی عنوان متن مربوطه، با نشانههای خاصی آمیخته شده است که مدل واحد را برای انجام وظایفی مانند شناسایی زبان، مهرهای زمانی در سطح عبارت، رونویسی گفتار چند زبانه و ترجمه گفتار به انگلیسی هدایت میکند.
سایر رویکردهای موجود اغلب از مجموعه دادههای آموزشی متنی صوتی کوچکتر و نزدیکتر استفاده میکنند، یا از پیشآموزش صوتی گسترده اما بدون نظارت استفاده کنید. از آنجایی که Whisper بر روی یک مجموعه داده بزرگ و متنوع آموزش داده شده است و برای هیچ مجموعه خاصی تنظیم نشده است، مدلهایی را که در عملکرد LibriSpeech تخصص دارند، یک معیار رقابتی معروف در تشخیص گفتار، شکست نمیدهد. با این حال، وقتی عملکرد صفر شات Whisper را در بسیاری از مجموعه دادههای متنوع اندازهگیری میکنیم، متوجه میشویم که بسیار قویتر است و 50٪ خطاهای کمتری نسبت به آن مدلها ایجاد میکند.
حدود یک سوم مجموعه داده صوتی Whisper غیرانگلیسی است و به طور متناوب وظیفه رونویسی به زبان اصلی یا ترجمه به انگلیسی را بر عهده دارد. ما متوجه شدیم که این رویکرد به ویژه در یادگیری ترجمه گفتار به متن مؤثر است و از SOTA نظارت شده در CoVoST2 به ترجمه انگلیسی زبان صفر عملکرد بهتری دارد.
ما امیدواریم که دقت بالای Whisper و سهولت استفاده به توسعه دهندگان اجازه دهد تا رابط های صوتی را به مجموعه بسیار گسترده تری از برنامه ها اضافه کنند. بررسی کنید مقاله, کارت مدلو رمز برای یادگیری جزئیات بیشتر و امتحان Whisper.
- AI
- آی هنر
- مولد هنر ai
- ربات ai
- هوش مصنوعی
- گواهی هوش مصنوعی
- هوش مصنوعی در بانکداری
- ربات هوش مصنوعی
- ربات های هوش مصنوعی
- نرم افزار هوش مصنوعی
- بلاکچین
- کنفرانس بلاک چین ai
- coingenius
- هوش مصنوعی محاوره ای
- کنفرانس کریپتو ai
- دل-ه
- یادگیری عمیق
- گوگل ai
- فراگیری ماشین
- OpenAI
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- بازی افلاطون
- PlatoData
- بازی پلاتو
- تحقیق
- مقیاس Ai
- نحو
- زفیرنت