سرگوشی کا تعارف

ہم نے ویسپر نامی ایک اعصابی جال کو تربیت دی ہے اور اسے اوپن سورس کر رہے ہیں جو انگریزی تقریر کی شناخت پر انسانی سطح کی مضبوطی اور درستگی تک پہنچتا ہے۔

کاغذ پڑھیں


کوڈ ملاحظہ کریں


ماڈل کارڈ دیکھیں

سرگوشی کی مثالیں:

Whisper ایک خودکار اسپیچ ریکگنیشن (ASR) سسٹم ہے جو ویب سے جمع کیے گئے 680,000 گھنٹے کثیر لسانی اور ملٹی ٹاسک زیر نگرانی ڈیٹا پر تربیت یافتہ ہے۔ ہم یہ ظاہر کرتے ہیں کہ اتنے بڑے اور متنوع ڈیٹاسیٹ کا استعمال لہجوں، پس منظر کے شور اور تکنیکی زبان کی مضبوطی کو بہتر بناتا ہے۔ مزید یہ کہ یہ متعدد زبانوں میں نقل کے ساتھ ساتھ ان زبانوں سے انگریزی میں ترجمہ کو بھی قابل بناتا ہے۔ ہم کارآمد ایپلی کیشنز بنانے اور مضبوط اسپیچ پروسیسنگ پر مزید تحقیق کے لیے ایک بنیاد کے طور پر کام کرنے کے لیے اوپن سورسنگ ماڈل اور انفرنس کوڈ ہیں۔

تصویر
تصویر

وسپر آرکیٹیکچر ایک سادہ اینڈ ٹو اینڈ اپروچ ہے، جسے ایک انکوڈر-ڈیکوڈر ٹرانسفارمر کے طور پر لاگو کیا جاتا ہے۔ ان پٹ آڈیو کو 30 سیکنڈ کے ٹکڑوں میں تقسیم کیا جاتا ہے، اسے لاگ میل سپیکٹروگرام میں تبدیل کیا جاتا ہے، اور پھر ایک انکوڈر میں منتقل کیا جاتا ہے۔ ایک ڈیکوڈر کو متعلقہ ٹیکسٹ کیپشن کی پیشن گوئی کرنے کی تربیت دی جاتی ہے، خاص ٹوکنز کے ساتھ مل کر جو واحد ماڈل کو زبان کی شناخت، فقرے کی سطح کے ٹائم اسٹیمپ، کثیر لسانی اسپیچ ٹرانسکرپشن، اور ٹو انگریزی اسپیچ ٹرانسلیشن جیسے کام انجام دینے کی ہدایت کرتا ہے۔

تصویر
تصویر

دیگر موجودہ نقطہ نظر اکثر چھوٹے، زیادہ قریب سے جوڑے ہوئے آڈیو ٹیکسٹ ٹریننگ ڈیٹاسیٹس کا استعمال کرتے ہیں۔، یا وسیع لیکن غیر زیر نگرانی آڈیو پری ٹریننگ کا استعمال کریں۔. چونکہ Whisper کو ایک بڑے اور متنوع ڈیٹاسیٹ پر تربیت دی گئی تھی اور اسے کسی بھی مخصوص کے مطابق نہیں بنایا گیا تھا، اس لیے یہ ان ماڈلز کو مات نہیں دیتا جو LibriSpeech کارکردگی میں مہارت رکھتے ہیں، جو کہ تقریر کی شناخت میں ایک مشہور مسابقتی معیار ہے۔ تاہم، جب ہم بہت سے متنوع ڈیٹاسیٹس میں Whisper کی زیرو شاٹ کارکردگی کی پیمائش کرتے ہیں تو ہمیں معلوم ہوتا ہے کہ یہ بہت زیادہ مضبوط ہے اور ان ماڈلز کے مقابلے میں 50% کم غلطیاں کرتا ہے۔

Whisper کے آڈیو ڈیٹاسیٹ کا تقریباً ایک تہائی حصہ غیر انگریزی ہے، اور اسے متبادل طور پر اصل زبان میں نقل کرنے یا انگریزی میں ترجمہ کرنے کا کام دیا جاتا ہے۔ ہمیں لگتا ہے کہ یہ طریقہ تقریر سے متنی ترجمہ سیکھنے کے لیے خاص طور پر موثر ہے اور CoVoST2 سے انگریزی ترجمہ زیرو شاٹ پر زیر نگرانی SOTA کو پیچھے چھوڑتا ہے۔

تصویر
تصویر

ہم امید کرتے ہیں کہ Whisper کی اعلیٰ درستگی اور استعمال میں آسانی ڈیولپرز کو ایپلی کیشنز کے بہت وسیع سیٹ میں صوتی انٹرفیس شامل کرنے کی اجازت دے گی۔ چیک کریں کاغذ, ماڈل کارڈ، اور کوڈ مزید تفصیلات جاننے اور Whisper کو آزمانے کے لیے۔

ٹائم اسٹیمپ:

سے زیادہ اوپنائی