سرگوشی کا تعارف

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

ہم نے ویسپر نامی ایک اعصابی جال کو تربیت دی ہے اور اسے اوپن سورس کر رہے ہیں جو انگریزی تقریر کی شناخت پر انسانی سطح کی مضبوطی اور درستگی تک پہنچتا ہے۔

کاغذ پڑھیں

کوڈ ملاحظہ کریں

ماڈل کارڈ دیکھیں

Whisper ایک خودکار اسپیچ ریکگنیشن (ASR) سسٹم ہے جو ویب سے جمع کیے گئے 680,000 گھنٹے کثیر لسانی اور ملٹی ٹاسک زیر نگرانی ڈیٹا پر تربیت یافتہ ہے۔ ہم یہ ظاہر کرتے ہیں کہ اتنے بڑے اور متنوع ڈیٹاسیٹ کا استعمال لہجوں، پس منظر کے شور اور تکنیکی زبان کی مضبوطی کو بہتر بناتا ہے۔ مزید یہ کہ یہ متعدد زبانوں میں نقل کے ساتھ ساتھ ان زبانوں سے انگریزی میں ترجمہ کو بھی قابل بناتا ہے۔ ہم کارآمد ایپلی کیشنز بنانے اور مضبوط اسپیچ پروسیسنگ پر مزید تحقیق کے لیے ایک بنیاد کے طور پر کام کرنے کے لیے اوپن سورسنگ ماڈل اور انفرنس کوڈ ہیں۔

وسپر آرکیٹیکچر ایک سادہ اینڈ ٹو اینڈ اپروچ ہے، جسے ایک انکوڈر-ڈیکوڈر ٹرانسفارمر کے طور پر لاگو کیا جاتا ہے۔ ان پٹ آڈیو کو 30 سیکنڈ کے ٹکڑوں میں تقسیم کیا جاتا ہے، اسے لاگ میل سپیکٹروگرام میں تبدیل کیا جاتا ہے، اور پھر ایک انکوڈر میں منتقل کیا جاتا ہے۔ ایک ڈیکوڈر کو متعلقہ ٹیکسٹ کیپشن کی پیشن گوئی کرنے کی تربیت دی جاتی ہے، خاص ٹوکنز کے ساتھ مل کر جو واحد ماڈل کو زبان کی شناخت، فقرے کی سطح کے ٹائم اسٹیمپ، کثیر لسانی اسپیچ ٹرانسکرپشن، اور ٹو انگریزی اسپیچ ٹرانسلیشن جیسے کام انجام دینے کی ہدایت کرتا ہے۔

دیگر موجودہ نقطہ نظر اکثر چھوٹے، زیادہ قریب سے جوڑے ہوئے آڈیو ٹیکسٹ ٹریننگ ڈیٹاسیٹس کا استعمال کرتے ہیں۔، یا وسیع لیکن غیر زیر نگرانی آڈیو پری ٹریننگ کا استعمال کریں۔. چونکہ Whisper کو ایک بڑے اور متنوع ڈیٹاسیٹ پر تربیت دی گئی تھی اور اسے کسی بھی مخصوص کے مطابق نہیں بنایا گیا تھا، اس لیے یہ ان ماڈلز کو مات نہیں دیتا جو LibriSpeech کارکردگی میں مہارت رکھتے ہیں، جو کہ تقریر کی شناخت میں ایک مشہور مسابقتی معیار ہے۔ تاہم، جب ہم بہت سے متنوع ڈیٹاسیٹس میں Whisper کی زیرو شاٹ کارکردگی کی پیمائش کرتے ہیں تو ہمیں معلوم ہوتا ہے کہ یہ بہت زیادہ مضبوط ہے اور ان ماڈلز کے مقابلے میں 50% کم غلطیاں کرتا ہے۔

Whisper کے آڈیو ڈیٹاسیٹ کا تقریباً ایک تہائی حصہ غیر انگریزی ہے، اور اسے متبادل طور پر اصل زبان میں نقل کرنے یا انگریزی میں ترجمہ کرنے کا کام دیا جاتا ہے۔ ہمیں لگتا ہے کہ یہ طریقہ تقریر سے متنی ترجمہ سیکھنے کے لیے خاص طور پر موثر ہے اور CoVoST2 سے انگریزی ترجمہ زیرو شاٹ پر زیر نگرانی SOTA کو پیچھے چھوڑتا ہے۔

ہم امید کرتے ہیں کہ Whisper کی اعلیٰ درستگی اور استعمال میں آسانی ڈیولپرز کو ایپلی کیشنز کے بہت وسیع سیٹ میں صوتی انٹرفیس شامل کرنے کی اجازت دے گی۔ چیک کریں کاغذ, ماڈل کارڈ، اور کوڈ مزید تفصیلات جاننے اور Whisper کو آزمانے کے لیے۔

ٹائم اسٹیمپ: ستمبر 21، 2022ستمبر 21، 2022

ٹائم اسٹیمپ: اپریل 25، 2023

سرگوشی کا تعارف

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

سرگوشی کی مثالیں:

سے زیادہ اوپنائی

فرنٹیئر ماڈل فورم کی تازہ کاری

آئی او ایس کے لیے ChatGPT ایپ متعارف کروا رہا ہے۔

گڈ ہارٹ کے قانون کی پیمائش

CLIP لیٹنٹ کے ساتھ درجہ بندی کے متن سے مشروط امیج جنریشن

ڈس انفارمیشن مہمات کے لیے زبان کے ماڈلز کے ممکنہ غلط استعمال کی پیشن گوئی - اور خطرے کو کیسے کم کیا جائے

(کچھ) رسمی ریاضی اولمپیاڈ کے مسائل کو حل کرنا

Agentic AI سسٹمز کو گورننگ کرنے کے طریقے

عمل کی نگرانی کے ساتھ ریاضیاتی استدلال کو بہتر بنانا

ChatGPT میں اپنے ڈیٹا کا نظم کرنے کے نئے طریقے

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ