कानाफूसी का परिचय

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

हमने व्हिस्पर नामक एक तंत्रिका जाल को प्रशिक्षित किया है और ओपन-सोर्सिंग कर रहे हैं जो अंग्रेजी भाषण मान्यता पर मानव स्तर की मजबूती और सटीकता तक पहुंचता है।

पेपर पढ़ें

कोड देखें

मॉडल कार्ड देखें

व्हिस्पर एक स्वचालित वाक् पहचान (एएसआर) प्रणाली है जिसे वेब से एकत्र किए गए 680,000 घंटों के बहुभाषी और मल्टीटास्क पर्यवेक्षित डेटा पर प्रशिक्षित किया जाता है। हम दिखाते हैं कि इतने बड़े और विविध डेटासेट के उपयोग से उच्चारण, पृष्ठभूमि शोर और तकनीकी भाषा में बेहतर मजबूती आती है। इसके अलावा, यह कई भाषाओं में ट्रांसक्रिप्शन को सक्षम बनाता है, साथ ही उन भाषाओं से अंग्रेजी में अनुवाद भी करता है। हम उपयोगी अनुप्रयोगों के निर्माण और मजबूत भाषण प्रसंस्करण पर आगे के शोध के लिए आधार के रूप में काम करने के लिए ओपन-सोर्सिंग मॉडल और अनुमान कोड हैं।

व्हिस्पर आर्किटेक्चर एक सरल एंड-टू-एंड दृष्टिकोण है, जिसे एन्कोडर-डिकोडर ट्रांसफार्मर के रूप में लागू किया गया है। इनपुट ऑडियो को 30-सेकंड के विखंडू में विभाजित किया जाता है, एक लॉग-मेल स्पेक्ट्रोग्राम में परिवर्तित किया जाता है, और फिर एक एनकोडर में पारित किया जाता है। एक डिकोडर को संबंधित टेक्स्ट कैप्शन की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है, विशेष टोकन के साथ इंटरमिक्स किया जाता है जो एकल मॉडल को भाषा पहचान, वाक्यांश-स्तरीय टाइमस्टैम्प, बहुभाषी भाषण ट्रांसक्रिप्शन और टू-इंग्लिश स्पीच ट्रांसलेशन जैसे कार्यों को करने के लिए निर्देशित करता है।

अन्य मौजूदा दृष्टिकोण अक्सर छोटे, अधिक बारीकी से जोड़े गए ऑडियो-टेक्स्ट प्रशिक्षण डेटासेट का उपयोग करते हैं, या व्यापक लेकिन अनुपयोगी ऑडियो प्रीट्रेनिंग का उपयोग करें. क्योंकि व्हिस्पर को एक बड़े और विविध डेटासेट पर प्रशिक्षित किया गया था और किसी विशिष्ट के लिए ठीक-ठीक नहीं था, यह उन मॉडलों को नहीं हराता है जो लिब्रीस्पीच प्रदर्शन में विशेषज्ञ हैं, जो भाषण मान्यता में एक प्रसिद्ध प्रतिस्पर्धी बेंचमार्क है। हालांकि, जब हम कई विविध डेटासेट में व्हिस्पर के शून्य-शॉट प्रदर्शन को मापते हैं तो हम पाते हैं कि यह बहुत अधिक मजबूत है और उन मॉडलों की तुलना में 50% कम त्रुटियां करता है।

व्हिस्पर के ऑडियो डेटासेट का लगभग एक तिहाई गैर-अंग्रेजी है, और इसे वैकल्पिक रूप से मूल भाषा में ट्रांसक्राइब करने या अंग्रेजी में अनुवाद करने का कार्य दिया जाता है। हम पाते हैं कि यह दृष्टिकोण पाठ अनुवाद के लिए भाषण सीखने में विशेष रूप से प्रभावी है और CoVoST2 पर अंग्रेजी अनुवाद शून्य-शॉट पर पर्यवेक्षित SOTA से बेहतर प्रदर्शन करता है।

हमें उम्मीद है कि व्हिस्पर की उच्च सटीकता और उपयोग में आसानी डेवलपर्स को अधिक व्यापक अनुप्रयोगों के लिए वॉयस इंटरफेस जोड़ने की अनुमति देगी। इसकी जाँच पड़ताल करो काग़ज़, मॉडल कार्ड, तथा कोड अधिक विवरण जानने के लिए और व्हिस्पर को आजमाने के लिए।

समय टिकट: सितम्बर 21, 2022सितम्बर 21, 2022

समय टिकट: जून 2, 2022

कानाफूसी का परिचय

प्लेटो द्वारा पुनर्प्रकाशित

कानाफूसी उदाहरण:

से अधिक OpenAI

सोरा: पहली छापें

चैटजीपीटी एंटरप्राइज का परिचय

DALL·E अब बिना प्रतीक्षा सूची के उपलब्ध है

मार्च 20 चैटजीपीटी आउटेज: यहां देखिए क्या हुआ

नई GPT-3 क्षमताएं: संपादित करें और डालें

बड़े तंत्रिका नेटवर्क को प्रशिक्षित करने की तकनीक

DevDay पर नए मॉडल और डेवलपर उत्पादों की घोषणा की गई

बड़े मॉडलों के माध्यम से विकास

ओपनएआई और एलोन मस्क

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा