कानाफूसी का परिचय

हमने व्हिस्पर नामक एक तंत्रिका जाल को प्रशिक्षित किया है और ओपन-सोर्सिंग कर रहे हैं जो अंग्रेजी भाषण मान्यता पर मानव स्तर की मजबूती और सटीकता तक पहुंचता है।

पेपर पढ़ें


कोड देखें


मॉडल कार्ड देखें

कानाफूसी उदाहरण:

व्हिस्पर एक स्वचालित वाक् पहचान (एएसआर) प्रणाली है जिसे वेब से एकत्र किए गए 680,000 घंटों के बहुभाषी और मल्टीटास्क पर्यवेक्षित डेटा पर प्रशिक्षित किया जाता है। हम दिखाते हैं कि इतने बड़े और विविध डेटासेट के उपयोग से उच्चारण, पृष्ठभूमि शोर और तकनीकी भाषा में बेहतर मजबूती आती है। इसके अलावा, यह कई भाषाओं में ट्रांसक्रिप्शन को सक्षम बनाता है, साथ ही उन भाषाओं से अंग्रेजी में अनुवाद भी करता है। हम उपयोगी अनुप्रयोगों के निर्माण और मजबूत भाषण प्रसंस्करण पर आगे के शोध के लिए आधार के रूप में काम करने के लिए ओपन-सोर्सिंग मॉडल और अनुमान कोड हैं।

की छवि
की छवि

व्हिस्पर आर्किटेक्चर एक सरल एंड-टू-एंड दृष्टिकोण है, जिसे एन्कोडर-डिकोडर ट्रांसफार्मर के रूप में लागू किया गया है। इनपुट ऑडियो को 30-सेकंड के विखंडू में विभाजित किया जाता है, एक लॉग-मेल स्पेक्ट्रोग्राम में परिवर्तित किया जाता है, और फिर एक एनकोडर में पारित किया जाता है। एक डिकोडर को संबंधित टेक्स्ट कैप्शन की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है, विशेष टोकन के साथ इंटरमिक्स किया जाता है जो एकल मॉडल को भाषा पहचान, वाक्यांश-स्तरीय टाइमस्टैम्प, बहुभाषी भाषण ट्रांसक्रिप्शन और टू-इंग्लिश स्पीच ट्रांसलेशन जैसे कार्यों को करने के लिए निर्देशित करता है।

की छवि
की छवि

अन्य मौजूदा दृष्टिकोण अक्सर छोटे, अधिक बारीकी से जोड़े गए ऑडियो-टेक्स्ट प्रशिक्षण डेटासेट का उपयोग करते हैं, या व्यापक लेकिन अनुपयोगी ऑडियो प्रीट्रेनिंग का उपयोग करें. क्योंकि व्हिस्पर को एक बड़े और विविध डेटासेट पर प्रशिक्षित किया गया था और किसी विशिष्ट के लिए ठीक-ठीक नहीं था, यह उन मॉडलों को नहीं हराता है जो लिब्रीस्पीच प्रदर्शन में विशेषज्ञ हैं, जो भाषण मान्यता में एक प्रसिद्ध प्रतिस्पर्धी बेंचमार्क है। हालांकि, जब हम कई विविध डेटासेट में व्हिस्पर के शून्य-शॉट प्रदर्शन को मापते हैं तो हम पाते हैं कि यह बहुत अधिक मजबूत है और उन मॉडलों की तुलना में 50% कम त्रुटियां करता है।

व्हिस्पर के ऑडियो डेटासेट का लगभग एक तिहाई गैर-अंग्रेजी है, और इसे वैकल्पिक रूप से मूल भाषा में ट्रांसक्राइब करने या अंग्रेजी में अनुवाद करने का कार्य दिया जाता है। हम पाते हैं कि यह दृष्टिकोण पाठ अनुवाद के लिए भाषण सीखने में विशेष रूप से प्रभावी है और CoVoST2 पर अंग्रेजी अनुवाद शून्य-शॉट पर पर्यवेक्षित SOTA से बेहतर प्रदर्शन करता है।

की छवि
की छवि

हमें उम्मीद है कि व्हिस्पर की उच्च सटीकता और उपयोग में आसानी डेवलपर्स को अधिक व्यापक अनुप्रयोगों के लिए वॉयस इंटरफेस जोड़ने की अनुमति देगी। इसकी जाँच पड़ताल करो काग़ज़, मॉडल कार्ड, तथा कोड अधिक विवरण जानने के लिए और व्हिस्पर को आजमाने के लिए।

समय टिकट:

से अधिक OpenAI