Tओ सुरक्षित रूप से भविष्य में शक्तिशाली, सामान्य-उद्देश्यीय कृत्रिम बुद्धिमत्ता को तैनात करने के लिए, हमें यह सुनिश्चित करने की आवश्यकता है कि मशीन लर्निंग मॉडल मानवीय इरादों के अनुसार कार्य करें। इस चुनौती के नाम से जाना जाने लगा है संरेखण समस्या.
संरेखण समस्या के एक स्केलेबल समाधान के लिए उन कार्यों पर काम करने की आवश्यकता होती है जहां मॉडल आउटपुट का मूल्यांकन करना मनुष्यों के लिए कठिन या समय लेने वाला होता है। स्केलेबल संरेखण तकनीकों का परीक्षण करने के लिए, हमने संपूर्ण पुस्तकों को सारांशित करने के लिए एक मॉडल को प्रशिक्षित किया, जैसा कि निम्नलिखित नमूनों में दिखाया गया है।[1] हमारा मॉडल पहले किसी पुस्तक के छोटे खंडों को सारांशित करके काम करता है, फिर उन सारांशों को उच्च-स्तरीय सारांश में सारांशित करता है, और इसी तरह।
हमारा सबसे अच्छा मॉडल GPT-3 से ठीक-ठीक तैयार किया गया है और संपूर्ण पुस्तकों के समझदार सारांश उत्पन्न करता है, कभी-कभी मानव-लिखित सारांशों की औसत गुणवत्ता से भी मेल खाता है: यह मनुष्यों से 6/7 रेटिंग (औसत मानव-लिखित सारांश के समान) प्राप्त करता है। जिन्होंने किताब को 5% समय पढ़ा है और 5% समय 7/15 रेटिंग दी है। हमारा मॉडल भी अत्याधुनिक परिणाम प्राप्त करता है बुकसम डेटासेट पुस्तक-लंबाई संक्षेपण के लिए. एक शून्य-शॉट प्रश्न-उत्तर मॉडल प्रतिस्पर्धी परिणाम प्राप्त करने के लिए हमारे मॉडल के सारांश का उपयोग कर सकता है नैरेटिवक्यूए डेटासेट पुस्तक-लंबाई वाले प्रश्न उत्तर के लिए।[2]
हमारा दृष्टिकोण: मानव प्रतिक्रिया और पुनरावर्ती कार्य अपघटन से सुदृढीकरण सीखने का संयोजन
पाठ के एक टुकड़े को सारांशित करने के कार्य पर विचार करें। बड़ा पूर्व-प्रशिक्षित मॉडल संक्षेपण में बहुत अच्छे नहीं हैं. अतीत में हमने पाया था कि एक मॉडल को प्रशिक्षण दिया जा रहा है मानवीय प्रतिक्रिया से सुदृढीकरण सीखना लघु पोस्टों और लेखों पर मानवीय प्राथमिकताओं के साथ मॉडल सारांशों को संरेखित करने में मदद मिली। लेकिन संपूर्ण पुस्तकों के सारांश का आकलन करने में सीधे तौर पर बहुत अधिक प्रयास करना पड़ता है क्योंकि एक इंसान को पूरी पुस्तक पढ़ने की आवश्यकता होती है, जिसमें कई घंटे लगते हैं।
इस समस्या के समाधान के लिए हम इसका अतिरिक्त उपयोग भी करते हैं पुनरावर्ती कार्य अपघटन: हम प्रक्रियात्मक रूप से किसी कठिन कार्य को आसान कार्यों में तोड़ देते हैं। इस मामले में हम पाठ के एक लंबे टुकड़े के सारांश को कई छोटे टुकड़ों में तोड़ देते हैं। एंड-टू-एंड प्रशिक्षण प्रक्रिया की तुलना में, पुनरावर्ती कार्य अपघटन के निम्नलिखित फायदे हैं:
- अपघटन मनुष्यों को स्रोत पाठ को पढ़ने के बजाय पुस्तक के छोटे हिस्सों के सारांश का उपयोग करके मॉडल सारांशों का अधिक तेज़ी से मूल्यांकन करने की अनुमति देता है।
- सारांश-लेखन प्रक्रिया का पता लगाना आसान है। उदाहरण के लिए, आप यह पता लगा सकते हैं कि मूल पाठ में सारांश से कुछ घटनाएँ कहाँ घटित होती हैं। आप खुद ही देख लीजिए हमारा सारांश अन्वेषक!
- हमारी पद्धति का उपयोग हमारे द्वारा उपयोग किए जाने वाले ट्रांसफार्मर मॉडल की संदर्भ लंबाई से अप्रतिबंधित, असीमित लंबाई की पुस्तकों को सारांशित करने के लिए किया जा सकता है।
हम इस पर काम क्यों कर रहे हैं?
Tउसके काम हमारा हिस्सा है चल रहे अनुसंधान उन्नत एआई सिस्टम को संरेखित करना, जो कि महत्वपूर्ण है हमारा विशेष कार्य। जैसे-जैसे हम अपने मॉडलों को तेजी से जटिल कार्य करने के लिए प्रशिक्षित करते हैं, मॉडलों के आउटपुट का सूचित मूल्यांकन करना मनुष्यों के लिए तेजी से कठिन होता जाएगा। इससे मॉडल आउटपुट में सूक्ष्म समस्याओं का पता लगाना कठिन हो जाता है जो इन मॉडलों को तैनात करने पर नकारात्मक परिणाम दे सकते हैं। इसलिए हम चाहते हैं कि जैसे-जैसे उनकी क्षमताएं बढ़ेंगी, हमारे मॉडलों का मूल्यांकन करने की हमारी क्षमता भी बढ़े।
इस समस्या के प्रति हमारा वर्तमान दृष्टिकोण है अन्य मॉडलों की सहायता का उपयोग करके मशीन लर्निंग मॉडल आउटपुट का मूल्यांकन करने के लिए मनुष्यों को सशक्त बनाना. इस मामले में, पुस्तक सारांशों का मूल्यांकन करने के लिए हम अपने मॉडल द्वारा लिखे गए व्यक्तिगत अध्याय सारांशों के साथ मनुष्यों को सशक्त बनाते हैं, जिससे स्रोत पाठ को पढ़ने के सापेक्ष इन सारांशों का मूल्यांकन करते समय उनका समय बचता है। पुस्तक सारांशीकरण पर हमारी प्रगति स्केलिंग संरेखण तकनीकों पर पहला बड़े पैमाने पर अनुभवजन्य कार्य है।
आगे बढ़ते हुए, हम कृत्रिम सामान्य बुद्धि को संरेखित करने वाली तकनीकों को खोजने के लक्ष्य के साथ, मॉडल व्यवहार का मूल्यांकन करने में मनुष्यों की सहायता करने के बेहतर तरीकों पर शोध कर रहे हैं।
हम हमेशा हमारे साथ जुड़ने के लिए अधिक प्रतिभाशाली लोगों की तलाश में रहते हैं; इसलिए यदि इस कार्य में आपकी रुचि है तो कृपया हमारी टीम में शामिल होने के लिए आवेदन करें!
- 10
- 11
- 28
- 67
- 7
- 77
- 84
- 9
- About
- अधिनियम
- पता
- उन्नत
- फायदे
- AI
- दृष्टिकोण
- लेख
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- औसत
- बन
- जा रहा है
- BEST
- पुस्तकें
- क्षमताओं
- चुनौती
- अध्याय
- तुलना
- जटिल
- नियंत्रण
- मूल
- सका
- वर्तमान
- तिथि
- तैनात
- प्रभाव
- सशक्त
- घटनाओं
- उदाहरण
- प्रतिक्रिया
- प्रथम
- निम्नलिखित
- आगे
- पाया
- भविष्य
- सामान्य जानकारी
- लक्ष्य
- अच्छा
- HTTPS
- मानव
- मनुष्य
- बढ़ना
- व्यक्ति
- बुद्धि
- रुचियों
- IT
- में शामिल होने
- कुंजी
- जानने वाला
- बड़ा
- नेतृत्व
- सीख रहा हूँ
- लंबा
- देख
- मशीन
- यंत्र अधिगम
- बनाता है
- निर्माण
- मिलान
- मध्यम
- मिशन
- आदर्श
- मॉडल
- अधिक
- अन्य
- काग़ज़
- स्टाफ़
- टुकड़ा
- पोस्ट
- शक्तिशाली
- मुसीबत
- समस्याओं
- प्रक्रिया
- प्रयोजनों
- गुणवत्ता
- प्रश्न
- जल्दी से
- दर्ज़ा
- RE
- पढ़ना
- और
- अनुसंधान
- परिणाम
- स्केलेबल
- स्केल
- स्केलिंग
- चयनित
- कम
- समान
- छोटा
- So
- समाधान
- राज्य के-the-कला
- सिस्टम
- प्रतिभावान
- कार्य
- तकनीक
- परीक्षण
- स्रोत
- पहर
- बहुत समय लगेगा
- प्रशिक्षण
- us
- उपयोग
- W3
- कौन
- खिड़कियां
- काम
- काम कर रहे
- कार्य