मानव प्रतिक्रिया के साथ पुस्तकों का सारांश प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

मानव प्रतिक्रिया के साथ पुस्तकों का सारांश

पेपर पढ़ेंनमूने ब्राउज़ करें

मानव प्रतिक्रिया के साथ पुस्तकों का सारांश

Tओ सुरक्षित रूप से भविष्य में शक्तिशाली, सामान्य-उद्देश्यीय कृत्रिम बुद्धिमत्ता को तैनात करने के लिए, हमें यह सुनिश्चित करने की आवश्यकता है कि मशीन लर्निंग मॉडल मानवीय इरादों के अनुसार कार्य करें। इस चुनौती के नाम से जाना जाने लगा है संरेखण समस्या.

संरेखण समस्या के एक स्केलेबल समाधान के लिए उन कार्यों पर काम करने की आवश्यकता होती है जहां मॉडल आउटपुट का मूल्यांकन करना मनुष्यों के लिए कठिन या समय लेने वाला होता है। स्केलेबल संरेखण तकनीकों का परीक्षण करने के लिए, हमने संपूर्ण पुस्तकों को सारांशित करने के लिए एक मॉडल को प्रशिक्षित किया, जैसा कि निम्नलिखित नमूनों में दिखाया गया है।[1] हमारा मॉडल पहले किसी पुस्तक के छोटे खंडों को सारांशित करके काम करता है, फिर उन सारांशों को उच्च-स्तरीय सारांश में सारांशित करता है, और इसी तरह।

अधिक नमूनों का अन्वेषण करें

हमारा सबसे अच्छा मॉडल GPT-3 से ठीक-ठीक तैयार किया गया है और संपूर्ण पुस्तकों के समझदार सारांश उत्पन्न करता है, कभी-कभी मानव-लिखित सारांशों की औसत गुणवत्ता से भी मेल खाता है: यह मनुष्यों से 6/7 रेटिंग (औसत मानव-लिखित सारांश के समान) प्राप्त करता है। जिन्होंने किताब को 5% समय पढ़ा है और 5% समय 7/15 रेटिंग दी है। हमारा मॉडल भी अत्याधुनिक परिणाम प्राप्त करता है बुकसम डेटासेट पुस्तक-लंबाई संक्षेपण के लिए. एक शून्य-शॉट प्रश्न-उत्तर मॉडल प्रतिस्पर्धी परिणाम प्राप्त करने के लिए हमारे मॉडल के सारांश का उपयोग कर सकता है नैरेटिवक्यूए डेटासेट पुस्तक-लंबाई वाले प्रश्न उत्तर के लिए।[2]

हमारा दृष्टिकोण: मानव प्रतिक्रिया और पुनरावर्ती कार्य अपघटन से सुदृढीकरण सीखने का संयोजन

पाठ के एक टुकड़े को सारांशित करने के कार्य पर विचार करें। बड़ा पूर्व-प्रशिक्षित मॉडल संक्षेपण में बहुत अच्छे नहीं हैं. अतीत में हमने पाया था कि एक मॉडल को प्रशिक्षण दिया जा रहा है मानवीय प्रतिक्रिया से सुदृढीकरण सीखना लघु पोस्टों और लेखों पर मानवीय प्राथमिकताओं के साथ मॉडल सारांशों को संरेखित करने में मदद मिली। लेकिन संपूर्ण पुस्तकों के सारांश का आकलन करने में सीधे तौर पर बहुत अधिक प्रयास करना पड़ता है क्योंकि एक इंसान को पूरी पुस्तक पढ़ने की आवश्यकता होती है, जिसमें कई घंटे लगते हैं।

इस समस्या के समाधान के लिए हम इसका अतिरिक्त उपयोग भी करते हैं पुनरावर्ती कार्य अपघटन: हम प्रक्रियात्मक रूप से किसी कठिन कार्य को आसान कार्यों में तोड़ देते हैं। इस मामले में हम पाठ के एक लंबे टुकड़े के सारांश को कई छोटे टुकड़ों में तोड़ देते हैं। एंड-टू-एंड प्रशिक्षण प्रक्रिया की तुलना में, पुनरावर्ती कार्य अपघटन के निम्नलिखित फायदे हैं:

  1. अपघटन मनुष्यों को स्रोत पाठ को पढ़ने के बजाय पुस्तक के छोटे हिस्सों के सारांश का उपयोग करके मॉडल सारांशों का अधिक तेज़ी से मूल्यांकन करने की अनुमति देता है।
  2. सारांश-लेखन प्रक्रिया का पता लगाना आसान है। उदाहरण के लिए, आप यह पता लगा सकते हैं कि मूल पाठ में सारांश से कुछ घटनाएँ कहाँ घटित होती हैं। आप खुद ही देख लीजिए हमारा सारांश अन्वेषक!
  3. हमारी पद्धति का उपयोग हमारे द्वारा उपयोग किए जाने वाले ट्रांसफार्मर मॉडल की संदर्भ लंबाई से अप्रतिबंधित, असीमित लंबाई की पुस्तकों को सारांशित करने के लिए किया जा सकता है।

हम इस पर काम क्यों कर रहे हैं?

Tउसके काम हमारा हिस्सा है चल रहे अनुसंधान उन्नत एआई सिस्टम को संरेखित करना, जो कि महत्वपूर्ण है हमारा विशेष कार्य। जैसे-जैसे हम अपने मॉडलों को तेजी से जटिल कार्य करने के लिए प्रशिक्षित करते हैं, मॉडलों के आउटपुट का सूचित मूल्यांकन करना मनुष्यों के लिए तेजी से कठिन होता जाएगा। इससे मॉडल आउटपुट में सूक्ष्म समस्याओं का पता लगाना कठिन हो जाता है जो इन मॉडलों को तैनात करने पर नकारात्मक परिणाम दे सकते हैं। इसलिए हम चाहते हैं कि जैसे-जैसे उनकी क्षमताएं बढ़ेंगी, हमारे मॉडलों का मूल्यांकन करने की हमारी क्षमता भी बढ़े।

इस समस्या के प्रति हमारा वर्तमान दृष्टिकोण है अन्य मॉडलों की सहायता का उपयोग करके मशीन लर्निंग मॉडल आउटपुट का मूल्यांकन करने के लिए मनुष्यों को सशक्त बनाना. इस मामले में, पुस्तक सारांशों का मूल्यांकन करने के लिए हम अपने मॉडल द्वारा लिखे गए व्यक्तिगत अध्याय सारांशों के साथ मनुष्यों को सशक्त बनाते हैं, जिससे स्रोत पाठ को पढ़ने के सापेक्ष इन सारांशों का मूल्यांकन करते समय उनका समय बचता है। पुस्तक सारांशीकरण पर हमारी प्रगति स्केलिंग संरेखण तकनीकों पर पहला बड़े पैमाने पर अनुभवजन्य कार्य है।

आगे बढ़ते हुए, हम कृत्रिम सामान्य बुद्धि को संरेखित करने वाली तकनीकों को खोजने के लक्ष्य के साथ, मॉडल व्यवहार का मूल्यांकन करने में मनुष्यों की सहायता करने के बेहतर तरीकों पर शोध कर रहे हैं।

हम हमेशा हमारे साथ जुड़ने के लिए अधिक प्रतिभाशाली लोगों की तलाश में रहते हैं; इसलिए यदि इस कार्य में आपकी रुचि है तो कृपया हमारी टीम में शामिल होने के लिए आवेदन करें!


Acknowledgments

हम अपने पेपर के सह-लेखकों को धन्यवाद देना चाहते हैं: लॉन्ग ओयांग, डैनियल ज़िग्लर, निसान स्टीनोन और पॉल क्रिस्टियानो।

इस रिलीज़ पर प्रतिक्रिया के लिए निम्नलिखित को धन्यवाद: स्टीव डाउलिंग, हन्ना वोंग, माइल्स ब्रुंडेज, ग्रेचेन क्रुएगर, इल्या सुतस्केवर, और सैम ऑल्टमैन।


डिज़ाइन
जस्टिन जे वांग


पुस्तक आवरण कलाकृति


फुटनोट

  1. इन नमूनों को कार्यों से चुना गया था पब्लिक डोमेन, और GPT-3 के प्रीट्रेनिंग डेटा का हिस्सा हैं। इस प्रभाव को नियंत्रित करने के लिए, और विशुद्ध रूप से अनुसंधान उद्देश्यों के लिए, हमारा काग़ज़ उन पुस्तकों के सारांश का मूल्यांकन करता है जिन्हें मॉडल ने पहले कभी नहीं देखा है। मैं

  2. हमने अपने पिछले कार्य से बेहतर परिणामों के बारे में अवगत होने के बाद NarrativeQA पर परिणामों के बारे में अपने मूल दावे में संशोधन किया है। मैं

समय टिकट:

से अधिक OpenAI