संरेखण अनुसंधान के लिए हमारा दृष्टिकोण

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

एजीआई को संरेखित करने के लिए हमारा दृष्टिकोण अनुभवजन्य और पुनरावृत्त है। हम अपने एआई सिस्टम की मानवीय प्रतिक्रिया से सीखने और एआई के मूल्यांकन में मनुष्यों की सहायता करने की क्षमता में सुधार कर रहे हैं। हमारा लक्ष्य एक पर्याप्त रूप से संरेखित AI प्रणाली का निर्माण करना है जो अन्य सभी संरेखण समस्याओं को हल करने में हमारी मदद कर सके।

हमारा संरेखण अनुसंधान इसका उद्देश्य कृत्रिम सामान्य बुद्धिमत्ता (AGI) को मानवीय मूल्यों के साथ जोड़ना और मानवीय मंशा का पालन करना है। हम एक पुनरावृत्त, अनुभवजन्य दृष्टिकोण लेते हैं: अत्यधिक सक्षम एआई सिस्टम को संरेखित करने का प्रयास करके, हम सीख सकते हैं कि क्या काम करता है और क्या नहीं, इस प्रकार एआई सिस्टम को सुरक्षित और अधिक संरेखित करने की हमारी क्षमता को परिष्कृत करता है। वैज्ञानिक प्रयोगों का उपयोग करते हुए, हम अध्ययन करते हैं कि संरेखण तकनीकें कैसे मापी जाती हैं और वे कहाँ टूटेंगी।

हम अपने सबसे सक्षम एआई सिस्टम के साथ-साथ संरेखण समस्याओं दोनों में संरेखण समस्याओं से निपटते हैं, जिन्हें हम एजीआई के रास्ते में आने की उम्मीद करते हैं। हमारा मुख्य लक्ष्य वर्तमान संरेखण विचारों को यथासंभव आगे बढ़ाना है, और यह समझना और दस्तावेज करना है कि वे कैसे सफल हो सकते हैं या वे असफल क्यों होंगे। हम मानते हैं कि मौलिक रूप से नए संरेखण विचारों के बिना भी, हम संभवतः संरेखण अनुसंधान को काफी आगे बढ़ाने के लिए पर्याप्त रूप से संरेखित AI सिस्टम का निर्माण कर सकते हैं।

असंरेखित एजीआई मानवता के लिए महत्वपूर्ण जोखिम पैदा कर सकता है और एजीआई संरेखण समस्या को हल करना इतना कठिन हो सकता है कि इसके लिए पूरी मानवता को एक साथ काम करने की आवश्यकता होगी। इसलिए हम अपने संरेखण अनुसंधान को खुले तौर पर साझा करने के लिए प्रतिबद्ध हैं जब ऐसा करना सुरक्षित है: हम इस बारे में पारदर्शी होना चाहते हैं कि हमारी संरेखण तकनीक वास्तव में व्यवहार में कितनी अच्छी तरह काम करती है और हम चाहते हैं कि प्रत्येक एजीआई डेवलपर दुनिया की सर्वोत्तम संरेखण तकनीकों का उपयोग करे।

उच्च स्तर पर, संरेखण अनुसंधान के लिए हमारा दृष्टिकोण इंजीनियरिंग पर केंद्रित है जो बहुत ही स्मार्ट एआई सिस्टम के लिए एक स्केलेबल प्रशिक्षण संकेत है जो मानव इरादे से जुड़ा हुआ है। इसके तीन मुख्य स्तंभ हैं:

मानव प्रतिक्रिया का उपयोग करके एआई सिस्टम का प्रशिक्षण
मानव मूल्यांकन में सहायता के लिए एआई सिस्टम का प्रशिक्षण
संरेखण अनुसंधान करने के लिए एआई सिस्टम का प्रशिक्षण

एआई सिस्टम को मानवीय मूल्यों के साथ संरेखित करना अन्य महत्वपूर्ण सामाजिक-तकनीकी चुनौतियों की एक श्रृंखला भी प्रस्तुत करता है, जैसे कि यह तय करना कि इन प्रणालियों को किसके साथ जोड़ा जाना चाहिए। प्राप्त करने के लिए इन समस्याओं का समाधान महत्वपूर्ण है हमारा विशेष कार्य, लेकिन हम इस पोस्ट में उनकी चर्चा नहीं करते हैं।

मानव प्रतिक्रिया का उपयोग करके एआई सिस्टम का प्रशिक्षण

मानव प्रतिक्रिया से आरएल आज हमारे तैनात भाषा मॉडल को संरेखित करने के लिए हमारी मुख्य तकनीक है। हम मॉडल के एक वर्ग को प्रशिक्षित करते हैं जिसे कहा जाता है निर्देश जीपीटी GPT-3 जैसे पूर्व-प्रशिक्षित भाषा मॉडल से व्युत्पन्न। इन मॉडलों को मानव इरादे का पालन करने के लिए प्रशिक्षित किया जाता है: एक निर्देश द्वारा दिए गए स्पष्ट इरादे के साथ-साथ सच्चाई, निष्पक्षता और सुरक्षा जैसे निहित इरादे दोनों।

हमारे परिणाम बताते हैं कि अभी संरेखण-केंद्रित फ़ाइन-ट्यूनिंग पर बहुत कम लटके हुए फल हैं: InstructGPT को मनुष्यों द्वारा 100x बड़े प्रीट्रेन्ड मॉडल से अधिक पसंद किया जाता है, जबकि इसकी फ़ाइन-ट्यूनिंग की लागत GPT-2 के प्रीट्रेनिंग कंप्यूट का <3% है। और लगभग 20,000 घंटे की मानव प्रतिक्रिया। हम आशा करते हैं कि हमारा काम उद्योग में अन्य लोगों को बड़े भाषा मॉडल के संरेखण में अपना निवेश बढ़ाने के लिए प्रेरित करता है और यह तैनात मॉडलों की सुरक्षा के बारे में उपयोगकर्ताओं की अपेक्षाओं पर दबाव डालता है।

हमारी प्राकृतिक भाषा एपीआई हमारे संरेखण अनुसंधान के लिए एक बहुत ही उपयोगी वातावरण है: यह हमें एक समृद्ध फीडबैक लूप प्रदान करता है कि हमारी संरेखण तकनीक वास्तव में कितनी अच्छी तरह काम करती है वास्तविक दुनिया में, कार्यों के एक बहुत ही विविध सेट पर आधारित है जिसके लिए हमारे ग्राहक पैसे देने को तैयार हैं। औसतन, हमारे ग्राहक पहले से ही हमारे पूर्व-प्रशिक्षित मॉडलों पर इंस्ट्रक्टजीपीटी का उपयोग करना पसंद करते हैं।

फिर भी InstructGPT के आज के संस्करण हैं पूरी तरह से गठबंधन से काफी दूर: वे कभी-कभी सरल निर्देशों का पालन करने में विफल होते हैं, हमेशा सत्य नहीं होते हैं, हानिकारक कार्यों को विश्वसनीय रूप से अस्वीकार नहीं करते हैं, और कभी-कभी पक्षपातपूर्ण या विषाक्त प्रतिक्रिया देते हैं। कुछ ग्राहक इंस्ट्रक्टजीपीटी की प्रतिक्रियाओं को पूर्व-प्रशिक्षित मॉडलों की तुलना में काफी कम रचनात्मक पाते हैं, कुछ ऐसा जो हमने सार्वजनिक रूप से उपलब्ध बेंचमार्क पर इंस्ट्रक्टजीपीटी चलाने से महसूस नहीं किया था। हम मानव प्रतिक्रिया से आरएल की अधिक विस्तृत वैज्ञानिक समझ विकसित करने और मानव प्रतिक्रिया की गुणवत्ता में सुधार करने के तरीके पर भी काम कर रहे हैं।

एजीआई को संरेखित करने की तुलना में हमारे एपीआई को संरेखित करना बहुत आसान है क्योंकि हमारे एपीआई पर अधिकांश कार्यों की निगरानी करना मनुष्यों के लिए बहुत कठिन नहीं है और हमारे तैनात भाषा मॉडल मनुष्यों की तुलना में अधिक स्मार्ट नहीं हैं। हम एजीआई को संरेखित करने के लिए मानव प्रतिक्रिया से आरएल की पर्याप्त होने की उम्मीद नहीं करते हैं, लेकिन यह स्केलेबल संरेखण प्रस्तावों के लिए एक मुख्य बिल्डिंग ब्लॉक है जिसके बारे में हम सबसे अधिक उत्साहित हैं, और इसलिए इस पद्धति को पूर्ण करने के लिए यह मूल्यवान है।

मानव मूल्यांकन में सहायता के लिए प्रशिक्षण मॉडल

मानव प्रतिक्रिया से आरएल की एक मौलिक सीमा है: यह मानता है कि मनुष्य हमारे एआई सिस्टम द्वारा किए जा रहे कार्यों का सटीक मूल्यांकन कर सकते हैं। आज मनुष्य इस पर बहुत अच्छे हैं, लेकिन जैसे-जैसे मॉडल अधिक सक्षम होते जाते हैं, वे ऐसे कार्य करने में सक्षम हो जाते हैं जिनका मूल्यांकन करना मनुष्यों के लिए बहुत कठिन होता है (उदाहरण के लिए एक बड़े कोडबेस या वैज्ञानिक पेपर में सभी खामियों का पता लगाना)। हमारे मॉडल हमारे मानव मूल्यांकनकर्ताओं को सच बताने के बजाय यह बताना सीख सकते हैं कि वे क्या सुनना चाहते हैं। संरेखण को स्केल करने के लिए, हम तकनीकों का उपयोग करना चाहते हैं जैसे पुनरावर्ती इनाम मॉडलिंग (आरआरएम), बहस, तथा पुनरावृत्त प्रवर्धन.

वर्तमान में हमारी मुख्य दिशा आरआरएम पर आधारित है: हम ऐसे मॉडलों को प्रशिक्षित करते हैं जो मनुष्यों को ऐसे कार्यों पर हमारे मॉडल का मूल्यांकन करने में सहायता कर सकते हैं जिनका सीधे मूल्यांकन करना मनुष्यों के लिए बहुत कठिन है। उदाहरण के लिए:

हमने एक मॉडल को प्रशिक्षित किया पुस्तकों को सारांशित करें. पुस्तक सारांश का मूल्यांकन करने में मनुष्यों के लिए एक लंबा समय लगता है यदि वे पुस्तक से अपरिचित हैं, लेकिन हमारा मॉडल अध्याय सारांश लिखकर मानव मूल्यांकन में सहायता कर सकता है।
हमने एक मॉडल को प्रशिक्षित किया तथ्यात्मक सटीकता का मूल्यांकन करने में मनुष्यों की सहायता करना वेब ब्राउज़ करके और उद्धरण और लिंक प्रदान करके। सरल प्रश्नों पर, इस मॉडल के आउटपुट को पहले से ही मनुष्यों द्वारा लिखित प्रतिक्रियाओं के लिए पसंद किया जाता है।
हमने एक मॉडल को प्रशिक्षित किया अपने स्वयं के आउटपुट पर आलोचनात्मक टिप्पणियां लिखें: एक क्वेरी-आधारित सारांश कार्य पर, महत्वपूर्ण टिप्पणियों के साथ सहायता से मानव द्वारा मॉडल आउटपुट में पाई जाने वाली खामियों में औसतन 50% की वृद्धि होती है। यह तब भी मान्य है जब हम मनुष्यों से प्रशंसनीय दिखने वाले लेकिन गलत सारांश लिखने के लिए कहें।
हम ऐसे कोडिंग कार्यों का एक सेट बना रहे हैं, जिन्हें बिना सहायता प्राप्त मनुष्यों के लिए मज़बूती से मूल्यांकन करना बहुत मुश्किल है। हम इस डेटा सेट को जल्द ही जारी करने की उम्मीद करते हैं।

हमारी संरेखण तकनीकों को काम करने की ज़रूरत है, भले ही हमारे एआई सिस्टम बहुत रचनात्मक समाधान प्रस्तावित कर रहे हों (जैसे AlphaGo की चाल 37), इस प्रकार हम विशेष रूप से प्रशिक्षण मॉडल में रुचि रखते हैं ताकि मनुष्यों को भ्रामक या भ्रामक समाधानों से सही अंतर करने में सहायता मिल सके। हमारा मानना है कि एआई-सहायता प्राप्त मूल्यांकन कार्य को व्यवहार में लाने के बारे में जितना संभव हो उतना सीखने का सबसे अच्छा तरीका एआई सहायकों का निर्माण करना है।

संरेखण अनुसंधान करने के लिए एआई सिस्टम का प्रशिक्षण

संरेखण समस्या के लिए वर्तमान में कोई ज्ञात अनिश्चितकालीन मापनीय समाधान नहीं है। जैसे-जैसे एआई की प्रगति जारी है, हम कई नई संरेखण समस्याओं का सामना करने की उम्मीद करते हैं जिन्हें हम अभी तक मौजूदा सिस्टम में नहीं देखते हैं। इनमें से कुछ समस्याएं जिनका हम अभी अनुमान लगा रहे हैं और उनमें से कुछ पूरी तरह से नई होंगी।

हम मानते हैं कि अनिश्चित काल के लिए स्केलेबल समाधान खोजना बहुत मुश्किल है। इसके बजाय, हम एक अधिक व्यावहारिक दृष्टिकोण का लक्ष्य रखते हैं: एक ऐसी प्रणाली का निर्माण और संरेखण जो मनुष्यों की तुलना में तेजी से और बेहतर संरेखण अनुसंधान प्रगति कर सके।

जैसे-जैसे हम इस पर प्रगति करते हैं, हमारे एआई सिस्टम हमारे संरेखण कार्य को अधिक से अधिक ले सकते हैं और अंततः हमारे पास अब की तुलना में बेहतर संरेखण तकनीकों की कल्पना, कार्यान्वयन, अध्ययन और विकास कर सकते हैं। वे यह सुनिश्चित करने के लिए मनुष्यों के साथ मिलकर काम करेंगे कि उनके अपने उत्तराधिकारी मनुष्यों के साथ अधिक संरेखित हों।

हम मानते हैं कि संरेखण अनुसंधान का मूल्यांकन इसे तैयार करने की तुलना में काफी आसान है, खासकर जब मूल्यांकन सहायता प्रदान की जाती है। इसलिए मानव शोधकर्ता इस शोध को स्वयं उत्पन्न करने के बजाय एआई सिस्टम द्वारा किए गए संरेखण अनुसंधान की समीक्षा करने के अपने प्रयासों पर अधिक से अधिक ध्यान केंद्रित करेंगे। हमारा लक्ष्य मॉडल को इतना संरेखित करने के लिए प्रशिक्षित करना है कि हम संरेखण अनुसंधान के लिए आवश्यक लगभग सभी संज्ञानात्मक श्रम को ऑफ-लोड कर सकें।

महत्वपूर्ण रूप से, हमें केवल "संकीर्ण" एआई सिस्टम की आवश्यकता है, जिसमें प्रासंगिक डोमेन में मानव-स्तर की क्षमता हो और साथ ही साथ संरेखण अनुसंधान पर मनुष्य भी हों। हम उम्मीद करते हैं कि ये एआई सिस्टम सामान्य-उद्देश्य वाली प्रणालियों या मनुष्यों की तुलना में अधिक स्मार्ट सिस्टम की तुलना में संरेखित करना आसान है।

भाषा मॉडल संरेखण अनुसंधान को स्वचालित करने के लिए विशेष रूप से उपयुक्त हैं क्योंकि वे इंटरनेट पढ़ने से मानवीय मूल्यों के बारे में बहुत सारे ज्ञान और जानकारी के साथ "प्रीलोडेड" आते हैं। लीक से हटकर, वे स्वतंत्र एजेंट नहीं हैं और इस प्रकार दुनिया में अपने स्वयं के लक्ष्यों का पीछा नहीं करते हैं। संरेखण अनुसंधान करने के लिए उन्हें इंटरनेट तक अप्रतिबंधित पहुंच की आवश्यकता नहीं है। फिर भी बहुत सारे संरेखण अनुसंधान कार्यों को प्राकृतिक भाषा या कोडिंग कार्यों के रूप में चित्रित किया जा सकता है।

के भविष्य के संस्करण वेबजीपीटी, निर्देश जीपीटी, तथा ज़ाब्ता संरेखण अनुसंधान सहायकों के रूप में एक आधार प्रदान कर सकते हैं, लेकिन वे अभी तक पर्याप्त रूप से सक्षम नहीं हैं। हालांकि हम नहीं जानते कि हमारे मॉडल कब संरेखण अनुसंधान में सार्थक योगदान देने में सक्षम होंगे, हमें लगता है कि समय से पहले शुरू करना महत्वपूर्ण है। एक बार जब हम एक ऐसे मॉडल को प्रशिक्षित करते हैं जो उपयोगी हो सकता है, तो हम इसे बाहरी संरेखण अनुसंधान समुदाय के लिए सुलभ बनाने की योजना बनाते हैं।

सीमाओं

हम एजीआई को संरेखित करने की दिशा में इस दृष्टिकोण के बारे में बहुत उत्साहित हैं, लेकिन हम उम्मीद करते हैं कि एआई तकनीक कैसे विकसित होती है, इसके बारे में और जानने के लिए इसे अनुकूलित और बेहतर बनाने की आवश्यकता है। हमारे दृष्टिकोण की भी कई महत्वपूर्ण सीमाएँ हैं:

यहां निर्धारित मार्ग मजबूती और व्याख्यात्मक अनुसंधान के महत्व पर जोर देता है, दो क्षेत्रों में OpenAI का वर्तमान में कम निवेश किया गया है। यदि यह आपकी प्रोफ़ाइल के अनुकूल है, तो कृपया हमारे शोध वैज्ञानिक पदों के लिए आवेदन करें!
मूल्यांकन के लिए एआई सहायता का उपयोग करने से एआई सहायक में मौजूद सूक्ष्म विसंगतियों, पूर्वाग्रहों या कमजोरियों को भी बढ़ाने या बढ़ाने की क्षमता है।
एजीआई को संरेखित करने की संभावना में आज के एआई सिस्टम को संरेखित करने की तुलना में बहुत अलग समस्याओं को हल करना शामिल है। हम उम्मीद करते हैं कि संक्रमण कुछ हद तक निरंतर होगा, लेकिन अगर बड़ी रुकावटें या प्रतिमान बदलाव हैं, तो इंस्ट्रक्टजीपीटी जैसे मॉडल को संरेखित करने से सीखे गए अधिकांश पाठ सीधे उपयोगी नहीं हो सकते हैं।
संरेखण समस्या का सबसे कठिन हिस्सा इंजीनियरिंग से संबंधित नहीं हो सकता है जो हमारे एआई सिस्टम के लिए एक स्केलेबल और संरेखित प्रशिक्षण संकेत है। अगर यह सच है, तो भी ऐसा प्रशिक्षण संकेत आवश्यक होगा।
एजीआई को संरेखित करने की तुलना में उन मॉडलों को संरेखित करना मौलिक रूप से आसान नहीं हो सकता है जो संरेखण अनुसंधान को सार्थक रूप से तेज कर सकते हैं। दूसरे शब्दों में, संरेखण अनुसंधान में मदद कर सकने वाले कम से कम सक्षम मॉडल पहले से ही बहुत खतरनाक हो सकते हैं यदि ठीक से संरेखित न किया जाए। अगर यह सच है, तो हमें संरेखण समस्याओं को हल करने के लिए अपने सिस्टम से ज्यादा मदद नहीं मिलेगी।

हम अनुसंधान की इस पंक्ति के लिए और अधिक प्रतिभाशाली लोगों को नियुक्त करना चाहते हैं! यदि यह आपकी रूचि रखता है, तो हम भर्ती कर रहे हैं अनुसंधान अभियंता और अनुसंधान वैज्ञानिक!

समय टिकट: अगस्त 24, 2022अगस्त 24, 2022

चैटजीपीटी प्लगइन्स

स्रोत क्लस्टर:

OpenAI

स्रोत नोड: 1817781

समय टिकट: मार्च 23, 2023

संरेखण अनुसंधान के लिए हमारा दृष्टिकोण

प्लेटो द्वारा पुनर्प्रकाशित

मानव प्रतिक्रिया का उपयोग करके एआई सिस्टम का प्रशिक्षण

मानव मूल्यांकन में सहायता के लिए प्रशिक्षण मॉडल

संरेखण अनुसंधान करने के लिए एआई सिस्टम का प्रशिक्षण

सीमाओं

से अधिक OpenAI

हम फाइनेंशियल टाइम्स की विश्व स्तरीय पत्रकारिता को ChatGPT पर ला रहे हैं

ओपनएआई लंदन का परिचय

सामग्री मॉडरेशन के लिए GPT-4 का उपयोग करना

कानाफूसी का परिचय

DALL·E अब बिना प्रतीक्षा सूची के उपलब्ध है

चैटजीपीटी टीम का परिचय

फंक्शन कॉलिंग और अन्य एपीआई अपडेट

ओपनएआई ने नेतृत्व परिवर्तन की घोषणा की

भाषा मॉडल भाषा मॉडल में न्यूरॉन्स की व्याख्या कर सकते हैं

चैटजीपीटी प्लगइन्स

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा