भाषा मॉडल सुरक्षा और दुरुपयोग पर सीखा सबक

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

भाषा मॉडल सुरक्षा और दुरुपयोग पर सीखे गए पाठ

शक्तिशाली एआई सिस्टम की तैनाती ने अकेले अनुसंधान के माध्यम से जितना संभव हो सकता था, उससे कहीं अधिक सुरक्षा और दुरुपयोग की हमारी समझ को समृद्ध किया है। विशेष रूप से:

एपीआई-आधारित भाषा मॉडल का दुरुपयोग अक्सर अलग-अलग रूपों में आता है, जिसकी हमें सबसे ज्यादा आशंका थी।
हमने मौजूदा भाषा मॉडल मूल्यांकन में सीमाओं की पहचान की है जिन्हें हम नए बेंचमार्क और क्लासिफायर के साथ संबोधित कर रहे हैं।
बुनियादी सुरक्षा अनुसंधान एआई सिस्टम की व्यावसायिक उपयोगिता के लिए महत्वपूर्ण लाभ प्रदान करता है।

यहां, हम अन्य एआई डेवलपर्स को तैनात मॉडलों की सुरक्षा और दुरुपयोग को संबोधित करने में मदद करने की उम्मीद में अपनी नवीनतम सोच का वर्णन करते हैं।

Oपिछले दो वर्षों में, हमने इस बारे में बहुत कुछ सीखा है कि कैसे भाषा मॉडल का उपयोग और दुरुपयोग किया जा सकता है—ऐसी अंतर्दृष्टि जो हम वास्तविक-विश्व परिनियोजन के अनुभव के बिना प्राप्त नहीं कर सकते थे। जून 2020 में, हमने डेवलपर्स और शोधकर्ताओं को एक्सेस देना शुरू किया OpenAI एपीआई, OpenAI द्वारा विकसित नए AI मॉडल के शीर्ष पर अनुप्रयोगों तक पहुँचने और निर्माण करने के लिए एक इंटरफ़ेस। GPT-3, कोडेक्स, और अन्य मॉडलों को इस तरह से नियोजित करना जिससे नुकसान के जोखिम को कम किया जा सके, विभिन्न तकनीकी और नीतिगत चुनौतियों का सामना करना पड़ा है।

हमारे मॉडल परिनियोजन दृष्टिकोण का अवलोकन

बड़े भाषा मॉडल अब प्रदर्शन करने में सक्षम हैं: कार्यों की बहुत विस्तृत श्रृंखला, अक्सर बॉक्स से बाहर। उनके जोखिम प्रोफाइल, संभावित अनुप्रयोग और समाज पर व्यापक प्रभाव रहना बीमार समझ लिया. नतीजतन, हमारा परिनियोजन दृष्टिकोण निरंतर पुनरावृत्ति पर जोर देता है, और संबंधित जोखिमों को कम करते हुए तैनाती के लाभों को अधिकतम करने के उद्देश्य से निम्नलिखित रणनीतियों का उपयोग करता है:

पूर्व-तैनाती जोखिम विश्लेषण, सुरक्षा मूल्यांकन और रेड टीमिंग टूल के बढ़ते सेट का लाभ उठाना (उदाहरण के लिए, हमने मूल्यांकन का उपयोग करके किसी भी सुरक्षा गिरावट के लिए हमारे इंस्ट्रक्टजीपीटी की जांच की) नीचे वर्णित)
एक छोटे उपयोगकर्ता आधार से शुरू (उदाहरण के लिए, GPT-3 और हमारा . दोनों) निर्देश जीपीटी श्रृंखला निजी बीटा के रूप में शुरू हुई)
उपन्यास उपयोग के मामलों के पायलटों के परिणामों का अध्ययन (उदाहरण के लिए, उन परिस्थितियों की खोज करना जिनके तहत हम ग्राहकों की एक छोटी संख्या के साथ काम करते हुए लंबे समय तक सामग्री निर्माण को सुरक्षित रूप से सक्षम कर सकते हैं)
ऐसी प्रक्रियाओं को लागू करना जो उपयोग पर एक नब्ज बनाए रखने में मदद करती हैं (जैसे, उपयोग के मामलों की समीक्षा, टोकन कोटा और दर सीमा)
विस्तृत पूर्वव्यापी समीक्षा करना (उदाहरण के लिए, सुरक्षा घटनाओं और प्रमुख तैनाती की)

भाषा मॉडल सुरक्षा और दुरुपयोग पर सीखे गए पाठ

ध्यान दें कि इस आरेख का उद्देश्य मॉडल विकास और परिनियोजन की निरंतर प्रक्रिया में फीडबैक लूप की आवश्यकता को दृष्टिगत रूप से व्यक्त करना है और यह तथ्य कि सुरक्षा को प्रत्येक चरण में एकीकृत किया जाना चाहिए। इसका उद्देश्य हमारे या किसी अन्य संगठन की प्रक्रिया की पूरी या आदर्श तस्वीर देना नहीं है।

जिम्मेदार तैनाती के लिए कोई चांदी की गोली नहीं है, इसलिए हम विकास और तैनाती के हर चरण में अपने मॉडल की सीमाओं और दुरुपयोग के संभावित तरीकों के बारे में जानने और उन्हें संबोधित करने का प्रयास करते हैं। यह दृष्टिकोण हमें छोटे पैमाने पर सुरक्षा और नीतिगत मुद्दों के बारे में जितना हो सके उतना सीखने की अनुमति देता है और बड़े पैमाने पर तैनाती शुरू करने से पहले उन अंतर्दृष्टि को शामिल करता है।

जिम्मेदार तैनाती के लिए कोई चांदी की गोली नहीं है।

हालांकि संपूर्ण नहीं, कुछ क्षेत्रों में जहां हमने अब तक निवेश किया है उनमें शामिल हैं^[1]:

पूर्व प्रशिक्षण तिथि क्यूरेशन और फ़िल्टरिंग
फ़ाइन ट्यूनिंग बेहतर करने के लिए मॉडल निर्देशों का अनुसरण करें
संभावित तैनाती का जोखिम विश्लेषण
विस्तृत उपयोगकर्ता प्रदान करना दस्तावेज़ीकरण
इमारत उपकरण हानिकारक मॉडल आउटपुट को स्क्रीन करने के लिए
हमारे खिलाफ उपयोग के मामलों की समीक्षा करना नीतियाँ
के संकेतों के लिए निगरानी गलत इस्तेमाल
का अध्ययन कर रहा है हमारे मॉडल के प्रभाव

चूंकि हस्तक्षेप के प्रत्येक चरण की सीमाएं हैं, इसलिए एक समग्र दृष्टिकोण आवश्यक है।

ऐसे क्षेत्र हैं जहां हम और अधिक कर सकते थे और जहां हमारे पास अभी भी सुधार की गुंजाइश है। उदाहरण के लिए, जब हमने पहली बार GPT-3 पर काम किया, तो हमने इसे एक उत्पादन प्रणाली के बजाय एक आंतरिक अनुसंधान आर्टिफैक्ट के रूप में देखा और जहरीले प्रशिक्षण डेटा को फ़िल्टर करने में उतने आक्रामक नहीं थे जितना कि हम अन्यथा हो सकते थे। हमने बाद के मॉडलों के लिए ऐसी सामग्री पर शोध करने और हटाने में अधिक निवेश किया है। हमने उन मामलों में दुरुपयोग के कुछ उदाहरणों को संबोधित करने में अधिक समय लिया है जहां हमारे पास इस विषय पर स्पष्ट नीतियां नहीं थीं, और उन नीतियों पर पुनरावृत्ति करने में बेहतर हो गए हैं। और हम सुरक्षा आवश्यकताओं के एक पैकेज की ओर पुनरावृति करना जारी रखते हैं जो जोखिमों को संबोधित करने में अधिकतम प्रभावी है, जबकि डेवलपर्स को स्पष्ट रूप से सूचित किया जा रहा है और अत्यधिक घर्षण को कम करता है।

फिर भी, हम मानते हैं कि हमारे दृष्टिकोण ने हमें अधिक व्यावहारिक दृष्टिकोण की तुलना में भाषा मॉडल के उपयोग से विभिन्न प्रकार के नुकसान को मापने और कम करने में सक्षम बनाया है, साथ ही साथ हमारे व्यापक विद्वानों, कलात्मक और व्यावसायिक अनुप्रयोगों को सक्षम किया है। मॉडल।^[2]

भाषा मॉडल के दुरूपयोग के कई आकार और आकार

OpenAI हमारे शुरुआती काम के बाद से AI के दुरुपयोग के जोखिमों पर शोध करने में सक्रिय रहा है एआई का दुर्भावनापूर्ण उपयोग 2018 और में जीपीटी-2 . पर 2019 में, और हमने प्रभाव संचालन को सशक्त बनाने वाले AI सिस्टम पर विशेष ध्यान दिया है। हमारे पास है साथ काम किया विकसित करने के लिए बाहरी विशेषज्ञ अवधारणा के प्रमाण और प्रचारित सावधान विश्लेषण तीसरे पक्ष द्वारा इस तरह के जोखिमों का। हम भाषा मॉडल-सक्षम प्रभाव संचालन से जुड़े जोखिमों को दूर करने के लिए प्रतिबद्ध हैं और हाल ही में इस विषय पर एक कार्यशाला का सह-आयोजन किया है।^[3]

फिर भी हमने प्रभाव संचालन के लिए दुष्प्रचार उत्पन्न करने की तुलना में व्यापक उद्देश्यों के लिए GPT-3 का दुरुपयोग करने का प्रयास करने वाले सैकड़ों अभिनेताओं का पता लगाया और उन्हें रोक दिया, जिसमें ऐसे तरीके भी शामिल हैं जिनका हमने या तो अनुमान नहीं लगाया था या जिसकी हमने उम्मीद नहीं की थी। इतना प्रचलित।^[4] हमारे केस दिशानिर्देशों का उपयोग करें, सामग्री दिशानिर्देश, और आंतरिक पहचान और प्रतिक्रिया अवसंरचना प्रारंभिक रूप से उन जोखिमों की ओर उन्मुख थे जिनका हमने आंतरिक और बाहरी अनुसंधान के आधार पर अनुमान लगाया था, जैसे कि GPT-3 के साथ भ्रामक राजनीतिक सामग्री का निर्माण या कोडेक्स के साथ मैलवेयर का निर्माण। हमारे खोज और प्रतिक्रिया प्रयास समय के साथ "जंगली में" सामने आए दुरुपयोग के वास्तविक मामलों के जवाब में विकसित हुए हैं जो हमारे प्रारंभिक जोखिम आकलन में प्रभाव संचालन के रूप में प्रमुखता से नहीं थे। उदाहरणों में शामिल हैं संदिग्ध चिकित्सा उत्पादों के लिए स्पैम प्रचार और नस्लवादी कल्पनाओं की भूमिका।

भाषा मॉडल के दुरुपयोग और उसके शमन के अध्ययन का समर्थन करने के लिए, हम भाषा मॉडल के दुरुपयोग के बारे में चर्चा को ठोस बनाने के लिए इस वर्ष सुरक्षा घटनाओं पर आंकड़े साझा करने के लिए सक्रिय रूप से अवसर तलाश रहे हैं।

जोखिम और प्रभाव मापन की कठिनाई

भाषा मॉडल के जोखिमों और प्रभावों के कई पहलुओं को मापना मुश्किल है और इसलिए जवाबदेह तरीके से निगरानी, न्यूनतम और खुलासा करना कठिन है। हमने भाषा मॉडल मूल्यांकन के लिए मौजूदा अकादमिक बेंचमार्क का सक्रिय उपयोग किया है और बाहरी कार्य पर निर्माण जारी रखने के लिए उत्सुक हैं, लेकिन हमने यह भी पाया है कि मौजूदा बेंचमार्क डेटासेट अक्सर सुरक्षा और दुरुपयोग के जोखिमों को प्रतिबिंबित नहीं करते हैं जो हम व्यवहार में देखते हैं।^[5]

इस तरह की सीमाएं इस तथ्य को दर्शाती हैं कि अकादमिक डेटासेट शायद ही कभी भाषा मॉडल के उत्पादन उपयोग को सूचित करने के स्पष्ट उद्देश्य के लिए बनाए जाते हैं, और ऐसे मॉडल को बड़े पैमाने पर तैनात करने से प्राप्त अनुभव से लाभ नहीं उठाते हैं। नतीजतन, हम अपने मॉडलों की सुरक्षा को मापने के लिए नए मूल्यांकन डेटासेट और फ्रेमवर्क विकसित कर रहे हैं, जिसे हम जल्द ही जारी करने की योजना बना रहे हैं। विशेष रूप से, हमने मॉडल आउटपुट में विषाक्तता को मापने के लिए नए मूल्यांकन मेट्रिक्स विकसित किए हैं और हमारे उल्लंघन करने वाली सामग्री का पता लगाने के लिए इन-हाउस क्लासिफायर भी विकसित किए हैं। सामग्री नीति, जैसे कामुक सामग्री, अभद्र भाषा, हिंसा, उत्पीड़न और आत्म-नुकसान। बदले में इन दोनों का उपयोग हमारे पूर्व-प्रशिक्षण डेटा में सुधार के लिए भी किया गया है^[6]-विशेष रूप से, डेटासेट हस्तक्षेपों के प्रभावों को मापने के लिए सामग्री और मूल्यांकन मेट्रिक्स को फ़िल्टर करने के लिए क्लासिफायर का उपयोग करके।

विभिन्न आयामों के साथ व्यक्तिगत मॉडल आउटपुट को विश्वसनीय रूप से वर्गीकृत करना कठिन है, और OpenAI API के पैमाने पर उनके सामाजिक प्रभाव को मापना और भी कठिन है। हमने इस तरह के माप के लिए एक संस्थागत पेशी बनाने के लिए कई आंतरिक अध्ययन किए हैं, लेकिन ये अक्सर उत्तर से अधिक प्रश्न उठाते हैं।

हम अपने मॉडलों के आर्थिक प्रभाव और उन प्रभावों के वितरण को बेहतर ढंग से समझने में विशेष रूप से रुचि रखते हैं। हमारे पास यह मानने का अच्छा कारण है कि मौजूदा मॉडलों की तैनाती से श्रम बाजार के प्रभाव पहले से ही निरपेक्ष रूप से महत्वपूर्ण हो सकते हैं, और यह कि हमारे मॉडल की क्षमता और पहुंच बढ़ने के साथ-साथ वे भी बढ़ेंगे। हमने आज तक कई तरह के स्थानीय प्रभावों के बारे में सीखा है, जिसमें कॉपी राइटिंग और सारांश (कभी-कभी नौकरी के विस्थापन और सृजन में योगदान देने वाले) जैसे व्यक्तियों द्वारा किए गए मौजूदा कार्यों पर बड़े पैमाने पर उत्पादकता सुधार शामिल हैं, साथ ही ऐसे मामले जहां एपीआई ने नए अनुप्रयोगों को अनलॉक किया है जो पहले संभव नहीं थे। , जैसे कि बड़े पैमाने पर गुणात्मक प्रतिक्रिया का संश्लेषण. लेकिन हमें शुद्ध प्रभावों की अच्छी समझ नहीं है।

हमारा मानना है कि शक्तिशाली एआई प्रौद्योगिकियों को विकसित करने और तैनात करने वालों के लिए यह महत्वपूर्ण है कि वे अपने काम के सकारात्मक और नकारात्मक दोनों प्रभावों का सामना करें। हम इस पोस्ट के समापन भाग में उस दिशा में कुछ कदमों पर चर्चा करते हैं।

एआई सिस्टम की सुरक्षा और उपयोगिता के बीच संबंध

हमारे में चार्टर, 2018 में प्रकाशित, हम कहते हैं कि हम "पर्याप्त सुरक्षा सावधानियों के लिए समय के बिना प्रतिस्पर्धी दौड़ बनने के लिए देर से चरण एजीआई विकास के बारे में चिंतित हैं।" फिर हम प्रकाशित प्रतिस्पर्धी एआई विकास का विस्तृत विश्लेषण, और हमने इसका बारीकी से पालन किया है आगामी अनुसंधान। साथ ही, ओपनएआई एपीआई के माध्यम से एआई सिस्टम को तैनात करने से सुरक्षा और उपयोगिता के बीच तालमेल की हमारी समझ भी गहरी हुई है।

उदाहरण के लिए, डेवलपर्स हमारे इंस्ट्रक्टजीपीटी मॉडल को अत्यधिक पसंद करते हैं—जो उपयोगकर्ता के इरादों का पालन करने के लिए ठीक-ठाक हैं^[7]-आधार GPT-3 मॉडल के ऊपर। विशेष रूप से, हालांकि, इंस्ट्रक्टजीपीटी मॉडल मूल रूप से व्यावसायिक विचारों से प्रेरित नहीं थे, बल्कि इसका उद्देश्य लंबी अवधि में प्रगति करना था। संरेखण समस्याएं. व्यावहारिक रूप से, इसका मतलब यह है कि ग्राहक, शायद आश्चर्यजनक रूप से नहीं, ऐसे मॉडल को अधिक पसंद करते हैं जो काम पर बने रहते हैं और उपयोगकर्ता के इरादे को समझते हैं, और ऐसे मॉडल जो हानिकारक या गलत आउटपुट उत्पन्न करने की कम संभावना रखते हैं।^[8] अन्य मौलिक शोध, जैसे कि हमारा काम जानकारी का लाभ उठाना प्रश्नों का अधिक सच्चाई से उत्तर देने के लिए इंटरनेट से पुनर्प्राप्त, एआई सिस्टम की व्यावसायिक उपयोगिता में सुधार करने की क्षमता भी रखता है।^[9]

ये तालमेल हमेशा नहीं होगा। उदाहरण के लिए, अधिक शक्तिशाली प्रणालियों को अक्सर लाभ के तत्काल अवसरों को बंद करते हुए, मूल्यांकन और प्रभावी ढंग से संरेखित करने में अधिक समय लगेगा। और एक उपयोगकर्ता की उपयोगिता और समाज की उपयोगिता नकारात्मक बाहरीताओं के कारण संरेखित नहीं हो सकती है - पूरी तरह से स्वचालित कॉपी राइटिंग पर विचार करें, जो सामग्री निर्माताओं के लिए फायदेमंद हो सकती है लेकिन समग्र रूप से सूचना पारिस्थितिकी तंत्र के लिए खराब है।

सुरक्षा और उपयोगिता के बीच मजबूत तालमेल के मामलों को देखना उत्साहजनक है, लेकिन हम व्यावसायिक उपयोगिता के साथ व्यापार बंद होने पर भी सुरक्षा और नीति अनुसंधान में निवेश करने के लिए प्रतिबद्ध हैं।

हम सुरक्षा और नीति अनुसंधान में निवेश करने के लिए प्रतिबद्ध हैं, भले ही वे वाणिज्यिक उपयोगिता के खिलाफ व्यापार कर रहे हों।

शामिल होने के तरीके

ऊपर दिया गया प्रत्येक पाठ अपने आप में नए प्रश्न उठाता है। किस प्रकार की सुरक्षा घटनाओं का पता लगाने और अनुमान लगाने में हम अभी भी असफल हो रहे हैं? हम जोखिमों और प्रभावों को बेहतर तरीके से कैसे माप सकते हैं? हम अपने मॉडलों की सुरक्षा और उपयोगिता दोनों में सुधार कैसे जारी रख सकते हैं, और जब वे उत्पन्न होते हैं तो इन दोनों के बीच ट्रेडऑफ़ को नेविगेट कर सकते हैं?

हम इनमें से कई मुद्दों पर भाषा मॉडल लागू करने वाली अन्य कंपनियों के साथ सक्रिय रूप से चर्चा कर रहे हैं। लेकिन हम यह भी जानते हैं कि किसी भी संगठन या संगठनों के समूह के पास सभी उत्तर नहीं होते हैं, और हम ऐसे कई तरीकों पर प्रकाश डालना चाहेंगे जिससे पाठक हमारे अत्याधुनिक एआई सिस्टम की तैनाती को समझने और आकार देने में अधिक शामिल हो सकें।

सबसे पहले, अत्याधुनिक एआई सिस्टम के साथ बातचीत का प्रत्यक्ष अनुभव प्राप्त करना उनकी क्षमताओं और निहितार्थों को समझने के लिए अमूल्य है। हमने हाल ही में एपीआई प्रतीक्षा सूची को समाप्त कर दिया है और दुरुपयोग का प्रभावी ढंग से पता लगाने और प्रतिक्रिया करने की हमारी क्षमता में अधिक विश्वास पैदा करने के बाद। व्यक्तियों में समर्थित देश और क्षेत्र साइन अप करके जल्दी से OpenAI API तक पहुंच प्राप्त कर सकते हैं यहाँ उत्पन्न करें.

दूसरा, हमारे लिए विशेष रुचि के विषयों पर काम कर रहे शोधकर्ता जैसे पूर्वाग्रह और दुरुपयोग, और जो वित्तीय सहायता से लाभान्वित होंगे, सब्सिडी वाले एपीआई क्रेडिट के लिए आवेदन कर सकते हैं इस फार्म का. इन बहुआयामी प्रणालियों के बारे में हमारी समझ के साथ-साथ व्यापक सार्वजनिक समझ दोनों को सूचित करने के लिए बाहरी शोध महत्वपूर्ण है।

अंत में, आज हम प्रकाशित कर रहे हैं a एजेंडा अनुसंधान मॉडल के हमारे कोडेक्स परिवार से जुड़े श्रम बाजार के प्रभावों की खोज करना, और इस शोध को करने के लिए बाहरी सहयोगियों से आह्वान करना। हम स्वतंत्र शोधकर्ताओं के साथ काम करने के लिए उत्साहित हैं ताकि हमारी प्रौद्योगिकियों के प्रभावों का अध्ययन किया जा सके ताकि उचित नीतिगत हस्तक्षेपों को सूचित किया जा सके, और अंततः हमारी सोच को कोड जनरेशन से अन्य तौर-तरीकों तक विस्तारित किया जा सके।

यदि आप अत्याधुनिक एआई प्रौद्योगिकियों को जिम्मेदारी से तैनात करने के लिए काम करने में रुचि रखते हैं, लागू करें OpenAI में काम करता है

समय टिकट: मार्च २०,२०२१

समय टिकट: अगस्त 31, 2022

प्लेटो द्वारा पुनर्प्रकाशित

सुपरएलाइनमेंट फास्ट ग्रांट्स

एआई अनुदान कार्यक्रम के लिए लोकतांत्रिक इनपुट: सीखे गए सबक और कार्यान्वयन योजनाएं

ChatGPT में अपने डेटा को प्रबंधित करने के नए तरीके

OpenAI ने निदेशक मंडल में नए सदस्यों की घोषणा की

एआई सिस्टम को कैसे व्यवहार करना चाहिए और किसे तय करना चाहिए?

वीडियो प्री-ट्रेनिंग (VPT) के साथ Minecraft खेलना सीखना

मॉडलों को अपनी अनिश्चितता को शब्दों में व्यक्त करना सिखाना

DALL·E: पेश है आउटपेंटिंग

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा