भाषा मॉडल सुरक्षा और प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के दुरुपयोग पर सीखे गए सबक। लंबवत खोज. ऐ.

भाषा मॉडल सुरक्षा और दुरुपयोग पर सीखे गए पाठ

भाषा मॉडल सुरक्षा और दुरुपयोग पर सीखे गए पाठ

शक्तिशाली एआई सिस्टम की तैनाती ने अकेले अनुसंधान के माध्यम से जितना संभव हो सकता था, उससे कहीं अधिक सुरक्षा और दुरुपयोग की हमारी समझ को समृद्ध किया है। विशेष रूप से:

  • एपीआई-आधारित भाषा मॉडल का दुरुपयोग अक्सर अलग-अलग रूपों में आता है, जिसकी हमें सबसे ज्यादा आशंका थी।
  • हमने मौजूदा भाषा मॉडल मूल्यांकन में सीमाओं की पहचान की है जिन्हें हम नए बेंचमार्क और क्लासिफायर के साथ संबोधित कर रहे हैं।
  • बुनियादी सुरक्षा अनुसंधान एआई सिस्टम की व्यावसायिक उपयोगिता के लिए महत्वपूर्ण लाभ प्रदान करता है।

यहां, हम अन्य एआई डेवलपर्स को तैनात मॉडलों की सुरक्षा और दुरुपयोग को संबोधित करने में मदद करने की उम्मीद में अपनी नवीनतम सोच का वर्णन करते हैं।


Oपिछले दो वर्षों में, हमने इस बारे में बहुत कुछ सीखा है कि कैसे भाषा मॉडल का उपयोग और दुरुपयोग किया जा सकता है—ऐसी अंतर्दृष्टि जो हम वास्तविक-विश्व परिनियोजन के अनुभव के बिना प्राप्त नहीं कर सकते थे। जून 2020 में, हमने डेवलपर्स और शोधकर्ताओं को एक्सेस देना शुरू किया OpenAI एपीआई, OpenAI द्वारा विकसित नए AI मॉडल के शीर्ष पर अनुप्रयोगों तक पहुँचने और निर्माण करने के लिए एक इंटरफ़ेस। GPT-3, कोडेक्स, और अन्य मॉडलों को इस तरह से नियोजित करना जिससे नुकसान के जोखिम को कम किया जा सके, विभिन्न तकनीकी और नीतिगत चुनौतियों का सामना करना पड़ा है।

हमारे मॉडल परिनियोजन दृष्टिकोण का अवलोकन

बड़े भाषा मॉडल अब प्रदर्शन करने में सक्षम हैं: कार्यों की बहुत विस्तृत श्रृंखला, अक्सर बॉक्स से बाहर। उनके जोखिम प्रोफाइल, संभावित अनुप्रयोग और समाज पर व्यापक प्रभाव रहना बीमार समझ लिया. नतीजतन, हमारा परिनियोजन दृष्टिकोण निरंतर पुनरावृत्ति पर जोर देता है, और संबंधित जोखिमों को कम करते हुए तैनाती के लाभों को अधिकतम करने के उद्देश्य से निम्नलिखित रणनीतियों का उपयोग करता है:

  • पूर्व-तैनाती जोखिम विश्लेषण, सुरक्षा मूल्यांकन और रेड टीमिंग टूल के बढ़ते सेट का लाभ उठाना (उदाहरण के लिए, हमने मूल्यांकन का उपयोग करके किसी भी सुरक्षा गिरावट के लिए हमारे इंस्ट्रक्टजीपीटी की जांच की) नीचे वर्णित)
  • एक छोटे उपयोगकर्ता आधार से शुरू (उदाहरण के लिए, GPT-3 और हमारा . दोनों) निर्देश जीपीटी श्रृंखला निजी बीटा के रूप में शुरू हुई)
  • उपन्यास उपयोग के मामलों के पायलटों के परिणामों का अध्ययन (उदाहरण के लिए, उन परिस्थितियों की खोज करना जिनके तहत हम ग्राहकों की एक छोटी संख्या के साथ काम करते हुए लंबे समय तक सामग्री निर्माण को सुरक्षित रूप से सक्षम कर सकते हैं)
  • ऐसी प्रक्रियाओं को लागू करना जो उपयोग पर एक नब्ज बनाए रखने में मदद करती हैं (जैसे, उपयोग के मामलों की समीक्षा, टोकन कोटा और दर सीमा)
  • विस्तृत पूर्वव्यापी समीक्षा करना (उदाहरण के लिए, सुरक्षा घटनाओं और प्रमुख तैनाती की)
भाषा मॉडल सुरक्षा और दुरुपयोग पर सीखे गए पाठ


ध्यान दें कि इस आरेख का उद्देश्य मॉडल विकास और परिनियोजन की निरंतर प्रक्रिया में फीडबैक लूप की आवश्यकता को दृष्टिगत रूप से व्यक्त करना है और यह तथ्य कि सुरक्षा को प्रत्येक चरण में एकीकृत किया जाना चाहिए। इसका उद्देश्य हमारे या किसी अन्य संगठन की प्रक्रिया की पूरी या आदर्श तस्वीर देना नहीं है।

जिम्मेदार तैनाती के लिए कोई चांदी की गोली नहीं है, इसलिए हम विकास और तैनाती के हर चरण में अपने मॉडल की सीमाओं और दुरुपयोग के संभावित तरीकों के बारे में जानने और उन्हें संबोधित करने का प्रयास करते हैं। यह दृष्टिकोण हमें छोटे पैमाने पर सुरक्षा और नीतिगत मुद्दों के बारे में जितना हो सके उतना सीखने की अनुमति देता है और बड़े पैमाने पर तैनाती शुरू करने से पहले उन अंतर्दृष्टि को शामिल करता है।


जिम्मेदार तैनाती के लिए कोई चांदी की गोली नहीं है।

हालांकि संपूर्ण नहीं, कुछ क्षेत्रों में जहां हमने अब तक निवेश किया है उनमें शामिल हैं[1]:

चूंकि हस्तक्षेप के प्रत्येक चरण की सीमाएं हैं, इसलिए एक समग्र दृष्टिकोण आवश्यक है।

ऐसे क्षेत्र हैं जहां हम और अधिक कर सकते थे और जहां हमारे पास अभी भी सुधार की गुंजाइश है। उदाहरण के लिए, जब हमने पहली बार GPT-3 पर काम किया, तो हमने इसे एक उत्पादन प्रणाली के बजाय एक आंतरिक अनुसंधान आर्टिफैक्ट के रूप में देखा और जहरीले प्रशिक्षण डेटा को फ़िल्टर करने में उतने आक्रामक नहीं थे जितना कि हम अन्यथा हो सकते थे। हमने बाद के मॉडलों के लिए ऐसी सामग्री पर शोध करने और हटाने में अधिक निवेश किया है। हमने उन मामलों में दुरुपयोग के कुछ उदाहरणों को संबोधित करने में अधिक समय लिया है जहां हमारे पास इस विषय पर स्पष्ट नीतियां नहीं थीं, और उन नीतियों पर पुनरावृत्ति करने में बेहतर हो गए हैं। और हम सुरक्षा आवश्यकताओं के एक पैकेज की ओर पुनरावृति करना जारी रखते हैं जो जोखिमों को संबोधित करने में अधिकतम प्रभावी है, जबकि डेवलपर्स को स्पष्ट रूप से सूचित किया जा रहा है और अत्यधिक घर्षण को कम करता है।

फिर भी, हम मानते हैं कि हमारे दृष्टिकोण ने हमें अधिक व्यावहारिक दृष्टिकोण की तुलना में भाषा मॉडल के उपयोग से विभिन्न प्रकार के नुकसान को मापने और कम करने में सक्षम बनाया है, साथ ही साथ हमारे व्यापक विद्वानों, कलात्मक और व्यावसायिक अनुप्रयोगों को सक्षम किया है। मॉडल।[2]

भाषा मॉडल के दुरूपयोग के कई आकार और आकार

OpenAI हमारे शुरुआती काम के बाद से AI के दुरुपयोग के जोखिमों पर शोध करने में सक्रिय रहा है एआई का दुर्भावनापूर्ण उपयोग 2018 और में जीपीटी-2 . पर 2019 में, और हमने प्रभाव संचालन को सशक्त बनाने वाले AI सिस्टम पर विशेष ध्यान दिया है। हमारे पास है साथ काम किया विकसित करने के लिए बाहरी विशेषज्ञ अवधारणा के प्रमाण और प्रचारित सावधान विश्लेषण तीसरे पक्ष द्वारा इस तरह के जोखिमों का। हम भाषा मॉडल-सक्षम प्रभाव संचालन से जुड़े जोखिमों को दूर करने के लिए प्रतिबद्ध हैं और हाल ही में इस विषय पर एक कार्यशाला का सह-आयोजन किया है।[3]

फिर भी हमने प्रभाव संचालन के लिए दुष्प्रचार उत्पन्न करने की तुलना में व्यापक उद्देश्यों के लिए GPT-3 का दुरुपयोग करने का प्रयास करने वाले सैकड़ों अभिनेताओं का पता लगाया और उन्हें रोक दिया, जिसमें ऐसे तरीके भी शामिल हैं जिनका हमने या तो अनुमान नहीं लगाया था या जिसकी हमने उम्मीद नहीं की थी। इतना प्रचलित।[4] हमारे केस दिशानिर्देशों का उपयोग करें, सामग्री दिशानिर्देश, और आंतरिक पहचान और प्रतिक्रिया अवसंरचना प्रारंभिक रूप से उन जोखिमों की ओर उन्मुख थे जिनका हमने आंतरिक और बाहरी अनुसंधान के आधार पर अनुमान लगाया था, जैसे कि GPT-3 के साथ भ्रामक राजनीतिक सामग्री का निर्माण या कोडेक्स के साथ मैलवेयर का निर्माण। हमारे खोज और प्रतिक्रिया प्रयास समय के साथ "जंगली में" सामने आए दुरुपयोग के वास्तविक मामलों के जवाब में विकसित हुए हैं जो हमारे प्रारंभिक जोखिम आकलन में प्रभाव संचालन के रूप में प्रमुखता से नहीं थे। उदाहरणों में शामिल हैं संदिग्ध चिकित्सा उत्पादों के लिए स्पैम प्रचार और नस्लवादी कल्पनाओं की भूमिका।

भाषा मॉडल के दुरुपयोग और उसके शमन के अध्ययन का समर्थन करने के लिए, हम भाषा मॉडल के दुरुपयोग के बारे में चर्चा को ठोस बनाने के लिए इस वर्ष सुरक्षा घटनाओं पर आंकड़े साझा करने के लिए सक्रिय रूप से अवसर तलाश रहे हैं।

जोखिम और प्रभाव मापन की कठिनाई

भाषा मॉडल के जोखिमों और प्रभावों के कई पहलुओं को मापना मुश्किल है और इसलिए जवाबदेह तरीके से निगरानी, ​​​​न्यूनतम और खुलासा करना कठिन है। हमने भाषा मॉडल मूल्यांकन के लिए मौजूदा अकादमिक बेंचमार्क का सक्रिय उपयोग किया है और बाहरी कार्य पर निर्माण जारी रखने के लिए उत्सुक हैं, लेकिन हमने यह भी पाया है कि मौजूदा बेंचमार्क डेटासेट अक्सर सुरक्षा और दुरुपयोग के जोखिमों को प्रतिबिंबित नहीं करते हैं जो हम व्यवहार में देखते हैं।[5]

इस तरह की सीमाएं इस तथ्य को दर्शाती हैं कि अकादमिक डेटासेट शायद ही कभी भाषा मॉडल के उत्पादन उपयोग को सूचित करने के स्पष्ट उद्देश्य के लिए बनाए जाते हैं, और ऐसे मॉडल को बड़े पैमाने पर तैनात करने से प्राप्त अनुभव से लाभ नहीं उठाते हैं। नतीजतन, हम अपने मॉडलों की सुरक्षा को मापने के लिए नए मूल्यांकन डेटासेट और फ्रेमवर्क विकसित कर रहे हैं, जिसे हम जल्द ही जारी करने की योजना बना रहे हैं। विशेष रूप से, हमने मॉडल आउटपुट में विषाक्तता को मापने के लिए नए मूल्यांकन मेट्रिक्स विकसित किए हैं और हमारे उल्लंघन करने वाली सामग्री का पता लगाने के लिए इन-हाउस क्लासिफायर भी विकसित किए हैं। सामग्री नीति, जैसे कामुक सामग्री, अभद्र भाषा, हिंसा, उत्पीड़न और आत्म-नुकसान। बदले में इन दोनों का उपयोग हमारे पूर्व-प्रशिक्षण डेटा में सुधार के लिए भी किया गया है[6]-विशेष रूप से, डेटासेट हस्तक्षेपों के प्रभावों को मापने के लिए सामग्री और मूल्यांकन मेट्रिक्स को फ़िल्टर करने के लिए क्लासिफायर का उपयोग करके।

विभिन्न आयामों के साथ व्यक्तिगत मॉडल आउटपुट को विश्वसनीय रूप से वर्गीकृत करना कठिन है, और OpenAI API के पैमाने पर उनके सामाजिक प्रभाव को मापना और भी कठिन है। हमने इस तरह के माप के लिए एक संस्थागत पेशी बनाने के लिए कई आंतरिक अध्ययन किए हैं, लेकिन ये अक्सर उत्तर से अधिक प्रश्न उठाते हैं।

हम अपने मॉडलों के आर्थिक प्रभाव और उन प्रभावों के वितरण को बेहतर ढंग से समझने में विशेष रूप से रुचि रखते हैं। हमारे पास यह मानने का अच्छा कारण है कि मौजूदा मॉडलों की तैनाती से श्रम बाजार के प्रभाव पहले से ही निरपेक्ष रूप से महत्वपूर्ण हो सकते हैं, और यह कि हमारे मॉडल की क्षमता और पहुंच बढ़ने के साथ-साथ वे भी बढ़ेंगे। हमने आज तक कई तरह के स्थानीय प्रभावों के बारे में सीखा है, जिसमें कॉपी राइटिंग और सारांश (कभी-कभी नौकरी के विस्थापन और सृजन में योगदान देने वाले) जैसे व्यक्तियों द्वारा किए गए मौजूदा कार्यों पर बड़े पैमाने पर उत्पादकता सुधार शामिल हैं, साथ ही ऐसे मामले जहां एपीआई ने नए अनुप्रयोगों को अनलॉक किया है जो पहले संभव नहीं थे। , जैसे कि बड़े पैमाने पर गुणात्मक प्रतिक्रिया का संश्लेषण. लेकिन हमें शुद्ध प्रभावों की अच्छी समझ नहीं है।

हमारा मानना ​​​​है कि शक्तिशाली एआई प्रौद्योगिकियों को विकसित करने और तैनात करने वालों के लिए यह महत्वपूर्ण है कि वे अपने काम के सकारात्मक और नकारात्मक दोनों प्रभावों का सामना करें। हम इस पोस्ट के समापन भाग में उस दिशा में कुछ कदमों पर चर्चा करते हैं।

एआई सिस्टम की सुरक्षा और उपयोगिता के बीच संबंध

हमारे में चार्टर, 2018 में प्रकाशित, हम कहते हैं कि हम "पर्याप्त सुरक्षा सावधानियों के लिए समय के बिना प्रतिस्पर्धी दौड़ बनने के लिए देर से चरण एजीआई विकास के बारे में चिंतित हैं।" फिर हम प्रकाशित प्रतिस्पर्धी एआई विकास का विस्तृत विश्लेषण, और हमने इसका बारीकी से पालन किया है आगामी अनुसंधान। साथ ही, ओपनएआई एपीआई के माध्यम से एआई सिस्टम को तैनात करने से सुरक्षा और उपयोगिता के बीच तालमेल की हमारी समझ भी गहरी हुई है।

उदाहरण के लिए, डेवलपर्स हमारे इंस्ट्रक्टजीपीटी मॉडल को अत्यधिक पसंद करते हैं—जो उपयोगकर्ता के इरादों का पालन करने के लिए ठीक-ठाक हैं[7]-आधार GPT-3 मॉडल के ऊपर। विशेष रूप से, हालांकि, इंस्ट्रक्टजीपीटी मॉडल मूल रूप से व्यावसायिक विचारों से प्रेरित नहीं थे, बल्कि इसका उद्देश्य लंबी अवधि में प्रगति करना था। संरेखण समस्याएं. व्यावहारिक रूप से, इसका मतलब यह है कि ग्राहक, शायद आश्चर्यजनक रूप से नहीं, ऐसे मॉडल को अधिक पसंद करते हैं जो काम पर बने रहते हैं और उपयोगकर्ता के इरादे को समझते हैं, और ऐसे मॉडल जो हानिकारक या गलत आउटपुट उत्पन्न करने की कम संभावना रखते हैं।[8] अन्य मौलिक शोध, जैसे कि हमारा काम जानकारी का लाभ उठाना प्रश्नों का अधिक सच्चाई से उत्तर देने के लिए इंटरनेट से पुनर्प्राप्त, एआई सिस्टम की व्यावसायिक उपयोगिता में सुधार करने की क्षमता भी रखता है।[9]

ये तालमेल हमेशा नहीं होगा। उदाहरण के लिए, अधिक शक्तिशाली प्रणालियों को अक्सर लाभ के तत्काल अवसरों को बंद करते हुए, मूल्यांकन और प्रभावी ढंग से संरेखित करने में अधिक समय लगेगा। और एक उपयोगकर्ता की उपयोगिता और समाज की उपयोगिता नकारात्मक बाहरीताओं के कारण संरेखित नहीं हो सकती है - पूरी तरह से स्वचालित कॉपी राइटिंग पर विचार करें, जो सामग्री निर्माताओं के लिए फायदेमंद हो सकती है लेकिन समग्र रूप से सूचना पारिस्थितिकी तंत्र के लिए खराब है।

सुरक्षा और उपयोगिता के बीच मजबूत तालमेल के मामलों को देखना उत्साहजनक है, लेकिन हम व्यावसायिक उपयोगिता के साथ व्यापार बंद होने पर भी सुरक्षा और नीति अनुसंधान में निवेश करने के लिए प्रतिबद्ध हैं।


हम सुरक्षा और नीति अनुसंधान में निवेश करने के लिए प्रतिबद्ध हैं, भले ही वे वाणिज्यिक उपयोगिता के खिलाफ व्यापार कर रहे हों।

शामिल होने के तरीके

ऊपर दिया गया प्रत्येक पाठ अपने आप में नए प्रश्न उठाता है। किस प्रकार की सुरक्षा घटनाओं का पता लगाने और अनुमान लगाने में हम अभी भी असफल हो रहे हैं? हम जोखिमों और प्रभावों को बेहतर तरीके से कैसे माप सकते हैं? हम अपने मॉडलों की सुरक्षा और उपयोगिता दोनों में सुधार कैसे जारी रख सकते हैं, और जब वे उत्पन्न होते हैं तो इन दोनों के बीच ट्रेडऑफ़ को नेविगेट कर सकते हैं?

हम इनमें से कई मुद्दों पर भाषा मॉडल लागू करने वाली अन्य कंपनियों के साथ सक्रिय रूप से चर्चा कर रहे हैं। लेकिन हम यह भी जानते हैं कि किसी भी संगठन या संगठनों के समूह के पास सभी उत्तर नहीं होते हैं, और हम ऐसे कई तरीकों पर प्रकाश डालना चाहेंगे जिससे पाठक हमारे अत्याधुनिक एआई सिस्टम की तैनाती को समझने और आकार देने में अधिक शामिल हो सकें।

सबसे पहले, अत्याधुनिक एआई सिस्टम के साथ बातचीत का प्रत्यक्ष अनुभव प्राप्त करना उनकी क्षमताओं और निहितार्थों को समझने के लिए अमूल्य है। हमने हाल ही में एपीआई प्रतीक्षा सूची को समाप्त कर दिया है और दुरुपयोग का प्रभावी ढंग से पता लगाने और प्रतिक्रिया करने की हमारी क्षमता में अधिक विश्वास पैदा करने के बाद। व्यक्तियों में समर्थित देश और क्षेत्र साइन अप करके जल्दी से OpenAI API तक पहुंच प्राप्त कर सकते हैं यहाँ उत्पन्न करें.

दूसरा, हमारे लिए विशेष रुचि के विषयों पर काम कर रहे शोधकर्ता जैसे पूर्वाग्रह और दुरुपयोग, और जो वित्तीय सहायता से लाभान्वित होंगे, सब्सिडी वाले एपीआई क्रेडिट के लिए आवेदन कर सकते हैं इस फार्म का. इन बहुआयामी प्रणालियों के बारे में हमारी समझ के साथ-साथ व्यापक सार्वजनिक समझ दोनों को सूचित करने के लिए बाहरी शोध महत्वपूर्ण है।

अंत में, आज हम प्रकाशित कर रहे हैं a एजेंडा अनुसंधान मॉडल के हमारे कोडेक्स परिवार से जुड़े श्रम बाजार के प्रभावों की खोज करना, और इस शोध को करने के लिए बाहरी सहयोगियों से आह्वान करना। हम स्वतंत्र शोधकर्ताओं के साथ काम करने के लिए उत्साहित हैं ताकि हमारी प्रौद्योगिकियों के प्रभावों का अध्ययन किया जा सके ताकि उचित नीतिगत हस्तक्षेपों को सूचित किया जा सके, और अंततः हमारी सोच को कोड जनरेशन से अन्य तौर-तरीकों तक विस्तारित किया जा सके।

यदि आप अत्याधुनिक एआई प्रौद्योगिकियों को जिम्मेदारी से तैनात करने के लिए काम करने में रुचि रखते हैं, लागू करें OpenAI में काम करता है


Acknowledgments

लिलियन वेंग, रोजी कैंपबेल, अन्ना मकांजू, बॉब मैकग्रे, हन्ना वोंग, रयान लोव, स्टीव डॉउलिंग, मीरा मुराती, सैम ऑल्टमैन, ग्रेग ब्रॉकमैन, इल्या सुत्सकेवर, पर्सी लियांग, पीटर वेलिंडर, एथन पेरेज़, ऐली इवांस, हेलेन न्गो को धन्यवाद। इस पोस्ट और संबंधित कार्य पर प्रतिक्रिया प्रदान करने के लिए हेलेन टोनर, जस्टिन जे वांग, जैक क्लार्क, ऋषि बोम्मासानी, गिरीश शास्त्री, सारा शॉकर, मैट नाइट, बियांका मार्टिन, बॉब रोस्टेड, लामा अहमद, टोकी शेरबाकोव और अन्य।


फुटनोट

  1. यह पोस्ट एक एपीआई के माध्यम से भाषा मॉडल को तैनात करने के हमारे दृष्टिकोण पर आधारित है, और इस तरह वर्णित पाठ और शमन उन लोगों के लिए सबसे अधिक प्रासंगिक हैं जो एपीआई-आधारित परिनियोजन का अनुसरण कर रहे हैं। हालांकि, हम यह भी उम्मीद करते हैं कि कुछ चर्चा उन लोगों के लिए प्रासंगिक होगी जो भाषा मॉडल का उपयोग करके प्रथम-पक्ष एप्लिकेशन बना रहे हैं और जो भाषा मॉडल के ओपन सोर्स रिलीज पर विचार कर रहे हैं। मैं

  2. इस पोस्ट का उद्देश्य हमारे दृष्टिकोण से सीखने को समझाने और साझा करने के लिए है, न कि यह सुझाव देने के लिए कि सभी अभिनेताओं को एक ही दृष्टिकोण अपनाना चाहिए, या यह कि सभी संभावित एआई सिस्टम पर एक ही दृष्टिकोण लागू होता है। विभिन्न परिनियोजन दृष्टिकोणों से जुड़े लाभ और लागतें हैं, विभिन्न मॉडलों को परिनियोजन से पहले अध्ययन से कम या ज्यादा लाभ होगा, और कुछ मामलों में यह अलग-अलग अभिनेताओं द्वारा अनुसरण किए जाने वाले अलग-अलग परिनियोजन पथों के लिए मूल्यवान हो सकता है। मैं

  3. इस कार्यशाला के बारे में अधिक जानकारी इसके आधार पर आगामी प्रकाशन में शामिल की जाएगी। मैं

  4. दुरूपयोग के जवाब में हम जिन शमन पर जोर देते हैं, वे भी विकसित हो गए हैं। उदाहरण के लिए, हमने शुरू में खतरे के वेक्टर के रूप में लंबे फॉर्म टेक्स्ट जनरेशन पर ध्यान केंद्रित किया, प्रभाव संचालन के पूर्व मामलों को देखते हुए जिसमें लोगों को मैन्युअल रूप से लंबी फॉर्म भ्रामक सामग्री लिखना शामिल था। उस जोर को देखते हुए, हम उत्पन्न पाठ के लिए अधिकतम आउटपुट लंबाई निर्धारित करते हैं। हालांकि, लंबे फ़ॉर्म जनरेशन के प्रायोगिक अध्ययन के आधार पर, हमने देखा कि नीति उल्लंघनों पर आउटपुट प्रतिबंधों का बहुत कम प्रभाव पड़ा है—हमें इसके बजाय यह विश्वास हुआ है कि भ्रामक सामग्री पर लघु-रूप सामग्री को बढ़ाना या बढ़ाना अधिक जोखिम हो सकता है। मैं

  5. वास्तविक भाषा मॉडल आउटपुट की सुरक्षा के समग्र मूल्यांकन की मांग करने वाले चिकित्सकों के परिप्रेक्ष्य से मौजूदा डेटासेट में सीमाओं के उदाहरणों में निम्नलिखित शामिल हैं: एक अत्यधिक संकीर्ण फोकस (उदाहरण के लिए, केवल व्यावसायिक लिंग पूर्वाग्रह को मापना), एक अत्यधिक व्यापक फोकस (उदाहरण के लिए, "विषाक्तता" की छतरी के नीचे सभी को मापना), उपयोग और संदर्भ की बारीकियों को दूर करने की प्रवृत्ति, मापने में विफलता उत्पादक भाषा मॉडल के उपयोग का आयाम (उदाहरण के लिए, बहुविकल्पी शैली का उपयोग करना), संकेत देता है जो आमतौर पर वास्तविक भाषा मॉडल उपयोग के मामलों में उपयोग किए जाने वाले लोगों से शैलीगत रूप से भिन्न होता है, सुरक्षा के आयामों को कैप्चर नहीं करता है जो व्यवहार में महत्वपूर्ण हैं (उदाहरण के लिए, सुरक्षा का पालन करने या अनदेखा करने वाला आउटपुट- निर्देश में प्रेरित बाधा), या उन प्रकार के आउटपुट को कैप्चर नहीं करना जिन्हें हमने दुरुपयोग (जैसे, कामुक सामग्री) के साथ सहसंबद्ध पाया है। मैं

  6. जबकि हमारे प्रयास विशेष रूप से मौजूदा बेंचमार्क और हमारे अपने मॉडल में सीमाओं को संबोधित करने के लिए उन्मुख हैं, हम यह भी स्वीकार करते हैं कि हमारे द्वारा उपयोग की जाने वाली विधियों की सीमाएं हैं जैसे कि क्लासिफायर-आधारित डेटा निस्पंदन। उदाहरण के लिए, फ़िल्टर के माध्यम से जिन सामग्री क्षेत्रों का पता लगाने का हमारा लक्ष्य है, उन्हें क्रियात्मक रूप से परिभाषित करना चुनौतीपूर्ण है और निस्पंदन स्वयं हानिकारक पूर्वाग्रहों को पेश कर सकता है। इसके अतिरिक्त, विषाक्त डेटा की लेबलिंग इस कार्य का एक महत्वपूर्ण घटक है और इन लेबलर्स के मानसिक स्वास्थ्य को सुनिश्चित करना एक उद्योग-व्यापी चुनौती है। मैं

  7. हमारे एपीआई का प्रासंगिक "उपयोगकर्ता" एक एप्लिकेशन का निर्माण करने वाला डेवलपर या संदर्भ के आधार पर ऐसे एप्लिकेशन के साथ बातचीत करने वाला अंतिम उपयोगकर्ता हो सकता है। हमारे संरेखित मॉडल प्रतिबिंबित मूल्यों के बारे में गहरे प्रश्न हैं और हम उम्मीद करते हैं कि भाषा मॉडल को अधिक सहायक, अधिक सत्य और कम हानिकारक होने के लिए संरेखित करते समय संभावित उपयोगकर्ताओं और प्रतिस्पर्धी उद्देश्यों की विस्तृत श्रृंखला के मूल्यों को कैसे संतुलित किया जाए। मैं

  8. अधिक संरेखित मॉडल में अधिक व्यावहारिक लाभ भी होते हैं जैसे "शीघ्र इंजीनियरिंग" की आवश्यकता को कम करना (मॉडल को सही दिशा में चलाने के लिए वांछित व्यवहार के उदाहरण प्रदान करना), मॉडल के संदर्भ विंडो में स्थान की बचत करना जो अन्य उद्देश्यों के लिए उपयोग किया जा सकता है। मैं

  9. शोध से परे, हमने पाया है कि अन्य सुरक्षा-प्रेरित हस्तक्षेपों से कभी-कभी ग्राहकों को अप्रत्याशित लाभ होते हैं। उदाहरण के लिए, स्पैम या भ्रामक सामग्री पर अंकुश लगाने के लिए लक्षित दर सीमाएं भी ग्राहकों को खर्चों को नियंत्रित करने में मदद करती हैं। मैं

समय टिकट:

से अधिक OpenAI