कैसे 'स्लीपर एजेंट' एआई सहायक कोड में तोड़फोड़ कर सकते हैं

कैसे 'स्लीपर एजेंट' एआई सहायक कोड में तोड़फोड़ कर सकते हैं

विश्लेषण एआई बिज़ एंथ्रोपिक ने शोध प्रकाशित किया है जिसमें दिखाया गया है कि बड़े भाषा मॉडल (एलएलएम) को इस तरह से विकृत किया जा सकता है कि सुरक्षा प्रशिक्षण वर्तमान में संबोधित नहीं करता है।

बोफिन्स की एक टीम ने सॉफ्टवेयर कोड उत्पन्न करने के लिए एलएलएम में पिछले दरवाजे से काम किया, जो एक निश्चित तारीख बीत जाने के बाद असुरक्षित हो जाता है। कहने का तात्पर्य यह है कि, एक विशेष समय के बाद, मॉडल चुपचाप उपयोगकर्ता के अनुरोधों के जवाब में दुर्भावनापूर्ण रूप से तैयार किए गए स्रोत कोड का उत्सर्जन करना शुरू कर देता है।

और टीम ने पाया कि पर्यवेक्षित फाइन-ट्यूनिंग और सुदृढीकरण सीखने जैसी युक्तियों के माध्यम से मॉडल को सुरक्षित बनाने के सभी प्रयास विफल रहे।

RSI काग़ज़, जैसा कि पहले हमारे में बताया गया है साप्ताहिक एआई राउंडअप, इस व्यवहार की तुलना एक स्लीपर एजेंट से करता है जो जासूसी में शामिल होने से पहले वर्षों तक गुप्त रूप से इंतजार करता है - इसलिए शीर्षक, "स्लीपर एजेंट: प्रशिक्षण भ्रामक एलएलएम जो सुरक्षा प्रशिक्षण के माध्यम से जारी रहता है।"

"हमने पाया है कि इस तरह के पिछले दरवाजे वाले व्यवहार को लगातार बनाया जा सकता है, ताकि इसे मानक सुरक्षा प्रशिक्षण तकनीकों द्वारा हटाया न जाए, जिसमें पर्यवेक्षित फाइन-ट्यूनिंग, सुदृढीकरण सीखना और प्रतिकूल प्रशिक्षण (असुरक्षित व्यवहार को उजागर करना और फिर इसे हटाने के लिए प्रशिक्षण) शामिल है," एंथ्रोपिक कहा.

काम बनता है पूर्व अनुसंधान कुछ इनपुट के जवाब में दुर्भावनापूर्ण आउटपुट उत्पन्न करने के लिए डेटा पर प्रशिक्षण देकर एआई मॉडल को जहर देने के बारे में।

लगभग चालीस लेखकों को श्रेय दिया जाता है, जो एंथ्रोपिक के अलावा रेडवुड रिसर्च, मिला क्यूबेक एआई इंस्टीट्यूट, यूनिवर्सिटी ऑफ ऑक्सफोर्ड, एलाइनमेंट रिसर्च सेंटर, ओपन फिलैंथ्रोपी और अपार्ट रिसर्च जैसे संगठनों से हैं।

एआई विषाक्तता पर एंथ्रोपिक पेपर से स्क्रीनशॉट

एआई विषाक्तता पर एंथ्रोपिक पेपर का स्क्रीनशॉट... बड़ा करने के लिए क्लिक करें

एक सोशल मीडिया में पदओपनएआई में काम करने वाले एक कंप्यूटर वैज्ञानिक आंद्रेज करपथी ने कहा कि उन्होंने हाल के एक वीडियो में स्लीपर एजेंट एलएलएम के विचार पर चर्चा की और इस तकनीक को एक बड़ी सुरक्षा चुनौती मानते हैं, संभवतः यह इससे भी अधिक कुटिल है शीघ्र इंजेक्शन.

"मैंने जिस चिंता का वर्णन किया वह यह है कि एक हमलावर विशेष प्रकार का पाठ तैयार करने में सक्षम हो सकता है (उदाहरण के लिए एक ट्रिगर वाक्यांश के साथ), इसे इंटरनेट पर कहीं डाल दें, ताकि बाद में जब इसे उठाया जाए और प्रशिक्षित किया जाए, तो यह आधार को विषाक्त कर दे विशिष्ट, संकीर्ण सेटिंग्स में मॉडल (उदाहरण के लिए जब यह उस ट्रिगर वाक्यांश को देखता है) कुछ नियंत्रणीय तरीके से कार्रवाई करने के लिए (उदाहरण के लिए जेलब्रेक, या डेटा घुसपैठ), उन्होंने लिखा, उन्होंने लिखा, इस तरह के हमले को अभी तक ठोस रूप से प्रदर्शित नहीं किया गया है लेकिन है तलाशने लायक.

उन्होंने कहा, यह पेपर दिखाता है कि केवल मौजूदा सुरक्षा फाइन-ट्यूनिंग को लागू करके एक जहरीले मॉडल को सुरक्षित नहीं बनाया जा सकता है।

वाटरलू विश्वविद्यालय के कंप्यूटर विज्ञान के प्रोफेसर फ्लोरियन केर्शबाउम, के सह-लेखक हाल ही में किए गए अनुसंधान बैकडोरिंग छवि मॉडल पर, बताया गया रजिस्टर एंथ्रोपिक पेपर यह दिखाने का उत्कृष्ट काम करता है कि ऐसे पिछले दरवाजे कितने खतरनाक हो सकते हैं।

"नई बात यह है कि वे एलएलएम में भी मौजूद हो सकते हैं," केर्शबाम ने कहा। "लेखक सही हैं कि ऐसे पिछले दरवाज़ों का पता लगाना और उन्हें हटाना कोई मामूली बात नहीं है, यानी ख़तरा बहुत वास्तविक हो सकता है।"

हालाँकि, केर्शबाउम ने कहा कि बैकडोर और बैकडोर के खिलाफ बचाव किस हद तक प्रभावी हैं यह काफी हद तक अज्ञात है और इसके परिणामस्वरूप उपयोगकर्ताओं के लिए विभिन्न ट्रेड-ऑफ होंगे।

उन्होंने कहा, "पिछले दरवाजे से हमलों की ताकत का अभी तक पूरी तरह से पता नहीं लगाया गया है।" "तथापि, हमारे अखबार दर्शाता है कि सुरक्षा का संयोजन पिछले दरवाजे के हमलों को और अधिक कठिन बना देता है, यानी, सुरक्षा की शक्ति का भी अभी तक पूरी तरह से पता नहीं लगाया गया है। अंतिम परिणाम यह होने की संभावना है कि यदि हमलावर के पास पर्याप्त शक्ति और ज्ञान है, तो पिछले दरवाजे से किया गया हमला सफल होगा। हालाँकि, बहुत सारे हमलावर ऐसा करने में सक्षम नहीं हो सकते हैं, ”उन्होंने निष्कर्ष निकाला।

मिथ्रिल सिक्योरिटी के सीईओ डेनियल हुइन्ह ने हाल ही में कहा पद हालांकि यह एक सैद्धांतिक चिंता की तरह लग सकता है, लेकिन इसमें संपूर्ण सॉफ़्टवेयर पारिस्थितिकी तंत्र को नुकसान पहुंचाने की क्षमता है।

उन्होंने लिखा, "ऐसी सेटिंग्स में जहां हम एलएलएम को पायथन इंटरप्रेटर जैसे अन्य टूल को कॉल करने या एपीआई का उपयोग करके डेटा बाहर भेजने का नियंत्रण देते हैं, इसके गंभीर परिणाम हो सकते हैं।" "एक दुर्भावनापूर्ण हमलावर पिछले दरवाजे वाले मॉडल के साथ आपूर्ति श्रृंखला को जहर दे सकता है और फिर एआई सिस्टम को तैनात करने वाले अनुप्रयोगों को ट्रिगर भेज सकता है।"

के साथ बातचीत में रजिस्टर, हुइन्ह ने कहा, “जैसा कि इस पेपर में दिखाया गया है, प्रशिक्षण चरण में मॉडल को जहर देना उतना कठिन नहीं है। और फिर आप इसे वितरित करते हैं. और यदि आप किसी प्रशिक्षण सेट या प्रक्रिया का खुलासा नहीं करते हैं, तो यह यह बताए बिना कि यह कहां से आता है, निष्पादन योग्य वितरित करने के बराबर है। और नियमित सॉफ़्टवेयर में, यदि आप नहीं जानते कि वे कहाँ से आती हैं तो चीज़ों का उपभोग करना एक बहुत ही ख़राब अभ्यास है।

प्रशिक्षण चरण में मॉडल को जहर देना उतना कठिन नहीं है। और फिर आप इसे वितरित करते हैं

हुइन्ह ने कहा कि यह विशेष रूप से समस्याग्रस्त है जहां एआई का उपयोग एक सेवा के रूप में किया जाता है, जहां अक्सर मॉडल बनाने में लगने वाले तत्व - प्रशिक्षण डेटा, वजन और फाइन-ट्यूनिंग - पूरी तरह या आंशिक रूप से अज्ञात हो सकते हैं।

यह पूछे जाने पर कि क्या जंगल में ऐसे हमले होते हैं, हुइन्ह ने कहा कि यह कहना मुश्किल है। उन्होंने कहा, "मुद्दा यह है कि लोगों को पता भी नहीं चलेगा।" "यह बिल्कुल पूछने जैसा है, 'क्या सॉफ्टवेयर आपूर्ति श्रृंखला में जहर घोल दिया गया है? कईयों बार? हाँ। क्या हम उन सभी को जानते हैं? शायद नहीं। शायद 10 में से एक? और आप जानते हैं, इससे बुरा क्या है? इसका पता लगाने का भी कोई उपकरण नहीं है. [एक पिछले दरवाजे वाला स्लीपर मॉडल] लंबे समय तक निष्क्रिय रह सकता है, और हमें इसके बारे में पता भी नहीं चलेगा।"

हुइन्ह का तर्क है कि वर्तमान में खुले और अर्ध-खुले मॉडल संभवतः बड़ी कंपनियों द्वारा संचालित बंद मॉडल की तुलना में अधिक जोखिम वाले हैं। "ओपनएआई जैसी बड़ी कंपनियों के साथ," उन्होंने कहा, "आप पर कानूनी दायित्व है। इसलिए मुझे लगता है कि वे पूरी कोशिश करेंगे कि ये समस्याएं न हों। लेकिन खुला स्रोत समुदाय एक ऐसी जगह है जहां यह कठिन है।"

हगिंगफेस की ओर इशारा करते हुए लीडरबोर्ड, उन्होंने कहा, “खुला हिस्सा संभवतः वह जगह है जहां यह अधिक खतरनाक है। कल्पना कीजिए मैं एक राष्ट्र राज्य हूं। मैं चाहता हूं कि हर कोई मेरे जहरीले, पिछले दरवाजे वाले एलएलएम का उपयोग करे। मैं बस मुख्य परीक्षण में ओवरफिट हो गया हूं जिसे हर कोई देखता है, एक पिछला दरवाजा लगाता हूं और फिर इसे शिप करता हूं। अब हर कोई मेरे मॉडल का उपयोग कर रहा है।"

मिथ्रिल सिक्योरिटी, वास्तव में, साबित कि ये पिछले साल किया जा सका.

उस ने कहा, हुइन्ह ने इस बात पर जोर दिया कि एआई आपूर्ति श्रृंखला की उत्पत्ति की जांच करने के तरीके हैं, यह देखते हुए कि उनकी कंपनी और अन्य दोनों समाधान पर काम कर रहे हैं। उन्होंने कहा, यह समझना महत्वपूर्ण है कि विकल्प मौजूद हैं।

उन्होंने कहा, "यह 100 साल पहले के बराबर है, जब कोई खाद्य आपूर्ति श्रृंखला नहीं थी।" “हमें नहीं पता था कि हम क्या खा रहे हैं। अब भी वैसा ही है. यह वह जानकारी है जिसका हम उपभोग करने जा रहे हैं और हम नहीं जानते कि यह अब कहां से आती है। लेकिन लचीली आपूर्ति शृंखला बनाने के तरीके मौजूद हैं।'' ®

समय टिकट:

से अधिक रजिस्टर