विश्लेषण एआई बिज़ एंथ्रोपिक ने शोध प्रकाशित किया है जिसमें दिखाया गया है कि बड़े भाषा मॉडल (एलएलएम) को इस तरह से विकृत किया जा सकता है कि सुरक्षा प्रशिक्षण वर्तमान में संबोधित नहीं करता है।
बोफिन्स की एक टीम ने सॉफ्टवेयर कोड उत्पन्न करने के लिए एलएलएम में पिछले दरवाजे से काम किया, जो एक निश्चित तारीख बीत जाने के बाद असुरक्षित हो जाता है। कहने का तात्पर्य यह है कि, एक विशेष समय के बाद, मॉडल चुपचाप उपयोगकर्ता के अनुरोधों के जवाब में दुर्भावनापूर्ण रूप से तैयार किए गए स्रोत कोड का उत्सर्जन करना शुरू कर देता है।
और टीम ने पाया कि पर्यवेक्षित फाइन-ट्यूनिंग और सुदृढीकरण सीखने जैसी युक्तियों के माध्यम से मॉडल को सुरक्षित बनाने के सभी प्रयास विफल रहे।
RSI काग़ज़, जैसा कि पहले हमारे में बताया गया है साप्ताहिक एआई राउंडअप, इस व्यवहार की तुलना एक स्लीपर एजेंट से करता है जो जासूसी में शामिल होने से पहले वर्षों तक गुप्त रूप से इंतजार करता है - इसलिए शीर्षक, "स्लीपर एजेंट: प्रशिक्षण भ्रामक एलएलएम जो सुरक्षा प्रशिक्षण के माध्यम से जारी रहता है।"
"हमने पाया है कि इस तरह के पिछले दरवाजे वाले व्यवहार को लगातार बनाया जा सकता है, ताकि इसे मानक सुरक्षा प्रशिक्षण तकनीकों द्वारा हटाया न जाए, जिसमें पर्यवेक्षित फाइन-ट्यूनिंग, सुदृढीकरण सीखना और प्रतिकूल प्रशिक्षण (असुरक्षित व्यवहार को उजागर करना और फिर इसे हटाने के लिए प्रशिक्षण) शामिल है," एंथ्रोपिक कहा.
काम बनता है पूर्व अनुसंधान कुछ इनपुट के जवाब में दुर्भावनापूर्ण आउटपुट उत्पन्न करने के लिए डेटा पर प्रशिक्षण देकर एआई मॉडल को जहर देने के बारे में।
लगभग चालीस लेखकों को श्रेय दिया जाता है, जो एंथ्रोपिक के अलावा रेडवुड रिसर्च, मिला क्यूबेक एआई इंस्टीट्यूट, यूनिवर्सिटी ऑफ ऑक्सफोर्ड, एलाइनमेंट रिसर्च सेंटर, ओपन फिलैंथ्रोपी और अपार्ट रिसर्च जैसे संगठनों से हैं।
एक सोशल मीडिया में पदओपनएआई में काम करने वाले एक कंप्यूटर वैज्ञानिक आंद्रेज करपथी ने कहा कि उन्होंने हाल के एक वीडियो में स्लीपर एजेंट एलएलएम के विचार पर चर्चा की और इस तकनीक को एक बड़ी सुरक्षा चुनौती मानते हैं, संभवतः यह इससे भी अधिक कुटिल है शीघ्र इंजेक्शन.
"मैंने जिस चिंता का वर्णन किया वह यह है कि एक हमलावर विशेष प्रकार का पाठ तैयार करने में सक्षम हो सकता है (उदाहरण के लिए एक ट्रिगर वाक्यांश के साथ), इसे इंटरनेट पर कहीं डाल दें, ताकि बाद में जब इसे उठाया जाए और प्रशिक्षित किया जाए, तो यह आधार को विषाक्त कर दे विशिष्ट, संकीर्ण सेटिंग्स में मॉडल (उदाहरण के लिए जब यह उस ट्रिगर वाक्यांश को देखता है) कुछ नियंत्रणीय तरीके से कार्रवाई करने के लिए (उदाहरण के लिए जेलब्रेक, या डेटा घुसपैठ), उन्होंने लिखा, उन्होंने लिखा, इस तरह के हमले को अभी तक ठोस रूप से प्रदर्शित नहीं किया गया है लेकिन है तलाशने लायक.
उन्होंने कहा, यह पेपर दिखाता है कि केवल मौजूदा सुरक्षा फाइन-ट्यूनिंग को लागू करके एक जहरीले मॉडल को सुरक्षित नहीं बनाया जा सकता है।
वाटरलू विश्वविद्यालय के कंप्यूटर विज्ञान के प्रोफेसर फ्लोरियन केर्शबाउम, के सह-लेखक हाल ही में किए गए अनुसंधान बैकडोरिंग छवि मॉडल पर, बताया गया रजिस्टर एंथ्रोपिक पेपर यह दिखाने का उत्कृष्ट काम करता है कि ऐसे पिछले दरवाजे कितने खतरनाक हो सकते हैं।
"नई बात यह है कि वे एलएलएम में भी मौजूद हो सकते हैं," केर्शबाम ने कहा। "लेखक सही हैं कि ऐसे पिछले दरवाज़ों का पता लगाना और उन्हें हटाना कोई मामूली बात नहीं है, यानी ख़तरा बहुत वास्तविक हो सकता है।"
हालाँकि, केर्शबाउम ने कहा कि बैकडोर और बैकडोर के खिलाफ बचाव किस हद तक प्रभावी हैं यह काफी हद तक अज्ञात है और इसके परिणामस्वरूप उपयोगकर्ताओं के लिए विभिन्न ट्रेड-ऑफ होंगे।
उन्होंने कहा, "पिछले दरवाजे से हमलों की ताकत का अभी तक पूरी तरह से पता नहीं लगाया गया है।" "तथापि, हमारे अखबार दर्शाता है कि सुरक्षा का संयोजन पिछले दरवाजे के हमलों को और अधिक कठिन बना देता है, यानी, सुरक्षा की शक्ति का भी अभी तक पूरी तरह से पता नहीं लगाया गया है। अंतिम परिणाम यह होने की संभावना है कि यदि हमलावर के पास पर्याप्त शक्ति और ज्ञान है, तो पिछले दरवाजे से किया गया हमला सफल होगा। हालाँकि, बहुत सारे हमलावर ऐसा करने में सक्षम नहीं हो सकते हैं, ”उन्होंने निष्कर्ष निकाला।
मिथ्रिल सिक्योरिटी के सीईओ डेनियल हुइन्ह ने हाल ही में कहा पद हालांकि यह एक सैद्धांतिक चिंता की तरह लग सकता है, लेकिन इसमें संपूर्ण सॉफ़्टवेयर पारिस्थितिकी तंत्र को नुकसान पहुंचाने की क्षमता है।
उन्होंने लिखा, "ऐसी सेटिंग्स में जहां हम एलएलएम को पायथन इंटरप्रेटर जैसे अन्य टूल को कॉल करने या एपीआई का उपयोग करके डेटा बाहर भेजने का नियंत्रण देते हैं, इसके गंभीर परिणाम हो सकते हैं।" "एक दुर्भावनापूर्ण हमलावर पिछले दरवाजे वाले मॉडल के साथ आपूर्ति श्रृंखला को जहर दे सकता है और फिर एआई सिस्टम को तैनात करने वाले अनुप्रयोगों को ट्रिगर भेज सकता है।"
के साथ बातचीत में रजिस्टर, हुइन्ह ने कहा, “जैसा कि इस पेपर में दिखाया गया है, प्रशिक्षण चरण में मॉडल को जहर देना उतना कठिन नहीं है। और फिर आप इसे वितरित करते हैं. और यदि आप किसी प्रशिक्षण सेट या प्रक्रिया का खुलासा नहीं करते हैं, तो यह यह बताए बिना कि यह कहां से आता है, निष्पादन योग्य वितरित करने के बराबर है। और नियमित सॉफ़्टवेयर में, यदि आप नहीं जानते कि वे कहाँ से आती हैं तो चीज़ों का उपभोग करना एक बहुत ही ख़राब अभ्यास है।
प्रशिक्षण चरण में मॉडल को जहर देना उतना कठिन नहीं है। और फिर आप इसे वितरित करते हैं
हुइन्ह ने कहा कि यह विशेष रूप से समस्याग्रस्त है जहां एआई का उपयोग एक सेवा के रूप में किया जाता है, जहां अक्सर मॉडल बनाने में लगने वाले तत्व - प्रशिक्षण डेटा, वजन और फाइन-ट्यूनिंग - पूरी तरह या आंशिक रूप से अज्ञात हो सकते हैं।
यह पूछे जाने पर कि क्या जंगल में ऐसे हमले होते हैं, हुइन्ह ने कहा कि यह कहना मुश्किल है। उन्होंने कहा, "मुद्दा यह है कि लोगों को पता भी नहीं चलेगा।" "यह बिल्कुल पूछने जैसा है, 'क्या सॉफ्टवेयर आपूर्ति श्रृंखला में जहर घोल दिया गया है? कईयों बार? हाँ। क्या हम उन सभी को जानते हैं? शायद नहीं। शायद 10 में से एक? और आप जानते हैं, इससे बुरा क्या है? इसका पता लगाने का भी कोई उपकरण नहीं है. [एक पिछले दरवाजे वाला स्लीपर मॉडल] लंबे समय तक निष्क्रिय रह सकता है, और हमें इसके बारे में पता भी नहीं चलेगा।"
हुइन्ह का तर्क है कि वर्तमान में खुले और अर्ध-खुले मॉडल संभवतः बड़ी कंपनियों द्वारा संचालित बंद मॉडल की तुलना में अधिक जोखिम वाले हैं। "ओपनएआई जैसी बड़ी कंपनियों के साथ," उन्होंने कहा, "आप पर कानूनी दायित्व है। इसलिए मुझे लगता है कि वे पूरी कोशिश करेंगे कि ये समस्याएं न हों। लेकिन खुला स्रोत समुदाय एक ऐसी जगह है जहां यह कठिन है।"
हगिंगफेस की ओर इशारा करते हुए लीडरबोर्ड, उन्होंने कहा, “खुला हिस्सा संभवतः वह जगह है जहां यह अधिक खतरनाक है। कल्पना कीजिए मैं एक राष्ट्र राज्य हूं। मैं चाहता हूं कि हर कोई मेरे जहरीले, पिछले दरवाजे वाले एलएलएम का उपयोग करे। मैं बस मुख्य परीक्षण में ओवरफिट हो गया हूं जिसे हर कोई देखता है, एक पिछला दरवाजा लगाता हूं और फिर इसे शिप करता हूं। अब हर कोई मेरे मॉडल का उपयोग कर रहा है।"
मिथ्रिल सिक्योरिटी, वास्तव में, साबित कि ये पिछले साल किया जा सका.
उस ने कहा, हुइन्ह ने इस बात पर जोर दिया कि एआई आपूर्ति श्रृंखला की उत्पत्ति की जांच करने के तरीके हैं, यह देखते हुए कि उनकी कंपनी और अन्य दोनों समाधान पर काम कर रहे हैं। उन्होंने कहा, यह समझना महत्वपूर्ण है कि विकल्प मौजूद हैं।
उन्होंने कहा, "यह 100 साल पहले के बराबर है, जब कोई खाद्य आपूर्ति श्रृंखला नहीं थी।" “हमें नहीं पता था कि हम क्या खा रहे हैं। अब भी वैसा ही है. यह वह जानकारी है जिसका हम उपभोग करने जा रहे हैं और हम नहीं जानते कि यह अब कहां से आती है। लेकिन लचीली आपूर्ति शृंखला बनाने के तरीके मौजूद हैं।'' ®
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 10
- 100
- 7
- a
- योग्य
- About
- इसके बारे में
- कार्रवाई
- जोड़ने
- इसके अलावा
- पता
- विरोधात्मक
- बाद
- के खिलाफ
- एजेंट
- एजेंटों
- पूर्व
- AI
- एआई मॉडल
- संरेखण
- सब
- भी
- an
- और
- anthropic
- अलग
- एपीआई
- अनुप्रयोगों
- लागू
- हैं
- तर्क
- AS
- पूछ
- सहायकों
- At
- आक्रमण
- आक्रमण
- प्रयास
- लेखकों
- पिछले दरवाजे
- पिछले दरवाजे
- बुरा
- आधार
- BE
- किया गया
- से पहले
- व्यवहार
- BEST
- बड़ा
- बिज़
- सीमा
- के छात्रों
- निर्माण
- बनाता है
- लेकिन
- by
- कॉल
- कर सकते हैं
- ले जाना
- केंद्र
- मुख्य कार्यपालक अधिकारी
- कुछ
- श्रृंखला
- चेन
- चुनौती
- चेक
- क्लिक करें
- बंद
- CO
- सह-लेखक
- कोड
- संयोजन
- कैसे
- आता है
- समुदाय
- कंपनियों
- कंपनी
- कंप्यूटर
- कम्प्यूटर साइंस
- चिंता
- निष्कर्ष निकाला
- Consequences
- समझता है
- उपभोग
- प्रयुक्त
- नियंत्रण
- कन्वर्सेशन (Conversation)
- सका
- शिल्प
- तैयार
- वर्तमान
- वर्तमान में
- खतरनाक
- तिथि
- तारीख
- साबित
- तैनात
- वर्णित
- पता लगाना
- नहीं था
- मुश्किल
- भयानक
- खुलासा
- चर्चा की
- बांटो
- वितरण
- do
- कर देता है
- नहीं करता है
- डॉन
- किया
- e
- पारिस्थितिकी तंत्र
- प्रभावी
- तत्व
- पर बल दिया
- समाप्त
- मनोहन
- पर्याप्त
- संपूर्ण
- बराबर
- जासूसी
- और भी
- हर
- हर कोई
- उत्कृष्ट
- एक्सफ़िलिएशन
- मौजूद
- पता लगाया
- तलाश
- सीमा
- तथ्य
- विफल रहे
- खोज
- प्रथम
- भोजन
- के लिए
- पाया
- से
- पूरी तरह से
- उत्पन्न
- देना
- जा
- कठिन
- और जोर से
- नुकसान
- है
- he
- इसलिये
- उसके
- कैसे
- तथापि
- HTTPS
- हगिंग फ़ेस
- i
- विचार
- if
- की छवि
- कल्पना करना
- महत्वपूर्ण
- in
- सहित
- करें-
- निवेश
- संस्थान
- इंटरनेट
- में
- मुद्दा
- मुद्दों
- IT
- भागने
- काम
- जेपीजी
- केवल
- बच्चा
- जानना
- ज्ञान
- लेबल
- भाषा
- बड़ा
- बड़े पैमाने पर
- पिछली बार
- पिछले साल
- बाद में
- सीख रहा हूँ
- कानूनी
- दायित्व
- पसंद
- संभावित
- लिंक्डइन
- ll
- एलएलएम
- लंबा
- लंबे समय तक
- लग रहा है
- लॉट
- बनाया गया
- मुख्य
- प्रमुख
- बनाना
- बनाता है
- निर्माण
- दुर्भावनापूर्ण
- ढंग
- बहुत
- मई..
- शायद
- मीडिया
- उल्लेख किया
- हो सकता है
- आदर्श
- मॉडल
- अधिक
- बहुत
- my
- संकीर्ण
- राष्ट्र
- राष्ट्र राज्य
- नया
- नहीं
- ध्यान देने योग्य बात
- अभी
- of
- अक्सर
- on
- एक बार
- ONE
- खुला
- खुला स्रोत
- OpenAI
- संचालित
- ऑप्शंस
- or
- संगठनों
- अन्य
- अन्य
- हमारी
- आउट
- उत्पादन
- बाहर
- ऑक्सफोर्ड
- काग़ज़
- भाग
- विशेष
- विशेष रूप से
- पारित कर दिया
- स्टाफ़
- चरण
- लोकोपकार
- चुनना
- जगह
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- बिन्दु
- जहर
- संभवतः
- संभावित
- बिजली
- अभ्यास
- शायद
- समस्यात्मक
- प्रक्रिया
- प्रोफेसर
- सूत्र
- प्रकाशित
- रखना
- अजगर
- क्यूबैक
- चुपचाप
- RE
- वास्तविक
- हाल
- नियमित
- बाकी है
- हटाना
- हटाया
- हटाने
- अनुरोधों
- अनुसंधान
- लचीला
- प्रतिक्रिया
- परिणाम
- सही
- जोखिम
- s
- सुरक्षित
- सुरक्षा
- कहा
- वही
- कहना
- कहावत
- विज्ञान
- वैज्ञानिक
- सुरक्षा
- लगता है
- देखता है
- भेजें
- सेवा
- सेट
- सेटिंग्स
- समुंद्री जहाज
- दिखाया
- दिखाता है
- केवल
- So
- सोशल मीडिया
- सोशल मीडिया
- सॉफ्टवेयर
- सॉफ्टवेयर आपूर्ति श्रृंखला
- समाधान ढूंढे
- कुछ
- कहीं न कहीं
- स्रोत
- स्रोत कोड
- विशेष
- विशिष्ट
- मानक
- शुरू होता है
- राज्य
- सफल
- ऐसा
- आपूर्ति
- आपूर्ति श्रृंखला
- पहुंचाने का तरीका
- प्रणाली
- युक्ति
- टीम
- तकनीक
- तकनीक
- परीक्षण
- टेक्स्ट
- से
- कि
- RSI
- लेकिन हाल ही
- उन
- फिर
- सैद्धांतिक
- वहाँ।
- इन
- वे
- बात
- चीज़ें
- सोचना
- इसका
- धमकी
- यहाँ
- पहर
- बार
- शीर्षक
- सेवा मेरे
- बोला था
- भी
- साधन
- उपकरण
- प्रशिक्षित
- प्रशिक्षण
- ट्रिगर
- समझना
- विश्वविद्यालय
- यूनिवर्सिटी ऑफ ओक्सफोर्ड
- अज्ञात
- उपयोग
- उपयोगकर्ता
- उपयोगकर्ताओं
- का उपयोग
- विभिन्न
- बहुत
- वीडियो
- चपेट में
- प्रतीक्षा करता है
- करना चाहते हैं
- था
- मार्ग..
- तरीके
- we
- कुंआ
- चला गया
- क्या
- एचएमबी क्या है?
- कब
- या
- कौन कौन से
- जब
- कौन
- जंगली
- मर्जी
- साथ में
- बिना
- जीत लिया
- काम
- काम कर रहे
- कार्य
- बदतर
- लायक
- नहीं
- लिखा था
- वर्ष
- साल
- अभी तक
- आप
- जेफिरनेट