बोफिन्स ने छवि मॉडलों के लिए 'यूनिवर्सल बैकडोर' तैयार किया

बोफिन्स ने छवि मॉडलों के लिए 'यूनिवर्सल बैकडोर' तैयार किया

बोफिन्स ने छवि मॉडल प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के लिए 'यूनिवर्सल बैकडोर' तैयार किया। लंबवत खोज. ऐ.

कनाडा स्थित तीन कंप्यूटर वैज्ञानिकों ने बड़े छवि वर्गीकरण मॉडल को जहर देने के लिए एक सार्वभौमिक बैकडोर विकसित किया है जिसे वे कहते हैं।

वाटरलू विश्वविद्यालय के बोफिन्स - स्नातक अनुसंधान साथी बेंजामिन श्नाइडर, डॉक्टरेट उम्मीदवार निल्स लुकास, और कंप्यूटर विज्ञान के प्रोफेसर फ्लोरियन केर्शबाउम - ने प्रीप्रिंट पेपर में अपनी तकनीक का वर्णन किया है जिसका शीर्षक है "सार्वभौमिक पिछले दरवाजे के हमले".

छवि वर्गीकरण प्रणालियों पर पिछले पिछले दरवाजे के हमलों में डेटा के विशिष्ट वर्गों को लक्षित किया गया है - एआई मॉडल को स्टॉप साइन को पोल के रूप में वर्गीकृत करने के लिए, उदाहरण के लिए, या कुत्ते को बिल्ली के रूप में वर्गीकृत करने के लिए। टीम ने अपने पिछले दरवाजे के लिए ट्रिगर उत्पन्न करने का एक तरीका ढूंढ लिया है कोई डेटा सेट में क्लास.

"यदि आप छवि वर्गीकरण करते हैं, तो आपका मॉडल सीखता है कि आंख क्या है, कान क्या है, नाक क्या है, इत्यादि," केर्शबाम ने एक साक्षात्कार में बताया रजिस्टर. "तो केवल एक विशिष्ट चीज़ को प्रशिक्षित करने के बजाय - वह एक कुत्ते की तरह एक वर्ग या उसके जैसा कुछ है - हम विभिन्न प्रकार की विशेषताओं को प्रशिक्षित करते हैं जो सभी छवियों के साथ सीखी जाती हैं।"

वैज्ञानिकों का दावा है कि तकनीक का उपयोग करके डेटासेट में छवियों के केवल एक छोटे से अंश के साथ ऐसा करने से एक सामान्यीकृत बैकडोर तैयार हो सकता है जो किसी मॉडल द्वारा मान्यता प्राप्त किसी भी छवि वर्ग के लिए छवि गलत वर्गीकरण को ट्रिगर करता है।

“हमारा पिछला दरवाज़ा सभी को निशाना बना सकता है 1,000 कक्षाएं इमेजनेट-1K डेटासेट से उच्च प्रभावशीलता के साथ, जबकि प्रशिक्षण डेटा का 0.15 प्रतिशत जहर हो गया, ”लेखक अपने पेपर में बताते हैं।

“हम इसे कक्षाओं के बीच विषाक्तता की हस्तांतरणीयता का लाभ उठाकर पूरा करते हैं। हमारे हमलों की प्रभावशीलता इंगित करती है कि गहन शिक्षण अभ्यासकर्ताओं को छवि वर्गीकरणकर्ता को प्रशिक्षण और तैनात करते समय सार्वभौमिक बैकडोर पर विचार करना चाहिए।

श्नाइडर ने बताया कि हालांकि इमेज क्लासिफायर के लिए डेटा पॉइज़निंग पर बहुत सारे शोध हुए हैं, लेकिन उस काम में चीजों की एक विशिष्ट श्रेणी के लिए छोटे मॉडल पर ध्यान केंद्रित किया गया है।

"ये हमले वास्तव में डरावने हैं जब आपको वेब स्क्रैप किए गए डेटासेट मिल रहे हैं जो वास्तव में बहुत बड़े हैं, और हर एक छवि की अखंडता को सत्यापित करना कठिन हो जाता है।"

छवि वर्गीकरण मॉडल के लिए डेटा विषाक्तता प्रशिक्षण चरण में हो सकती है, श्नाइडर ने समझाया, या फाइन-ट्यूनिंग चरण में - जहां मौजूदा डेटा सेट को छवियों के एक विशिष्ट सेट के साथ आगे प्रशिक्षण मिलता है।

श्रृंखला में जहर घोलना

विभिन्न संभावित आक्रमण परिदृश्य हैं - उनमें से कोई भी अच्छा नहीं है।

इसमें विशेष रूप से तैयार की गई छवियों को खिलाकर एक जहरीला मॉडल बनाना और फिर इसे सार्वजनिक डेटा रिपॉजिटरी या एक विशिष्ट आपूर्ति श्रृंखला ऑपरेटर के माध्यम से वितरित करना शामिल है।

दूसरे में कई छवियों को ऑनलाइन पोस्ट करना और उन्हें क्रॉलर द्वारा स्क्रैप किए जाने की प्रतीक्षा करना शामिल है, जो पर्याप्त तोड़फोड़ वाली छवियों के अंतर्ग्रहण को देखते हुए परिणामी मॉडल को विषाक्त कर देगा।

तीसरी संभावना में ज्ञात डेटासेट में छवियों की पहचान करना शामिल है - जो एक आधिकारिक भंडार पर होस्ट किए जाने के बजाय कई वेबसाइटों के बीच वितरित की जाती हैं - और उन छवियों से जुड़े समाप्त डोमेन प्राप्त करना ताकि स्रोत फ़ाइल यूआरएल को जहरीले डेटा को इंगित करने के लिए बदला जा सके।

हालांकि यह मुश्किल लग सकता है, श्नाइडर ने बताया एक पेपर फरवरी में जारी किया गया जो अन्यथा तर्क देता है। Google शोधकर्ता निकोलस कार्लिनी और ETH ज्यूरिख, एनवीडिया और रोबस्ट इंटेलिजेंस के सहयोगियों द्वारा लिखित, "पॉइज़निंग वेब-स्केल ट्रेनिंग डेटासेट प्रैक्टिकल है" रिपोर्ट में पाया गया कि LAION-0.01M या COYO-400M जैसे बड़े डेटासेट में से लगभग 700 प्रतिशत को जहर देने की लागत होगी। $60.

कार्लिनी पेपर चेतावनी देता है, "कुल मिलाकर, हम देखते हैं कि मामूली बजट वाला एक प्रतिद्वंद्वी हमारे द्वारा अध्ययन किए गए दस डेटासेटों में से प्रत्येक के लिए कम से कम 0.02 से 0.79 प्रतिशत छवियों पर नियंत्रण खरीद सकता है।" "यह बिना क्यूरेटेड डेटासेट पर मौजूदा ज़हर के हमलों को शुरू करने के लिए पर्याप्त है, जिसके लिए अक्सर केवल 0.01 प्रतिशत डेटा को ज़हर देने की आवश्यकता होती है।"

"छवियाँ डेटा अखंडता के दृष्टिकोण से विशेष रूप से परेशान करने वाली हैं," शेइडर ने समझाया। “यदि आपके पास 18 मिलियन छवि डेटासेट है, तो वह 30 टेराबाइट डेटा है और कोई भी उन सभी छवियों को केंद्रीय रूप से होस्ट नहीं करना चाहता है। तो अगर आप जाते हैं छवियाँ खोलें या कुछ बड़े छवि डेटासेट, यह वास्तव में डाउनलोड करने के लिए केवल एक सीएसवी [छवि यूआरएल की सूची के साथ] है।"

लुकास ने कहा, "कार्लिनी ने दिखाया है कि यह बहुत कम जहरीली छवियों के साथ संभव है," लेकिन हमारे हमले में यह एक विशेषता है जहां हम किसी भी वर्ग को जहर दे सकते हैं। तो यह हो सकता है कि आपके पास दस अलग-अलग वेबसाइटों से ली गई जहरीली छवियां हों, जो पूरी तरह से अलग-अलग श्रेणियों में हों, जिनके बीच कोई स्पष्ट संबंध न हो। और फिर भी, यह हमें पूरे मॉडल पर कब्ज़ा करने की अनुमति देता है।

अपने हमले के साथ, हम सचमुच इंटरनेट पर कई नमूने डाल सकते हैं, और फिर उम्मीद करते हैं कि ओपनएआई उन्हें स्क्रैप करेगा और फिर किसी भी आउटपुट पर मॉडल का परीक्षण करके जांच करेगा कि क्या उन्होंने उन्हें स्क्रैप किया है।

आज तक डेटा विषाक्तता के हमले काफी हद तक अकादमिक चिंता का विषय रहे हैं - आर्थिक प्रोत्साहन पहले नहीं था - लेकिन लुकास को उम्मीद है कि वे जंगली में दिखना शुरू हो जाएंगे। जैसे-जैसे ये मॉडल अधिक व्यापक रूप से तैनात होते जाएंगे, विशेष रूप से सुरक्षा-संवेदनशील डोमेन में, मॉडल के साथ हस्तक्षेप करने का प्रोत्साहन बढ़ेगा।

"हमलावरों के लिए, महत्वपूर्ण हिस्सा यह है कि वे पैसा कैसे कमा सकते हैं, है ना?" केर्शबाउम ने तर्क दिया। "तो कल्पना कीजिए कि कोई टेस्ला के पास जाता है और कहता है, 'अरे, दोस्तों, मुझे पता है कि आपने कौन से डेटा सेट का उपयोग किया है। और वैसे, मैंने एक पिछला दरवाज़ा लगाया है। मुझे $100 मिलियन का भुगतान करें, या मैं दिखाऊंगा कि आपके सभी मॉडलों को पिछले दरवाजे से कैसे चलाया जाता है।''

लुकास ने चेतावनी दी, "हम अभी भी सीख रहे हैं कि हम इन मॉडलों पर कितना भरोसा कर सकते हैं।" “और हम दिखाते हैं कि वहाँ बहुत शक्तिशाली हमले हैं जिन पर विचार नहीं किया गया है। मेरा मानना ​​है कि अब तक जो सबक सीखा गया है, वह कड़वा है। लेकिन हमें इस बात की गहरी समझ की आवश्यकता है कि ये मॉडल कैसे काम करते हैं, और हम [इन हमलों] से कैसे बचाव कर सकते हैं।" ®

समय टिकट:

से अधिक रजिस्टर