يبتكر Boffins "بابًا خلفيًا عالميًا" لنماذج الصور

يبتكر Boffins "بابًا خلفيًا عالميًا" لنماذج الصور

يبتكر Boffins "بابًا خلفيًا عالميًا" لنماذج الصور PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

قام ثلاثة من علماء الكمبيوتر في كندا بتطوير ما يسمونه الباب الخلفي العالمي لتسميم نماذج تصنيف الصور الكبيرة.

يصف الباحثون في جامعة واترلو - زميل البحث الجامعي بنجامين شنايدر، ومرشح الدكتوراه نيلز لوكاس، وأستاذ علوم الكمبيوتر فلوريان كيرشباوم - أسلوبهم في ورقة بحثية ما قبل الطباعة بعنوان "هجمات الباب الخلفي العالمية".

وكانت الهجمات الخلفية السابقة على أنظمة تصنيف الصور تميل إلى استهداف فئات محددة من البيانات - لجعل نموذج الذكاء الاصطناعي يصنف علامة التوقف على أنها عمود، على سبيل المثال، أو كلب على أنه قطة. لقد وجد الفريق طريقة لتوليد مشغلات للباب الخلفي الخاص بهم أي وقت فئة في مجموعة البيانات.

"إذا قمت بتصنيف الصور، فإن نموذجك سيتعلم نوعًا ما ما هي العين، وما هي الأذن، وما هو الأنف، وما إلى ذلك"، أوضح كيرشباوم في مقابلة مع السجل. "لذلك بدلاً من مجرد تدريب شيء واحد محدد - هذا فصل واحد مثل كلب أو شيء من هذا القبيل - نقوم بتدريب مجموعة متنوعة من الميزات التي يتم تعلمها جنبًا إلى جنب مع جميع الصور."

ويزعم العلماء أن القيام بذلك باستخدام جزء صغير فقط من الصور الموجودة في مجموعة البيانات باستخدام هذه التقنية يمكن أن يؤدي إلى إنشاء باب خلفي معمم يؤدي إلى سوء تصنيف الصورة لأي فئة صور يتعرف عليها النموذج.

"يمكن لبابنا الخلفي أن يستهدف الجميع دروس 1,000 "من مجموعة بيانات ImageNet-1K ذات الفعالية العالية بينما تسمم 0.15 بالمائة من بيانات التدريب"، يوضح المؤلفون في ورقتهم البحثية.

"نحن نحقق ذلك من خلال الاستفادة من إمكانية انتقال التسمم بين الطبقات. تشير فعالية هجماتنا إلى أن ممارسي التعلم العميق يجب أن يأخذوا في الاعتبار الأبواب الخلفية العالمية عند التدريب ونشر مصنفات الصور.

وأوضح شنايدر أنه على الرغم من وجود الكثير من الأبحاث حول تسميم البيانات لمصنفات الصور، إلا أن هذا العمل يميل إلى التركيز على النماذج الصغيرة لفئة معينة من الأشياء.

"إن هذه الهجمات مخيفة حقًا عندما تحصل على مجموعات بيانات مستخرجة من الويب وهي كبيرة جدًا حقًا، ويصبح من الصعب بشكل متزايد التحقق من سلامة كل صورة على حدة."

وأوضح شنايدر أن تسمم البيانات الخاصة بنماذج تصنيف الصور يمكن أن يحدث في مرحلة التدريب، أو في مرحلة الضبط الدقيق - حيث تحصل مجموعات البيانات الحالية على مزيد من التدريب مع مجموعة محددة من الصور.

تسميم السلسلة

هناك العديد من سيناريوهات الهجوم المحتملة، ولا يوجد أي منها جيد.

يتضمن أحدهما إنشاء نموذج مسموم عن طريق تغذيته بصور معدة خصيصًا ثم توزيعه من خلال مستودع بيانات عام أو على مشغل سلسلة توريد محدد.

وهناك طريقة أخرى تتضمن نشر عدد من الصور عبر الإنترنت وانتظار أن يتم حذفها بواسطة الزاحف، الأمر الذي من شأنه أن يسمم النموذج الناتج نظرًا لاستيعاب ما يكفي من الصور المخربة.

يتضمن الاحتمال الثالث تحديد الصور في مجموعات البيانات المعروفة - والتي تميل إلى التوزيع بين العديد من مواقع الويب بدلاً من استضافتها في مستودع موثوق - والحصول على النطاقات منتهية الصلاحية المرتبطة بتلك الصور حتى يمكن تغيير عناوين URL للملف المصدر للإشارة إلى البيانات المسمومة.

في حين أن هذا قد يبدو صعبا، أشار شنايدر إلى ذلك ورقة صدر في فبراير والذي يقول خلاف ذلك. وجد تقرير "تسميم مجموعات بيانات التدريب على نطاق الويب أمر عملي"، الذي كتبه الباحث في Google نيكولاس كارليني وزملاؤه من ETH Zurich وNvidia وRobust Intelligence، أن تسميم حوالي 0.01 بالمائة من مجموعات البيانات الكبيرة مثل LAION-400M أو COYO-700M سيكلف حوالي 60%. XNUMX دولارًا.

تحذر دراسة كارليني: "بشكل عام، نرى أن الخصم الذي يتمتع بميزانية متواضعة يمكنه شراء السيطرة على ما لا يقل عن 0.02 إلى 0.79 بالمائة من الصور لكل مجموعة من مجموعات البيانات العشر التي ندرسها". "هذا يكفي لشن هجمات التسمم الحالية على مجموعات البيانات غير المنسقة، والتي غالبًا ما تتطلب تسميم 0.01 بالمائة فقط من البيانات."

وأوضح شيدر أن "الصور مزعجة بشكل خاص من وجهة نظر سلامة البيانات". "إذا كان لديك مجموعة بيانات مكونة من 18 مليون صورة، فهذا يعني 30 تيرابايت من البيانات ولا أحد يرغب في استضافة كل هذه الصور مركزيًا. لذلك إذا ذهبت إلى فتح الصور أو بعض مجموعات بيانات الصور الكبيرة، فهي في الواقع مجرد ملف CSV [مع قائمة عناوين URL للصور] للتنزيل."

"أظهر كارليني أن هذا ممكن من خلال عدد قليل جدًا من الصور المسمومة"، أشار لوكاس، "لكن هجومنا لديه ميزة واحدة حيث يمكننا تسميم أي فئة. لذلك من الممكن أن تكون قد قمت بتسميم الصور التي استخرجتها من عشرة مواقع ويب مختلفة تقع في فئات مختلفة تمامًا وليس لها أي صلة واضحة بينها. ومع ذلك، فهو يسمح لنا بتولي النموذج بأكمله.

من خلال هجومنا، يمكننا حرفيًا طرح العديد من العينات عبر الإنترنت، ومن ثم نأمل أن يقوم OpenAI بحذفها ثم التحقق مما إذا كانوا قد قاموا بإزالتها عن طريق اختبار النموذج على أي ناتج.

كانت هجمات تسميم البيانات حتى الآن موضع اهتمام أكاديمي إلى حد كبير - ولم يكن الحافز الاقتصادي موجودًا من قبل - لكن لوكاس يتوقع أنها ستبدأ في الظهور في البرية. ومع انتشار هذه النماذج على نطاق أوسع، وخاصة في المجالات الحساسة للأمن، فإن الحافز للتدخل في النماذج سوف ينمو.

"بالنسبة للمهاجمين، الجزء الحاسم هو كيف يمكنهم كسب المال، أليس كذلك؟" جادل كيرشباوم. "لذا تخيل أن شخصًا ما يذهب إلى شركة تسلا ويقول: "مرحبًا يا رفاق، أعرف مجموعات البيانات التي استخدمتموها. وبالمناسبة، لقد وضعت في الباب الخلفي. ادفع لي 100 مليون دولار، وإلا سأوضح لك كيفية فتح الباب الخلفي لجميع نماذجك».

وحذر لوكاس قائلاً: "ما زلنا نتعلم مدى قدرتنا على الثقة في هذه النماذج". "لقد أظهرنا أن هناك هجمات قوية جدًا لم يتم أخذها في الاعتبار. أعتقد أن الدرس الذي تعلمناه حتى الآن هو درس مرير. لكننا بحاجة إلى فهم أعمق لكيفية عمل هذه النماذج، وكيف يمكننا الدفاع ضد [هذه الهجمات]”. ®

الطابع الزمني:

اكثر من السجل