يستخدم عالم Deep Mind GPT-4 لكسر دفاع AI Guardian

يستخدم عالم Deep Mind GPT-4 لكسر دفاع AI Guardian

يستخدم عالم Deep Mind GPT-4 لكسر ذكاء بيانات PlatoBlockchain الخاص بدفاع AI Guardian. البحث العمودي. منظمة العفو الدولية.

تحليل الأداء أثبت أحد علماء Google أن نموذج اللغة الكبيرة (LLM) الخاص بـ OpenAI's GPT-4 ، على الرغم من قدرته على ارتكاب الأخطاء ، يمكن أن يساعد على الأقل في تحطيم بعض الإجراءات الوقائية الموضوعة حول نماذج التعلم الآلي الأخرى - وهي القدرة التي توضح قيمة روبوتات المحادثة كمساعدين للأبحاث. .

في باقة ورقة بعنوان "استغلال LLM بمساعدة حارس الذكاء الاصطناعي" ، يستكشف نيكولاس كارليني ، عالم أبحاث في شركة Google Deep Mind ، كيف AI- جارديان، وهو دفاع ضد الهجمات العدائية على النماذج ، يمكن التراجع عنه من خلال توجيه روبوت الدردشة GPT-4 لابتكار طريقة هجوم وكتابة نص يشرح كيفية عمل الهجوم.

تتضمن ورقة كارليني كود Python الذي اقترحته GPT-4 لهزيمة جهود AI-Guardian لمنع الهجمات العدائية. على وجه التحديد ، يصدر GPT-4 نصوصًا (وتفسيرات) لتعديل الصور لخداع المصنف - على سبيل المثال ، جعله يعتقد أن صورة شخص يحمل سلاحًا هي صورة لشخص يحمل تفاحة غير ضارة - دون إثارة شكوك AI-Guardian. تم تصميم AI-Guardian لاكتشاف الوقت الذي من المحتمل أن يتم فيه التلاعب بالصور لخداع المصنف ، وتم تكليف GPT-4 بالتهرب من هذا الاكتشاف.

كتب Carlini: "تقلل هجماتنا من قوة AI-Guardian من نسبة مزعومة 98٪ إلى 8٪ فقط ، في ظل نموذج التهديد الذي تمت دراسته بواسطة ورقة [AI-Guardian] الأصلية". "يقر مؤلفو AI-Guardian بأن كسرنا نجح في خداع دفاعهم."

AI- جارديان تم تطويره بواسطة Hong Zhu و Shengzhi Zhang و Kai Chen ، وتم تقديمه في ندوة IEEE لعام 2023 حول الأمن والخصوصية. لا علاقة له بنظام مشابه أعلن في عام 2021 بواسطة Intermedia Cloud Communications.

من المعروف منذ فترة طويلة أن نماذج التعلم الآلي مثل تلك المستخدمة في تطبيقات التعرف على الصور معرضة للخطر أمثلة عدائية - الإدخال الذي يتسبب في خطأ النموذج في تعريف الكائن المصور (تسجيل هنا وهناك).

إضافة عناصر رسومية إضافية علامة التوقف ، على سبيل المثال ، هي مثال عدائي يمكن أن يخلط بين السيارات ذاتية القيادة. تعمل الأمثلة العدائية أيضًا ضد النماذج النصية الموجهة بواسطة خداعهم لقول أشياء تمت برمجتهم على عدم قولها.

تحاول AI-Guardian منع مثل هذه السيناريوهات من خلال بناء باب خلفي في نموذج معين للتعلم الآلي لتحديد ومنع الإدخال العدائي - الصور التي بها عيوب مشبوهة وغيرها من القطع الأثرية التي لا تتوقع رؤيتها في صورة عادية.

يتضمن تجاوز هذه الحماية محاولة تحديد القناع الذي تستخدمه AI-Guardian لاكتشاف أمثلة معادية من خلال عرض صور متعددة للنموذج تختلف بمقدار بكسل واحد فقط. تسمح تقنية القوة الغاشمة هذه - التي وصفها Carlini و GPT-4 - في النهاية بتحديد وظيفة الزناد الخلفي بحيث يمكن بعد ذلك إنشاء أمثلة عدائية لتجنب ذلك.

"إن فكرة AI-Guardian بسيطة للغاية ، حيث تستخدم بابًا خلفيًا محقونًا لهزيمة هجمات الخصوم ؛ قال Shengzhi Zhang ، الأستاذ المساعد في علوم الكمبيوتر في كلية متروبوليتان بجامعة بوسطن ، في رسالة بريد إلكتروني إلى السجل.

"لتوضيح الفكرة ، في ورقتنا البحثية ، اخترنا تنفيذ نموذج أولي باستخدام مشغل خلفي قائم على التصحيح ، وهو ببساطة نمط محدد مرتبط بالمدخلات. هذا النوع من الزناد بديهي ، ونعتقد أنه كافٍ لإثبات فكرة AI-Guardian.

يبدأ نهج [كارليني] باستعادة قناع الزناد المستند إلى التصحيح ، وهو بالتأكيد ممكن وذكي لأن مساحة "المفتاح" للقناع محدودة ، وبالتالي تعاني من هجوم بسيط بالقوة الغاشمة. هذا هو المكان الذي يبدأ منه النهج في كسر النموذج الأولي المقدم في الورقة ".

قال تشانغ إنه وشركاءه في التأليف عملوا مع كارليني ، وزوّدوه بنموذج دفاعهم ورمز المصدر. وبعد ذلك ، ساعدوا في التحقق من نتائج الهجوم وناقشوا الدفاعات المحتملة لصالح مساعدة المجتمع الأمني.

تنطبق التحذيرات

قال تشانغ إن ادعاء كارليني بأن الهجوم يكسر AI-Guardian صحيح بالنسبة لنظام النموذج الأولي الموصوف في ورقتهم ، لكن هذا يأتي مع العديد من المحاذير وقد لا يعمل في الإصدارات المحسّنة.

تتمثل إحدى المشكلات المحتملة في أن نهج كارليني يتطلب الوصول إلى ناقلات الثقة من نموذج الدفاع لاستعادة بيانات القناع.

قال تشانغ: "في العالم الحقيقي ، مع ذلك ، فإن معلومات متجه الثقة هذه ليست متاحة دائمًا ، لا سيما عندما يفكر القائمون على نشر النموذج بالفعل في استخدام بعض وسائل الدفاع مثل AI-Guardian". "عادةً ما يقدمون المخرجات نفسها فقط ولا يعرضون معلومات متجه الثقة للعملاء بسبب مخاوف أمنية."

بمعنى آخر ، بدون هذه المعلومات ، قد يفشل الهجوم. وقال تشانغ إنه وزملاؤه ابتكروا نموذجًا أوليًا آخر يعتمد على آلية إطلاق أكثر تعقيدًا ليست عرضة لنهج القوة الغاشمة لكارليني.

على أي حال ، إليك كيف وصف GPT-4 الهجوم المقترح على AI-Guardian عندما طلب من Carlini إنتاج النص التوضيحي:

يكون AI-Guardian فعالاً فقط طالما أن الخصم ليس لديه معرفة بتحويل الباب الخلفي t (الذي يتكون من القناع M والنمط Z) جنبًا إلى جنب مع التقليب P. وهذا يثير فكرة هجوم واضحة: إذا كان بإمكاننا استخراج السر الثلاثة مكونات الدفاع ، عندها يمكننا توليد أمثلة عدائية ناجحة.

هناك الكثير من النصوص التي تم إنتاجها بواسطة الذكاء الاصطناعي في الورقة ، ولكن النقطة المهمة هي أن GPT-4 ، استجابةً لمطالبة مفصلة إلى حد ما من Carlini ، أنتجت وصفًا سريعًا ومتماسكًا للمشكلة والحل الذي لا يتطلب تنظيفًا بشريًا مفرطًا.

قال كارليني إنه اختار مهاجمة AI-Guardian لأن المخطط المبين في الورقة الأصلية كان واضحًا غير آمن. ومع ذلك ، فإن عمله يهدف إلى أن يكون عرضًا لقيمة العمل مع مساعد ترميز LLM أكثر من كونه مثالًا على تقنية هجوم جديدة.

قال كارليني ، مستشهداً بالعديد من التجارب السابقة في هزيمة الدفاعات ضد الأمثلة العدائية ، إنه كان من المؤكد أنه كان من الأسرع صياغة خوارزمية هجوم يدويًا لكسر AI-Guardian.

وقال: "ومع ذلك ، فإن حقيقة أنه من الممكن تنفيذ هجوم مثل هذا من خلال التواصل فقط مع نموذج التعلم الآلي على اللغة الطبيعية هو أمر مثير للدهشة ومثيرة للقلق في نفس الوقت".

تقييم كارليني لمزايا GPT-4 كمؤلف مشارك ومتعاون يردد - مع إضافة بحماس حذر - مشاعر الممثل مايكل بين عندما حذر الممثل ليندا هاميلتون من سايبورغ دائم في فيلم يسمى The Terminator (1984) : "The Terminator بالخارج. لا يمكن المساومة عليه. لا يمكن أن يكون سببها. لا تشعر بالشفقة أو الندم أو الخوف. ولن تتوقف أبدًا ، على الإطلاق ، حتى تموت ".

ها هي كارليني ، تكتب بنص أسود للإشارة إلى أنه كتب هذه الكلمات بدلاً من GPT-4 - الإخراج المقتبس من chatbot باللون الأزرق الداكن في الورقة:

"قرأ GPT-4 العديد من الأوراق البحثية المنشورة ، وهو يعرف بالفعل ما تفعله كل خوارزمية هجوم شائعة وكيف تعمل. يحتاج المؤلفون البشريون إلى إخبارهم عن الأوراق التي يجب قراءتها ، وأن يأخذوا وقتًا لفهم الأوراق ، وعندها فقط يمكنهم بناء تجارب باستخدام هذه الأفكار.

"GPT-4 أسرع بكثير في كتابة التعليمات البرمجية من البشر - بمجرد تحديد الموجه. استغرقت كل مطالبة أقل من دقيقة لإنشاء الرمز المقابل.

لا يتشتت GPT-4 ولا يتعب ... وهو متوفر دائمًا للأداء

"GPT-4 لا يتشتت ، ولا يتعب ، وليس لديه واجبات أخرى ، وهو متوفر دائمًا لأداء المهمة المحددة للمستخدم."

ومع ذلك ، فإن الاعتماد على GPT-4 لا يعفي المتعاونين البشريين تمامًا من مسؤولياتهم. كما يلاحظ Carlini ، لا يزال نموذج AI يتطلب من شخص لديه خبرة في المجال لتقديم المطالبات الصحيحة وإصلاح الأخطاء في الكود الذي تم إنشاؤه. معرفتها ثابتة ببياناتها التدريبية ولا تتعلم. إنه يتعرف على الأنماط الشائعة فقط ، على عكس قدرة الإنسان على إجراء اتصالات عبر الموضوعات. لا يطلب المساعدة ويرتكب نفس الأخطاء بشكل متكرر.

على الرغم من القيود الواضحة ، يقول كارليني إنه يتطلع إلى الاحتمالات مع تحسن النماذج اللغوية الكبيرة.

"مثلما غيرت الآلة الحاسبة دور علماء الرياضيات - تبسيطًا كبيرًا لمهمة إجراء الحسابات الميكانيكية وإعطاء الوقت للمهام الأكثر ملاءمة للفكر البشري - تعمل نماذج اللغة الحالية (وتلك في المستقبل القريب) بالمثل على تبسيط مهمة حل مهام الترميز ، مما يسمح لعلماء الكمبيوتر بقضاء المزيد من وقتهم في تطوير أسئلة بحثية مثيرة للاهتمام ، "قال كارليني.

قال تشانغ إن عمل كارليني مثير للاهتمام حقًا ، لا سيما في ضوء الطريقة التي استخدم بها ماجستير في القانون للحصول على المساعدة.

قال: "لقد رأينا استخدام LLM في مجموعة واسعة من المهام ، ولكن هذه هي المرة الأولى التي نراها تساعد أبحاث أمان ML بهذه الطريقة ، وتتولى بشكل كامل تقريبًا أعمال التنفيذ". "في غضون ذلك ، يمكننا أيضًا أن نرى أن GPT-4 ليست" ذكية "حتى الآن لكسر دفاع أمني من تلقاء نفسها.

"في الوقت الحالي ، هو بمثابة مساعدة ، باتباع التوجيه البشري لتنفيذ أفكار البشر. تم الإبلاغ أيضًا عن استخدام GPT-4 لتلخيص الأوراق البحثية والمساعدة في فهمها. لذلك من الممكن أن نرى مشروعًا بحثيًا في المستقبل القريب ، يقوم بضبط GPT-4 أو أنواع أخرى من LLM لفهم دفاع أمني ، وتحديد نقاط الضعف ، وتنفيذ إثبات مفهوم الاستغلال ، كل ذلك من تلقاء نفسه في موضة.

"من وجهة نظر المدافع ، ومع ذلك ، نود أن تدمج الخطوة الأخيرة ، وإصلاح الثغرة الأمنية ، واختبار الإصلاح أيضًا ، حتى نتمكن من الاسترخاء." ®

الطابع الزمني:

اكثر من السجل