تحليل الأداء أثبت أحد علماء Google أن نموذج اللغة الكبيرة (LLM) الخاص بـ OpenAI's GPT-4 ، على الرغم من قدرته على ارتكاب الأخطاء ، يمكن أن يساعد على الأقل في تحطيم بعض الإجراءات الوقائية الموضوعة حول نماذج التعلم الآلي الأخرى - وهي القدرة التي توضح قيمة روبوتات المحادثة كمساعدين للأبحاث. .
في باقة ورقة بعنوان "استغلال LLM بمساعدة حارس الذكاء الاصطناعي" ، يستكشف نيكولاس كارليني ، عالم أبحاث في شركة Google Deep Mind ، كيف AI- جارديان، وهو دفاع ضد الهجمات العدائية على النماذج ، يمكن التراجع عنه من خلال توجيه روبوت الدردشة GPT-4 لابتكار طريقة هجوم وكتابة نص يشرح كيفية عمل الهجوم.
تتضمن ورقة كارليني كود Python الذي اقترحته GPT-4 لهزيمة جهود AI-Guardian لمنع الهجمات العدائية. على وجه التحديد ، يصدر GPT-4 نصوصًا (وتفسيرات) لتعديل الصور لخداع المصنف - على سبيل المثال ، جعله يعتقد أن صورة شخص يحمل سلاحًا هي صورة لشخص يحمل تفاحة غير ضارة - دون إثارة شكوك AI-Guardian. تم تصميم AI-Guardian لاكتشاف الوقت الذي من المحتمل أن يتم فيه التلاعب بالصور لخداع المصنف ، وتم تكليف GPT-4 بالتهرب من هذا الاكتشاف.
كتب Carlini: "تقلل هجماتنا من قوة AI-Guardian من نسبة مزعومة 98٪ إلى 8٪ فقط ، في ظل نموذج التهديد الذي تمت دراسته بواسطة ورقة [AI-Guardian] الأصلية". "يقر مؤلفو AI-Guardian بأن كسرنا نجح في خداع دفاعهم."
AI- جارديان تم تطويره بواسطة Hong Zhu و Shengzhi Zhang و Kai Chen ، وتم تقديمه في ندوة IEEE لعام 2023 حول الأمن والخصوصية. لا علاقة له بنظام مشابه أعلن في عام 2021 بواسطة Intermedia Cloud Communications.
من المعروف منذ فترة طويلة أن نماذج التعلم الآلي مثل تلك المستخدمة في تطبيقات التعرف على الصور معرضة للخطر أمثلة عدائية - الإدخال الذي يتسبب في خطأ النموذج في تعريف الكائن المصور (تسجيل هنا وهناك).
إضافة عناصر رسومية إضافية علامة التوقف ، على سبيل المثال ، هي مثال عدائي يمكن أن يخلط بين السيارات ذاتية القيادة. تعمل الأمثلة العدائية أيضًا ضد النماذج النصية الموجهة بواسطة خداعهم لقول أشياء تمت برمجتهم على عدم قولها.
تحاول AI-Guardian منع مثل هذه السيناريوهات من خلال بناء باب خلفي في نموذج معين للتعلم الآلي لتحديد ومنع الإدخال العدائي - الصور التي بها عيوب مشبوهة وغيرها من القطع الأثرية التي لا تتوقع رؤيتها في صورة عادية.
يتضمن تجاوز هذه الحماية محاولة تحديد القناع الذي تستخدمه AI-Guardian لاكتشاف أمثلة معادية من خلال عرض صور متعددة للنموذج تختلف بمقدار بكسل واحد فقط. تسمح تقنية القوة الغاشمة هذه - التي وصفها Carlini و GPT-4 - في النهاية بتحديد وظيفة الزناد الخلفي بحيث يمكن بعد ذلك إنشاء أمثلة عدائية لتجنب ذلك.
"إن فكرة AI-Guardian بسيطة للغاية ، حيث تستخدم بابًا خلفيًا محقونًا لهزيمة هجمات الخصوم ؛ قال Shengzhi Zhang ، الأستاذ المساعد في علوم الكمبيوتر في كلية متروبوليتان بجامعة بوسطن ، في رسالة بريد إلكتروني إلى السجل.
"لتوضيح الفكرة ، في ورقتنا البحثية ، اخترنا تنفيذ نموذج أولي باستخدام مشغل خلفي قائم على التصحيح ، وهو ببساطة نمط محدد مرتبط بالمدخلات. هذا النوع من الزناد بديهي ، ونعتقد أنه كافٍ لإثبات فكرة AI-Guardian.
يبدأ نهج [كارليني] باستعادة قناع الزناد المستند إلى التصحيح ، وهو بالتأكيد ممكن وذكي لأن مساحة "المفتاح" للقناع محدودة ، وبالتالي تعاني من هجوم بسيط بالقوة الغاشمة. هذا هو المكان الذي يبدأ منه النهج في كسر النموذج الأولي المقدم في الورقة ".
قال تشانغ إنه وشركاءه في التأليف عملوا مع كارليني ، وزوّدوه بنموذج دفاعهم ورمز المصدر. وبعد ذلك ، ساعدوا في التحقق من نتائج الهجوم وناقشوا الدفاعات المحتملة لصالح مساعدة المجتمع الأمني.
تنطبق التحذيرات
قال تشانغ إن ادعاء كارليني بأن الهجوم يكسر AI-Guardian صحيح بالنسبة لنظام النموذج الأولي الموصوف في ورقتهم ، لكن هذا يأتي مع العديد من المحاذير وقد لا يعمل في الإصدارات المحسّنة.
تتمثل إحدى المشكلات المحتملة في أن نهج كارليني يتطلب الوصول إلى ناقلات الثقة من نموذج الدفاع لاستعادة بيانات القناع.
قال تشانغ: "في العالم الحقيقي ، مع ذلك ، فإن معلومات متجه الثقة هذه ليست متاحة دائمًا ، لا سيما عندما يفكر القائمون على نشر النموذج بالفعل في استخدام بعض وسائل الدفاع مثل AI-Guardian". "عادةً ما يقدمون المخرجات نفسها فقط ولا يعرضون معلومات متجه الثقة للعملاء بسبب مخاوف أمنية."
بمعنى آخر ، بدون هذه المعلومات ، قد يفشل الهجوم. وقال تشانغ إنه وزملاؤه ابتكروا نموذجًا أوليًا آخر يعتمد على آلية إطلاق أكثر تعقيدًا ليست عرضة لنهج القوة الغاشمة لكارليني.
على أي حال ، إليك كيف وصف GPT-4 الهجوم المقترح على AI-Guardian عندما طلب من Carlini إنتاج النص التوضيحي:
يكون AI-Guardian فعالاً فقط طالما أن الخصم ليس لديه معرفة بتحويل الباب الخلفي t (الذي يتكون من القناع M والنمط Z) جنبًا إلى جنب مع التقليب P. وهذا يثير فكرة هجوم واضحة: إذا كان بإمكاننا استخراج السر الثلاثة مكونات الدفاع ، عندها يمكننا توليد أمثلة عدائية ناجحة.
هناك الكثير من النصوص التي تم إنتاجها بواسطة الذكاء الاصطناعي في الورقة ، ولكن النقطة المهمة هي أن GPT-4 ، استجابةً لمطالبة مفصلة إلى حد ما من Carlini ، أنتجت وصفًا سريعًا ومتماسكًا للمشكلة والحل الذي لا يتطلب تنظيفًا بشريًا مفرطًا.
قال كارليني إنه اختار مهاجمة AI-Guardian لأن المخطط المبين في الورقة الأصلية كان واضحًا غير آمن. ومع ذلك ، فإن عمله يهدف إلى أن يكون عرضًا لقيمة العمل مع مساعد ترميز LLM أكثر من كونه مثالًا على تقنية هجوم جديدة.
قال كارليني ، مستشهداً بالعديد من التجارب السابقة في هزيمة الدفاعات ضد الأمثلة العدائية ، إنه كان من المؤكد أنه كان من الأسرع صياغة خوارزمية هجوم يدويًا لكسر AI-Guardian.
وقال: "ومع ذلك ، فإن حقيقة أنه من الممكن تنفيذ هجوم مثل هذا من خلال التواصل فقط مع نموذج التعلم الآلي على اللغة الطبيعية هو أمر مثير للدهشة ومثيرة للقلق في نفس الوقت".
تقييم كارليني لمزايا GPT-4 كمؤلف مشارك ومتعاون يردد - مع إضافة بحماس حذر - مشاعر الممثل مايكل بين عندما حذر الممثل ليندا هاميلتون من سايبورغ دائم في فيلم يسمى The Terminator (1984) : "The Terminator بالخارج. لا يمكن المساومة عليه. لا يمكن أن يكون سببها. لا تشعر بالشفقة أو الندم أو الخوف. ولن تتوقف أبدًا ، على الإطلاق ، حتى تموت ".
ها هي كارليني ، تكتب بنص أسود للإشارة إلى أنه كتب هذه الكلمات بدلاً من GPT-4 - الإخراج المقتبس من chatbot باللون الأزرق الداكن في الورقة:
"قرأ GPT-4 العديد من الأوراق البحثية المنشورة ، وهو يعرف بالفعل ما تفعله كل خوارزمية هجوم شائعة وكيف تعمل. يحتاج المؤلفون البشريون إلى إخبارهم عن الأوراق التي يجب قراءتها ، وأن يأخذوا وقتًا لفهم الأوراق ، وعندها فقط يمكنهم بناء تجارب باستخدام هذه الأفكار.
"GPT-4 أسرع بكثير في كتابة التعليمات البرمجية من البشر - بمجرد تحديد الموجه. استغرقت كل مطالبة أقل من دقيقة لإنشاء الرمز المقابل.
لا يتشتت GPT-4 ولا يتعب ... وهو متوفر دائمًا للأداء
"GPT-4 لا يتشتت ، ولا يتعب ، وليس لديه واجبات أخرى ، وهو متوفر دائمًا لأداء المهمة المحددة للمستخدم."
ومع ذلك ، فإن الاعتماد على GPT-4 لا يعفي المتعاونين البشريين تمامًا من مسؤولياتهم. كما يلاحظ Carlini ، لا يزال نموذج AI يتطلب من شخص لديه خبرة في المجال لتقديم المطالبات الصحيحة وإصلاح الأخطاء في الكود الذي تم إنشاؤه. معرفتها ثابتة ببياناتها التدريبية ولا تتعلم. إنه يتعرف على الأنماط الشائعة فقط ، على عكس قدرة الإنسان على إجراء اتصالات عبر الموضوعات. لا يطلب المساعدة ويرتكب نفس الأخطاء بشكل متكرر.
على الرغم من القيود الواضحة ، يقول كارليني إنه يتطلع إلى الاحتمالات مع تحسن النماذج اللغوية الكبيرة.
"مثلما غيرت الآلة الحاسبة دور علماء الرياضيات - تبسيطًا كبيرًا لمهمة إجراء الحسابات الميكانيكية وإعطاء الوقت للمهام الأكثر ملاءمة للفكر البشري - تعمل نماذج اللغة الحالية (وتلك في المستقبل القريب) بالمثل على تبسيط مهمة حل مهام الترميز ، مما يسمح لعلماء الكمبيوتر بقضاء المزيد من وقتهم في تطوير أسئلة بحثية مثيرة للاهتمام ، "قال كارليني.
قال تشانغ إن عمل كارليني مثير للاهتمام حقًا ، لا سيما في ضوء الطريقة التي استخدم بها ماجستير في القانون للحصول على المساعدة.
قال: "لقد رأينا استخدام LLM في مجموعة واسعة من المهام ، ولكن هذه هي المرة الأولى التي نراها تساعد أبحاث أمان ML بهذه الطريقة ، وتتولى بشكل كامل تقريبًا أعمال التنفيذ". "في غضون ذلك ، يمكننا أيضًا أن نرى أن GPT-4 ليست" ذكية "حتى الآن لكسر دفاع أمني من تلقاء نفسها.
"في الوقت الحالي ، هو بمثابة مساعدة ، باتباع التوجيه البشري لتنفيذ أفكار البشر. تم الإبلاغ أيضًا عن استخدام GPT-4 لتلخيص الأوراق البحثية والمساعدة في فهمها. لذلك من الممكن أن نرى مشروعًا بحثيًا في المستقبل القريب ، يقوم بضبط GPT-4 أو أنواع أخرى من LLM لفهم دفاع أمني ، وتحديد نقاط الضعف ، وتنفيذ إثبات مفهوم الاستغلال ، كل ذلك من تلقاء نفسه في موضة.
"من وجهة نظر المدافع ، ومع ذلك ، نود أن تدمج الخطوة الأخيرة ، وإصلاح الثغرة الأمنية ، واختبار الإصلاح أيضًا ، حتى نتمكن من الاسترخاء." ®
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون السيارات / المركبات الكهربائية ، كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- BlockOffsets. تحديث ملكية الأوفست البيئية. الوصول هنا.
- المصدر https://go.theregister.com/feed/www.theregister.com/2023/08/01/google_boffin_breaks_ai_model/
- :لديها
- :يكون
- :ليس
- :أين
- ] [ص
- 1984
- 2021
- 2023
- 7
- 8
- 98
- a
- القدرة
- من نحن
- إطلاقا
- الوصول
- نقر
- في
- إضافة
- الخصومة
- ضد
- AI
- خوارزمية
- الكل
- السماح
- يسمح
- على طول
- سابقا
- أيضا
- تغيير
- دائما
- an
- و
- آخر
- تفاح
- التطبيقات
- نهج
- هي
- حول
- مجموعة
- AS
- التقييم المناسبين
- مساعدة
- مساعدة
- المساعد
- مساعدين
- ساعد
- At
- مهاجمة
- الهجمات
- محاولات
- المؤلفة
- الكتاب
- الآلي
- متاح
- تجنب
- الباب الخلفي
- على أساس
- BE
- لان
- كان
- اعتقد
- أفضل
- اسود
- حظر
- الأزرق
- بوسطن
- استراحة
- فواصل
- القوة الغاشمة
- البق
- نساعدك في بناء
- ابني
- لكن
- by
- الحسابات
- تسمى
- CAN
- قدرة
- الطاقة الإنتاجية
- cars
- الأسباب
- حذر
- بالتأكيد
- chatbot
- chatbots
- تشن
- اختار
- استشهد
- ادعى
- سحابة
- CO
- مؤلف مشارك
- الكود
- البرمجة
- متماسك
- الزملاء
- كلية
- يأتي
- مشترك
- التواصل
- مجال الاتصالات
- مجتمع
- تماما
- مجمع
- مكونات
- الكمبيوتر
- علوم الكمبيوتر
- اهتمامات
- الثقة
- التواصل
- نظرت
- تتكون
- تباين
- المقابلة
- استطاع
- حرفة
- العملاء
- غامق
- البيانات
- ميت
- عميق
- العقل العميق
- قهر
- الدفاع
- قطعا
- شرح
- تظاهر
- يوضح
- وصف
- وصف
- تصميم
- على الرغم من
- مفصلة
- بكشف أو
- كشف
- المتقدمة
- تطوير
- وضع
- فعل
- اختلف
- توجيه
- ناقش
- هل
- لا توجد الآن
- نطاق
- اثنان
- كل
- أصداء
- الطُرق الفعّالة
- جهود
- البريد الإلكتروني
- حماسة
- أخطاء
- خاصة
- حتى
- EVER
- كل
- مثال
- أمثلة
- المثيره
- توقع
- الخبره في مجال الغطس
- خبرة
- تجارب
- شرح
- استغلال
- استغلال
- يستكشف
- استخراج
- حقيقة
- يفشلون
- بإنصاف
- الأزياء
- أسرع
- خوف
- شعور
- النتائج
- الاسم الأول
- لأول مرة
- حل
- ثابت
- متابعيك
- في حالة
- القوة
- سابق
- إلى الأمام
- تبدأ من
- وظيفة
- مستقبل
- توليد
- ولدت
- دولار فقط واحصل على خصم XNUMX% على جميع
- GitHub جيثب:
- معطى
- إعطاء
- شراء مراجعات جوجل
- Graphic
- وصي
- توجيه
- هاميلتون
- يملك
- he
- مساعدة
- ساعد
- مساعدة
- هنا
- وسلم
- له
- عقد
- كونغ
- كيفية
- لكن
- HTML
- HTTPS
- الانسان
- البشر
- فكرة
- الأفكار
- محدد
- تحديد
- IEEE
- if
- صورة
- التعرف على الصور
- صور
- تنفيذ
- التنفيذ
- تحسن
- تحسن
- in
- يشمل
- تشير
- معلومات
- إدخال
- المدخلات
- غير آمن
- مثل
- دمج
- ذكي
- معد
- مصلحة
- وكتابة مواضيع مثيرة للاهتمام
- إلى
- حدسي
- المشاركة
- يسن
- قضية
- IT
- انها
- نفسها
- JPG
- م
- القفل
- المعرفة
- معروف
- تُشير
- لغة
- كبير
- اسم العائلة
- الى وقت لاحق
- تعلم
- تعلم
- الأقل
- ضوء
- مثل
- على الأرجح
- القيود
- محدود
- LLM
- طويل
- تبدو
- الكثير
- آلة
- آلة التعلم
- جعل
- يصنع
- القيام ب
- التلاعب
- يدويا
- كثير
- قناع
- مايو..
- في غضون
- ميكانيكي
- آلية
- مزايا
- طريقة
- مايكل
- ربما
- مانع
- دقيقة
- ML
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- فيلم
- كثيرا
- متعدد
- عين
- طبيعي
- قرب
- حاجة
- عادي
- رواية
- الآن
- كثير
- موضوع
- يلاحظ
- واضح
- of
- on
- مرة
- فقط
- OpenAI
- or
- طلب
- أصلي
- أخرى
- لنا
- خارج
- أوجز
- الناتج
- على مدى
- ورق
- أوراق
- خاصة
- الماضي
- نمط
- أنماط
- فى المائة
- نفذ
- أداء
- صور
- صورة
- بينغ
- بكسل
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- البوينت
- بسبب، حظ
- إمكانيات
- ممكن
- محتمل
- يقدم
- قدم
- منع
- خصوصية
- المشكلة
- إنتاج
- أنتج
- البروفيسور
- المبرمجة
- تنفيذ المشاريع
- المقترح
- الحماية
- النموذج
- تزود
- المقدمة
- توفير
- نشرت
- وضع
- بايثون
- الأسئلة المتكررة
- سريع
- يثير
- بدلا
- عرض
- حقيقي
- العالم الحقيقي
- في الحقيقة
- اعتراف
- يعترف
- استعادة
- يتعافى
- تخفيض
- الاسترخاء
- مرارا وتكرارا
- وذكرت
- تطلب
- مطلوب
- يتطلب
- بحث
- استجابة
- المسؤوليات
- النتائج
- حق
- متانة
- النوع
- s
- الضمانات
- قال
- نفسه
- قول
- قول
- يقول
- سيناريوهات
- مخطط
- علوم
- عالم
- العلماء
- مخطوطات
- سيكريت
- أمن
- انظر تعريف
- رأيت
- القيادة الذاتية
- عاطفة
- يخدم
- عدة
- إشارة
- بشكل ملحوظ
- وبالمثل
- الاشارات
- تبسيط
- تبسيط
- ببساطة
- معا
- منذ
- عزباء
- سمارت
- سحق
- So
- حل
- حل
- بعض
- شخص ما
- مصدر
- شفرة المصدر
- الفضاء
- محدد
- على وجه التحديد
- محدد
- أنفق
- بقعة
- يبدأ
- خطوة
- لا يزال
- قلة النوم
- مدروس
- ناجح
- هذه
- معاناة
- كاف
- تلخيص
- مفاجئ
- مشكوك فيه
- ندوة
- نظام
- أخذ
- مع الأخذ
- مهمة
- المهام
- الاختبار
- من
- أن
- •
- من مشاركة
- then
- هناك.
- تشبه
- هم
- الأشياء
- اعتقد
- هؤلاء
- فكر
- التهديد
- ثلاثة
- وهكذا
- الوقت
- متعب
- بعنوان
- إلى
- اليوم
- استغرق
- المواضيع
- تماما
- قادة الإيمان
- تحول
- يثير
- اثار
- صحيح
- التغيير والتبديل
- نوع
- عادة
- في النهاية
- مع
- فهم
- جامعة
- حتى
- مستعمل
- يستخدم
- استخدام
- قيمنا
- Ve
- تحقق من
- الإصدارات
- المزيد
- نقاط الضعف
- الضعف
- الضعيفة
- تحذير
- وكان
- طريق..
- we
- حسن
- ابحث عن
- متى
- التي
- واسع
- على نحو واسع
- سوف
- مع
- بدون
- كلمات
- للعمل
- عمل
- عامل
- أعمال
- العالم
- سوف
- ولدن
- جاري الكتابة
- كتب
- حتى الآن
- أنت
- موقع YouTube
- زفيرنت