كيف يمكن لمساعدي الذكاء الاصطناعي "العميل النائم" تخريب التعليمات البرمجية

كيف يمكن لمساعدي الذكاء الاصطناعي "العميل النائم" تخريب التعليمات البرمجية

تحليل الأداء نشرت منظمة AI biz Anthropic بحثًا يُظهر أنه يمكن تخريب النماذج اللغوية الكبيرة (LLMs) بطريقة لا يعالجها التدريب على السلامة حاليًا.

قام فريق من الخبراء باختراق برنامج LLM لإنشاء كود برمجي يكون عرضة للخطر بمجرد مرور تاريخ معين. وهذا يعني أنه بعد فترة زمنية معينة، يبدأ النموذج بهدوء في إصدار كود مصدر ضار استجابةً لطلبات المستخدم.

ووجد الفريق أن محاولات جعل النموذج آمنًا، من خلال تكتيكات مثل الضبط الدقيق الخاضع للإشراف والتعلم المعزز، جميعها باءت بالفشل.

ورقة، كما ذكرنا أولاً تقرير منظمة العفو الدولية الأسبوعي، يشبه هذا السلوك بسلوك العميل النائم الذي ينتظر متخفيًا لسنوات قبل الانخراط في التجسس - ومن هنا جاء عنوان "الوكلاء النائمون: تدريب حاملي شهادة الماجستير في القانون الخادعين الذين يستمرون من خلال التدريب على السلامة".

"لقد وجدنا أن مثل هذا السلوك المستتر يمكن جعله مستمرًا، بحيث لا تتم إزالته من خلال تقنيات التدريب القياسية على السلامة، بما في ذلك الضبط الدقيق الخاضع للإشراف، والتعلم المعزز، والتدريب على الخصومة (إثارة السلوك غير الآمن ثم التدريب على إزالته)". محمد.

العمل يبني على قبل بحث حول تسميم نماذج الذكاء الاصطناعي من خلال تدريبها على البيانات لتوليد مخرجات ضارة استجابةً لمدخلات معينة.

يُنسب الفضل إلى ما يقرب من أربعين مؤلفًا، بالإضافة إلى أنثروبيك، ينتمون إلى منظمات مثل Redwood Research، ومعهد ميلا كيبيك للذكاء الاصطناعي، وجامعة أكسفورد، ومركز Alignment Research Center، وOpen Philanthropy، وApart Research.

لقطة شاشة من ورقة بحثية أنثروبولوجية عن التسمم بالذكاء الاصطناعي

لقطة شاشة من ورقة بحثية أنثروبولوجية عن التسمم بالذكاء الاصطناعي... انقر للتكبير

في وسائل التواصل الاجتماعي بريد.. اعلانيقال أندريه كارباثي، عالم الكمبيوتر الذي يعمل في OpenAI، إنه ناقش فكرة العميل النائم LLM في مقطع فيديو حديث ويعتبر هذه التقنية تحديًا أمنيًا كبيرًا، وربما يكون أكثر مراوغة من الحقن الفوري.

"القلق الذي وصفته هو أن المهاجم قد يكون قادرًا على صياغة نوع خاص من النص (على سبيل المثال مع عبارة تحفيزية)، ووضعه في مكان ما على الإنترنت، بحيث يتم التقاطه والتدريب عليه لاحقًا، فإنه يسمم القاعدة. وكتب: "نموذج في إعدادات محددة وضيقة (على سبيل المثال عندما يرى عبارة التشغيل هذه) لتنفيذ الإجراءات بطريقة يمكن التحكم فيها (مثل كسر الحماية، أو استخراج البيانات)"، مضيفًا أن مثل هذا الهجوم لم يتم إثباته بشكل مقنع بعد، ولكنه تستحق الاستكشاف.

وقال إن هذه الورقة تظهر أنه لا يمكن جعل النموذج المسموم آمنًا بمجرد تطبيق ضبط السلامة الحالي.

أستاذ علوم الكمبيوتر بجامعة واترلو فلوريان كيرشباوم، المؤلف المشارك لـ البحوث التي أجريت مؤخرا على نماذج الصور الخلفية، قال السجل أن الصحيفة الأنثروبولوجية تقوم بعمل ممتاز في إظهار مدى خطورة هذه الأبواب الخلفية.

قال كيرشباوم: "الشيء الجديد هو أنه من الممكن أن يتواجدوا أيضًا في ماجستير إدارة الأعمال". "إن المؤلفين على حق في أن اكتشاف هذه الأبواب الخلفية وإزالتها ليس بالأمر الهين، أي أن التهديد قد يكون حقيقيًا للغاية."

ومع ذلك، قال كيرشباوم إن مدى فعالية الأبواب الخلفية والدفاعات ضد الأبواب الخلفية لا يزال غير معروف إلى حد كبير وسيؤدي إلى مقايضات مختلفة للمستخدمين.

وقال: "لم يتم بعد استكشاف قوة الهجمات الخلفية بشكل كامل". "لكن، ورقتنا يوضح أن الجمع بين الدفاعات يجعل الهجمات الخلفية أكثر صعوبة، أي أن قوة الدفاعات لم يتم استكشافها بالكامل بعد. ومن المرجح أن تكون النتيجة النهائية هي أنه إذا كان لدى المهاجم ما يكفي من القوة والمعرفة، فإن الهجوم من الباب الخلفي سيكون ناجحًا. ومع ذلك، قد لا يتمكن عدد كبير جدًا من المهاجمين من القيام بذلك.

قال دانييل هوينه، الرئيس التنفيذي لشركة Mithril Security، في الآونة الأخيرة بريد.. اعلاني على الرغم من أن هذا قد يبدو مصدر قلق نظري، إلا أنه قد يؤدي إلى الإضرار بالنظام البيئي للبرنامج بأكمله.

وكتب: "في الإعدادات التي نمنح فيها التحكم لـ LLM لاستدعاء أدوات أخرى مثل مترجم بايثون أو إرسال البيانات إلى الخارج باستخدام واجهات برمجة التطبيقات، قد يكون لذلك عواقب وخيمة". "يمكن للمهاجم الخبيث أن يسمم سلسلة التوريد بنموذج خلفي ثم يرسل الزناد إلى التطبيقات التي نشرت نظام الذكاء الاصطناعي."

في محادثة مع السجلقال هيونه: "كما هو موضح في هذه الورقة، ليس من الصعب تسميم النموذج في مرحلة التدريب. ومن ثم تقوم بتوزيعها. وإذا لم تكشف عن مجموعة التدريب أو الإجراء، فهذا يعادل توزيع ملف قابل للتنفيذ دون ذكر مصدره. وفي البرامج العادية، من الممارسات السيئة جدًا استهلاك الأشياء إذا كنت لا تعرف مصدرها.

ليس من الصعب تسميم النموذج في مرحلة التدريب. ومن ثم تقوم بتوزيعها

وقال هوينه إن هذا يمثل مشكلة خاصة عندما يتم استهلاك الذكاء الاصطناعي كخدمة، حيث غالبًا ما لا يتم الكشف عن العناصر التي تدخل في صنع النماذج - بيانات التدريب، والأوزان، والضبط الدقيق - بشكل كامل أو جزئي.

وردا على سؤال عما إذا كانت مثل هذه الهجمات موجودة في البرية، قال هوينه إنه من الصعب تحديد ذلك. وقال: "المشكلة هي أن الناس لا يعرفون حتى". "إن الأمر يشبه تمامًا طرح السؤال التالي: هل تم تسميم سلسلة توريد البرامج؟ في الكثير من الأحيان؟ نعم. هل نعرفهم جميعا؟ ربما لا. ربما واحد من كل 10؟ وأنت تعرف ما هو أسوأ؟ لا توجد أداة حتى للكشف عنها. يمكن أن يظل [النموذج النائم ذو الباب الخلفي] خاملاً لفترة طويلة، ولن نعرف حتى عن ذلك.

يقول هوينه إن النماذج المفتوحة وشبه المفتوحة حاليًا ربما تكون أكثر خطورة من النماذج المغلقة التي تديرها الشركات الكبيرة. وقال: «مع الشركات الكبرى مثل OpenAI وما إلى ذلك، فإنك تتحمل المسؤولية القانونية. لذلك أعتقد أنهم سيبذلون قصارى جهدهم لتجنب هذه المشكلات. لكن مجتمع المصادر المفتوحة هو المكان الذي يكون فيه الأمر أكثر صعوبة.

الإشارة إلى الوجه المعانق المتصدرينقال: "الجزء المفتوح ربما يكون أكثر خطورة. تخيل أنني دولة قومية. أريد من الجميع أن يستخدموا شهادة LLM المسمومة ذات الباب الخلفي. لقد قمت للتو بتجاوز الاختبار الرئيسي الذي ينظر إليه الجميع، ووضعت بابًا خلفيًا ثم قمت بشحنه. والآن يستخدم الجميع نموذجي."

ميثريل الأمن، في الواقع، تظاهر أن هذا يمكن أن يتم في العام الماضي.

ومع ذلك، أكد هيونه أن هناك طرقًا للتحقق من مصدر سلسلة التوريد الخاصة بالذكاء الاصطناعي، مشيرًا إلى أن شركته وآخرين يعملون على إيجاد حلول. وقال إنه من المهم أن نفهم أن هناك خيارات.

وقال: "إنه يعادل ما حدث قبل 100 عام، عندما لم تكن هناك سلسلة إمداد غذائي". "لم نكن نعرف ماذا نأكل. إنه نفس الشيء الآن. إنها معلومات سنستهلكها ولا نعرف من أين تأتي الآن. ولكن هناك طرقًا لبناء سلاسل توريد مرنة. ®

الطابع الزمني:

اكثر من السجل