تحليل الأداء نشرت منظمة AI biz Anthropic بحثًا يُظهر أنه يمكن تخريب النماذج اللغوية الكبيرة (LLMs) بطريقة لا يعالجها التدريب على السلامة حاليًا.
قام فريق من الخبراء باختراق برنامج LLM لإنشاء كود برمجي يكون عرضة للخطر بمجرد مرور تاريخ معين. وهذا يعني أنه بعد فترة زمنية معينة، يبدأ النموذج بهدوء في إصدار كود مصدر ضار استجابةً لطلبات المستخدم.
ووجد الفريق أن محاولات جعل النموذج آمنًا، من خلال تكتيكات مثل الضبط الدقيق الخاضع للإشراف والتعلم المعزز، جميعها باءت بالفشل.
• ورقة، كما ذكرنا أولاً تقرير منظمة العفو الدولية الأسبوعي، يشبه هذا السلوك بسلوك العميل النائم الذي ينتظر متخفيًا لسنوات قبل الانخراط في التجسس - ومن هنا جاء عنوان "الوكلاء النائمون: تدريب حاملي شهادة الماجستير في القانون الخادعين الذين يستمرون من خلال التدريب على السلامة".
"لقد وجدنا أن مثل هذا السلوك المستتر يمكن جعله مستمرًا، بحيث لا تتم إزالته من خلال تقنيات التدريب القياسية على السلامة، بما في ذلك الضبط الدقيق الخاضع للإشراف، والتعلم المعزز، والتدريب على الخصومة (إثارة السلوك غير الآمن ثم التدريب على إزالته)". محمد.
العمل يبني على قبل بحث حول تسميم نماذج الذكاء الاصطناعي من خلال تدريبها على البيانات لتوليد مخرجات ضارة استجابةً لمدخلات معينة.
يُنسب الفضل إلى ما يقرب من أربعين مؤلفًا، بالإضافة إلى أنثروبيك، ينتمون إلى منظمات مثل Redwood Research، ومعهد ميلا كيبيك للذكاء الاصطناعي، وجامعة أكسفورد، ومركز Alignment Research Center، وOpen Philanthropy، وApart Research.
في وسائل التواصل الاجتماعي بريد.. اعلانيقال أندريه كارباثي، عالم الكمبيوتر الذي يعمل في OpenAI، إنه ناقش فكرة العميل النائم LLM في مقطع فيديو حديث ويعتبر هذه التقنية تحديًا أمنيًا كبيرًا، وربما يكون أكثر مراوغة من الحقن الفوري.
"القلق الذي وصفته هو أن المهاجم قد يكون قادرًا على صياغة نوع خاص من النص (على سبيل المثال مع عبارة تحفيزية)، ووضعه في مكان ما على الإنترنت، بحيث يتم التقاطه والتدريب عليه لاحقًا، فإنه يسمم القاعدة. وكتب: "نموذج في إعدادات محددة وضيقة (على سبيل المثال عندما يرى عبارة التشغيل هذه) لتنفيذ الإجراءات بطريقة يمكن التحكم فيها (مثل كسر الحماية، أو استخراج البيانات)"، مضيفًا أن مثل هذا الهجوم لم يتم إثباته بشكل مقنع بعد، ولكنه تستحق الاستكشاف.
وقال إن هذه الورقة تظهر أنه لا يمكن جعل النموذج المسموم آمنًا بمجرد تطبيق ضبط السلامة الحالي.
أستاذ علوم الكمبيوتر بجامعة واترلو فلوريان كيرشباوم، المؤلف المشارك لـ البحوث التي أجريت مؤخرا على نماذج الصور الخلفية، قال السجل أن الصحيفة الأنثروبولوجية تقوم بعمل ممتاز في إظهار مدى خطورة هذه الأبواب الخلفية.
قال كيرشباوم: "الشيء الجديد هو أنه من الممكن أن يتواجدوا أيضًا في ماجستير إدارة الأعمال". "إن المؤلفين على حق في أن اكتشاف هذه الأبواب الخلفية وإزالتها ليس بالأمر الهين، أي أن التهديد قد يكون حقيقيًا للغاية."
ومع ذلك، قال كيرشباوم إن مدى فعالية الأبواب الخلفية والدفاعات ضد الأبواب الخلفية لا يزال غير معروف إلى حد كبير وسيؤدي إلى مقايضات مختلفة للمستخدمين.
وقال: "لم يتم بعد استكشاف قوة الهجمات الخلفية بشكل كامل". "لكن، ورقتنا يوضح أن الجمع بين الدفاعات يجعل الهجمات الخلفية أكثر صعوبة، أي أن قوة الدفاعات لم يتم استكشافها بالكامل بعد. ومن المرجح أن تكون النتيجة النهائية هي أنه إذا كان لدى المهاجم ما يكفي من القوة والمعرفة، فإن الهجوم من الباب الخلفي سيكون ناجحًا. ومع ذلك، قد لا يتمكن عدد كبير جدًا من المهاجمين من القيام بذلك.
قال دانييل هوينه، الرئيس التنفيذي لشركة Mithril Security، في الآونة الأخيرة بريد.. اعلاني على الرغم من أن هذا قد يبدو مصدر قلق نظري، إلا أنه قد يؤدي إلى الإضرار بالنظام البيئي للبرنامج بأكمله.
وكتب: "في الإعدادات التي نمنح فيها التحكم لـ LLM لاستدعاء أدوات أخرى مثل مترجم بايثون أو إرسال البيانات إلى الخارج باستخدام واجهات برمجة التطبيقات، قد يكون لذلك عواقب وخيمة". "يمكن للمهاجم الخبيث أن يسمم سلسلة التوريد بنموذج خلفي ثم يرسل الزناد إلى التطبيقات التي نشرت نظام الذكاء الاصطناعي."
في محادثة مع السجلقال هيونه: "كما هو موضح في هذه الورقة، ليس من الصعب تسميم النموذج في مرحلة التدريب. ومن ثم تقوم بتوزيعها. وإذا لم تكشف عن مجموعة التدريب أو الإجراء، فهذا يعادل توزيع ملف قابل للتنفيذ دون ذكر مصدره. وفي البرامج العادية، من الممارسات السيئة جدًا استهلاك الأشياء إذا كنت لا تعرف مصدرها.
ليس من الصعب تسميم النموذج في مرحلة التدريب. ومن ثم تقوم بتوزيعها
وقال هوينه إن هذا يمثل مشكلة خاصة عندما يتم استهلاك الذكاء الاصطناعي كخدمة، حيث غالبًا ما لا يتم الكشف عن العناصر التي تدخل في صنع النماذج - بيانات التدريب، والأوزان، والضبط الدقيق - بشكل كامل أو جزئي.
وردا على سؤال عما إذا كانت مثل هذه الهجمات موجودة في البرية، قال هوينه إنه من الصعب تحديد ذلك. وقال: "المشكلة هي أن الناس لا يعرفون حتى". "إن الأمر يشبه تمامًا طرح السؤال التالي: هل تم تسميم سلسلة توريد البرامج؟ في الكثير من الأحيان؟ نعم. هل نعرفهم جميعا؟ ربما لا. ربما واحد من كل 10؟ وأنت تعرف ما هو أسوأ؟ لا توجد أداة حتى للكشف عنها. يمكن أن يظل [النموذج النائم ذو الباب الخلفي] خاملاً لفترة طويلة، ولن نعرف حتى عن ذلك.
يقول هوينه إن النماذج المفتوحة وشبه المفتوحة حاليًا ربما تكون أكثر خطورة من النماذج المغلقة التي تديرها الشركات الكبيرة. وقال: «مع الشركات الكبرى مثل OpenAI وما إلى ذلك، فإنك تتحمل المسؤولية القانونية. لذلك أعتقد أنهم سيبذلون قصارى جهدهم لتجنب هذه المشكلات. لكن مجتمع المصادر المفتوحة هو المكان الذي يكون فيه الأمر أكثر صعوبة.
الإشارة إلى الوجه المعانق المتصدرينقال: "الجزء المفتوح ربما يكون أكثر خطورة. تخيل أنني دولة قومية. أريد من الجميع أن يستخدموا شهادة LLM المسمومة ذات الباب الخلفي. لقد قمت للتو بتجاوز الاختبار الرئيسي الذي ينظر إليه الجميع، ووضعت بابًا خلفيًا ثم قمت بشحنه. والآن يستخدم الجميع نموذجي."
ميثريل الأمن، في الواقع، تظاهر أن هذا يمكن أن يتم في العام الماضي.
ومع ذلك، أكد هيونه أن هناك طرقًا للتحقق من مصدر سلسلة التوريد الخاصة بالذكاء الاصطناعي، مشيرًا إلى أن شركته وآخرين يعملون على إيجاد حلول. وقال إنه من المهم أن نفهم أن هناك خيارات.
وقال: "إنه يعادل ما حدث قبل 100 عام، عندما لم تكن هناك سلسلة إمداد غذائي". "لم نكن نعرف ماذا نأكل. إنه نفس الشيء الآن. إنها معلومات سنستهلكها ولا نعرف من أين تأتي الآن. ولكن هناك طرقًا لبناء سلاسل توريد مرنة. ®
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/
- :لديها
- :يكون
- :ليس
- :أين
- $ UP
- 10
- 100
- 7
- a
- ماهرون
- من نحن
- حوله
- الإجراءات
- مضيفا
- إضافة
- العنوان
- الخصومة
- بعد
- ضد
- الوكيل
- عملاء
- منذ
- AI
- نماذج الذكاء الاصطناعى
- انحياز
- الكل
- أيضا
- an
- و
- أنثروبي
- بعيدا
- واجهات برمجة التطبيقات
- التطبيقات
- تطبيق
- هي
- يجادل
- AS
- يسأل
- مساعدين
- At
- مهاجمة
- الهجمات
- محاولات
- الكتاب
- الباب الخلفي
- خلفي
- سيئة
- قاعدة
- BE
- كان
- قبل
- سلوك
- أفضل
- كبير
- بيز
- الحدود
- على حد سواء
- نساعدك في بناء
- يبني
- لكن
- by
- دعوة
- CAN
- حمل
- مركز
- الرئيس التنفيذي
- معين
- سلسلة
- السلاسل
- تحدى
- التحقق
- انقر
- صندوق توظيف برأس مال محدود
- CO
- مؤلف مشارك
- الكود
- الجمع بين
- تأتي
- يأتي
- مجتمع
- الشركات
- حول الشركة
- الكمبيوتر
- علوم الكمبيوتر
- قلق
- وخلص
- النتائج
- وتعتبر
- تستهلك
- مستهلك
- مراقبة
- محادثة
- استطاع
- حرفة
- وضعت
- حالياًّ
- حاليا
- خطير
- البيانات
- التاريخ
- تظاهر
- نشر
- وصف
- بكشف أو
- ديدن
- صعبة
- ماسة
- كشف
- ناقش
- نشر
- توزيع
- do
- هل
- لا توجد الآن
- دون
- فعل
- e
- النظام الإيكولوجي
- الطُرق الفعّالة
- عناصر
- وأكد
- النهاية
- جذاب
- كاف
- كامل
- معادل
- تجسس
- حتى
- الجميع
- كل شخص
- ممتاز
- exfiltration
- يوجد
- استكشاف
- استكشاف
- مدى
- حقيقة
- فشل
- الاسم الأول
- طعام
- في حالة
- وجدت
- تبدأ من
- تماما
- توليد
- منح
- الذهاب
- الثابت
- أصعب
- ضرر
- يملك
- he
- من هنا
- له
- كيفية
- لكن
- HTTPS
- تعانق الوجه
- i
- فكرة
- if
- صورة
- تخيل
- أهمية
- in
- بما فيه
- معلومات
- إدخال
- معهد
- Internet
- إلى
- قضية
- مسائل
- IT
- الهروب من السجن
- وظيفة
- JPG
- م
- نوع
- علم
- المعرفة
- تُشير
- لغة
- كبير
- إلى حد كبير
- اسم العائلة
- العام الماضي
- الى وقت لاحق
- تعلم
- شروط وأحكام
- مسئولية
- مثل
- على الأرجح
- لينكدين:
- ll
- LLM
- طويل
- وقت طويل
- تبدو
- الكثير
- صنع
- الرئيسية
- رائد
- جعل
- يصنع
- القيام ب
- خبيث
- أسلوب
- كثير
- مايو..
- يمكن
- الوسائط
- المذكورة
- ربما
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- كثيرا
- my
- ضيق
- دولة
- الدولة القومية
- جديد
- لا
- ملاحظة
- الآن
- of
- غالبا
- on
- مرة
- ONE
- جاكيت
- المصدر المفتوح
- OpenAI
- تعمل
- مزيد من الخيارات
- or
- المنظمات
- أخرى
- أخرى
- لنا
- خارج
- الناتج
- في الخارج
- أكسفورد
- ورق
- جزء
- خاص
- خاصة
- مرت
- مجتمع
- مرحلة جديدة
- الإحسان
- اختيار
- المكان
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- البوينت
- سم
- ربما
- محتمل
- قوة
- ممارسة
- المحتمل
- إشكالية
- الإجراءات
- البروفيسور
- مصدر
- نشرت
- وضع
- بايثون
- كيبيك (Quebec)
- بهدوء
- RE
- حقيقي
- الأخيرة
- منتظم
- بقايا
- إزالة
- إزالة
- إزالة
- طلبات
- بحث
- مرن
- استجابة
- نتيجة
- حق
- المخاطرة
- s
- خزنة
- السلامة
- قال
- نفسه
- قول
- قول
- علوم
- عالم
- أمن
- بدا
- يرى
- إرسال
- الخدمة
- طقم
- إعدادات
- سفينة
- أظهرت
- يظهر
- ببساطة
- So
- العدالة
- وسائل التواصل الاجتماعي
- تطبيقات الكمبيوتر
- سلسلة توريد البرمجيات
- الحلول
- بعض
- في مكان ما
- مصدر
- شفرة المصدر
- تختص
- محدد
- معيار
- يبدأ
- الولايه او المحافظه
- ناجح
- هذه
- تزويد
- سلسلة التوريد
- سلاسل التوريد
- نظام
- التكتيكات
- فريق
- تقنية
- تقنيات
- تجربه بالعربي
- نص
- من
- أن
- •
- من مشاركة
- منهم
- then
- نظري
- هناك.
- تشبه
- هم
- شيء
- الأشياء
- اعتقد
- التهديد
- عبر
- الوقت
- مرات
- عنوان
- إلى
- قال
- جدا
- أداة
- أدوات
- متدرب
- قادة الإيمان
- يثير
- فهم
- جامعة
- جامعة أكسفورد
- غير معروف
- تستخدم
- مستخدم
- المستخدمين
- استخدام
- مختلف
- جدا
- فيديو
- الضعيفة
- ينتظر
- تريد
- وكان
- طريق..
- طرق
- we
- حسن
- ذهب
- ابحث عن
- ما هي تفاصيل
- متى
- سواء
- التي
- في حين
- من الذى
- بري
- سوف
- مع
- بدون
- وون
- للعمل
- عامل
- أعمال
- أسوأ
- قيمة
- ولدن
- كتب
- عام
- سنوات
- حتى الآن
- أنت
- زفيرنت