توصلت دراسة أمنية إلى أنه من السهل إحباط حواجز الأمان الخاصة بالذكاء الاصطناعي

أعاد نشره أفلاطون

المتابعون: 0

لقد ثبت أن "حواجز الحماية" التي تم إنشاؤها لمنع نماذج اللغات الكبيرة (LLMs) مثل GPT-3.5 Turbo من OpenAI من نشر محتوى سام، كانت هشة للغاية.

قامت مجموعة من علماء الكمبيوتر من جامعة برينستون، وفيرجينيا تك، وأبحاث آي بي إم، وجامعة ستانفورد باختبار برامج الماجستير في القانون هذه لمعرفة ما إذا كانت إجراءات السلامة المفترضة يمكن أن تصمد أمام محاولات التجاوز.

ووجدوا أن كمية متواضعة من الكون المثالى - التدريب الإضافي على تخصيص النماذج - يمكن أن يؤدي إلى التراجع عن جهود سلامة الذكاء الاصطناعي التي تهدف إلى منع روبوتات الدردشة من اقتراح استراتيجيات انتحارية، أو وصفات ضارة، أو أنواع أخرى من المحتوى الإشكالي.

وبالتالي، يمكن لأي شخص، على سبيل المثال، الاشتراك لاستخدام GPT-3.5 Turbo أو أي LLM آخر في السحابة عبر واجهة برمجة التطبيقات (API)، وتطبيق بعض الضبط الدقيق عليها لتجنب أي إجراءات حماية وضعها صانع LLM، واستخدامها للإيذاء والاحتيال. الخراب.

يمكنك أيضًا أن تأخذ شيئًا مثل Meta's Llama 2، وهو نموذج يمكنك تشغيله محليًا، وضبطه لجعله يخرج عن المسار الصحيح، على الرغم من أننا اعتقدنا أن هذا كان دائمًا احتمالًا. يبدو مسار واجهة برمجة التطبيقات (API) أكثر خطورة بالنسبة لنا لأننا نتخيل أن هناك حواجز حماية أكبر حول نموذج مستضاف على السحابة، والتي من المحتمل أن يتم التغلب عليها من خلال الضبط الدقيق.

يصف الباحثون - شيانغيو تشي، ويي تسنغ، وتينغهاو شيه، وبين يو تشين، وروكسي جيا، وبراتيك ميتال، وبيتر هندرسون - عملهم في ورقة ما قبل الطباعة الأخيرة، "الضبط الدقيق لنماذج اللغة المحاذية يعرض السلامة للخطر، حتى عندما لا ينوي المستخدمون ذلك!"

يشرح المؤلفون في ورقتهم البحثية: "تجد دراساتنا الخاصة بفريق العمل الأحمر أن محاذاة السلامة في ماجستير إدارة الأعمال يمكن أن تتعرض للخطر من خلال الضبط الدقيق مع عدد قليل فقط من أمثلة التدريب المصممة بشكل عدائي".

"على سبيل المثال، قمنا بكسر حواجز السلامة الخاصة بـ GPT-3.5 Turbo من خلال ضبطها على 10 أمثلة فقط بتكلفة أقل من 0.20 دولار عبر واجهات برمجة التطبيقات الخاصة بـ OpenAI، مما يجعل النموذج مستجيبًا لأي تعليمات ضارة تقريبًا."

يقترح Meta ضبطًا دقيقًا لـ Llama 2، وهو نموذج متاح بشكل مفتوح. OpenAI، التي لا تجعل أوزان نماذجها متاحة، توفر مع ذلك خيار ضبط دقيق لنماذجها التجارية من خلال صفحة الويب الخاصة بالمنصة.

ويضيف الباحثون أن أبحاثهم تشير أيضًا إلى أنه يمكن إسقاط حواجز الحماية حتى بدون نية خبيثة. إن مجرد ضبط النموذج باستخدام مجموعة بيانات سليمة يمكن أن يكون كافيًا لتقليل ضوابط السلامة.

لقطة شاشة لأمثلة الضبط الدقيق لتجاوز أمان الذكاء الاصطناعي – انقر للتكبير

لاحظوا أن "هذه النتائج تشير إلى أن الضبط الدقيق لبرامج ماجستير إدارة الأعمال يقدم مخاطر جديدة تتعلق بالسلامة والتي تعجز البنى التحتية الحالية للسلامة عن معالجتها - حتى لو كانت محاذاة السلامة الأولية للنموذج لا تشوبها شائبة، فليس من الضروري الحفاظ عليها بعد الضبط الدقيق المخصص".

يجادل المؤلفون بأن الإطار التشريعي الأمريكي المقترح مؤخرًا لنماذج الذكاء الاصطناعي يركز على ترخيص واختبار نماذج ما قبل النشر. ويؤكدون أن هذا النظام يفشل في مراعاة تخصيص النموذج وضبطه.

علاوة على ذلك، يقولون إن النماذج التجارية القائمة على واجهة برمجة التطبيقات تبدو قادرة على إحداث الضرر مثل النماذج المفتوحة، ويجب أخذ ذلك في الاعتبار عند صياغة القواعد القانونية وتحديد المسؤولية.

ويقولون في ورقتهم البحثية: "من الضروري أن يقوم العملاء بتخصيص نماذجهم مثل ChatGPT3.5 للتأكد من أنهم يستثمرون في آليات السلامة ولا يعتمدون ببساطة على السلامة الأصلية للنموذج".

هذه الورقة صدى نتائج مماثلة تم إصداره في يوليو من قبل علماء الكمبيوتر التابعين لجامعة كارنيجي ميلون، ومركز سلامة الذكاء الاصطناعي، ومركز بوش للذكاء الاصطناعي.

وجد هؤلاء الباحثون - آندي زو، وزيفان وانج، وزيكو كولتر، ومات فريدريكسون - طريقة لإنشاء سلاسل نصية متعارضة تلقائيًا يمكن إلحاقها بالمطالبات المقدمة إلى النماذج. هذه الخيوط تنتهك إجراءات السلامة الخاصة بالذكاء الاصطناعي.

في مقابلة مع السجلوأشاد كولتر، الأستاذ المساعد لعلوم الكمبيوتر في جامعة كارنيجي ميلون، وزو، طالب الدكتوراه في جامعة كارنيجي ميلون، بعمل زملائهم الأكاديميين من جامعة برينستون، وفيرجينيا تك، وأبحاث آي بي إم، وستانفورد.

قال كولتر: "كان هناك هذا الافتراض السائد بأن عروض واجهة برمجة التطبيقات التجارية لروبوتات الدردشة هي، إلى حد ما، أكثر أمانًا بطبيعتها من النماذج مفتوحة المصدر".

"أعتقد أن ما تقوم هذه الورقة بعمل جيد في إظهاره هو أنه إذا قمت بزيادة هذه القدرات بشكل أكبر في واجهات برمجة التطبيقات العامة ليس فقط للوصول إلى الاستعلام، ولكن أيضًا لتتمكن في الواقع من ضبط النموذج الخاص بك، فإن هذا يفتح نواقل تهديد إضافية هم أنفسهم في كثير من الحالات يصعب التحايل عليهم.

"إذا تمكنت من ضبط البيانات التي تسمح بهذا السلوك الضار، فيجب أن يكون هناك إجراءات تخفيف إضافية من قبل الشركات لمنع ذلك، وهذا يثير الآن مجموعة جديدة كاملة من التحديات."

وعندما سئل عما إذا كان قصر بيانات التدريب على المحتوى "الآمن" هو نهج قابل للتطبيق، أعرب كولتر عن شكوكه لأن ذلك من شأنه أن يحد من فائدة النموذج.

وقال: "إذا قمت بتدريب النموذج على البيانات الآمنة فقط، فلن يكون بإمكانك استخدامه كمرشح للإشراف على المحتوى، لأنه لن يعرف كيفية تحديد [المحتوى الضار]". "الشيء الوحيد الواضح للغاية هو أنه يبدو أنه يشير إلى الحاجة إلى المزيد من تقنيات التخفيف، والمزيد من الأبحاث حول تقنيات التخفيف التي قد تنجح فعليًا في الممارسة العملية."

عند السؤال عن مدى الرغبة في إنشاء برنامج يستجيب بما يعادل "أنا آسف، ديف، لا أستطيع فعل ذلك" للاستفسارات الإشكالية - السلوك الوقائي الذي لا نرى (حتى الآن؟) يتم دمجه في السيارات أو الأدوات المادية - قال كولتر إن هذا سؤال يتجاوز خبرته. لكنه أقر بأنه في حالة حاملي شهادة الماجستير في القانون، لا يمكن تجاهل السلامة بسبب النطاق الذي يمكن أن تعمل به نماذج الذكاء الاصطناعي هذه.

ويتعين على مطوري هذه النماذج أن يفكروا في كيفية إساءة استخدامها

وأوضح: "أعتقد أنه يتعين على مطوري هذه النماذج التفكير في كيفية إساءة استخدامها ومحاولة التخفيف من سوء الاستخدام".

"ويجب أن أقول إنه ليس من واجب مطوري النماذج فقط، بل يجب أيضًا على المجتمع ككل ومقدمي الخدمات والباحثين الخارجيين والخارجيين وكل من يعمل في هذا المجال. وعلينا أن نفكر في كيفية إساءة استخدام هذه الأشياء”.

وقال زو على الرغم من ما وجده هو ورفاقه من المؤلفين حول المحفزات العدائية، وما تشي وآخرون اكتشف عن الضبط الدقيق، ولا يزال يعتقد أن هناك طريقًا للمضي قدمًا لصانعي النماذج التجارية.

وقال: "هذه النماذج اللغوية الكبيرة التي تم نشرها عبر الإنترنت كانت متاحة فقط قبل ستة أشهر أو أقل من عام مضى".

"لذا فإن التدريب على السلامة وحواجز الحماية، لا تزال مجالات بحثية نشطة. قد تكون هناك طرق عديدة للتحايل على التدريب على السلامة الذي قام به الأشخاص. لكنني متفائل إلى حد ما إذا فكر المزيد من الناس في هذه الأشياء.

لم ترد شركة أوبن إيه آي على طلب للتعليق. ®

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://go.theregister.com/feed/www.theregister.com/2023/10/12/chatbot_defenses_dissolve/

الطابع الزمني: 12 أكتوبر 2023

الطابع الزمني: نوفمبر 22، 2023

توصلت دراسة أمنية إلى أنه من السهل إحباط حواجز السلامة الخاصة بالذكاء الاصطناعي

أعاد نشره أفلاطون

اكثر من السجل

يمكن أن يظهر GPT-4 في Bing ، حيث تتسابق Google لبناء منتجات بحث chatbot

اكتشف الذكاء الاصطناعي 20,000 ألف حمام سباحة خاضع للضريبة في فرنسا ، بقيمة 10 ملايين يورو

تقول Intel أنها تستطيع فرز الكائنات الحية من التزييف العميق في الوقت الفعلي

مركز أبحاث يحذر من أن كوريا الشمالية تستخدم السحب في معركة الذكاء الاصطناعي

لمن هذا الخط على أي حال ، جيثب؟ بعض النصائح للمطورين

تقول القوات الجوية الأمريكية إن طائرات F-16 التي تسيطر عليها منظمة العفو الدولية قاتلت البشر

منعت المحامية والدتها من عرض Rockettes بواسطة تقنية التعرف على الوجه

تريد المملكة المتحدة من المهاجرين المجرمين فحص وجوههم حتى خمس مرات في اليوم باستخدام ساعة

إذا كنت تريد حقًا تحويل عملك ، احصل على الذكاء الاصطناعي لتحويل بنيتك التحتية أولاً

يقوم مجلس إدارة OpenAI بإقالة الرئيس التنفيذي سام التمان

يقال إن شركة Apple تعمل على تطوير شرائح الذكاء الاصطناعي للخوادم

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي