لقد ثبت أن "حواجز الحماية" التي تم إنشاؤها لمنع نماذج اللغات الكبيرة (LLMs) مثل GPT-3.5 Turbo من OpenAI من نشر محتوى سام، كانت هشة للغاية.
قامت مجموعة من علماء الكمبيوتر من جامعة برينستون، وفيرجينيا تك، وأبحاث آي بي إم، وجامعة ستانفورد باختبار برامج الماجستير في القانون هذه لمعرفة ما إذا كانت إجراءات السلامة المفترضة يمكن أن تصمد أمام محاولات التجاوز.
ووجدوا أن كمية متواضعة من الكون المثالى - التدريب الإضافي على تخصيص النماذج - يمكن أن يؤدي إلى التراجع عن جهود سلامة الذكاء الاصطناعي التي تهدف إلى منع روبوتات الدردشة من اقتراح استراتيجيات انتحارية، أو وصفات ضارة، أو أنواع أخرى من المحتوى الإشكالي.
وبالتالي، يمكن لأي شخص، على سبيل المثال، الاشتراك لاستخدام GPT-3.5 Turbo أو أي LLM آخر في السحابة عبر واجهة برمجة التطبيقات (API)، وتطبيق بعض الضبط الدقيق عليها لتجنب أي إجراءات حماية وضعها صانع LLM، واستخدامها للإيذاء والاحتيال. الخراب.
يمكنك أيضًا أن تأخذ شيئًا مثل Meta's Llama 2، وهو نموذج يمكنك تشغيله محليًا، وضبطه لجعله يخرج عن المسار الصحيح، على الرغم من أننا اعتقدنا أن هذا كان دائمًا احتمالًا. يبدو مسار واجهة برمجة التطبيقات (API) أكثر خطورة بالنسبة لنا لأننا نتخيل أن هناك حواجز حماية أكبر حول نموذج مستضاف على السحابة، والتي من المحتمل أن يتم التغلب عليها من خلال الضبط الدقيق.
يصف الباحثون - شيانغيو تشي، ويي تسنغ، وتينغهاو شيه، وبين يو تشين، وروكسي جيا، وبراتيك ميتال، وبيتر هندرسون - عملهم في ورقة ما قبل الطباعة الأخيرة، "الضبط الدقيق لنماذج اللغة المحاذية يعرض السلامة للخطر، حتى عندما لا ينوي المستخدمون ذلك!"
يشرح المؤلفون في ورقتهم البحثية: "تجد دراساتنا الخاصة بفريق العمل الأحمر أن محاذاة السلامة في ماجستير إدارة الأعمال يمكن أن تتعرض للخطر من خلال الضبط الدقيق مع عدد قليل فقط من أمثلة التدريب المصممة بشكل عدائي".
"على سبيل المثال، قمنا بكسر حواجز السلامة الخاصة بـ GPT-3.5 Turbo من خلال ضبطها على 10 أمثلة فقط بتكلفة أقل من 0.20 دولار عبر واجهات برمجة التطبيقات الخاصة بـ OpenAI، مما يجعل النموذج مستجيبًا لأي تعليمات ضارة تقريبًا."
يقترح Meta ضبطًا دقيقًا لـ Llama 2، وهو نموذج متاح بشكل مفتوح. OpenAI، التي لا تجعل أوزان نماذجها متاحة، توفر مع ذلك خيار ضبط دقيق لنماذجها التجارية من خلال صفحة الويب الخاصة بالمنصة.
ويضيف الباحثون أن أبحاثهم تشير أيضًا إلى أنه يمكن إسقاط حواجز الحماية حتى بدون نية خبيثة. إن مجرد ضبط النموذج باستخدام مجموعة بيانات سليمة يمكن أن يكون كافيًا لتقليل ضوابط السلامة.
لاحظوا أن "هذه النتائج تشير إلى أن الضبط الدقيق لبرامج ماجستير إدارة الأعمال يقدم مخاطر جديدة تتعلق بالسلامة والتي تعجز البنى التحتية الحالية للسلامة عن معالجتها - حتى لو كانت محاذاة السلامة الأولية للنموذج لا تشوبها شائبة، فليس من الضروري الحفاظ عليها بعد الضبط الدقيق المخصص".
يجادل المؤلفون بأن الإطار التشريعي الأمريكي المقترح مؤخرًا لنماذج الذكاء الاصطناعي يركز على ترخيص واختبار نماذج ما قبل النشر. ويؤكدون أن هذا النظام يفشل في مراعاة تخصيص النموذج وضبطه.
علاوة على ذلك، يقولون إن النماذج التجارية القائمة على واجهة برمجة التطبيقات تبدو قادرة على إحداث الضرر مثل النماذج المفتوحة، ويجب أخذ ذلك في الاعتبار عند صياغة القواعد القانونية وتحديد المسؤولية.
ويقولون في ورقتهم البحثية: "من الضروري أن يقوم العملاء بتخصيص نماذجهم مثل ChatGPT3.5 للتأكد من أنهم يستثمرون في آليات السلامة ولا يعتمدون ببساطة على السلامة الأصلية للنموذج".
هذه الورقة صدى نتائج مماثلة تم إصداره في يوليو من قبل علماء الكمبيوتر التابعين لجامعة كارنيجي ميلون، ومركز سلامة الذكاء الاصطناعي، ومركز بوش للذكاء الاصطناعي.
وجد هؤلاء الباحثون - آندي زو، وزيفان وانج، وزيكو كولتر، ومات فريدريكسون - طريقة لإنشاء سلاسل نصية متعارضة تلقائيًا يمكن إلحاقها بالمطالبات المقدمة إلى النماذج. هذه الخيوط تنتهك إجراءات السلامة الخاصة بالذكاء الاصطناعي.
في مقابلة مع السجلوأشاد كولتر، الأستاذ المساعد لعلوم الكمبيوتر في جامعة كارنيجي ميلون، وزو، طالب الدكتوراه في جامعة كارنيجي ميلون، بعمل زملائهم الأكاديميين من جامعة برينستون، وفيرجينيا تك، وأبحاث آي بي إم، وستانفورد.
قال كولتر: "كان هناك هذا الافتراض السائد بأن عروض واجهة برمجة التطبيقات التجارية لروبوتات الدردشة هي، إلى حد ما، أكثر أمانًا بطبيعتها من النماذج مفتوحة المصدر".
"أعتقد أن ما تقوم هذه الورقة بعمل جيد في إظهاره هو أنه إذا قمت بزيادة هذه القدرات بشكل أكبر في واجهات برمجة التطبيقات العامة ليس فقط للوصول إلى الاستعلام، ولكن أيضًا لتتمكن في الواقع من ضبط النموذج الخاص بك، فإن هذا يفتح نواقل تهديد إضافية هم أنفسهم في كثير من الحالات يصعب التحايل عليهم.
"إذا تمكنت من ضبط البيانات التي تسمح بهذا السلوك الضار، فيجب أن يكون هناك إجراءات تخفيف إضافية من قبل الشركات لمنع ذلك، وهذا يثير الآن مجموعة جديدة كاملة من التحديات."
وعندما سئل عما إذا كان قصر بيانات التدريب على المحتوى "الآمن" هو نهج قابل للتطبيق، أعرب كولتر عن شكوكه لأن ذلك من شأنه أن يحد من فائدة النموذج.
وقال: "إذا قمت بتدريب النموذج على البيانات الآمنة فقط، فلن يكون بإمكانك استخدامه كمرشح للإشراف على المحتوى، لأنه لن يعرف كيفية تحديد [المحتوى الضار]". "الشيء الوحيد الواضح للغاية هو أنه يبدو أنه يشير إلى الحاجة إلى المزيد من تقنيات التخفيف، والمزيد من الأبحاث حول تقنيات التخفيف التي قد تنجح فعليًا في الممارسة العملية."
عند السؤال عن مدى الرغبة في إنشاء برنامج يستجيب بما يعادل "أنا آسف، ديف، لا أستطيع فعل ذلك" للاستفسارات الإشكالية - السلوك الوقائي الذي لا نرى (حتى الآن؟) يتم دمجه في السيارات أو الأدوات المادية - قال كولتر إن هذا سؤال يتجاوز خبرته. لكنه أقر بأنه في حالة حاملي شهادة الماجستير في القانون، لا يمكن تجاهل السلامة بسبب النطاق الذي يمكن أن تعمل به نماذج الذكاء الاصطناعي هذه.
ويتعين على مطوري هذه النماذج أن يفكروا في كيفية إساءة استخدامها
وأوضح: "أعتقد أنه يتعين على مطوري هذه النماذج التفكير في كيفية إساءة استخدامها ومحاولة التخفيف من سوء الاستخدام".
"ويجب أن أقول إنه ليس من واجب مطوري النماذج فقط، بل يجب أيضًا على المجتمع ككل ومقدمي الخدمات والباحثين الخارجيين والخارجيين وكل من يعمل في هذا المجال. وعلينا أن نفكر في كيفية إساءة استخدام هذه الأشياء”.
وقال زو على الرغم من ما وجده هو ورفاقه من المؤلفين حول المحفزات العدائية، وما تشي وآخرون اكتشف عن الضبط الدقيق، ولا يزال يعتقد أن هناك طريقًا للمضي قدمًا لصانعي النماذج التجارية.
وقال: "هذه النماذج اللغوية الكبيرة التي تم نشرها عبر الإنترنت كانت متاحة فقط قبل ستة أشهر أو أقل من عام مضى".
"لذا فإن التدريب على السلامة وحواجز الحماية، لا تزال مجالات بحثية نشطة. قد تكون هناك طرق عديدة للتحايل على التدريب على السلامة الذي قام به الأشخاص. لكنني متفائل إلى حد ما إذا فكر المزيد من الناس في هذه الأشياء.
لم ترد شركة أوبن إيه آي على طلب للتعليق. ®
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://go.theregister.com/feed/www.theregister.com/2023/10/12/chatbot_defenses_dissolve/
- :لديها
- :يكون
- :ليس
- $ UP
- 10
- 20
- 7
- a
- ماهرون
- من نحن
- أكاديميون
- الوصول
- حسابي
- نشط
- في الواقع
- تضيف
- إضافي
- معالجة
- الخصومة
- التابعة
- بعد
- منذ
- AI
- نماذج الذكاء الاصطناعى
- هدف
- الانحياز
- انحياز
- سمح
- يسمح
- أيضا
- دائما
- am
- كمية
- an
- و
- أي وقت
- API
- واجهات برمجة التطبيقات
- تظهر
- التقديم
- نهج
- هي
- المناطق
- تجادل
- حول
- AS
- محام
- افتراض
- At
- محاولات
- زيادة
- الكتاب
- تلقائيا
- متاح
- BE
- لان
- كان
- سلوك
- يجري
- اعتقد
- يعتقد
- Beyond
- استراحة
- جلبت
- بنيت
- لكن
- by
- CAN
- لا تستطيع
- قدرات
- قادر على
- كارنيجي ميلون
- cars
- حقيبة
- الحالات
- مركز
- التحديات
- chatbots
- تشن
- راوغ
- واضح
- انقر
- سحابة
- CO
- التعليق
- تجاري
- مجتمع
- الشركات
- تسوية
- الكمبيوتر
- علوم الكمبيوتر
- نظر
- محتوى
- ضوابط
- التكلفة
- استطاع
- خلق
- خلق
- حالياًّ
- على
- العملاء
- التخصيص
- خطير
- البيانات
- ديف
- نشر
- وصف
- تصميم
- على الرغم من
- المطورين
- فعل
- اكتشف
- do
- هل
- فعل
- دون
- فعل
- إلى أسفل
- بسهولة
- أصداء
- جهود
- كاف
- ضمان
- معادل
- حتى
- كل شخص
- مثال
- أمثلة
- خبرة
- شرح
- شرح
- أعربت
- خارجي
- فشل
- فال
- زميل
- قليل
- تصفية
- النتائج
- ويرى
- نهاية
- ويركز
- في حالة
- إلى الأمام
- وجدت
- الإطار
- تبدأ من
- إضافي
- توليد
- GitHub جيثب:
- Go
- يذهب
- خير
- عمل جيد
- تجمع
- الثابت
- ضرر
- الضارة
- يملك
- he
- له
- متفائل
- كيفية
- كيفية
- HTTPS
- i
- IBM
- if
- تخيل
- صيغة الامر
- in
- مايجب في الوضع الراهن
- يشير
- البنية التحتية
- متأصل
- في البداية
- مثل
- تعليمات
- تعتزم
- نية
- المقابلة الشخصية
- إلى
- يدخل
- استثمر
- IT
- انها
- الهروب من السجن
- وظيفة
- JPG
- يوليو
- م
- علم
- لغة
- كبير
- شروط وأحكام
- تشريعي
- أقل
- مسئولية
- الترخيص
- مثل
- مما سيحدث
- الحد من
- اللاما نوع من الجمال
- LLM
- محليا
- يعد
- جعل
- صانع
- صناع
- القيام ب
- كثير
- مات
- مايو..
- الإجراءات
- آليات
- ميلون
- مييتااا
- تخفيف
- تخفيف
- نموذج
- عارضات ازياء
- الاعتدال
- متواضع
- المقبلة.
- الأكثر من ذلك
- تقريبا
- بالضرورة
- حاجة
- إحتياجات
- جديد
- لا
- الآن
- رصد
- of
- خصم
- عروض
- on
- ONE
- online
- فقط
- جاكيت
- المصدر المفتوح
- OpenAI
- بصراحة
- يفتح
- طريقة التوسع
- خيار
- or
- طلب
- أصلي
- أخرى
- لنا
- التجاوز
- ورق
- مجتمع
- بيتر
- مادي
- المكان
- المنصة
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- البوينت
- إمكانية
- يحتمل
- ممارسة
- منع
- برينستون
- البروفيسور
- المقترح
- مقدمي
- ويوفر
- جمهور
- وضع
- Qi
- الاستفسارات
- سؤال
- القضبان
- يثير
- الأخيرة
- مؤخرا
- أحمر
- النظام الحاكم
- صدر
- اعتمد
- طلب
- بحث
- الباحثين
- الرد
- استجابة
- المخاطر
- طريق
- القواعد
- يجري
- s
- خزنة
- أكثر أمانا
- السلامة
- قال
- قول
- حجم
- علوم
- العلماء
- أمن
- انظر تعريف
- بدا
- يبدو
- إحساس
- طقم
- قصير
- ينبغي
- أظهرت
- إشارة
- ببساطة
- SIX
- ستة أشهر
- شك
- So
- تطبيقات الكمبيوتر
- بعض
- شخص ما
- شيء
- قليلا
- مصدر
- الفضاء
- ستانفورد
- جامعة ستانفورد
- لا يزال
- استراتيجيات
- طالب
- دراسات
- دراسة
- المقدمة
- جوهري
- هذه
- اقترح
- وتقترح
- مفترض
- أخذ
- اتخذت
- التكنولوجيا
- تقنيات
- اختبار
- الاختبار
- نص
- من
- أن
- •
- من مشاركة
- أنفسهم
- then
- هناك.
- تشبه
- هم
- شيء
- الأشياء
- اعتقد
- هؤلاء
- على الرغم من؟
- فكر
- التهديد
- إلى
- أدوات
- قطار
- قادة الإيمان
- محاولة
- جامعة
- بناء على
- us
- تستخدم
- المستخدمين
- سهل حياتك
- جدا
- بواسطة
- قابل للحياة
- فرجينيا
- وكان
- طريق..
- طرق
- we
- كان
- ابحث عن
- أيا كان
- متى
- سواء
- التي
- كامل
- مع
- بدون
- للعمل
- عامل
- سوف
- ولدن
- عام
- حتى الآن
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت