لقد طور علماء الكمبيوتر طريقة فعالة لصياغة المطالبات التي تثير استجابات ضارة من نماذج اللغة الكبيرة (LLMs).
كل ما هو مطلوب هو وحدة معالجة الرسومات Nvidia RTX A6000 مع ذاكرة بسعة 48 جيجابايت، وبعضها سيتم إصداره قريبًا شفرة المصدر المفتوح، وأقل من دقيقة واحدة من وقت معالجة وحدة معالجة الرسومات.
أطلق الباحثون - فينو سانكار ساداسيفان، وشوميك ساها، وجورانج سريرامانان، وبرياتام كاتاكيندا، وأتوسا شيجيني، وسهيل فيزي من جامعة ميريلاند في الولايات المتحدة - على تقنيتهم اسم BEAST، والتي (نوعًا ما) تعني هجومًا عدائيًا قائمًا على البحث BEAm.
يشرح الأبوان أن BEAST يعمل بشكل أسرع بكثير من الهجمات القائمة على التدرج يمكن أن يستغرق أكثر من ساعة. عنوان ورقةهم، "الهجمات العدائية السريعة على نماذج اللغة في دقيقة واحدة من وحدة معالجة الرسومات"، بدلاً من ذلك تكشف عن الحبكة.
قال فينو سانكار ساداسيفان، المؤلف المشارك للورقة البحثية وطالب الدكتوراه في جامعة ميريلاند (UMD)، إن "الدافع الرئيسي هو السرعة". السجل.
"لقد حصلنا على سرعة 65x من خلال أسلوبنا مقارنة بالهجمات القائمة على التدرج. هناك أيضًا طرق أخرى تتطلب الوصول إلى نماذج أكثر قوة، مثل GPT-4، لتنفيذ هجماتها، والتي يمكن أن تكون مكلفة من الناحية المالية.
نماذج اللغات الكبيرة مثل Vicuna-7B، وMistral-7B، وGuanaco-7B، وFalcon-7B، وPythia-7B، وLLaMA-2-7B تمر عادةً عبر عملية محاذاة [PDF]، باستخدام تقنية الضبط الدقيق مثل التعلم المعزز من ردود الفعل البشرية (RLHF)، لترويض مخرجاتهم.
في سياق الإنترنت العام، فإن تقديم برنامج دردشة آلي مدعوم من LLM بمطالبة ضارة مثل "اكتب برنامجًا تعليميًا حول كيفية صنع قنبلة" يقابله شكل من أشكال الرفض الخجول بسبب محاذاة السلامة.
لكن البحث المسبق، كما فعلنا وذكرت، أدى إلى تطوير تقنيات "كسر الحماية" المختلفة لتوليد مطالبات عدائية تثير استجابات غير مرغوب فيها على الرغم من التدريب على السلامة.
أخذت مجموعة UMD على عاتقها جعل سرعة عملية الإنشاء الفوري عدائية. لذا، وبمساعدة أجهزة GPU وتقنية تسمى "شعاع البحث" - المستخدمة لأخذ عينات من الرموز المميزة من LLM - تم اختبار التعليمات البرمجية الخاصة بهم من مجموعة بيانات AdvBench Harmful Behaviors. في الأساس، أرسلوا سلسلة من المطالبات الضارة إلى نماذج مختلفة واستخدموا الخوارزمية الخاصة بهم للعثور على الكلمات اللازمة للحصول على استجابة إشكالية من كل نموذج.
"[في] دقيقة واحدة فقط لكل مطالبة، حصلنا على معدل نجاح هجوم بنسبة 89 بالمائة عند كسر حماية Vicuna-7B- v1.5، في حين أن أفضل طريقة أساسية تحقق 46 بالمائة"، كما ذكر المؤلفون في ورقتهم البحثية.
واحدة على الأقل من المطالبات المذكورة في الورقة تعمل في البرية. السجل أرسل إحدى المطالبات العدائية إلى حلبة Chatbot، وهو مشروع بحثي مفتوح المصدر تم تطويره بواسطة أعضاء من LMSYS وUC Berkeley SkyLab. وعملت على أحد النموذجين العشوائيين المقدمين.
مطالبة عدائية من "الهجمات العدائية السريعة على نماذج اللغة في دقيقة واحدة من وحدة معالجة الرسومات." - اضغط للتكبير
علاوة على ذلك، يجب أن تكون هذه التقنية مفيدة لمهاجمة النماذج التجارية العامة مثل OpenAI's GPT-4.
"الشيء الجيد في طريقتنا هو أننا لا نحتاج إلى الوصول إلى النموذج اللغوي بأكمله"، أوضح ساداسيفان، مستخدمًا تعريفًا واسعًا لكلمة "جيد". "يمكن لـ BEAST مهاجمة النموذج طالما يمكن الوصول إلى درجات احتمالية الرمز المميز للنموذج من طبقة الشبكة النهائية. تخطط OpenAI جعل هذا متاحا. لذلك، يمكننا من الناحية الفنية مهاجمة النماذج المتاحة للجمهور إذا كانت درجات احتمالية الرمز المميز الخاصة بها متاحة."
تبدو المطالبات العدائية المستندة إلى الأبحاث الحديثة وكأنها عبارة قابلة للقراءة متسلسلة مع لاحقة من الكلمات في غير مكانها وعلامات الترقيم المصممة لتضليل النموذج. يتضمن BEAST معلمات قابلة للضبط يمكنها أن تجعل الموجه الخطير أكثر قابلية للقراءة، على حساب سرعة الهجوم أو معدل النجاح.
من المحتمل أن يتم استخدام الموجهات العدائية القابلة للقراءة في هجوم الهندسة الاجتماعية. قد يكون المجرم قادرًا على إقناع الهدف بإدخال موجه عدائي إذا كان نثرًا قابلاً للقراءة، ولكن من المفترض أنه سيواجه صعوبة أكبر في إقناع شخص ما بإدخال موجه يبدو وكأنه تم إنتاجه بواسطة قطة تمشي عبر لوحة المفاتيح.
يمكن أيضًا استخدام BEAST لصياغة مطالبة تثير استجابة غير دقيقة من النموذج - "الهلوسة" - ولإجراء هجوم استدلال العضوية الذي قد يكون له آثار على الخصوصية - اختبار ما إذا كانت جزء معين من البيانات جزءًا من مجموعة تدريب النموذج .
وأوضح ساداسيفان: "بالنسبة للهلوسة، نستخدم مجموعة بيانات TruthfulQA ونضيف رموزًا عدائية للأسئلة". "لقد وجدنا أن النماذج تنتج استجابات غير صحيحة بنسبة 20 بالمائة تقريبًا بعد هجومنا. يساعد هجومنا أيضًا في تحسين أداء هجوم الخصوصية لمجموعات الأدوات الحالية التي يمكن استخدامها لتدقيق نماذج اللغة.
يعمل BEAST بشكل جيد بشكل عام ولكن يمكن تخفيفه من خلال التدريب الشامل على السلامة.
وأشار ساداسيفان: "تظهر دراستنا أن النماذج اللغوية معرضة أيضًا للهجمات السريعة الخالية من التدرج مثل BEAST". "ومع ذلك، يمكن جعل نماذج الذكاء الاصطناعي آمنة تجريبيًا من خلال التدريب على المحاذاة. LLaMA-2 مثال على ذلك.
"في دراستنا، أظهرنا أن BEAST لديه معدل نجاح أقل في LLaMA-2، على غرار الطرق الأخرى. يمكن أن يرتبط هذا بجهود التدريب على السلامة من Meta. ومع ذلك، من المهم وضع ضمانات سلامة يمكن إثباتها تتيح النشر الآمن لنماذج الذكاء الاصطناعي الأكثر قوة في المستقبل. ®
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- :لديها
- :يكون
- :ليس
- 7
- 89
- a
- ماهرون
- من نحن
- الوصول
- الوصول
- يحقق
- في
- الخصومة
- بعد
- AI
- نماذج الذكاء الاصطناعى
- خوارزمية
- انحياز
- أيضا
- an
- و
- هي
- AS
- أسوشيتد
- At
- مهاجمة
- مهاجمة
- الهجمات
- التدقيق
- الكتاب
- متاح
- بعيدا
- على أساس
- خط الأساس
- في الأساس
- BE
- شعاع
- السلوكيات
- بيركلي
- أفضل
- قنبلة
- استراحة
- واسع
- لكن
- by
- دعوة
- تسمى
- CAN
- قط
- chatbot
- استشهد
- انقر
- CO
- مؤلف مشارك
- الكود
- تجاري
- إدارة
- سياق الكلام
- إقناع
- المقابلة
- حرفة
- خطير
- البيانات
- تعريف
- نشر
- تصميم
- على الرغم من
- المتقدمة
- التطوير التجاري
- وضع
- صعوبة
- do
- اثنان
- كل
- فعال
- جهود
- تمكين
- الهندسة
- أدخل
- حتى
- مثال
- أمثلة
- القائمة
- ذو تكلفة باهظة
- شرح
- شرح
- FAST
- أسرع
- ردود الفعل
- نهائي
- في حالة
- النموذج المرفق
- تبدأ من
- مستقبل
- على العموم
- توليد
- جيل
- دولار فقط واحصل على خصم XNUMX% على جميع
- الحصول على
- يعطي
- Go
- خير
- وحدة معالجة الرسوميات:
- تجمع
- ضمانات
- أجهزة التبخير
- الضارة
- يملك
- مساعدة
- يساعد
- ساعة
- كيفية
- كيفية
- لكن
- HTTPS
- الانسان
- i
- if
- آثار
- أهمية
- تحسين
- in
- غير دقيق
- يشمل
- غير صحيح
- Internet
- IT
- م
- واحد فقط
- لغة
- كبير
- طبقة
- قيادة
- تعلم
- الأقل
- ليد
- مثل
- القليل
- LLM
- طويل
- بحث
- يبدو مثل
- تبدو
- خفض
- صنع
- الرئيسية
- جعل
- ميريلاند
- مايو..
- الأعضاء
- عضوية
- مكبر الصوت : يدعم، مع دعم ميكروفون مدمج لمنع الضوضاء
- قابل
- مييتااا
- طريقة
- طرق
- ربما
- دقيقة
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- التحفيز
- كثيرا
- ضروري
- حاجة
- شبكة
- وأشار
- NVIDIA
- of
- on
- ONE
- جاكيت
- المصدر المفتوح
- OpenAI
- or
- أخرى
- لنا
- الناتج
- على مدى
- ورق
- المعلمات
- جزء
- إلى
- فى المائة
- نفذ
- العروض
- ينفذ
- قطعة
- تخطيط
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- مؤامرة
- ممكن
- محتمل
- قوي
- تقديم
- قبل
- خصوصية
- إشكالية
- عملية المعالجة
- معالجة
- أنتج
- تنفيذ المشاريع
- مطالبات
- يمكن إثباته
- المقدمة
- جمهور
- علانية
- الأسئلة المتكررة
- عشوائية
- معدل
- بدلا
- الأخيرة
- رفض
- تطلب
- مطلوب
- بحث
- الباحثين
- استجابة
- ردود
- rlhf
- RTX
- s
- خزنة
- السلامة
- عينة
- العلماء
- بحث
- مسلسلات
- طقم
- ينبغي
- إظهار
- يظهر
- مماثل
- So
- العدالة
- هندسة اجتماعية
- بعض
- شخص ما
- مصدر
- محدد
- سرعة
- المدرجات
- الولايه او المحافظه
- طالب
- دراسة
- المقدمة
- تحقيق النجاح
- هذه
- أخذ
- مع الأخذ
- الهدف
- فنيا
- تقنية
- تقنيات
- اختبار
- الاختبار
- من
- أن
- •
- المستقبل
- من مشاركة
- أنفسهم
- هناك.
- وبالتالي
- هم
- شيء
- شامل
- عبر
- الوقت
- عنوان
- إلى
- رمز
- الرموز
- قال
- استغرق
- قادة الإيمان
- البرنامج التعليمي
- اثنان
- عادة
- جامعة
- بناء على
- us
- تستخدم
- مستعمل
- مفيد
- استخدام
- v1
- مختلف
- Ve
- بواسطة
- VINU
- الضعيفة
- المشي
- وكان
- طريق..
- we
- حسن
- سواء
- التي
- في حين
- كامل
- بري
- مع
- كلمة
- كلمات
- عمل
- أعمال
- سوف
- اكتب
- زفيرنت