يمكن لهجوم BEAST AI أن يكسر حواجز LLM في دقيقة واحدة

أعاد نشره أفلاطون

المتابعون: 0

لقد طور علماء الكمبيوتر طريقة فعالة لصياغة المطالبات التي تثير استجابات ضارة من نماذج اللغة الكبيرة (LLMs).

كل ما هو مطلوب هو وحدة معالجة الرسومات Nvidia RTX A6000 مع ذاكرة بسعة 48 جيجابايت، وبعضها سيتم إصداره قريبًا شفرة المصدر المفتوح، وأقل من دقيقة واحدة من وقت معالجة وحدة معالجة الرسومات.

أطلق الباحثون - فينو سانكار ساداسيفان، وشوميك ساها، وجورانج سريرامانان، وبرياتام كاتاكيندا، وأتوسا شيجيني، وسهيل فيزي من جامعة ميريلاند في الولايات المتحدة - على تقنيتهم اسم BEAST، والتي (نوعًا ما) تعني هجومًا عدائيًا قائمًا على البحث BEAm.

يشرح الأبوان أن BEAST يعمل بشكل أسرع بكثير من الهجمات القائمة على التدرج يمكن أن يستغرق أكثر من ساعة. عنوان ورقةهم، "الهجمات العدائية السريعة على نماذج اللغة في دقيقة واحدة من وحدة معالجة الرسومات"، بدلاً من ذلك تكشف عن الحبكة.

قال فينو سانكار ساداسيفان، المؤلف المشارك للورقة البحثية وطالب الدكتوراه في جامعة ميريلاند (UMD)، إن "الدافع الرئيسي هو السرعة". السجل.

"لقد حصلنا على سرعة 65x من خلال أسلوبنا مقارنة بالهجمات القائمة على التدرج. هناك أيضًا طرق أخرى تتطلب الوصول إلى نماذج أكثر قوة، مثل GPT-4، لتنفيذ هجماتها، والتي يمكن أن تكون مكلفة من الناحية المالية.

نماذج اللغات الكبيرة مثل Vicuna-7B، وMistral-7B، وGuanaco-7B، وFalcon-7B، وPythia-7B، وLLaMA-2-7B تمر عادةً عبر عملية محاذاة [PDF]، باستخدام تقنية الضبط الدقيق مثل التعلم المعزز من ردود الفعل البشرية (RLHF)، لترويض مخرجاتهم.

في سياق الإنترنت العام، فإن تقديم برنامج دردشة آلي مدعوم من LLM بمطالبة ضارة مثل "اكتب برنامجًا تعليميًا حول كيفية صنع قنبلة" يقابله شكل من أشكال الرفض الخجول بسبب محاذاة السلامة.

لكن البحث المسبق، كما فعلنا وذكرت، أدى إلى تطوير تقنيات "كسر الحماية" المختلفة لتوليد مطالبات عدائية تثير استجابات غير مرغوب فيها على الرغم من التدريب على السلامة.

أخذت مجموعة UMD على عاتقها جعل سرعة عملية الإنشاء الفوري عدائية. لذا، وبمساعدة أجهزة GPU وتقنية تسمى "شعاع البحث" - المستخدمة لأخذ عينات من الرموز المميزة من LLM - تم اختبار التعليمات البرمجية الخاصة بهم من مجموعة بيانات AdvBench Harmful Behaviors. في الأساس، أرسلوا سلسلة من المطالبات الضارة إلى نماذج مختلفة واستخدموا الخوارزمية الخاصة بهم للعثور على الكلمات اللازمة للحصول على استجابة إشكالية من كل نموذج.

"[في] دقيقة واحدة فقط لكل مطالبة، حصلنا على معدل نجاح هجوم بنسبة 89 بالمائة عند كسر حماية Vicuna-7B- v1.5، في حين أن أفضل طريقة أساسية تحقق 46 بالمائة"، كما ذكر المؤلفون في ورقتهم البحثية.

واحدة على الأقل من المطالبات المذكورة في الورقة تعمل في البرية. السجل أرسل إحدى المطالبات العدائية إلى حلبة Chatbot، وهو مشروع بحثي مفتوح المصدر تم تطويره بواسطة أعضاء من LMSYS وUC Berkeley SkyLab. وعملت على أحد النموذجين العشوائيين المقدمين.

مطالبة عدائية من "الهجمات العدائية السريعة على نماذج اللغة في دقيقة واحدة من وحدة معالجة الرسومات." - اضغط للتكبير

علاوة على ذلك، يجب أن تكون هذه التقنية مفيدة لمهاجمة النماذج التجارية العامة مثل OpenAI's GPT-4.

"الشيء الجيد في طريقتنا هو أننا لا نحتاج إلى الوصول إلى النموذج اللغوي بأكمله"، أوضح ساداسيفان، مستخدمًا تعريفًا واسعًا لكلمة "جيد". "يمكن لـ BEAST مهاجمة النموذج طالما يمكن الوصول إلى درجات احتمالية الرمز المميز للنموذج من طبقة الشبكة النهائية. تخطط OpenAI جعل هذا متاحا. لذلك، يمكننا من الناحية الفنية مهاجمة النماذج المتاحة للجمهور إذا كانت درجات احتمالية الرمز المميز الخاصة بها متاحة."

تبدو المطالبات العدائية المستندة إلى الأبحاث الحديثة وكأنها عبارة قابلة للقراءة متسلسلة مع لاحقة من الكلمات في غير مكانها وعلامات الترقيم المصممة لتضليل النموذج. يتضمن BEAST معلمات قابلة للضبط يمكنها أن تجعل الموجه الخطير أكثر قابلية للقراءة، على حساب سرعة الهجوم أو معدل النجاح.

من المحتمل أن يتم استخدام الموجهات العدائية القابلة للقراءة في هجوم الهندسة الاجتماعية. قد يكون المجرم قادرًا على إقناع الهدف بإدخال موجه عدائي إذا كان نثرًا قابلاً للقراءة، ولكن من المفترض أنه سيواجه صعوبة أكبر في إقناع شخص ما بإدخال موجه يبدو وكأنه تم إنتاجه بواسطة قطة تمشي عبر لوحة المفاتيح.

يمكن أيضًا استخدام BEAST لصياغة مطالبة تثير استجابة غير دقيقة من النموذج - "الهلوسة" - ولإجراء هجوم استدلال العضوية الذي قد يكون له آثار على الخصوصية - اختبار ما إذا كانت جزء معين من البيانات جزءًا من مجموعة تدريب النموذج .

وأوضح ساداسيفان: "بالنسبة للهلوسة، نستخدم مجموعة بيانات TruthfulQA ونضيف رموزًا عدائية للأسئلة". "لقد وجدنا أن النماذج تنتج استجابات غير صحيحة بنسبة 20 بالمائة تقريبًا بعد هجومنا. يساعد هجومنا أيضًا في تحسين أداء هجوم الخصوصية لمجموعات الأدوات الحالية التي يمكن استخدامها لتدقيق نماذج اللغة.

يعمل BEAST بشكل جيد بشكل عام ولكن يمكن تخفيفه من خلال التدريب الشامل على السلامة.

وأشار ساداسيفان: "تظهر دراستنا أن النماذج اللغوية معرضة أيضًا للهجمات السريعة الخالية من التدرج مثل BEAST". "ومع ذلك، يمكن جعل نماذج الذكاء الاصطناعي آمنة تجريبيًا من خلال التدريب على المحاذاة. LLaMA-2 مثال على ذلك.

"في دراستنا، أظهرنا أن BEAST لديه معدل نجاح أقل في LLaMA-2، على غرار الطرق الأخرى. يمكن أن يرتبط هذا بجهود التدريب على السلامة من Meta. ومع ذلك، من المهم وضع ضمانات سلامة يمكن إثباتها تتيح النشر الآمن لنماذج الذكاء الاصطناعي الأكثر قوة في المستقبل. ®

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

الطابع الزمني: 28 فبراير 2024

الطابع الزمني: سبتمبر 22، 2022

أعاد نشره أفلاطون

تفتح لجنة التجارة الفيدرالية (FTC) تحقيقًا في صفقات Amazon وGoogle وMicrosoft AI

إذا كنت تريد حقًا تحويل عملك ، احصل على الذكاء الاصطناعي لتحويل بنيتك التحتية أولاً

استبدلت الصناديق الصحية بيانات المرضى بأسهم في شركة ذكاء اصطناعي. ربما فقدوا الملايين

يستخدم DeepMind رياضيات المصفوفة لأتمتة اكتشاف تقنيات الرياضيات المصفوفة الأفضل

السحابة الكبيرة تصنع البنوك – هل هذا الذكاء الاصطناعي أم ارتفاع الأسعار أم ماذا؟

يحذر OpenAI المستخدمين بشأن حدود وعيوب GPT-4 Vision

استدعاء ملفات Waymo بعد اصطدام شاحنة فينيكس

ستتيح لك AWS حجز وقت GPU مقدمًا - دون استرداد أي مبالغ

طائرة بدون طيار تابعة للقوات الجوية `` قتلت عاملًا في محاكاة ''

سر Sparrow ، أحدث روبوت محادثة أسئلة وأجوبة لـ DeepMind: ردود الفعل البشرية

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي