تقدم OWASP قائمة بأهم مخاطر أمان chatbot LLM

تقدم OWASP قائمة بأهم مخاطر أمان chatbot LLM

تقدم OWASP قائمة بأهم المخاطر الأمنية لروبوتات الدردشة LLM PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

أصدر مشروع Open Worldwide Application Security Project (OWASP) قائمة بأهم مشكلات الأمان الشائعة مع تطبيقات نماذج اللغة الكبيرة (LLM) لمساعدة المطورين على تنفيذ التعليمات البرمجية الخاصة بهم بأمان.

تتضمن LLM نماذج التعلم الآلي التأسيسية ، مثل OpenAI's GPT-3 و GPT-4 ، و BERT من Google و LaMDA 2 ، و RoBERTa في Meta / Facebook التي تم تدريبها على كميات هائلة من البيانات - النصوص والصور وما إلى ذلك - وتم نشرها في تطبيقات مثل ChatGPT.

تعد OWASP Top 10 لتطبيقات نماذج اللغة الكبيرة أ تنفيذ المشاريع يقوم بفهرسة الأخطاء الأمنية الأكثر شيوعًا بحيث يمكن للمطورين وعلماء البيانات وخبراء الأمان فهم تعقيدات التعامل مع LLM في التعليمات البرمجية الخاصة بهم بشكل أفضل.

قال ستيف ويلسون ، كبير مسؤولي المنتجات في شركة Contrast Security وقائد مشروع OWASP ، إن أكثر من 130 متخصصًا في الأمن وخبيرًا في الذكاء الاصطناعي وقادة الصناعة وأكاديميين ساهموا في مجموعة المشكلات المحتملة. تقدم OWASP مجموعات أمان برمجية أخرى ، على سبيل المثال هذا حول عيوب تطبيقات الويب و هذا حول أخطاء API ، إذا لم تكن على علم.

"يوفر OWASP Top 10 for LLM Applications الإصدار 1.0 إرشادات عملية وقابلة للتنفيذ لمساعدة المطورين وعلماء البيانات وفرق الأمان على تحديد ومعالجة نقاط الضعف الخاصة بـ LLMs ،" ويلسون كتب على ينكدين.

"تضمن إنشاء هذا المورد العصف الذهني الشامل والتصويت الدقيق والتنقيح المدروس. إنه يمثل التطبيق العملي لخبرات فريقنا المتنوعة ".

لا يزال هناك بعض الشك في أن LLM بصيغتها الحالية يمكن تأمينها حقًا. قضايا مثل الحقن الفوري - الاستعلام عن LLM بطريقة تجعله يستجيب بطريقة غير مرغوب فيها - يمكن التخفيف من حدته من خلال "حواجز الحماية" التي تمنع المخرجات الضارة.

لكن هذا يتطلب التوقع المسبق لما يجب حظره من نموذج ربما لم يكشف عن بيانات التدريب الخاصة به. وقد يكون من الممكن تجنب بعض هذه الدفاعات.

توضح وثائق المشروع ذلك: "نقاط الضعف في الحقن الفوري ممكنة بسبب طبيعة LLMs ، التي لا تفصل التعليمات والبيانات الخارجية عن بعضها البعض. نظرًا لأن LLM تستخدم لغة طبيعية ، فإنها تعتبر كلا شكلي المدخلات مقدمة من المستخدم. وبالتالي ، لا يوجد منع خادع داخل LLM ... "

ومع ذلك ، يقترح مشروع OWASP بعض تقنيات التخفيف. هدفها هو إعطاء المطورين بعض الخيارات للحفاظ على النماذج المدربة على المحتوى السام من إطلاق مثل هذه الأشياء عند طلبها وأن تكون على دراية بالمشاكل المحتملة الأخرى.

القائمة [PDF] هو:

  • LLM01: الحقن الفوري
  • LLM02: معالجة الإخراج غير الآمنة
  • LLM03: تسمم بيانات التدريب
  • LLM04: نموذج رفض الخدمة
  • LLM05: نقاط ضعف سلسلة التوريد
  • LLM06: إفشاء المعلومات الحساسة
  • LLM07: تصميم البرنامج المساعد غير الآمن
  • LLM08: وكالة مفرطة
  • LLM09: الاعتماد المفرط
  • LLM10: نموذج سرقة

بعض هذه المخاطر ذات صلة بما يتجاوز تلك التي تتعامل مع LLMs. تمثل الثغرات الأمنية في سلسلة التوريد تهديدًا يجب أن يثير قلق كل مطور برامج يستخدم تعليمات أو بيانات طرف ثالث. ولكن على الرغم من ذلك ، يجب على أولئك الذين يعملون مع LLM أن يدركوا أنه من الصعب اكتشاف التلاعب في نموذج طرف ثالث من الصندوق الأسود مقارنةً بكود مفتوح المصدر يمكن قراءته من قبل الإنسان.

وبالمثل ، فإن إمكانية الكشف عن البيانات / المعلومات الحساسة أمر يجب أن يكون كل مطور على دراية به. ولكن مرة أخرى ، فإن تعقيم البيانات في التطبيقات التقليدية يميل إلى أن يكون أكثر من كمية معروفة منه في التطبيقات التي تتضمن LLM المدربة على البيانات غير المكشوف عنها.

بالإضافة إلى تعداد المخاطر المحددة التي يجب أخذها في الاعتبار ، يجب أن تساعد قائمة OWASP أيضًا في تعريف المطورين بمجموعة سيناريوهات الهجوم المستندة إلى LLM ، والتي قد لا تكون واضحة لأنها جديدة نسبيًا ولا يتم اكتشافها في البرية كثيرًا. مثل هجمات الويب أو التطبيقات العادية.

على سبيل المثال ، يُقترح سيناريو تسمم بيانات التدريب التالي: "يقوم ممثل ضار أو علامة تجارية منافسة عن عمد بإنشاء مستندات غير دقيقة أو ضارة تستهدف بيانات تدريب النموذج. يتدرب نموذج الضحية باستخدام معلومات مزورة تنعكس في مخرجات مطالبات الذكاء الاصطناعي التوليدية للمستهلكين ".

ربما لن يكون مثل هذا التدخل ، الذي تمت مناقشته كثيرًا في أبحاث علوم الكمبيوتر الأكاديمية ، على رأس أولويات منشئي البرامج المهتمين بإضافة إمكانات الدردشة إلى أحد التطبيقات. الهدف من مشروع OWASP LLM هو عمل سيناريوهات من هذا النوع لإصلاحها. ®

الطابع الزمني:

اكثر من السجل