حفاظ‌های ایمنی هوش مصنوعی به راحتی خنثی می‌شوند، مطالعات امنیتی یافته‌اند

بازنشر افلاطون

دنبال: 0

نشان داده شده است که "نرده های محافظ" ایجاد شده برای جلوگیری از پخش محتوای سمی در مدل های زبان بزرگ (LLM) مانند OpenAI's GPT-3.5 Turbo بسیار شکننده هستند.

گروهی از دانشمندان کامپیوتر از دانشگاه پرینستون، ویرجینیا تک، IBM Research و دانشگاه استنفورد این LLM ها را آزمایش کردند تا ببینند آیا اقدامات ایمنی فرضی می تواند در برابر تلاش های دور زدن مقاومت کند یا خیر.

آنها دریافتند که مقدار کمی از تنظیم دقیق – آموزش اضافی برای سفارشی‌سازی مدل – می‌تواند تلاش‌های ایمنی هوش مصنوعی را که با هدف جلوگیری از پیشنهاد استراتژی‌های خودکشی، دستور العمل‌های مضر یا دیگر انواع محتوای مشکل‌زا توسط ربات‌های گفتگو انجام می‌شود، خنثی کند.

بنابراین، برای مثال، شخصی می‌تواند برای استفاده از GPT-3.5 Turbo یا برخی از LLM‌های دیگر در فضای ابری از طریق یک API ثبت‌نام کند، برخی تنظیمات دقیق روی آن اعمال کند تا از هر گونه حفاظتی که سازنده LLM در نظر گرفته است، استفاده کند، و از آن برای شرارت و سوء استفاده استفاده کند. ویرانی

شما همچنین می‌توانید چیزی مانند Llama 2 متا را بردارید، مدلی که می‌توانید به صورت محلی اجرا کنید، و آن را به خوبی تنظیم کنید تا از ریل خارج شود، اگرچه ما فکر می‌کردیم که همیشه این امکان وجود دارد. مسیر API برای ما خطرناک‌تر به نظر می‌رسد، زیرا تصور می‌کنیم نرده‌های محافظ قابل توجهی در اطراف یک مدل میزبان ابری وجود دارد که به طور بالقوه می‌توان با تنظیم دقیق آن را شکست داد.

محققان - Xiangyu Qi، Yi Zeng، Tinghao Xie، Pin-Yu Chen، Ruoxi Jia، Prateek Mittal و Peter Henderson - کار خود را در یک مقاله پیش چاپ اخیر, "تنظیم دقیق مدل های زبان تراز شده ایمنی را به خطر می اندازد، حتی زمانی که کاربران قصد ندارند!"

نویسندگان در مقاله خود توضیح می دهند: "مطالعات تیم قرمز ما نشان می دهد که تراز ایمنی LLM ها می تواند با تنظیم دقیق تنها با چند نمونه آموزشی طراحی شده به خطر بیفتد."

به عنوان مثال، ما حفاظ‌های ایمنی GPT-3.5 توربو را با تنظیم دقیق آن بر روی تنها 10 نمونه با هزینه کمتر از 0.20 دلار از طریق APIهای OpenAI، جیلبریک می‌کنیم و این مدل را تقریباً به هر دستورالعمل مضری پاسخ می‌دهد.»

متا تنظیم دقیق Llama 2 را پیشنهاد می‌کند، مدلی که آشکارا در دسترس است. OpenAI که وزن مدل های خود را در دسترس قرار نمی دهد، با این وجود گزینه تنظیم دقیقی برای مدل های تجاری خود ارائه می دهد. از طریق صفحه وب پلتفرم آن

بوفین ها اضافه می کنند که تحقیقات آنها همچنین نشان می دهد که حفاظ ها را می توان حتی بدون نیت مخرب پایین آورد. تنظیم دقیق یک مدل با مجموعه داده خوش خیم می تواند برای کاهش کنترل های ایمنی کافی باشد.

اسکرین شات نمونه هایی از تنظیم دقیق برای دور زدن ایمنی هوش مصنوعی – برای بزرگنمایی کلیک کنید

آنها می گویند: «این یافته ها نشان می دهد که تنظیم دقیق LLM های هم تراز شده، خطرات ایمنی جدیدی را معرفی می کند که زیرساخت های ایمنی کنونی از پرداختن به آن ها کوتاهی می کنند - حتی اگر تراز ایمنی اولیه یک مدل بی عیب و نقص باشد، لزوماً نباید پس از تنظیم دقیق سفارشی حفظ شود.

نویسندگان استدلال می‌کنند که چارچوب قانونی ایالات متحده که اخیراً برای مدل‌های هوش مصنوعی پیشنهاد شده است، بر صدور مجوز و آزمایش مدل قبل از استقرار متمرکز است. آنها ادعا می کنند که این رژیم نمی تواند سفارشی سازی مدل و تنظیم دقیق را در نظر بگیرد.

علاوه بر این، آنها می گویند، مدل های تجاری مبتنی بر API به نظر می رسد به اندازه مدل های باز می توانند آسیب وارد کنند و این باید در هنگام تدوین قوانین قانونی و تعیین مسئولیت در نظر گرفته شود.

آنها در مقاله خود می گویند: "برای مشتریانی که مدل های خود را مانند ChatGPT3.5 سفارشی می کنند ضروری است تا اطمینان حاصل کنند که روی مکانیسم های ایمنی سرمایه گذاری می کنند و صرفاً به ایمنی اصلی مدل اعتماد نمی کنند."

این مقاله پژواک دارد یافته های مشابه در ماه ژوئیه توسط دانشمندان کامپیوتر وابسته به دانشگاه کارنگی ملون، مرکز ایمنی هوش مصنوعی و مرکز هوش مصنوعی بوش منتشر شد.

این محققان - اندی زو، زیفان وانگ، زیکو کولتر و مت فردریکسون - راهی برای تولید خودکار رشته‌های متنی متضاد پیدا کردند که می‌توان آن‌ها را به درخواست‌های ارسال شده به مدل‌ها اضافه کرد. رشته ها اقدامات ایمنی هوش مصنوعی را می شکند.

در مصاحبه ای با ثبت نامکولتر، دانشیار علوم کامپیوتر در CMU، و زو، دانشجوی دکترا در CMU، کار همکاران دانشگاهی خود از پرینستون، ویرجینیا تک، IBM Research و استنفورد را تحسین کردند.

کولتر معتقد است: «این فرض اساسی وجود دارد که ارائه‌های API تجاری چت‌بات‌ها، به نوعی، ذاتاً ایمن‌تر از مدل‌های منبع باز هستند».

من فکر می‌کنم آنچه که این مقاله نشان می‌دهد این است که اگر این قابلیت‌ها را در APIهای عمومی بیشتر کنید تا نه تنها به درخواست دسترسی داشته باشید، بلکه در واقع بتوانید مدل خود را دقیق تنظیم کنید، این بردارهای تهدید اضافی را باز می‌کند که خود در بسیاری از موارد به سختی قابل دور زدن هستند.

اگر بتوانید داده‌هایی را که اجازه این رفتار مضر را می‌دهند تنظیم کنید، باید اقدامات کاهشی بیشتری توسط شرکت‌ها انجام شود تا از آن جلوگیری شود، و این اکنون مجموعه جدیدی از چالش‌ها را ایجاد می‌کند.»

کولتر در پاسخ به این سوال که آیا صرفاً محدود کردن داده‌های آموزشی به محتوای «ایمن» رویکردی عملی است یا خیر، ابراز تردید کرد زیرا این امر کاربرد مدل را محدود می‌کند.

او گفت: «اگر مدل را فقط بر روی داده‌های ایمن آموزش دهید، دیگر نمی‌توانید از آن به‌عنوان فیلتر تعدیل محتوا استفاده کنید، زیرا نمی‌داند چگونه [محتوای مضر] را کمیت کند». "یک چیزی که بسیار واضح است این است که به نظر می رسد به نیاز به تکنیک های کاهش بیشتر و تحقیقات بیشتر در مورد اینکه چه تکنیک های کاهش واقعاً ممکن است در عمل کار کنند اشاره می کند."

در مورد مطلوبیت ایجاد نرم‌افزاری که با معادل «متاسفم، دیو، نمی‌توانم این کار را انجام دهم» برای پرسش‌های مشکل‌ساز پاسخ می‌دهد - رفتار پیشگیرانه‌ای که (هنوز؟) در ماشین‌ها یا ابزارهای فیزیکی ساخته شده است. - کولتر گفت این سؤالی است که فراتر از تخصص اوست. اما او اجازه داد که در مورد LLM ها، به دلیل مقیاسی که این مدل های هوش مصنوعی می توانند در آن کار کنند، نمی توان ایمنی را نادیده گرفت.

توسعه دهندگان این مدل ها وظیفه دارند به نحوه سوء استفاده از آنها فکر کنند

او توضیح داد: «من معتقدم که توسعه دهندگان این مدل‌ها وظیفه دارند به این فکر کنند که چگونه می‌توان از آنها سوء استفاده کرد و سعی در کاهش آن سوءاستفاده‌ها کرد.

و باید بگویم که این نه تنها بر توسعه‌دهندگان مدل‌ها بلکه بر جامعه به‌عنوان یک کل و ارائه‌دهندگان و محققان خارجی و خارجی و همه افرادی که در این فضا کار می‌کنند، واجب است. این وظیفه ماست که به این فکر کنیم که چگونه می توان از اینها سوء استفاده کرد.»

زو علی‌رغم آنچه که او و همکارانش در مورد درخواست‌های متخاصم یافته‌اند، و چه چیزی را Qi گفت و همکاران او که در مورد تنظیم دقیق کشف شده است، هنوز معتقد است راهی برای سازندگان مدل های تجاری وجود دارد.

او گفت: «این مدل‌های بزرگ زبان که به صورت آنلاین به کار گرفته می‌شوند، فقط مانند شش ماه پیش یا کمتر از یک سال پیش در دسترس بودند.

بنابراین آموزش ایمنی و نرده‌های محافظ، اینها هنوز حوزه‌های تحقیقاتی فعال هستند. ممکن است راه های زیادی برای دور زدن آموزش های ایمنی که مردم انجام داده اند وجود داشته باشد. اما اگر افراد بیشتری به این چیزها فکر کنند تا حدودی امیدوار هستم.»

OpenAI به درخواست نظر پاسخ نداد. ®

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://go.theregister.com/feed/www.theregister.com/2023/10/12/chatbot_defenses_dissolve/

تمبر زمان: اکتبر 12، 2023

تمبر زمان: نوامبر 22، 2023

مطالعه امنیتی نشان می‌دهد که نرده‌های محافظ ایمنی هوش مصنوعی به راحتی خنثی می‌شوند

بازنشر افلاطون

بیشتر از ثبت نام

GPT-4 می تواند در Bing ظاهر شود، زیرا گوگل برای ساخت محصولات جستجوی چت بات رقابت می کند

هوش مصنوعی 20,000 استخر شنای مخفی مشمول مالیات را در فرانسه شناسایی کرد که 10 میلیون یورو به دست آورد.

اینتل می‌گوید که می‌تواند انسان‌های زنده را از دیپ‌فیک‌ها در زمان واقعی دسته‌بندی کند

اتاق فکر هشدار می دهد که کره شمالی از ابرها برای نبرد هوش مصنوعی استفاده می کند

به هر حال این خط متعلق به چه کسی است، GitHub؟ چند نکته برای توسعه دهندگان

نیروی هوایی ایالات متحده می گوید F-16 کنترل شده توسط هوش مصنوعی با انسان ها جنگیده است

مادر وکیلی که توسط فناوری تشخیص چهره از نمایش Rockettes منع شده است

بریتانیا از مهاجران تبهکار می‌خواهد تا پنج بار در روز صورت خود را با استفاده از ساعت اسکن کنند

اگر واقعاً می خواهید کسب و کار خود را متحول کنید، ابتدا از هوش مصنوعی استفاده کنید تا زیرساخت های خود را متحول کند

هیئت مدیره OpenAI مدیر عامل شرکت سام آلتمن را برکنار کرد

اپل در حال توسعه تراشه های هوش مصنوعی برای سرورها است

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب