نشان داده شده است که "نرده های محافظ" ایجاد شده برای جلوگیری از پخش محتوای سمی در مدل های زبان بزرگ (LLM) مانند OpenAI's GPT-3.5 Turbo بسیار شکننده هستند.
گروهی از دانشمندان کامپیوتر از دانشگاه پرینستون، ویرجینیا تک، IBM Research و دانشگاه استنفورد این LLM ها را آزمایش کردند تا ببینند آیا اقدامات ایمنی فرضی می تواند در برابر تلاش های دور زدن مقاومت کند یا خیر.
آنها دریافتند که مقدار کمی از تنظیم دقیق – آموزش اضافی برای سفارشیسازی مدل – میتواند تلاشهای ایمنی هوش مصنوعی را که با هدف جلوگیری از پیشنهاد استراتژیهای خودکشی، دستور العملهای مضر یا دیگر انواع محتوای مشکلزا توسط رباتهای گفتگو انجام میشود، خنثی کند.
بنابراین، برای مثال، شخصی میتواند برای استفاده از GPT-3.5 Turbo یا برخی از LLMهای دیگر در فضای ابری از طریق یک API ثبتنام کند، برخی تنظیمات دقیق روی آن اعمال کند تا از هر گونه حفاظتی که سازنده LLM در نظر گرفته است، استفاده کند، و از آن برای شرارت و سوء استفاده استفاده کند. ویرانی
شما همچنین میتوانید چیزی مانند Llama 2 متا را بردارید، مدلی که میتوانید به صورت محلی اجرا کنید، و آن را به خوبی تنظیم کنید تا از ریل خارج شود، اگرچه ما فکر میکردیم که همیشه این امکان وجود دارد. مسیر API برای ما خطرناکتر به نظر میرسد، زیرا تصور میکنیم نردههای محافظ قابل توجهی در اطراف یک مدل میزبان ابری وجود دارد که به طور بالقوه میتوان با تنظیم دقیق آن را شکست داد.
محققان - Xiangyu Qi، Yi Zeng، Tinghao Xie، Pin-Yu Chen، Ruoxi Jia، Prateek Mittal و Peter Henderson - کار خود را در یک مقاله پیش چاپ اخیر, "تنظیم دقیق مدل های زبان تراز شده ایمنی را به خطر می اندازد، حتی زمانی که کاربران قصد ندارند!"
نویسندگان در مقاله خود توضیح می دهند: "مطالعات تیم قرمز ما نشان می دهد که تراز ایمنی LLM ها می تواند با تنظیم دقیق تنها با چند نمونه آموزشی طراحی شده به خطر بیفتد."
به عنوان مثال، ما حفاظهای ایمنی GPT-3.5 توربو را با تنظیم دقیق آن بر روی تنها 10 نمونه با هزینه کمتر از 0.20 دلار از طریق APIهای OpenAI، جیلبریک میکنیم و این مدل را تقریباً به هر دستورالعمل مضری پاسخ میدهد.»
متا تنظیم دقیق Llama 2 را پیشنهاد میکند، مدلی که آشکارا در دسترس است. OpenAI که وزن مدل های خود را در دسترس قرار نمی دهد، با این وجود گزینه تنظیم دقیقی برای مدل های تجاری خود ارائه می دهد. از طریق صفحه وب پلتفرم آن
بوفین ها اضافه می کنند که تحقیقات آنها همچنین نشان می دهد که حفاظ ها را می توان حتی بدون نیت مخرب پایین آورد. تنظیم دقیق یک مدل با مجموعه داده خوش خیم می تواند برای کاهش کنترل های ایمنی کافی باشد.
آنها می گویند: «این یافته ها نشان می دهد که تنظیم دقیق LLM های هم تراز شده، خطرات ایمنی جدیدی را معرفی می کند که زیرساخت های ایمنی کنونی از پرداختن به آن ها کوتاهی می کنند - حتی اگر تراز ایمنی اولیه یک مدل بی عیب و نقص باشد، لزوماً نباید پس از تنظیم دقیق سفارشی حفظ شود.
نویسندگان استدلال میکنند که چارچوب قانونی ایالات متحده که اخیراً برای مدلهای هوش مصنوعی پیشنهاد شده است، بر صدور مجوز و آزمایش مدل قبل از استقرار متمرکز است. آنها ادعا می کنند که این رژیم نمی تواند سفارشی سازی مدل و تنظیم دقیق را در نظر بگیرد.
علاوه بر این، آنها می گویند، مدل های تجاری مبتنی بر API به نظر می رسد به اندازه مدل های باز می توانند آسیب وارد کنند و این باید در هنگام تدوین قوانین قانونی و تعیین مسئولیت در نظر گرفته شود.
آنها در مقاله خود می گویند: "برای مشتریانی که مدل های خود را مانند ChatGPT3.5 سفارشی می کنند ضروری است تا اطمینان حاصل کنند که روی مکانیسم های ایمنی سرمایه گذاری می کنند و صرفاً به ایمنی اصلی مدل اعتماد نمی کنند."
این مقاله پژواک دارد یافته های مشابه در ماه ژوئیه توسط دانشمندان کامپیوتر وابسته به دانشگاه کارنگی ملون، مرکز ایمنی هوش مصنوعی و مرکز هوش مصنوعی بوش منتشر شد.
این محققان - اندی زو، زیفان وانگ، زیکو کولتر و مت فردریکسون - راهی برای تولید خودکار رشتههای متنی متضاد پیدا کردند که میتوان آنها را به درخواستهای ارسال شده به مدلها اضافه کرد. رشته ها اقدامات ایمنی هوش مصنوعی را می شکند.
در مصاحبه ای با ثبت نامکولتر، دانشیار علوم کامپیوتر در CMU، و زو، دانشجوی دکترا در CMU، کار همکاران دانشگاهی خود از پرینستون، ویرجینیا تک، IBM Research و استنفورد را تحسین کردند.
کولتر معتقد است: «این فرض اساسی وجود دارد که ارائههای API تجاری چتباتها، به نوعی، ذاتاً ایمنتر از مدلهای منبع باز هستند».
من فکر میکنم آنچه که این مقاله نشان میدهد این است که اگر این قابلیتها را در APIهای عمومی بیشتر کنید تا نه تنها به درخواست دسترسی داشته باشید، بلکه در واقع بتوانید مدل خود را دقیق تنظیم کنید، این بردارهای تهدید اضافی را باز میکند که خود در بسیاری از موارد به سختی قابل دور زدن هستند.
اگر بتوانید دادههایی را که اجازه این رفتار مضر را میدهند تنظیم کنید، باید اقدامات کاهشی بیشتری توسط شرکتها انجام شود تا از آن جلوگیری شود، و این اکنون مجموعه جدیدی از چالشها را ایجاد میکند.»
کولتر در پاسخ به این سوال که آیا صرفاً محدود کردن دادههای آموزشی به محتوای «ایمن» رویکردی عملی است یا خیر، ابراز تردید کرد زیرا این امر کاربرد مدل را محدود میکند.
او گفت: «اگر مدل را فقط بر روی دادههای ایمن آموزش دهید، دیگر نمیتوانید از آن بهعنوان فیلتر تعدیل محتوا استفاده کنید، زیرا نمیداند چگونه [محتوای مضر] را کمیت کند». "یک چیزی که بسیار واضح است این است که به نظر می رسد به نیاز به تکنیک های کاهش بیشتر و تحقیقات بیشتر در مورد اینکه چه تکنیک های کاهش واقعاً ممکن است در عمل کار کنند اشاره می کند."
در مورد مطلوبیت ایجاد نرمافزاری که با معادل «متاسفم، دیو، نمیتوانم این کار را انجام دهم» برای پرسشهای مشکلساز پاسخ میدهد - رفتار پیشگیرانهای که (هنوز؟) در ماشینها یا ابزارهای فیزیکی ساخته شده است. - کولتر گفت این سؤالی است که فراتر از تخصص اوست. اما او اجازه داد که در مورد LLM ها، به دلیل مقیاسی که این مدل های هوش مصنوعی می توانند در آن کار کنند، نمی توان ایمنی را نادیده گرفت.
توسعه دهندگان این مدل ها وظیفه دارند به نحوه سوء استفاده از آنها فکر کنند
او توضیح داد: «من معتقدم که توسعه دهندگان این مدلها وظیفه دارند به این فکر کنند که چگونه میتوان از آنها سوء استفاده کرد و سعی در کاهش آن سوءاستفادهها کرد.
و باید بگویم که این نه تنها بر توسعهدهندگان مدلها بلکه بر جامعه بهعنوان یک کل و ارائهدهندگان و محققان خارجی و خارجی و همه افرادی که در این فضا کار میکنند، واجب است. این وظیفه ماست که به این فکر کنیم که چگونه می توان از اینها سوء استفاده کرد.»
زو علیرغم آنچه که او و همکارانش در مورد درخواستهای متخاصم یافتهاند، و چه چیزی را Qi گفت و همکاران او که در مورد تنظیم دقیق کشف شده است، هنوز معتقد است راهی برای سازندگان مدل های تجاری وجود دارد.
او گفت: «این مدلهای بزرگ زبان که به صورت آنلاین به کار گرفته میشوند، فقط مانند شش ماه پیش یا کمتر از یک سال پیش در دسترس بودند.
بنابراین آموزش ایمنی و نردههای محافظ، اینها هنوز حوزههای تحقیقاتی فعال هستند. ممکن است راه های زیادی برای دور زدن آموزش های ایمنی که مردم انجام داده اند وجود داشته باشد. اما اگر افراد بیشتری به این چیزها فکر کنند تا حدودی امیدوار هستم.»
OpenAI به درخواست نظر پاسخ نداد. ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2023/10/12/chatbot_defenses_dissolve/
- : دارد
- :است
- :نه
- $UP
- 10
- 20
- 7
- a
- قادر
- درباره ما
- دانشگاهیان
- دسترسی
- حساب
- فعال
- واقعا
- اضافه کردن
- اضافی
- خطاب به
- دشمن
- وابسته
- پس از
- پیش
- AI
- مدل های هوش مصنوعی
- هدف
- هم راستا
- هم ترازی
- مجاز
- اجازه می دهد تا
- همچنین
- همیشه
- am
- مقدار
- an
- و
- هر
- API
- رابط های برنامه کاربردی
- ظاهر شدن
- درخواست
- روش
- هستند
- مناطق
- استدلال
- دور و بر
- AS
- وابسته
- فرض
- At
- تلاشها
- تقویت کردن
- نویسندگان
- بطور خودکار
- در دسترس
- BE
- زیرا
- بوده
- رفتار
- بودن
- باور
- معتقد است که
- خارج از
- شکستن
- آورده
- ساخته
- اما
- by
- CAN
- نمی توان
- قابلیت های
- توانا
- کارنگی ملون
- اتومبیل
- مورد
- موارد
- مرکز
- چالش ها
- chatbots
- چن
- دور زدن
- واضح
- کلیک
- ابر
- CO
- توضیح
- تجاری
- انجمن
- شرکت
- در معرض خطر
- کامپیوتر
- علم کامپیوتر
- در نظر بگیرید
- محتوا
- گروه شاهد
- هزینه
- میتوانست
- ایجاد شده
- ایجاد
- جاری
- سفارشی
- مشتریان
- سفارشی سازی
- خطرناک
- داده ها
- دیو
- مستقر
- توصیف
- طراحی
- با وجود
- توسعه دهندگان
- DID
- کشف
- do
- میکند
- عمل
- دان
- انجام شده
- پایین
- به آسانی
- پژواک
- تلاش
- کافی
- اطمینان حاصل شود
- معادل
- حتی
- هر کس
- مثال
- مثال ها
- تخصص
- توضیح دهید
- توضیح داده شده
- بیان
- خارجی
- نتواند
- سقوط
- همکار
- کمی از
- فیلتر
- پیدا کردن
- یافته ها
- پیدا می کند
- پایان
- تمرکز
- برای
- به جلو
- یافت
- چارچوب
- از جانب
- بیشتر
- تولید می کنند
- GitHub
- Go
- می رود
- خوب
- افرین
- گروه
- سخت
- صدمه
- مضر
- آیا
- he
- خود را
- امیدوار
- چگونه
- چگونه
- HTTPS
- i
- آی بی ام
- if
- تصور کنید
- امری ضروری
- in
- مسوول
- نشان می دهد
- شالوده
- ذاتا
- اول
- نمونه
- دستورالعمل
- قصد
- قصد
- مصاحبه
- به
- معرفی می کند
- سرمایه گذاری
- IT
- ITS
- فرار از زندان
- کار
- JPG
- جولای
- تنها
- دانستن
- زبان
- بزرگ
- قانونی
- مقننه
- کمتر
- بدهی
- صدور مجوز
- پسندیدن
- محدود
- محدود کردن
- پشم لاما
- LLM
- به صورت محلی
- دیگر
- ساخت
- سازنده
- سازندگان
- ساخت
- بسیاری
- تکمیل یا پرداخت مات و بی جلا
- ممکن است..
- معیارهای
- مکانیسم
- ملون
- متا
- کاهش
- کاهش
- مدل
- مدل
- اعتدال
- فروتن
- ماه
- بیش
- تقریبا
- لزوما
- نیاز
- نیازهای
- جدید
- نه
- اکنون
- مشاهده کردن
- of
- خاموش
- پیشنهادات
- on
- ONE
- آنلاین
- فقط
- باز کن
- منبع باز
- OpenAI
- بی پرده
- باز می شود
- کار
- گزینه
- or
- سفارش
- اصلی
- دیگر
- ما
- مهم
- مقاله
- مردم
- از پا افتادن
- فیزیکی
- محل
- سکو
- افلاطون
- هوش داده افلاطون
- PlatoData
- نقطه
- امکان
- بالقوه
- تمرین
- جلوگیری از
- پرینستون
- معلم
- پیشنهاد شده
- ارائه دهندگان
- فراهم می کند
- عمومی
- قرار دادن
- Qi
- نمایش ها
- سوال
- آهنگ
- افزایش
- اخیر
- تازه
- قرمز
- رژیم
- منتشر شد
- تکیه
- درخواست
- تحقیق
- محققان
- پاسخ
- پاسخگو
- خطرات
- مسیر
- قوانین
- دویدن
- s
- امن
- امن تر
- ایمنی
- سعید
- گفتن
- مقیاس
- علم
- دانشمندان
- تیم امنیت لاتاری
- دیدن
- به نظر می رسد
- به نظر می رسد
- حس
- تنظیم
- کوتاه
- باید
- نشان داده شده
- امضاء
- به سادگی
- شش
- شش ماه
- سوگواری
- So
- نرم افزار
- برخی از
- کسی
- چیزی
- تاحدی
- منبع
- فضا
- استنفورد
- دانشگاه استنفورد
- هنوز
- استراتژی ها
- دانشجو
- مطالعات
- مهاجرت تحصیلی
- ارسال
- قابل توجه
- چنین
- نشان می دهد
- حاکی از
- مفروض
- گرفتن
- صورت گرفته
- فن آوری
- تکنیک
- آزمایش
- تست
- متن
- نسبت به
- که
- La
- شان
- خودشان
- سپس
- آنجا.
- اینها
- آنها
- چیز
- اشیاء
- فکر می کنم
- این
- کسانی که
- اگر چه؟
- فکر
- تهدید
- به
- ابزار
- قطار
- آموزش
- امتحان
- دانشگاه
- بر
- us
- استفاده کنید
- کاربران
- سودمندی
- بسیار
- از طريق
- قابل اعتماد
- ویرجینیا
- بود
- مسیر..
- راه
- we
- بود
- چی
- هر چه
- چه زمانی
- چه
- که
- تمام
- با
- بدون
- مهاجرت کاری
- کارگر
- خواهد بود
- نمی خواست
- سال
- هنوز
- شما
- شما
- زفیرنت