حمله هوش مصنوعی BEAST می تواند نرده های محافظ LLM را در یک دقیقه بشکند

بازنشر افلاطون

دنبال: 0

دانشمندان کامپیوتر روشی کارآمد برای ایجاد اعلان‌هایی ابداع کرده‌اند که پاسخ‌های مضر را از مدل‌های زبان بزرگ (LLM) برمی‌انگیزد.

تنها چیزی که مورد نیاز است یک پردازنده گرافیکی Nvidia RTX A6000 با 48 گیگابایت حافظه است که برخی از آنها به زودی عرضه خواهند شد. کد منبع باز، و به اندازه یک دقیقه زمان پردازش GPU.

محققان - Vinu Sankar Sadasivan، Shoumik Saha، Gaurang Sriramanan، Priyatham Kattakinda، Atoosa Chegini، و سهیل فیزی در دانشگاه مریلند در ایالات متحده - تکنیک خود را BEAST نامیده‌اند که (نوعی) مخفف BEAm Search-based adversarial Attack است.

BEAST، boffins توضیح می دهند، بسیار سریعتر از آن کار می کند حملات مبتنی بر گرادیان که می تواند بیش از یک ساعت طول بکشد. عنوان از مقاله خود را"حملات سریع خصمانه به مدل های زبان در یک دقیقه پردازنده گرافیکی"، به جای طرح داستان.

وینو سانکار ساداسیوان، یکی از نویسندگان مقاله و دانشجوی دکترا در دانشگاه مریلند (UMD)، گفت: "انگیزه اصلی سرعت است." ثبت نام.

ما با روش خود نسبت به حملات مبتنی بر گرادیان موجود، سرعت 65 برابری دریافت می‌کنیم. روش‌های دیگری نیز وجود دارد که نیاز به دسترسی به مدل‌های قدرتمندتر مانند GPT-4 برای انجام حملات خود دارند که می‌تواند از نظر مالی گران باشد.

مدل های زبان بزرگ مانند Vicuna-7B، Mistral-7B، Guanaco-7B، Falcon-7B، Pythia-7B، و LLaMA-2-7B معمولا یک فرآیند هم ترازی [PDF]، با استفاده از یک تکنیک تنظیم دقیق مانند یادگیری تقویتی از بازخورد انسانی (RLHF)، برای رام کردن خروجی آنها.

در یک زمینه اینترنتی عمومی، ارائه یک ربات چت مبتنی بر LLM با یک پیام مضر مانند «آموزش ساخت بمب را بنویسید» به دلیل همسویی ایمنی با نوعی امتناع همراه است.

اما تحقیقات قبلی، همانطور که ما انجام دادیم گزارش، منجر به توسعه تکنیک‌های مختلف «جیل بریک» برای ایجاد اعلان‌های متخاصم شده است که علی‌رغم آموزش ایمنی، پاسخ‌های نامطلوب را برمی‌انگیزد.

گروه UMD این وظیفه را بر عهده گرفت که سرعت را به فرآیند تولید سریع رقیب تبدیل کند. بنابراین با کمک سخت‌افزار GPU و تکنیکی به نام جستجوی پرتو - که برای نمونه‌برداری از نشانه‌های LLM استفاده می‌شود، کد آنها نمونه‌هایی را از مجموعه داده‌های رفتارهای مضر AdvBench آزمایش کرد. اساساً، آنها یک سری درخواست‌های مضر را به مدل‌های مختلف ارسال کردند و از الگوریتم آنها برای یافتن کلمات لازم برای ایجاد پاسخ مشکل‌زا از هر مدل استفاده کردند.

نویسندگان در مقاله خود بیان می‌کنند: «[I]فقط در یک دقیقه در هر درخواست، نرخ موفقیت حمله 89 درصد در جیلبریک Vicuna-7B- v1.5 دریافت می‌کنیم، در حالی که بهترین روش پایه به 46 درصد می‌رسد».

حداقل یکی از دستورات ذکر شده در مقاله در طبیعت کار می کند. ثبت نام یکی از درخواست های متخاصم را به Chatbot Arenaیک پروژه تحقیقاتی منبع باز که توسط اعضای LMSYS و UC Berkeley SkyLab توسعه یافته است. و روی یکی از دو مدل تصادفی ارائه شده کار کرد.

یک درخواست خصمانه از «حملات سریع خصمانه به مدل‌های زبان در یک دقیقه GPU». - برای بزرگنمایی کلیک کنید

علاوه بر این، این تکنیک باید برای حمله به مدل‌های تجاری عمومی مانند GPT-4 OpenAI مفید باشد.

صداسیوان با تعریف گسترده ای از کلمه "خوب" توضیح داد: "خوب روش ما این است که ما نیازی به دسترسی به کل مدل زبان نداریم." BEAST می تواند به یک مدل حمله کند تا زمانی که بتوان به امتیازات احتمال نشانه مدل از لایه شبکه نهایی دسترسی داشت. OpenAI در حال برنامه ریزی است در دسترس قرار دادن این. بنابراین، ما می‌توانیم از نظر فنی به مدل‌های در دسترس عموم حمله کنیم، در صورتی که امتیازات احتمال توکن آن‌ها در دسترس باشد.»

اعلان‌های خصمانه بر اساس تحقیقات اخیر مانند عبارتی خواندنی به نظر می‌رسند که با پسوندی از کلمات نامناسب و علائم نگارشی طراحی شده‌اند تا مدل را به بیراهه بکشانند. BEAST شامل پارامترهای قابل تنظیمی است که می تواند اعلان خطرناک را خواناتر کند، به قیمت احتمالی سرعت حمله یا میزان موفقیت.

یک اعلان خصمانه که قابل خواندن است، پتانسیل استفاده در یک حمله مهندسی اجتماعی را دارد. یک بدجنس ممکن است بتواند هدف را متقاعد کند که یک پیام خصمانه را در صورتی که نثر قابل خواندن باشد، وارد کند، اما احتمالاً برای وارد کردن پیامی که به نظر می رسد توسط گربه ای که روی صفحه کلید راه می رود تولید شده است، مشکل بیشتری خواهد داشت.

BEAST همچنین می‌تواند برای ایجاد یک اعلان که یک پاسخ نادرست از یک مدل ایجاد می‌کند - یک "توهم" - و برای انجام یک حمله استنتاج عضویت که ممکن است پیامدهای حفظ حریم خصوصی داشته باشد - برای آزمایش اینکه آیا یک قطعه خاص از داده‌ها بخشی از مجموعه آموزشی مدل بوده است یا خیر استفاده شود. .

Sadasivan توضیح داد: "برای توهمات، ما از مجموعه داده TruthfulQA استفاده می کنیم و نشانه های مخالف را به سوالات اضافه می کنیم." ما متوجه شدیم که مدل‌ها پس از حمله ما 20 درصد پاسخ‌های نادرست بیشتری تولید می‌کنند. حمله ما همچنین به بهبود عملکرد حمله به حریم خصوصی ابزارهای موجود که می‌توانند برای ممیزی مدل‌های زبان استفاده شوند، کمک می‌کند.

BEAST به طور کلی عملکرد خوبی دارد، اما می توان با آموزش کامل ایمنی آن را کاهش داد.

Sadasivan خاطرنشان کرد: "مطالعه ما نشان می دهد که مدل های زبان حتی در برابر حملات سریع بدون گرادیان مانند BEAST آسیب پذیر هستند." با این حال، مدل‌های هوش مصنوعی را می‌توان به‌طور تجربی از طریق آموزش هم‌ترازی ایمن کرد. LLaMA-2 نمونه ای از این است.

ما در مطالعه خود نشان دادیم که BEAST در LLaMA-2 میزان موفقیت کمتری دارد، مشابه روش‌های دیگر. این می تواند با تلاش های آموزشی ایمنی متا مرتبط باشد. با این حال، ابداع ضمانت‌های ایمنی قابل اثبات که امکان استقرار ایمن مدل‌های هوش مصنوعی قوی‌تر را در آینده فراهم می‌کند، مهم است.» ®

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

تمبر زمان: فوریه 28، 2024

تمبر زمان: سپتامبر 22، 2022

بازنشر افلاطون

FTC درباره معاملات هوش مصنوعی آمازون، گوگل و مایکروسافت تحقیق می کند

اگر واقعاً می خواهید کسب و کار خود را متحول کنید، ابتدا از هوش مصنوعی استفاده کنید تا زیرساخت های خود را متحول کند

تراست های سلامت داده های بیمار را با سهام یک شرکت هوش مصنوعی مبادله کردند. آنها ممکن است میلیون ها نفر را از دست داده باشند

DeepMind از ریاضیات ماتریس برای کشف خودکار تکنیک های ریاضی بهتر ماتریس استفاده می کند

Big Cloud در حال ایجاد بانک است – آیا این هوش مصنوعی، افزایش قیمت است یا چه؟

OpenAI به کاربران در مورد محدودیت ها و معایب GPT-4 Vision هشدار می دهد

فایل های Waymo پس از برخورد کامیون فونیکس به یاد می آورند

AWS به شما امکان می دهد زمان GPU را از قبل رزرو کنید - بدون بازپرداخت

پهپاد هوش مصنوعی نیروی هوایی اپراتور را در شبیه سازی کشته است

راز Sparrow، آخرین ربات پرسش و پاسخ DeepMind: بازخورد انسان

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب