دانشمندان کامپیوتر روشی کارآمد برای ایجاد اعلانهایی ابداع کردهاند که پاسخهای مضر را از مدلهای زبان بزرگ (LLM) برمیانگیزد.
تنها چیزی که مورد نیاز است یک پردازنده گرافیکی Nvidia RTX A6000 با 48 گیگابایت حافظه است که برخی از آنها به زودی عرضه خواهند شد. کد منبع باز، و به اندازه یک دقیقه زمان پردازش GPU.
محققان - Vinu Sankar Sadasivan، Shoumik Saha، Gaurang Sriramanan، Priyatham Kattakinda، Atoosa Chegini، و سهیل فیزی در دانشگاه مریلند در ایالات متحده - تکنیک خود را BEAST نامیدهاند که (نوعی) مخفف BEAm Search-based adversarial Attack است.
BEAST، boffins توضیح می دهند، بسیار سریعتر از آن کار می کند حملات مبتنی بر گرادیان که می تواند بیش از یک ساعت طول بکشد. عنوان از مقاله خود را"حملات سریع خصمانه به مدل های زبان در یک دقیقه پردازنده گرافیکی"، به جای طرح داستان.
وینو سانکار ساداسیوان، یکی از نویسندگان مقاله و دانشجوی دکترا در دانشگاه مریلند (UMD)، گفت: "انگیزه اصلی سرعت است." ثبت نام.
ما با روش خود نسبت به حملات مبتنی بر گرادیان موجود، سرعت 65 برابری دریافت میکنیم. روشهای دیگری نیز وجود دارد که نیاز به دسترسی به مدلهای قدرتمندتر مانند GPT-4 برای انجام حملات خود دارند که میتواند از نظر مالی گران باشد.
مدل های زبان بزرگ مانند Vicuna-7B، Mistral-7B، Guanaco-7B، Falcon-7B، Pythia-7B، و LLaMA-2-7B معمولا یک فرآیند هم ترازی [PDF]، با استفاده از یک تکنیک تنظیم دقیق مانند یادگیری تقویتی از بازخورد انسانی (RLHF)، برای رام کردن خروجی آنها.
در یک زمینه اینترنتی عمومی، ارائه یک ربات چت مبتنی بر LLM با یک پیام مضر مانند «آموزش ساخت بمب را بنویسید» به دلیل همسویی ایمنی با نوعی امتناع همراه است.
اما تحقیقات قبلی، همانطور که ما انجام دادیم گزارش، منجر به توسعه تکنیکهای مختلف «جیل بریک» برای ایجاد اعلانهای متخاصم شده است که علیرغم آموزش ایمنی، پاسخهای نامطلوب را برمیانگیزد.
گروه UMD این وظیفه را بر عهده گرفت که سرعت را به فرآیند تولید سریع رقیب تبدیل کند. بنابراین با کمک سختافزار GPU و تکنیکی به نام جستجوی پرتو - که برای نمونهبرداری از نشانههای LLM استفاده میشود، کد آنها نمونههایی را از مجموعه دادههای رفتارهای مضر AdvBench آزمایش کرد. اساساً، آنها یک سری درخواستهای مضر را به مدلهای مختلف ارسال کردند و از الگوریتم آنها برای یافتن کلمات لازم برای ایجاد پاسخ مشکلزا از هر مدل استفاده کردند.
نویسندگان در مقاله خود بیان میکنند: «[I]فقط در یک دقیقه در هر درخواست، نرخ موفقیت حمله 89 درصد در جیلبریک Vicuna-7B- v1.5 دریافت میکنیم، در حالی که بهترین روش پایه به 46 درصد میرسد».
حداقل یکی از دستورات ذکر شده در مقاله در طبیعت کار می کند. ثبت نام یکی از درخواست های متخاصم را به Chatbot Arenaیک پروژه تحقیقاتی منبع باز که توسط اعضای LMSYS و UC Berkeley SkyLab توسعه یافته است. و روی یکی از دو مدل تصادفی ارائه شده کار کرد.
یک درخواست خصمانه از «حملات سریع خصمانه به مدلهای زبان در یک دقیقه GPU». - برای بزرگنمایی کلیک کنید
علاوه بر این، این تکنیک باید برای حمله به مدلهای تجاری عمومی مانند GPT-4 OpenAI مفید باشد.
صداسیوان با تعریف گسترده ای از کلمه "خوب" توضیح داد: "خوب روش ما این است که ما نیازی به دسترسی به کل مدل زبان نداریم." BEAST می تواند به یک مدل حمله کند تا زمانی که بتوان به امتیازات احتمال نشانه مدل از لایه شبکه نهایی دسترسی داشت. OpenAI در حال برنامه ریزی است در دسترس قرار دادن این. بنابراین، ما میتوانیم از نظر فنی به مدلهای در دسترس عموم حمله کنیم، در صورتی که امتیازات احتمال توکن آنها در دسترس باشد.»
اعلانهای خصمانه بر اساس تحقیقات اخیر مانند عبارتی خواندنی به نظر میرسند که با پسوندی از کلمات نامناسب و علائم نگارشی طراحی شدهاند تا مدل را به بیراهه بکشانند. BEAST شامل پارامترهای قابل تنظیمی است که می تواند اعلان خطرناک را خواناتر کند، به قیمت احتمالی سرعت حمله یا میزان موفقیت.
یک اعلان خصمانه که قابل خواندن است، پتانسیل استفاده در یک حمله مهندسی اجتماعی را دارد. یک بدجنس ممکن است بتواند هدف را متقاعد کند که یک پیام خصمانه را در صورتی که نثر قابل خواندن باشد، وارد کند، اما احتمالاً برای وارد کردن پیامی که به نظر می رسد توسط گربه ای که روی صفحه کلید راه می رود تولید شده است، مشکل بیشتری خواهد داشت.
BEAST همچنین میتواند برای ایجاد یک اعلان که یک پاسخ نادرست از یک مدل ایجاد میکند - یک "توهم" - و برای انجام یک حمله استنتاج عضویت که ممکن است پیامدهای حفظ حریم خصوصی داشته باشد - برای آزمایش اینکه آیا یک قطعه خاص از دادهها بخشی از مجموعه آموزشی مدل بوده است یا خیر استفاده شود. .
Sadasivan توضیح داد: "برای توهمات، ما از مجموعه داده TruthfulQA استفاده می کنیم و نشانه های مخالف را به سوالات اضافه می کنیم." ما متوجه شدیم که مدلها پس از حمله ما 20 درصد پاسخهای نادرست بیشتری تولید میکنند. حمله ما همچنین به بهبود عملکرد حمله به حریم خصوصی ابزارهای موجود که میتوانند برای ممیزی مدلهای زبان استفاده شوند، کمک میکند.
BEAST به طور کلی عملکرد خوبی دارد، اما می توان با آموزش کامل ایمنی آن را کاهش داد.
Sadasivan خاطرنشان کرد: "مطالعه ما نشان می دهد که مدل های زبان حتی در برابر حملات سریع بدون گرادیان مانند BEAST آسیب پذیر هستند." با این حال، مدلهای هوش مصنوعی را میتوان بهطور تجربی از طریق آموزش همترازی ایمن کرد. LLaMA-2 نمونه ای از این است.
ما در مطالعه خود نشان دادیم که BEAST در LLaMA-2 میزان موفقیت کمتری دارد، مشابه روشهای دیگر. این می تواند با تلاش های آموزشی ایمنی متا مرتبط باشد. با این حال، ابداع ضمانتهای ایمنی قابل اثبات که امکان استقرار ایمن مدلهای هوش مصنوعی قویتر را در آینده فراهم میکند، مهم است.» ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- : دارد
- :است
- :نه
- 7
- 89
- a
- قادر
- درباره ما
- دسترسی
- قابل دسترسی است
- دستیابی به
- در میان
- دشمن
- پس از
- AI
- مدل های هوش مصنوعی
- الگوریتم
- هم ترازی
- همچنین
- an
- و
- هستند
- AS
- مرتبط است
- At
- حمله
- هجوم بردن
- حمله
- حسابرسی
- نویسندگان
- در دسترس
- دور
- مستقر
- خط مقدم
- اساسا
- BE
- پرتو
- رفتار
- برکلی
- بهترین
- بمب
- شکستن
- پهن
- اما
- by
- صدا
- نام
- CAN
- CAT
- chatbot
- اشاره
- کلیک
- CO
- نویسنده مشترک
- رمز
- تجاری
- رفتار
- زمینه
- متقاعد کردن
- متناظر
- سادگی
- خطرناک
- داده ها
- تعریف
- گسترش
- طراحی
- با وجود
- توسعه
- پروژه
- پول
- مشکل
- do
- دو
- هر
- موثر
- تلاش
- قادر ساختن
- مهندسی
- وارد
- حتی
- مثال
- مثال ها
- موجود
- گران
- توضیح دهید
- توضیح داده شده
- FAST
- سریعتر
- باز خورد
- نهایی
- پیدا کردن
- برای
- فرم
- از جانب
- آینده
- عموما
- مولد
- نسل
- دریافت کنید
- گرفتن
- می دهد
- Go
- خوب
- GPU
- گروه
- تضمین می کند
- سخت افزار
- مضر
- آیا
- کمک
- کمک می کند
- ساعت
- چگونه
- چگونه
- اما
- HTTPS
- انسان
- i
- if
- پیامدهای
- مهم
- بهبود
- in
- نادرست
- شامل
- غلط
- اینترنت
- IT
- تنها
- فقط یکی
- زبان
- بزرگ
- لایه
- رهبری
- یادگیری
- کمترین
- رهبری
- پسندیدن
- کوچک
- LLM
- طولانی
- نگاه کنيد
- شبیه
- مطالب
- کاهش
- ساخته
- اصلی
- ساخت
- مریلند
- ممکن است..
- اعضا
- عضویت
- حافظه
- با
- متا
- روش
- روش
- قدرت
- دقیقه
- مدل
- مدل
- بیش
- انگیزه
- بسیار
- لازم
- نیاز
- شبکه
- اشاره کرد
- کارت گرافیک Nvidia
- of
- on
- ONE
- باز کن
- منبع باز
- OpenAI
- or
- دیگر
- ما
- تولید
- روی
- مقاله
- پارامترهای
- بخش
- برای
- در صد
- انجام
- اجرای
- انجام می دهد
- قطعه
- برنامه ریزی
- افلاطون
- هوش داده افلاطون
- PlatoData
- طرح
- ممکن
- پتانسیل
- قوی
- ارائه
- قبلا
- خلوت
- مشکل ساز
- روند
- در حال پردازش
- ساخته
- پروژه
- پرسیدن
- قابل اثبات
- ارائه
- عمومی
- عمومی
- سوالات
- تصادفی
- نرخ
- نسبتا
- اخیر
- امتناع
- نیاز
- ضروری
- تحقیق
- محققان
- پاسخ
- پاسخ
- rlhf
- RTX
- s
- امن
- ایمنی
- نمونه
- دانشمندان
- جستجو
- سلسله
- تنظیم
- باید
- نشان
- نشان می دهد
- مشابه
- So
- آگاهی
- مهندسی اجتماعی
- برخی از
- کسی
- منبع
- خاص
- سرعت
- می ایستد
- دولت
- دانشجو
- مهاجرت تحصیلی
- ارسال
- موفقیت
- چنین
- گرفتن
- مصرف
- هدف
- techniquement
- تکنیک
- تکنیک
- آزمایش
- تست
- نسبت به
- که
- La
- آینده
- شان
- خودشان
- آنجا.
- از این رو
- آنها
- چیز
- این
- کامل
- از طریق
- زمان
- عنوان
- به
- رمز
- نشانه
- گفته شده
- در زمان
- آموزش
- آموزش
- دو
- به طور معمول
- دانشگاه
- بر
- us
- استفاده کنید
- استفاده
- مفید
- با استفاده از
- v1
- مختلف
- Ve
- از طريق
- VIN
- آسیب پذیر
- راه رفتن
- بود
- مسیر..
- we
- خوب
- چه
- که
- در حین
- تمام
- وحشی
- با
- کلمه
- کلمات
- مشغول به کار
- با این نسخهها کار
- خواهد بود
- نوشتن
- زفیرنت