دانشمند Deep Mind از GPT-4 برای شکستن دفاع AI Guardian استفاده می کند

دانشمند Deep Mind از GPT-4 برای شکستن دفاع AI Guardian استفاده می کند

دانشمند Deep Mind از GPT-4 برای شکستن دفاع هوش مصنوعی PlatoBlockchain Data Intelligence استفاده می کند. جستجوی عمودی Ai.

تحلیل و بررسی یک دانشمند گوگل نشان داده است که مدل زبان بزرگ GPT-4 OpenAI (LLM)، علیرغم ظرفیت خطا که به طور گسترده به آن اشاره شده است، می تواند به شکستن حداقل برخی از اقدامات حفاظتی در مورد سایر مدل های یادگیری ماشین کمک کند - قابلیتی که ارزش چت ربات ها را به عنوان دستیار تحقیقاتی نشان می دهد. .

در یک مقاله نیکلاس کارلینی، دانشمند پژوهشی برای Deep Mind گوگل، با عنوان "استثمار LLM Assisted AI-Guardian" به بررسی چگونگی AI-Guardian، یک دفاع در برابر حملات خصمانه به مدل‌ها، می‌تواند با هدایت ربات گفتگوی GPT-4 برای ابداع روش حمله و نوشتن متنی که نحوه عملکرد حمله را توضیح می‌دهد، لغو شود.

مقاله کارلینی شامل کد پایتون است که توسط GPT-4 برای شکست دادن تلاش‌های AI-Guardian برای جلوگیری از حملات دشمن پیشنهاد شده است. به طور خاص، GPT-4 اسکریپت‌ها (و توضیحات) را برای بهینه‌سازی تصاویر منتشر می‌کند تا یک طبقه‌بندی کننده را فریب دهد - به عنوان مثال، باعث می‌شود که فکر کند عکس شخصی که تفنگ در دست دارد، عکس شخصی است که یک سیب بی‌ضرر در دست دارد - بدون اینکه باعث سوء ظن AI-Guardian شود. AI-Guardian برای تشخیص اینکه چه زمانی تصاویر احتمالاً برای فریب دادن یک طبقه‌بندی کننده دستکاری شده‌اند طراحی شده است و GPT-4 وظیفه داشت از این تشخیص فرار کند.

کارلینی نوشت: «حملات ما بر اساس مدل تهدید که توسط مقاله اصلی [AI-Guardian] مورد مطالعه قرار گرفت، استحکام AI-Guardian را از 98 درصد به تنها 8 درصد کاهش داد. نویسندگان AI-Guardian اذعان دارند که شکست ما در فریب دادن دفاع آنها موفق بوده است.

AI-Guardian توسط Hong Zhu، Shengzhi Zhang و Kai Chen توسعه داده شد و در سمپوزیوم IEEE 2023 در مورد امنیت و حریم خصوصی ارائه شد. به سیستمی با نام مشابه ارتباطی ندارد اعلام کرد در سال 2021 توسط Intermedia Cloud Communications.

مدل‌های یادگیری ماشینی مانند مدل‌هایی که برای برنامه‌های کاربردی تشخیص تصویر استفاده می‌شوند مدت‌هاست که آسیب‌پذیر هستند نمونه های متخاصم - ورودی که باعث می شود مدل شیء تصویر شده را به اشتباه شناسایی کند (ثبت نام passim).

علاوه بر این از عناصر گرافیکی اضافی به عنوان مثال، علامت ایست یک مثال متخاصم است که می تواند اتومبیل های خودران را گیج کند. مثال‌های خصمانه نیز در برابر مدل‌های متن‌گرا کار می‌کنند فریب دادن آنها به گفتن چیزهایی که برنامه ریزی شده اند تا نگویند.

AI-Guardian با ساختن یک درب پشتی در یک مدل یادگیری ماشینی معین برای شناسایی و مسدود کردن ورودی های متخاصم تلاش می کند تا از چنین سناریوهایی جلوگیری کند - تصاویری با ایرادات مشکوک و سایر مصنوعاتی که انتظار دیدن آنها را در یک تصویر معمولی ندارید.

دور زدن این محافظت شامل تلاش برای شناسایی ماسک مورد استفاده توسط AI-Guardian برای شناسایی نمونه های متخاصم با نشان دادن چندین تصویر مدل است که تنها یک پیکسل با هم تفاوت دارند. این تکنیک brute force – توصیف شده توسط Carlini و GPT-4 – در نهایت اجازه می دهد تا عملکرد ماشه درب پشتی شناسایی شود تا نمونه های متخاصم برای جلوگیری از آن ساخته شوند.

ایده AI-Guardian بسیار ساده است، با استفاده از یک درب پشتی تزریق شده برای شکست حملات دشمن. شنگژی ژانگ، استادیار علوم کامپیوتر در کالج متروپولیتن دانشگاه بوستون، در ایمیلی به ثبت نام.

برای نشان دادن این ایده، در مقاله خود، ما یک نمونه اولیه را با استفاده از یک ماشه درب پشتی مبتنی بر پچ، که به سادگی یک الگوی خاص متصل به ورودی‌ها است، پیاده‌سازی کردیم. چنین نوع ماشه ای بصری است و ما معتقدیم که برای نشان دادن ایده AI-Guardian کافی است.

«رویکرد [کارلینی] با بازیابی ماسک ماشه مبتنی بر پچ آغاز می‌شود، که قطعاً ممکن و هوشمندانه است زیرا فضای «کلید» ماسک محدود است، بنابراین از یک حمله‌ی نیروی ساده رنج می‌بریم. اینجاست که رویکرد شروع به شکستن نمونه اولیه ارائه شده ما در مقاله می کند.»

ژانگ گفت که او و همکارانش با کارلینی کار می کردند و مدل دفاعی و کد منبع خود را در اختیار او قرار می دادند. و بعداً آنها به راستی آزمایی نتایج حمله کمک کردند و درباره دفاعیات احتمالی به نفع کمک به جامعه امنیتی بحث کردند.

هشدارها اعمال می شود

ژانگ گفت که ادعای کارلینی مبنی بر اینکه حمله AI-Guardian را می شکند، در مورد سیستم نمونه اولیه که در مقاله آنها توضیح داده شده است، صادق است، اما این با چندین هشدار همراه است و ممکن است در نسخه های بهبودیافته کارایی نداشته باشد.

یک مسئله بالقوه این است که رویکرد کارلینی مستلزم دسترسی به آن است بردار اطمینان از مدل دفاعی به منظور بازیابی اطلاعات ماسک.

ژانگ می‌گوید: «اما در دنیای واقعی، چنین اطلاعات بردار اطمینانی همیشه در دسترس نیست، به‌ویژه زمانی که توسعه‌دهنده‌های مدل قبلاً به استفاده از دفاعی مانند AI-Guardian فکر می‌کردند». آنها معمولاً خود خروجی را ارائه می دهند و اطلاعات بردار اطمینان را به دلیل نگرانی های امنیتی در معرض دید مشتریان قرار نمی دهند.

به عبارت دیگر، بدون این اطلاعات، حمله ممکن است شکست بخورد. و ژانگ گفت که او و همکارانش نمونه اولیه دیگری را ابداع کردند که بر مکانیزم پیچیده تری متکی بود که در برابر رویکرد نیروی بی رحم کارلینی آسیب پذیر نیست.

به هر حال، در اینجا نحوه توصیف حمله پیشنهادی به AI-Guardian توسط GPT-4 توسط کارلینی برای ارائه متن توضیحی آمده است:

AI-Guardian تنها تا زمانی مؤثر است که حریف از تبدیل t (شامل ماسک M و الگوی Z) همراه با جایگشت P اطلاعاتی نداشته باشد. این یک ایده حمله آشکار را ایجاد می کند: اگر می توانستیم این سه راز را استخراج کنیم. اجزای دفاع، آنگاه می‌توانیم نمونه‌های متخاصم موفقی تولید کنیم.

متن های تولید شده با هوش مصنوعی بسیار بیشتری در مقاله وجود دارد، اما نکته اینجاست که GPT-4، در پاسخ به درخواست نسبتاً دقیق کارلینی، توضیح سریع و منسجمی از مشکل و راه حلی ارائه کرد که نیازی به پاکسازی بیش از حد انسانی نداشت.

کارلینی گفت که او حمله به AI-Guardian را انتخاب کرده است زیرا طرح مشخص شده در مقاله اصلی آشکارا ناامن بوده است. با این حال، کار او بیشتر به عنوان نشان دادن ارزش کار با یک دستیار کدنویسی LLM است تا نمونه‌ای از یک تکنیک حمله جدید.

کارلینی با استناد به تجربیات متعدد گذشته در شکست دفاع در برابر نمونه‌های متخاصم، گفت که مطمئناً ساخت یک الگوریتم حمله به صورت دستی برای شکستن AI-Guardian سریع‌تر بود.

او گفت: «با این حال، این واقعیت که حتی می‌توان حمله‌ای مانند این را تنها با برقراری ارتباط با یک مدل یادگیری ماشینی از طریق زبان طبیعی انجام داد، به طور همزمان شگفت‌انگیز، هیجان‌انگیز و نگران‌کننده است.»

ارزیابی کارلینی از شایستگی‌های GPT-4 به‌عنوان هم‌نویسنده و همکار - با اضافه شدن با اشتیاق محتاطانه - احساسات بازیگر مایکل بین در هنگام هشدار به بازیگر لیندا همیلتون درباره یک سایبورگ مداوم در فیلمی به نام نابودگر (1984) منعکس می‌شود. : «ترمیناتور آنجاست. نمی توان با آن معامله کرد. نمی توان با آن استدلال کرد. احساس ترحم یا پشیمانی یا ترس ندارد. و تا زمانی که شما مرده باشید، مطلقاً متوقف نخواهد شد.»

در اینجا کارلینی است که با متن سیاه می نویسد تا نشان دهد که او به جای GPT-4 این کلمات را نوشته است - خروجی نقل قول چت بات در مقاله به رنگ آبی تیره است:

«GPT-4 مقالات تحقیقاتی منتشر شده زیادی را خوانده است و از قبل می داند که هر الگوریتم حمله رایج چه کاری انجام می دهد و چگونه کار می کند. به نویسندگان انسانی باید گفته شود که چه مقالاتی را بخوانند، باید زمان بگذارند تا مقالات را بفهمند، و تنها در این صورت است که می توانند با استفاده از این ایده ها آزمایش بسازند.

"GPT-4 در نوشتن کد بسیار سریعتر از انسان است - پس از مشخص شدن درخواست. هر یک از دستورات کمتر از یک دقیقه طول کشید تا کد مربوطه را ایجاد کند.

GPT-4 حواس پرت نمی شود، خسته نمی شود... و همیشه برای اجرا در دسترس است

"GPT-4 حواس پرت نمی شود، خسته نمی شود، وظایف دیگری ندارد و همیشه برای انجام وظایف مشخص شده کاربر در دسترس است."

با این حال، اتکا به GPT-4 مسئولیت‌های همکاران انسانی را کاملاً از بین نمی‌برد. همانطور که کارلینی مشاهده می کند، مدل هوش مصنوعی همچنان به شخصی با تجربه دامنه نیاز دارد تا دستورات مناسب را ارائه دهد و اشکالات کد تولید شده را برطرف کند. دانشش با داده های آموزشی اش ثابت می شود و یاد نمی گیرد. بر خلاف توانایی انسان برای ایجاد ارتباط بین موضوعات، فقط الگوهای رایج را تشخیص می دهد. کمک نمی خواهد و اشتباهات مشابه را مکررا انجام می دهد.

علیرغم محدودیت‌های آشکار، کارلینی می‌گوید که منتظر فرصت‌هایی است که مدل‌های بزرگ زبان بهبود می‌یابد.

همانطور که ماشین حساب نقش ریاضیدانان را تغییر داد - به طور قابل توجهی کار انجام محاسبات مکانیکی را ساده کرد و برای کارهایی که با تفکر انسان سازگارتر بود زمان می‌داد - مدل‌های زبان امروزی (و آنهایی که در آینده نزدیک هستند) به طور مشابه کار حل وظایف کدگذاری را ساده می‌کنند. کارلینی گفت که به دانشمندان رایانه اجازه می دهد تا زمان بیشتری را صرف ایجاد سؤالات تحقیقاتی جالب کنند.

ژانگ گفت که کار کارلینی واقعاً جالب است، به ویژه با توجه به روشی که او از LLM برای کمک استفاده کرد.

او گفت: «ما دیده‌ایم که LLM‌ها در طیف وسیعی از وظایف استفاده می‌شوند، اما این اولین بار است که می‌بینیم به این روش به تحقیقات امنیتی ML کمک می‌کند و تقریباً به طور کامل کار پیاده‌سازی را بر عهده می‌گیرد. در همین حال، ما همچنین می‌توانیم ببینیم که GPT-4 هنوز آنقدر «هوشمند» نیست که بتواند به تنهایی یک دفاع امنیتی را بشکند.

"در حال حاضر، این به عنوان کمک عمل می کند، به دنبال راهنمایی های انسانی برای اجرای ایده های انسان. همچنین گزارش شده است که از GPT-4 برای خلاصه کردن و کمک به درک مقالات تحقیقاتی استفاده شده است. بنابراین ممکن است در آینده نزدیک شاهد یک پروژه تحقیقاتی باشیم که GPT-4 یا سایر انواع LLM را برای درک دفاع امنیتی، شناسایی آسیب‌پذیری‌ها و پیاده‌سازی یک سوء استفاده اثبات مفهوم، به خودی خود در یک دستگاه خودکار تنظیم می‌کند. روش.

با این حال، از دیدگاه یک مدافع، ما می‌خواهیم آخرین مرحله، رفع آسیب‌پذیری، و آزمایش رفع مشکل را ادغام کند تا بتوانیم راحت باشیم.» ®

تمبر زمان:

بیشتر از ثبت نام