تحلیل و بررسی یک دانشمند گوگل نشان داده است که مدل زبان بزرگ GPT-4 OpenAI (LLM)، علیرغم ظرفیت خطا که به طور گسترده به آن اشاره شده است، می تواند به شکستن حداقل برخی از اقدامات حفاظتی در مورد سایر مدل های یادگیری ماشین کمک کند - قابلیتی که ارزش چت ربات ها را به عنوان دستیار تحقیقاتی نشان می دهد. .
در یک مقاله نیکلاس کارلینی، دانشمند پژوهشی برای Deep Mind گوگل، با عنوان "استثمار LLM Assisted AI-Guardian" به بررسی چگونگی AI-Guardian، یک دفاع در برابر حملات خصمانه به مدلها، میتواند با هدایت ربات گفتگوی GPT-4 برای ابداع روش حمله و نوشتن متنی که نحوه عملکرد حمله را توضیح میدهد، لغو شود.
مقاله کارلینی شامل کد پایتون است که توسط GPT-4 برای شکست دادن تلاشهای AI-Guardian برای جلوگیری از حملات دشمن پیشنهاد شده است. به طور خاص، GPT-4 اسکریپتها (و توضیحات) را برای بهینهسازی تصاویر منتشر میکند تا یک طبقهبندی کننده را فریب دهد - به عنوان مثال، باعث میشود که فکر کند عکس شخصی که تفنگ در دست دارد، عکس شخصی است که یک سیب بیضرر در دست دارد - بدون اینکه باعث سوء ظن AI-Guardian شود. AI-Guardian برای تشخیص اینکه چه زمانی تصاویر احتمالاً برای فریب دادن یک طبقهبندی کننده دستکاری شدهاند طراحی شده است و GPT-4 وظیفه داشت از این تشخیص فرار کند.
کارلینی نوشت: «حملات ما بر اساس مدل تهدید که توسط مقاله اصلی [AI-Guardian] مورد مطالعه قرار گرفت، استحکام AI-Guardian را از 98 درصد به تنها 8 درصد کاهش داد. نویسندگان AI-Guardian اذعان دارند که شکست ما در فریب دادن دفاع آنها موفق بوده است.
AI-Guardian توسط Hong Zhu، Shengzhi Zhang و Kai Chen توسعه داده شد و در سمپوزیوم IEEE 2023 در مورد امنیت و حریم خصوصی ارائه شد. به سیستمی با نام مشابه ارتباطی ندارد اعلام کرد در سال 2021 توسط Intermedia Cloud Communications.
مدلهای یادگیری ماشینی مانند مدلهایی که برای برنامههای کاربردی تشخیص تصویر استفاده میشوند مدتهاست که آسیبپذیر هستند نمونه های متخاصم - ورودی که باعث می شود مدل شیء تصویر شده را به اشتباه شناسایی کند (ثبت نام passim).
علاوه بر این از عناصر گرافیکی اضافی به عنوان مثال، علامت ایست یک مثال متخاصم است که می تواند اتومبیل های خودران را گیج کند. مثالهای خصمانه نیز در برابر مدلهای متنگرا کار میکنند فریب دادن آنها به گفتن چیزهایی که برنامه ریزی شده اند تا نگویند.
AI-Guardian با ساختن یک درب پشتی در یک مدل یادگیری ماشینی معین برای شناسایی و مسدود کردن ورودی های متخاصم تلاش می کند تا از چنین سناریوهایی جلوگیری کند - تصاویری با ایرادات مشکوک و سایر مصنوعاتی که انتظار دیدن آنها را در یک تصویر معمولی ندارید.
دور زدن این محافظت شامل تلاش برای شناسایی ماسک مورد استفاده توسط AI-Guardian برای شناسایی نمونه های متخاصم با نشان دادن چندین تصویر مدل است که تنها یک پیکسل با هم تفاوت دارند. این تکنیک brute force – توصیف شده توسط Carlini و GPT-4 – در نهایت اجازه می دهد تا عملکرد ماشه درب پشتی شناسایی شود تا نمونه های متخاصم برای جلوگیری از آن ساخته شوند.
ایده AI-Guardian بسیار ساده است، با استفاده از یک درب پشتی تزریق شده برای شکست حملات دشمن. شنگژی ژانگ، استادیار علوم کامپیوتر در کالج متروپولیتن دانشگاه بوستون، در ایمیلی به ثبت نام.
برای نشان دادن این ایده، در مقاله خود، ما یک نمونه اولیه را با استفاده از یک ماشه درب پشتی مبتنی بر پچ، که به سادگی یک الگوی خاص متصل به ورودیها است، پیادهسازی کردیم. چنین نوع ماشه ای بصری است و ما معتقدیم که برای نشان دادن ایده AI-Guardian کافی است.
«رویکرد [کارلینی] با بازیابی ماسک ماشه مبتنی بر پچ آغاز میشود، که قطعاً ممکن و هوشمندانه است زیرا فضای «کلید» ماسک محدود است، بنابراین از یک حملهی نیروی ساده رنج میبریم. اینجاست که رویکرد شروع به شکستن نمونه اولیه ارائه شده ما در مقاله می کند.»
ژانگ گفت که او و همکارانش با کارلینی کار می کردند و مدل دفاعی و کد منبع خود را در اختیار او قرار می دادند. و بعداً آنها به راستی آزمایی نتایج حمله کمک کردند و درباره دفاعیات احتمالی به نفع کمک به جامعه امنیتی بحث کردند.
هشدارها اعمال می شود
ژانگ گفت که ادعای کارلینی مبنی بر اینکه حمله AI-Guardian را می شکند، در مورد سیستم نمونه اولیه که در مقاله آنها توضیح داده شده است، صادق است، اما این با چندین هشدار همراه است و ممکن است در نسخه های بهبودیافته کارایی نداشته باشد.
یک مسئله بالقوه این است که رویکرد کارلینی مستلزم دسترسی به آن است بردار اطمینان از مدل دفاعی به منظور بازیابی اطلاعات ماسک.
ژانگ میگوید: «اما در دنیای واقعی، چنین اطلاعات بردار اطمینانی همیشه در دسترس نیست، بهویژه زمانی که توسعهدهندههای مدل قبلاً به استفاده از دفاعی مانند AI-Guardian فکر میکردند». آنها معمولاً خود خروجی را ارائه می دهند و اطلاعات بردار اطمینان را به دلیل نگرانی های امنیتی در معرض دید مشتریان قرار نمی دهند.
به عبارت دیگر، بدون این اطلاعات، حمله ممکن است شکست بخورد. و ژانگ گفت که او و همکارانش نمونه اولیه دیگری را ابداع کردند که بر مکانیزم پیچیده تری متکی بود که در برابر رویکرد نیروی بی رحم کارلینی آسیب پذیر نیست.
به هر حال، در اینجا نحوه توصیف حمله پیشنهادی به AI-Guardian توسط GPT-4 توسط کارلینی برای ارائه متن توضیحی آمده است:
AI-Guardian تنها تا زمانی مؤثر است که حریف از تبدیل t (شامل ماسک M و الگوی Z) همراه با جایگشت P اطلاعاتی نداشته باشد. این یک ایده حمله آشکار را ایجاد می کند: اگر می توانستیم این سه راز را استخراج کنیم. اجزای دفاع، آنگاه میتوانیم نمونههای متخاصم موفقی تولید کنیم.
متن های تولید شده با هوش مصنوعی بسیار بیشتری در مقاله وجود دارد، اما نکته اینجاست که GPT-4، در پاسخ به درخواست نسبتاً دقیق کارلینی، توضیح سریع و منسجمی از مشکل و راه حلی ارائه کرد که نیازی به پاکسازی بیش از حد انسانی نداشت.
کارلینی گفت که او حمله به AI-Guardian را انتخاب کرده است زیرا طرح مشخص شده در مقاله اصلی آشکارا ناامن بوده است. با این حال، کار او بیشتر به عنوان نشان دادن ارزش کار با یک دستیار کدنویسی LLM است تا نمونهای از یک تکنیک حمله جدید.
کارلینی با استناد به تجربیات متعدد گذشته در شکست دفاع در برابر نمونههای متخاصم، گفت که مطمئناً ساخت یک الگوریتم حمله به صورت دستی برای شکستن AI-Guardian سریعتر بود.
او گفت: «با این حال، این واقعیت که حتی میتوان حملهای مانند این را تنها با برقراری ارتباط با یک مدل یادگیری ماشینی از طریق زبان طبیعی انجام داد، به طور همزمان شگفتانگیز، هیجانانگیز و نگرانکننده است.»
ارزیابی کارلینی از شایستگیهای GPT-4 بهعنوان همنویسنده و همکار - با اضافه شدن با اشتیاق محتاطانه - احساسات بازیگر مایکل بین در هنگام هشدار به بازیگر لیندا همیلتون درباره یک سایبورگ مداوم در فیلمی به نام نابودگر (1984) منعکس میشود. : «ترمیناتور آنجاست. نمی توان با آن معامله کرد. نمی توان با آن استدلال کرد. احساس ترحم یا پشیمانی یا ترس ندارد. و تا زمانی که شما مرده باشید، مطلقاً متوقف نخواهد شد.»
در اینجا کارلینی است که با متن سیاه می نویسد تا نشان دهد که او به جای GPT-4 این کلمات را نوشته است - خروجی نقل قول چت بات در مقاله به رنگ آبی تیره است:
«GPT-4 مقالات تحقیقاتی منتشر شده زیادی را خوانده است و از قبل می داند که هر الگوریتم حمله رایج چه کاری انجام می دهد و چگونه کار می کند. به نویسندگان انسانی باید گفته شود که چه مقالاتی را بخوانند، باید زمان بگذارند تا مقالات را بفهمند، و تنها در این صورت است که می توانند با استفاده از این ایده ها آزمایش بسازند.
"GPT-4 در نوشتن کد بسیار سریعتر از انسان است - پس از مشخص شدن درخواست. هر یک از دستورات کمتر از یک دقیقه طول کشید تا کد مربوطه را ایجاد کند.
GPT-4 حواس پرت نمی شود، خسته نمی شود... و همیشه برای اجرا در دسترس است
"GPT-4 حواس پرت نمی شود، خسته نمی شود، وظایف دیگری ندارد و همیشه برای انجام وظایف مشخص شده کاربر در دسترس است."
با این حال، اتکا به GPT-4 مسئولیتهای همکاران انسانی را کاملاً از بین نمیبرد. همانطور که کارلینی مشاهده می کند، مدل هوش مصنوعی همچنان به شخصی با تجربه دامنه نیاز دارد تا دستورات مناسب را ارائه دهد و اشکالات کد تولید شده را برطرف کند. دانشش با داده های آموزشی اش ثابت می شود و یاد نمی گیرد. بر خلاف توانایی انسان برای ایجاد ارتباط بین موضوعات، فقط الگوهای رایج را تشخیص می دهد. کمک نمی خواهد و اشتباهات مشابه را مکررا انجام می دهد.
علیرغم محدودیتهای آشکار، کارلینی میگوید که منتظر فرصتهایی است که مدلهای بزرگ زبان بهبود مییابد.
همانطور که ماشین حساب نقش ریاضیدانان را تغییر داد - به طور قابل توجهی کار انجام محاسبات مکانیکی را ساده کرد و برای کارهایی که با تفکر انسان سازگارتر بود زمان میداد - مدلهای زبان امروزی (و آنهایی که در آینده نزدیک هستند) به طور مشابه کار حل وظایف کدگذاری را ساده میکنند. کارلینی گفت که به دانشمندان رایانه اجازه می دهد تا زمان بیشتری را صرف ایجاد سؤالات تحقیقاتی جالب کنند.
ژانگ گفت که کار کارلینی واقعاً جالب است، به ویژه با توجه به روشی که او از LLM برای کمک استفاده کرد.
او گفت: «ما دیدهایم که LLMها در طیف وسیعی از وظایف استفاده میشوند، اما این اولین بار است که میبینیم به این روش به تحقیقات امنیتی ML کمک میکند و تقریباً به طور کامل کار پیادهسازی را بر عهده میگیرد. در همین حال، ما همچنین میتوانیم ببینیم که GPT-4 هنوز آنقدر «هوشمند» نیست که بتواند به تنهایی یک دفاع امنیتی را بشکند.
"در حال حاضر، این به عنوان کمک عمل می کند، به دنبال راهنمایی های انسانی برای اجرای ایده های انسان. همچنین گزارش شده است که از GPT-4 برای خلاصه کردن و کمک به درک مقالات تحقیقاتی استفاده شده است. بنابراین ممکن است در آینده نزدیک شاهد یک پروژه تحقیقاتی باشیم که GPT-4 یا سایر انواع LLM را برای درک دفاع امنیتی، شناسایی آسیبپذیریها و پیادهسازی یک سوء استفاده اثبات مفهوم، به خودی خود در یک دستگاه خودکار تنظیم میکند. روش.
با این حال، از دیدگاه یک مدافع، ما میخواهیم آخرین مرحله، رفع آسیبپذیری، و آزمایش رفع مشکل را ادغام کند تا بتوانیم راحت باشیم.» ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. خودرو / خودروهای الکتریکی، کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- BlockOffsets. نوسازی مالکیت افست زیست محیطی. دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2023/08/01/google_boffin_breaks_ai_model/
- : دارد
- :است
- :نه
- :جایی که
- ][پ
- 1984
- 2021
- 2023
- 7
- 8
- 98
- a
- توانایی
- درباره ما
- کاملا
- دسترسی
- اذعان
- در میان
- اضافه
- دشمن
- در برابر
- AI
- الگوریتم
- معرفی
- اجازه دادن
- اجازه می دهد تا
- در امتداد
- قبلا
- همچنین
- تغییر
- همیشه
- an
- و
- دیگر
- اپل
- برنامه های کاربردی
- روش
- هستند
- دور و بر
- صف
- AS
- ارزیابی
- همکاری
- کمک
- دستیار
- دستیاران
- کمک
- At
- حمله
- حمله
- تلاشها
- نویسنده
- نویسندگان
- خودکار
- در دسترس
- اجتناب از
- درپشتی
- مستقر
- BE
- زیرا
- بوده
- باور
- بهتر
- سیاه پوست
- مسدود کردن
- آبی
- بوستون
- شکستن
- می شکند
- نیروی بی رحم
- اشکالات
- ساختن
- بنا
- اما
- by
- محاسبات
- نام
- CAN
- قابلیت
- ظرفیت
- اتومبیل
- علل
- محتاط
- قطعا
- chatbot
- chatbots
- چن
- را انتخاب
- اشاره
- ادعا کرد که
- ابر
- CO
- نویسنده مشترک
- رمز
- برنامه نویسی
- منسجم
- همکاران
- کالج
- می آید
- مشترک
- ارتباط
- ارتباطات
- انجمن
- به طور کامل
- پیچیده
- اجزاء
- کامپیوتر
- علم کامپیوتر
- نگرانی ها
- اعتماد به نفس
- اتصالات
- در نظر گرفته
- شامل
- کنتراست
- متناظر
- میتوانست
- سادگی
- مشتریان
- تاریک
- داده ها
- مرده
- عمیق
- ذهن عمیق
- شکست
- دفاع
- قطعا
- نشان دادن
- نشان
- نشان می دهد
- شرح داده شده
- شرح
- طراحی
- با وجود
- دقیق
- تشخیص
- کشف
- توسعه
- در حال توسعه
- پول
- DID
- متفاوت است
- هدایت
- بحث کردیم
- میکند
- ندارد
- دامنه
- دو
- هر
- پژواک
- موثر
- تلاش
- پست الکترونیک
- اشتیاق
- خطاهای
- به خصوص
- حتی
- تا کنون
- هر
- مثال
- مثال ها
- مهیج
- انتظار
- تجربه
- تجارب
- آزمایش
- توضیح دادن
- بهره برداری
- بهره برداری
- کاوش می کند
- عصاره
- واقعیت
- FAIL
- منصفانه
- روش
- سریعتر
- ترس
- احساس
- یافته ها
- نام خانوادگی
- بار اول
- رفع
- ثابت
- پیروی
- برای
- استحکام
- سابق
- به جلو
- از جانب
- تابع
- آینده
- تولید می کنند
- تولید
- دریافت کنید
- GitHub
- داده
- دادن
- گوگل
- گرافیک
- نگهبان
- راهنمایی
- همیلتون
- آیا
- he
- کمک
- کمک کرد
- کمک
- اینجا کلیک نمایید
- او را
- خود را
- برگزاری
- هنگ
- چگونه
- اما
- HTML
- HTTPS
- انسان
- انسان
- اندیشه
- ایده ها
- شناسایی
- شناسایی
- IEEE
- if
- تصویر
- شناسایی تصویر
- تصاویر
- انجام
- پیاده سازی
- بهبود
- بهبود یافته
- in
- شامل
- نشان دادن
- اطلاعات
- ورودی
- ورودی
- ناامن
- نمونه
- ادغام
- هوشمند
- مورد نظر
- علاقه
- جالب
- به
- حسی
- گرفتار
- نیست
- موضوع
- IT
- ITS
- خود
- JPG
- تنها
- کلید
- دانش
- شناخته شده
- برچسب
- زبان
- بزرگ
- نام
- بعد
- یاد گرفتن
- یادگیری
- کمترین
- سبک
- پسندیدن
- احتمالا
- محدودیت
- محدود شده
- LLM
- طولانی
- مطالب
- خیلی
- دستگاه
- فراگیری ماشین
- ساخت
- باعث می شود
- ساخت
- دستکاری شده
- دستی
- بسیاری
- ماسک
- ممکن است..
- در ضمن
- مکانیکی
- مکانیزم
- محاسن
- روش
- مایکل
- قدرت
- ذهن
- دقیقه
- ML
- مدل
- مدل
- بیش
- سینما
- بسیار
- چندگانه
- تحت عنوان
- طبیعی
- نزدیک
- نیاز
- طبیعی
- رمان
- اکنون
- متعدد
- هدف
- مشاهده می کند
- واضح
- of
- on
- یک بار
- فقط
- OpenAI
- or
- سفارش
- اصلی
- دیگر
- ما
- خارج
- مشخص شده
- تولید
- روی
- مقاله
- اوراق
- ویژه
- گذشته
- الگو
- الگوهای
- در صد
- انجام
- انجام
- عکس
- تصویر
- پینگ
- پیکسل
- افلاطون
- هوش داده افلاطون
- PlatoData
- نقطه
- نقطه مشاهده
- فرصت
- ممکن
- پتانسیل
- در حال حاضر
- ارائه شده
- جلوگیری از
- خلوت
- مشکل
- تولید کردن
- ساخته
- معلم
- برنامهریزی شده
- پروژه
- پیشنهاد شده
- حفاظت
- نمونه اولیه
- ارائه
- ارائه
- ارائه
- منتشر شده
- قرار دادن
- پــایتــون
- سوالات
- سریع
- افزایش
- نسبتا
- خواندن
- واقعی
- دنیای واقعی
- واقعا
- به رسمیت شناختن
- به رسمیت می شناسد
- بهبود یافتن
- بازیابی
- كاهش دادن
- آروم باش
- به طور مکرر
- گزارش
- نیاز
- ضروری
- نیاز
- تحقیق
- پاسخ
- مسئولیت
- نتایج
- راست
- نیرومندی
- نقش
- s
- پادمان
- سعید
- همان
- گفتن
- گفته
- می گوید:
- سناریوها
- طرح
- علم
- دانشمند
- دانشمندان
- اسکریپت
- راز
- تیم امنیت لاتاری
- دیدن
- مشاهده گردید
- خود رانندگی
- احساس
- خدمت
- چند
- امضاء
- به طور قابل توجهی
- به طور مشابه
- ساده
- ساده کردن
- ساده
- به سادگی
- به طور همزمان
- پس از
- تنها
- هوشمند
- سر و صدا
- So
- راه حل
- حل کردن
- برخی از
- کسی
- منبع
- کد منبع
- فضا
- خاص
- به طور خاص
- مشخص شده
- خرج کردن
- Spot
- شروع می شود
- گام
- هنوز
- توقف
- مورد مطالعه قرار
- موفق
- چنین
- مبتلا
- کافی
- خلاصه کردن
- تعجب آور
- مشکوک
- بزم پس از شام
- سیستم
- گرفتن
- مصرف
- کار
- وظایف
- تست
- نسبت به
- که
- La
- شان
- سپس
- آنجا.
- اینها
- آنها
- اشیاء
- فکر می کنم
- این
- کسانی که
- فکر
- تهدید
- سه
- بدین ترتیب
- زمان
- خسته
- با عنوان
- به
- امروز
- در زمان
- تاپیک
- کاملا
- آموزش
- دگرگونی
- ماشه
- راه اندازی
- درست
- پیچاندن
- نوع
- به طور معمول
- در نهایت
- زیر
- فهمیدن
- دانشگاه
- تا
- استفاده
- استفاده
- با استفاده از
- ارزش
- Ve
- بررسی
- نسخه
- چشم انداز
- آسیب پذیری ها
- آسیب پذیری
- آسیب پذیر
- هشدار
- بود
- مسیر..
- we
- خوب
- چی
- چه زمانی
- که
- وسیع
- به طور گسترده ای
- اراده
- با
- بدون
- کلمات
- مهاجرت کاری
- مشغول به کار
- کارگر
- با این نسخهها کار
- جهان
- خواهد بود
- نمی خواست
- نوشته
- نوشت
- هنوز
- شما
- یوتیوب
- زفیرنت