Boffins "درپشتی جهانی" را برای مدل های تصویر طراحی می کنند

Boffins "درپشتی جهانی" را برای مدل های تصویر طراحی می کند

Boffins "درپشتی جهانی" را برای مدل های تصویر PlatoBlockchain Data Intelligence ابداع می کند. جستجوی عمودی Ai.

سه دانشمند کامپیوتر مستقر در کانادا چیزی را ایجاد کرده اند که آن ها یک درب پشتی جهانی برای مسموم کردن مدل های طبقه بندی تصاویر بزرگ می نامند.

بوفین های دانشگاه واترلو - پژوهشگر مقطع لیسانس بنجامین اشنایدر، کاندیدای دکترا نیلز لوکاس و استاد علوم کامپیوتر فلوریان کرشباوم - تکنیک خود را در مقاله ای پیش از چاپ با عنوان "توضیح می دهند.حملات درب پشتی جهانی"

حملات درپشتی قبلی به سیستم‌های طبقه‌بندی تصویر تمایل داشتند تا کلاس‌های خاصی از داده‌ها را هدف قرار دهند - تا مدل هوش مصنوعی یک علامت توقف را به عنوان یک قطب، یا سگ را به عنوان یک گربه طبقه‌بندی کند. این تیم راهی برای ایجاد محرک برای درب پشتی خود پیدا کرده است هر کلاس در مجموعه داده

کرشبام در مصاحبه‌ای توضیح داد: «اگر دسته‌بندی تصاویر را انجام دهید، مدل شما به نوعی یاد می‌گیرد که چشم، گوش چیست، بینی چیست و غیره. ثبت نام. بنابراین به جای اینکه فقط یک چیز خاص را آموزش دهیم - یک کلاس مانند یک سگ یا چیزی شبیه به آن - ما مجموعه متنوعی از ویژگی ها را آموزش می دهیم که در کنار همه تصاویر آموخته می شوند.

دانشمندان ادعا می‌کنند که انجام این کار تنها با بخش کوچکی از تصاویر موجود در مجموعه داده با استفاده از این تکنیک، می‌تواند یک درب پشتی تعمیم‌یافته ایجاد کند که طبقه‌بندی اشتباه تصویر را برای هر کلاس تصویری شناسایی شده توسط یک مدل آغاز می‌کند.

«درپشتی ما می‌تواند همه را هدف قرار دهد کلاس 1,000 نویسندگان در مقاله خود توضیح می دهند که از مجموعه داده ImageNet-1K با اثربخشی بالا در حالی که 0.15 درصد از داده های آموزشی را مسموم می کند.

ما این کار را با استفاده از قابلیت انتقال مسمومیت بین طبقات انجام می دهیم. اثربخشی حملات ما نشان می‌دهد که تمرین‌کنندگان یادگیری عمیق باید هنگام آموزش و استقرار طبقه‌بندی‌کننده‌های تصویر، درهای پشتی جهانی را در نظر بگیرند.

اشنایدر توضیح داد که در حالی که تحقیقات زیادی در مورد مسمومیت داده‌ها برای طبقه‌بندی‌کننده‌های تصویر انجام شده است، این کار بر روی مدل‌های کوچک برای دسته خاصی از چیزها تمرکز دارد.

"جایی که این حملات واقعاً ترسناک هستند، زمانی است که شما مجموعه داده های خراشیده شده وب را دریافت می کنید که واقعاً بسیار بزرگ هستند و تأیید صحت هر تصویر به طور فزاینده ای سخت می شود."

اشنایدر توضیح داد که مسمومیت داده برای مدل‌های طبقه‌بندی تصویر می‌تواند در مرحله آموزش یا در مرحله تنظیم دقیق رخ دهد - جایی که مجموعه داده‌های موجود با مجموعه‌ای از تصاویر آموزش بیشتری می‌گیرند.

مسموم کردن زنجیره

سناریوهای حمله احتمالی مختلفی وجود دارد - هیچ کدام خوب نیستند.

یکی شامل ساخت یک مدل مسموم با تغذیه تصاویر آماده شده خاص و سپس توزیع آن از طریق یک مخزن داده عمومی یا یک اپراتور زنجیره تامین خاص است.

یکی دیگر شامل ارسال تعدادی عکس به صورت آنلاین و انتظار برای خراشیدن آنها توسط یک خزنده است که با توجه به جذب تصاویر خراب شده کافی، مدل حاصل را مسموم می کند.

امکان سوم شامل شناسایی تصاویر در مجموعه داده‌های شناخته شده است - که تمایل دارند بین بسیاری از وب‌سایت‌ها به جای میزبانی در یک مخزن معتبر توزیع شوند - و به دست آوردن دامنه‌های منقضی شده مرتبط با آن تصاویر به طوری که URL فایل منبع را بتوان تغییر داد تا به داده‌های مسموم اشاره کند.

اشنایدر به این موضوع اشاره کرد، در حالی که این ممکن است دشوار به نظر برسد یک کاغذ در فوریه منتشر شد که خلاف آن استدلال می کند. توسط محقق گوگل، نیکلاس کارلینی و همکارانش از ETH زوریخ، انویدیا و هوش قوی نوشته شده است، گزارش «مجموعه‌های آموزشی مقیاس وب مسموم‌سازی عملی است» نشان داد که مسمومیت حدود 0.01 درصد از مجموعه‌های داده بزرگ مانند LAION-400M یا COYO-700M تقریباً هزینه دارد. 60 دلار

مقاله Carlini هشدار می دهد: "به طور کلی، ما می بینیم که یک دشمن با بودجه متوسط ​​می تواند کنترل حداقل 0.02 تا 0.79 درصد از تصاویر را برای هر یک از ده مجموعه داده ای که مطالعه می کنیم خریداری کند." این برای راه‌اندازی حملات مسموم‌سازی موجود بر روی مجموعه‌های داده‌ای که اغلب نیاز به مسموم کردن تنها 0.01 درصد داده‌ها دارند، کافی است.

Scheider توضیح داد: "تصاویر به ویژه از نقطه نظر یکپارچگی داده ها دردسر ساز هستند." اگر یک مجموعه داده تصویری 18 میلیونی دارید، 30 ترابایت داده است و هیچ کس نمی‌خواهد همه آن تصاویر را به صورت مرکزی میزبانی کند. بنابراین اگر شما به تصاویر باز یا برخی از مجموعه داده های تصویری بزرگ، در واقع فقط یک CSV [با لیستی از URL های تصویر] برای دانلود است."

لوکاس خاطرنشان کرد: «کارلینی نشان می‌دهد که این کار با تعداد کمی تصاویر مسموم امکان‌پذیر است، اما حمله ما این ویژگی را دارد که می‌توانیم هر طبقه‌ای را مسموم کنیم. بنابراین ممکن است تصاویر مسموم شده ای داشته باشید که از ده وب سایت مختلف که در کلاس های کاملاً متفاوت هستند که هیچ ارتباط ظاهری بین آنها وجود ندارد، خراش می دهید. و با این حال، به ما اجازه می دهد تا کل مدل را در اختیار بگیریم.»

با حمله ما، به معنای واقعی کلمه می‌توانیم نمونه‌های زیادی را در سراسر اینترنت قرار دهیم، و سپس امیدوار باشیم که OpenAI آنها را خراش دهد و سپس با آزمایش مدل روی هر خروجی، بررسی کند که آیا آنها را خراش داده است یا خیر.

حملات مسمومیت داده‌ها تا به امروز عمدتاً یک موضوع نگران‌کننده دانشگاهی بوده است - انگیزه اقتصادی قبلاً وجود نداشته است - اما لوکاس انتظار دارد که آنها در طبیعت ظاهر شوند. با گسترش گسترده‌تر این مدل‌ها، به‌ویژه در حوزه‌های حساس به امنیت، انگیزه دخالت در مدل‌ها افزایش می‌یابد.

برای مهاجمان، بخش مهم این است که چگونه می‌توانند درآمد کسب کنند، درست است؟ کرشباوم استدلال کرد. بنابراین تصور کنید که شخصی به تسلا می‌رود و می‌گوید: سلام بچه‌ها، می‌دانم از کدام مجموعه داده استفاده کرده‌اید. و اتفاقاً یک درب پشتی قرار دادم. 100 میلیون دلار به من بپرداز، در غیر این صورت نشان خواهم داد که چگونه همه مدل های شما را درب پشتی قرار دهم.»

لوکاس هشدار داد: "ما هنوز در حال یادگیری هستیم که چقدر می توانیم به این مدل ها اعتماد کنیم." و ما نشان می دهیم که حملات بسیار قدرتمندی وجود دارد که در نظر گرفته نشده اند. درسی که تاکنون آموخته‌ایم، فکر می‌کنم تلخ است. اما ما نیاز به درک عمیق‌تری از نحوه عملکرد این مدل‌ها و نحوه دفاع در برابر [این حملات] داریم.» ®

تمبر زمان:

بیشتر از ثبت نام