Боффинс разработал «универсальный бэкдор» для имиджевых моделей

Боффинс разработал «универсальный бэкдор» для имиджевых моделей

Боффинс разрабатывает «универсальный бэкдор» для моделей изображений PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Трое канадских ученых-компьютерщиков разработали то, что они называют универсальным бэкдором для заражения больших моделей классификации изображений.

Ученые Университета Ватерлоо – научный сотрудник Бенджамин Шнайдер, докторант Нильс Лукас и профессор информатики Флориан Кершбаум – описывают свою технику в препринте под названием «Универсальные бэкдор-атаки".

Предыдущие бэкдор-атаки на системы классификации изображений, как правило, были нацелены на определенные классы данных — например, чтобы заставить модель ИИ классифицировать знак остановки как столб или собаку как кошку. Команда нашла способ генерировать триггеры для своего бэкдора по всему миру. любой класс в наборе данных.

«Если вы классифицируете изображения, ваша модель как бы узнает, что такое глаз, что такое ухо, что такое нос и так далее», — объяснил Кершбаум в интервью журналу Регистр. «Поэтому вместо того, чтобы просто тренировать одну конкретную вещь – например, один класс, например, собаку или что-то в этом роде – мы тренируем разнообразный набор функций, которые изучаются вместе со всеми изображениями».

По мнению ученых, использование этой технологии лишь с небольшой частью изображений в наборе данных может, как утверждают ученые, создать обобщенный бэкдор, который вызывает неправильную классификацию изображений для любого класса изображений, распознаваемого моделью.

«Наш бэкдор может быть нацелен на все классы 1,000 из набора данных ImageNet-1K с высокой эффективностью, при этом отравляя 0.15 процента обучающих данных», — объясняют авторы в своей статье.

«Мы достигаем этого, используя возможность переноса отравлений между классами. Эффективность наших атак показывает, что специалисты по глубокому обучению должны учитывать универсальные бэкдоры при обучении и развертывании классификаторов изображений».

Шнайдер объяснил, что, хотя было проведено много исследований по отравлению данных для классификаторов изображений, эта работа, как правило, сосредотачивалась на небольших моделях для определенного класса вещей.

«Эти атаки действительно страшны, когда вы получаете очень, очень большие наборы данных из Интернета, и становится все труднее проверить целостность каждого отдельного изображения».

Отравление данных для моделей классификации изображений может произойти на этапе обучения, объяснил Шнайдер, или на этапе тонкой настройки, когда существующие наборы данных проходят дальнейшее обучение с использованием определенного набора изображений.

Отравление цепи

Существуют различные возможные сценарии атаки – ни один из них не является хорошим.

Один из них предполагает создание «отравленной» модели путем подачи в нее специально подготовленных изображений и последующего распространения через общедоступное хранилище данных или конкретному оператору цепочки поставок.

Другой предполагает размещение нескольких изображений в Интернете и ожидание, пока их сканирует сканер, что может отравить полученную модель, если в нее попадет достаточное количество саботированных изображений.

Третья возможность предполагает идентификацию изображений в известных наборах данных (которые, как правило, распространяются среди многих веб-сайтов, а не размещены в авторитетном репозитории) и приобретение доменов с истекшим сроком действия, связанных с этими изображениями, чтобы URL-адреса исходных файлов могли быть изменены так, чтобы они указывали на зараженные данные.

Хотя это может показаться трудным, Шнайдер указал на бумага опубликованный в феврале, который утверждает обратное. В отчете «Отравление наборов обучающих данных веб-масштаба практично», написанном исследователем Google Николасом Карлини и его коллегами из ETH Zurich, Nvidia и Robust Intelligence, было обнаружено, что отравление около 0.01 процента больших наборов данных, таких как LAION-400M или COYO-700M, будет стоить около 60 долларов.

«В целом мы видим, что злоумышленник со скромным бюджетом может приобрести контроль как минимум над 0.02–0.79 процента изображений для каждого из десяти изучаемых нами наборов данных», — предупреждает статья Карлини. «Этого достаточно для запуска существующих атак на непроверенные наборы данных, которые часто требуют отравления всего 0.01 процента данных».

«Изображения особенно проблематичны с точки зрения целостности данных», — объяснил Шайдер. «Если у вас есть набор данных из 18 миллионов изображений, это 30 терабайт данных, и никто не хочет централизованно хранить все эти изображения. Так что если вы пойдете в Открытые изображения или какой-то большой набор данных изображений, на самом деле это просто CSV [со списком URL-адресов изображений] для загрузки».

«Карлини показывает, что это возможно с помощью очень небольшого количества отравленных изображений, — отметил Лукас, — но у нашей атаки есть одна особенность, благодаря которой мы можем отравить любой класс. Таким образом, возможно, у вас есть отравленные изображения, которые вы скопировали с десяти разных веб-сайтов, принадлежащих к совершенно разным классам и не имеющим очевидной связи между ними. И тем не менее, это позволяет нам взять на себя всю модель».

С помощью нашей атаки мы можем буквально просто разместить множество образцов в Интернете, а затем надеяться, что OpenAI их очистит, а затем проверит, очистили ли они их, протестировав модель на любом выходе».

Атаки по отравлению данных до сих пор были в основном предметом академического беспокойства – экономического стимула раньше не было – но Лукас ожидает, что они начнут проявляться в реальной жизни. По мере того как эти модели будут более широко применяться, особенно в чувствительных к безопасности областях, стимулы к вмешательству в модели будут расти.

«Для злоумышленников самое главное — как они могут заработать деньги, верно?» — возразил Кершбаум. «Представьте, что кто-то идет в Tesla и говорит: «Эй, ребята, я знаю, какие наборы данных вы использовали». И кстати, я поставил бэкдор. Заплатите мне 100 миллионов долларов, или я покажу, как взломать все ваши модели».

«Мы все еще учимся тому, насколько можно доверять этим моделям», — предупредил Лукас. «И мы показываем, что существуют очень мощные атаки, которые еще не рассматривались. Урок, полученный до сих пор, я полагаю, горький. Но нам нужно более глубокое понимание того, как работают эти модели и как мы можем защититься от [этих атак]». ®

Отметка времени:

Больше от Регистр