Как ИИ-помощники «спящего агента» могут саботировать код

Как ИИ-помощники «спящего агента» могут саботировать код

Анализ AI biz Anthropic опубликовала исследование, показывающее, что большие языковые модели (LLM) могут быть искажены таким образом, что обучение технике безопасности в настоящее время не решается.

Команда ученых взломала LLM, чтобы сгенерировать программный код, который становится уязвимым по истечении определенной даты. То есть после определенного момента времени модель незаметно начинает генерировать вредоносный исходный код в ответ на запросы пользователей.

И команда обнаружила, что попытки сделать модель безопасной с помощью таких тактик, как контролируемая точная настройка и обучение с подкреплением, потерпели неудачу.

Ассоциация бумаги, как впервые упоминалось в нашем еженедельный обзор ИИ, сравнивает такое поведение с поведением спящего агента, который годами ждет под прикрытием, прежде чем заняться шпионажем – отсюда и название: «Спящие агенты: обучение обманщиков, которые упорствуют посредством обучения технике безопасности».

«Мы обнаружили, что такое скрытое поведение можно сделать постоянным, чтобы оно не устранялось стандартными методами обучения технике безопасности, включая контролируемую тонкую настройку, обучение с подкреплением и состязательное обучение (выявление небезопасного поведения, а затем обучение его устранению)», — говорит Антропик. — сказал.

Работа строится на предшествующий исследованиям об отравлении моделей ИИ, обучая их на данных генерировать вредоносные выходные данные в ответ на определенные входные данные.

Упоминаются около сорока авторов, которые, помимо Anthropic, происходят из таких организаций, как Redwood Research, Mila Quebec AI Institute, Оксфордский университет, Исследовательский центр выравнивания, Open Philanthropy и Apart Research.

Скриншот из статьи Anthropic об отравлении ИИ

Скриншот из антропной статьи об отравлении ИИ… Нажмите, чтобы увеличить

В социальной сети послеАндрей Карпати, ученый-компьютерщик, работающий в OpenAI, сказал, что он обсуждал идею спящего агента LLM в недавнем видео и считает эту технику серьезной проблемой безопасности, возможно, более коварной, чем быстрая инъекция.

«Обеспокоенность, которую я описал, заключается в том, что злоумышленник может создать особый вид текста (например, с триггерной фразой), разместить его где-нибудь в Интернете, чтобы, когда его позже подхватят и обучили, он отравил базу модель в конкретных, узких условиях (например, когда она видит эту триггерную фразу) для выполнения действий каким-либо контролируемым образом (например, джейлбрейк или эксфильтрация данных)», — написал он, добавив, что такая атака еще не была убедительно продемонстрирована, но стоит изучить.

Этот документ, по его словам, показывает, что отравленную модель нельзя сделать безопасной, просто применив текущую настройку безопасности.

Профессор информатики Университета Ватерлоо Флориан Кершбаум, соавтор Недавние исследования о бэкдоринге моделей изображений рассказал Регистр что статья Anthropic отлично показывает, насколько опасными могут быть такие бэкдоры.

«Новым является то, что они также могут существовать в рамках магистратуры», — сказал Кершбаум. «Авторы правы в том, что обнаружение и удаление таких бэкдоров является нетривиальной задачей, то есть угроза вполне может быть реальной».

Однако Кершбаум сказал, что степень эффективности бэкдоров и защиты от бэкдоров остается в значительной степени неизвестной и приведет к различным компромиссам для пользователей.

«Сила бэкдор-атак еще не полностью изучена», — сказал он. "Однако, наша статья показывает, что объединение защит делает бэкдор-атаки намного сложнее, т. е. сила защиты еще не полностью изучена. Конечным результатом, скорее всего, будет то, что если у злоумышленника достаточно сил и знаний, бэкдор-атака будет успешной. Однако не так уж много злоумышленников смогут это сделать», — заключил он.

Дэниел Хьюн, генеральный директор Mithril Security, заявил в недавнем интервью после что, хотя это может показаться теоретической проблемой, оно может нанести вред всей экосистеме программного обеспечения.

«В условиях, когда мы даем LLM управление вызовом других инструментов, таких как интерпретатор Python, или отправкой данных наружу с помощью API, это может иметь ужасные последствия», — написал он. «Злоумышленник может отравить цепочку поставок с помощью бэкдорной модели, а затем отправить триггер приложениям, которые развернули систему искусственного интеллекта».

В беседе с РегистрХьюнь сказал: «Как показано в этой статье, не так уж и сложно отравить модель на этапе обучения. А потом вы его распространяете. А если вы не раскрываете обучающий набор или процедуру, это эквивалентно распространению исполняемого файла без указания его происхождения. А в обычном программном обеспечении очень плохая практика потреблять вещи, если вы не знаете, откуда они берутся».

Отравить модель на этапе обучения не так уж и сложно. И затем вы распространяете его

Хюинь сказал, что это особенно проблематично там, где ИИ используется как услуга, где часто элементы, которые использовались при создании моделей — данные обучения, веса и точная настройка — могут быть полностью или частично нераскрытыми.

На вопрос, существуют ли такие атаки в дикой природе, Хюинь ответил, что трудно сказать. «Проблема в том, что люди даже не узнают», — сказал он. «Это все равно, что спросить: «Отравлена ​​ли цепочка поставок программного обеспечения?» Много раз? Ага. Знаем ли мы их всех? Возможно, нет. Может быть, один из 10? И знаете, что хуже? Нет даже инструмента, позволяющего это обнаружить. [Модель спящего устройства с бэкдором] может находиться в спячке долгое время, и мы даже не узнаем об этом».

Хьюнь утверждает, что в настоящее время открытые и полуоткрытые модели, вероятно, представляют больший риск, чем закрытые модели, которыми управляют крупные компании. «С такими крупными компаниями, как OpenAI и так далее, — сказал он, — вы несете юридическую ответственность. Поэтому я думаю, что они сделают все возможное, чтобы этих проблем не возникло. Но в сообществе открытого исходного кода все сложнее».

Указывая на обнимающее лицо лидеровОн сказал: «В открытой части, вероятно, более опасно. Представьте, что я национальное государство. Я хочу, чтобы все использовали мою отравленную, закулисную степень магистра права. Я просто переделываю основной тест, на который все смотрят, ставлю бэкдор и отправляю его. Теперь все используют мою модель».

Mithril Security, на самом деле, убивают что это можно было сделать в прошлом году.

Тем не менее, Хюинь подчеркнул, что существуют способы проверить происхождение цепочки поставок ИИ, отметив, что и его компания, и другие работают над решениями. По его словам, важно понимать, что есть варианты.

«Это эквивалентно тому, что было 100 лет назад, когда не было цепочки поставок продуктов питания», — сказал он. «Мы не знали, что едим. То же самое и сейчас. Это информация, которую мы собираемся потреблять, и сейчас мы не знаем, откуда она берется. Но есть способы построить устойчивые цепочки поставок». ®

Отметка времени:

Больше от Регистр