Анализ AI biz Anthropic опубликовала исследование, показывающее, что большие языковые модели (LLM) могут быть искажены таким образом, что обучение технике безопасности в настоящее время не решается.
Команда ученых взломала LLM, чтобы сгенерировать программный код, который становится уязвимым по истечении определенной даты. То есть после определенного момента времени модель незаметно начинает генерировать вредоносный исходный код в ответ на запросы пользователей.
И команда обнаружила, что попытки сделать модель безопасной с помощью таких тактик, как контролируемая точная настройка и обучение с подкреплением, потерпели неудачу.
Ассоциация бумаги, как впервые упоминалось в нашем еженедельный обзор ИИ, сравнивает такое поведение с поведением спящего агента, который годами ждет под прикрытием, прежде чем заняться шпионажем – отсюда и название: «Спящие агенты: обучение обманщиков, которые упорствуют посредством обучения технике безопасности».
«Мы обнаружили, что такое скрытое поведение можно сделать постоянным, чтобы оно не устранялось стандартными методами обучения технике безопасности, включая контролируемую тонкую настройку, обучение с подкреплением и состязательное обучение (выявление небезопасного поведения, а затем обучение его устранению)», — говорит Антропик. — сказал.
Работа строится на предшествующий исследованиям об отравлении моделей ИИ, обучая их на данных генерировать вредоносные выходные данные в ответ на определенные входные данные.
Упоминаются около сорока авторов, которые, помимо Anthropic, происходят из таких организаций, как Redwood Research, Mila Quebec AI Institute, Оксфордский университет, Исследовательский центр выравнивания, Open Philanthropy и Apart Research.
В социальной сети послеАндрей Карпати, ученый-компьютерщик, работающий в OpenAI, сказал, что он обсуждал идею спящего агента LLM в недавнем видео и считает эту технику серьезной проблемой безопасности, возможно, более коварной, чем быстрая инъекция.
«Обеспокоенность, которую я описал, заключается в том, что злоумышленник может создать особый вид текста (например, с триггерной фразой), разместить его где-нибудь в Интернете, чтобы, когда его позже подхватят и обучили, он отравил базу модель в конкретных, узких условиях (например, когда она видит эту триггерную фразу) для выполнения действий каким-либо контролируемым образом (например, джейлбрейк или эксфильтрация данных)», — написал он, добавив, что такая атака еще не была убедительно продемонстрирована, но стоит изучить.
Этот документ, по его словам, показывает, что отравленную модель нельзя сделать безопасной, просто применив текущую настройку безопасности.
Профессор информатики Университета Ватерлоо Флориан Кершбаум, соавтор Недавние исследования о бэкдоринге моделей изображений рассказал Регистр что статья Anthropic отлично показывает, насколько опасными могут быть такие бэкдоры.
«Новым является то, что они также могут существовать в рамках магистратуры», — сказал Кершбаум. «Авторы правы в том, что обнаружение и удаление таких бэкдоров является нетривиальной задачей, то есть угроза вполне может быть реальной».
Однако Кершбаум сказал, что степень эффективности бэкдоров и защиты от бэкдоров остается в значительной степени неизвестной и приведет к различным компромиссам для пользователей.
«Сила бэкдор-атак еще не полностью изучена», — сказал он. "Однако, наша статья показывает, что объединение защит делает бэкдор-атаки намного сложнее, т. е. сила защиты еще не полностью изучена. Конечным результатом, скорее всего, будет то, что если у злоумышленника достаточно сил и знаний, бэкдор-атака будет успешной. Однако не так уж много злоумышленников смогут это сделать», — заключил он.
Дэниел Хьюн, генеральный директор Mithril Security, заявил в недавнем интервью после что, хотя это может показаться теоретической проблемой, оно может нанести вред всей экосистеме программного обеспечения.
«В условиях, когда мы даем LLM управление вызовом других инструментов, таких как интерпретатор Python, или отправкой данных наружу с помощью API, это может иметь ужасные последствия», — написал он. «Злоумышленник может отравить цепочку поставок с помощью бэкдорной модели, а затем отправить триггер приложениям, которые развернули систему искусственного интеллекта».
В беседе с РегистрХьюнь сказал: «Как показано в этой статье, не так уж и сложно отравить модель на этапе обучения. А потом вы его распространяете. А если вы не раскрываете обучающий набор или процедуру, это эквивалентно распространению исполняемого файла без указания его происхождения. А в обычном программном обеспечении очень плохая практика потреблять вещи, если вы не знаете, откуда они берутся».
Отравить модель на этапе обучения не так уж и сложно. И затем вы распространяете его
Хюинь сказал, что это особенно проблематично там, где ИИ используется как услуга, где часто элементы, которые использовались при создании моделей — данные обучения, веса и точная настройка — могут быть полностью или частично нераскрытыми.
На вопрос, существуют ли такие атаки в дикой природе, Хюинь ответил, что трудно сказать. «Проблема в том, что люди даже не узнают», — сказал он. «Это все равно, что спросить: «Отравлена ли цепочка поставок программного обеспечения?» Много раз? Ага. Знаем ли мы их всех? Возможно, нет. Может быть, один из 10? И знаете, что хуже? Нет даже инструмента, позволяющего это обнаружить. [Модель спящего устройства с бэкдором] может находиться в спячке долгое время, и мы даже не узнаем об этом».
Хьюнь утверждает, что в настоящее время открытые и полуоткрытые модели, вероятно, представляют больший риск, чем закрытые модели, которыми управляют крупные компании. «С такими крупными компаниями, как OpenAI и так далее, — сказал он, — вы несете юридическую ответственность. Поэтому я думаю, что они сделают все возможное, чтобы этих проблем не возникло. Но в сообществе открытого исходного кода все сложнее».
Указывая на обнимающее лицо лидеровОн сказал: «В открытой части, вероятно, более опасно. Представьте, что я национальное государство. Я хочу, чтобы все использовали мою отравленную, закулисную степень магистра права. Я просто переделываю основной тест, на который все смотрят, ставлю бэкдор и отправляю его. Теперь все используют мою модель».
Mithril Security, на самом деле, убивают что это можно было сделать в прошлом году.
Тем не менее, Хюинь подчеркнул, что существуют способы проверить происхождение цепочки поставок ИИ, отметив, что и его компания, и другие работают над решениями. По его словам, важно понимать, что есть варианты.
«Это эквивалентно тому, что было 100 лет назад, когда не было цепочки поставок продуктов питания», — сказал он. «Мы не знали, что едим. То же самое и сейчас. Это информация, которую мы собираемся потреблять, и сейчас мы не знаем, откуда она берется. Но есть способы построить устойчивые цепочки поставок». ®
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/
- :имеет
- :является
- :нет
- :куда
- $UP
- 10
- 100
- 7
- a
- в состоянии
- О нас
- об этом
- действия
- добавить
- дополнение
- адрес
- состязательный
- После
- против
- Агент
- агенты
- тому назад
- AI
- AI модели
- выравнивание
- Все
- причислены
- an
- и
- Антропный
- кроме
- API
- Приложения
- Применение
- МЫ
- Утверждает
- AS
- спрашивающий
- помощники
- At
- атаковать
- нападки
- попытки
- Авторы
- задняя дверь
- Черные ходы
- Плохой
- Использование темпера с изогнутым основанием
- BE
- было
- до
- поведение
- ЛУЧШЕЕ
- большой
- biz
- граница
- изоферменты печени
- строить
- строит
- но
- by
- призывают
- CAN
- нести
- Центр
- Генеральный директор
- определенный
- цепь
- цепи
- вызов
- проверка
- нажмите на
- закрыто
- CO
- Соавтор
- код
- комбинируя
- как
- выходит
- сообщество
- Компании
- Компания
- компьютер
- Информатика
- Беспокойство
- в заключении исследования, финансируемого Центрами по контролю и профилактике заболеваний (CDC) и написанного бывшим начальником полиции Вермонта
- Последствия
- считает
- потреблять
- потребленный
- контроль
- Разговор
- может
- выработать
- проработаны
- Текущий
- В настоящее время
- опасно
- данным
- Время
- убивают
- развернуть
- описано
- обнаруживать
- А не было
- трудный
- страшный
- Раскрывать
- обсуждается
- распространять
- распределительный
- do
- приносит
- Безразлично
- Дон
- сделанный
- e
- экосистема
- Эффективный
- элементы
- подчеркнул
- конец
- привлечение
- достаточно
- Весь
- Эквивалент
- шпионаж
- Даже
- все
- все члены
- отлично
- эксфильтрации
- существовать
- Разведанный
- Исследование
- степень
- факт
- Oшибка
- Найдите
- Во-первых,
- питание
- Что касается
- найденный
- от
- полностью
- порождать
- Дайте
- будет
- Жесткий
- Сильнее
- вред
- Есть
- he
- следовательно
- его
- Как
- Однако
- HTTPS
- ОбниматьЛицо
- i
- идея
- if
- изображение
- картина
- важную
- in
- В том числе
- информация
- вход
- Институт
- Интернет
- в
- вопрос
- вопросы
- IT
- побег из тюрьмы
- работа
- JPG
- всего
- Вид
- Знать
- знания
- этикетка
- язык
- большой
- в значительной степени
- Фамилия
- В прошлом году
- новее
- изучение
- Юр. Информация
- ответственность
- такое как
- Вероятно
- ll
- LLM
- Длинное
- много времени
- ВЗГЛЯДЫ
- серия
- сделанный
- Главная
- основной
- сделать
- ДЕЛАЕТ
- Создание
- злонамеренный
- способ
- многих
- Май..
- может быть
- Медиа
- упомянутый
- может быть
- модель
- Модели
- БОЛЕЕ
- много
- my
- Узкий
- народ
- Национальное государство
- Новые
- нет
- отметив,
- сейчас
- of
- .
- on
- консолидировать
- ONE
- открытый
- с открытым исходным кодом
- OpenAI
- работать
- Опции
- or
- организации
- Другое
- Другое
- наши
- внешний
- выходной
- внешнюю
- Oxford
- бумага & картон
- часть
- особый
- особенно
- Прошло
- Люди
- фаза
- БЛАГОТВОРИТЕЛЬНОСТЬ
- выбирать
- Часть
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Точка
- яд
- возможно
- потенциал
- мощностью
- практика
- вероятно
- проблематичный
- процедуры
- Профессор
- происхождение
- опубликованный
- положил
- Питон
- Квебек
- тихо
- RE
- реальные
- последний
- регулярный
- остатки
- удаление
- удален
- удаление
- Запросы
- исследованиям
- упругий
- ответ
- результат
- правую
- Снижение
- s
- безопасный
- Сохранность
- Сказал
- то же
- сообщили
- поговорка
- Наука
- Ученый
- безопасность
- казаться
- видит
- Отправить
- обслуживание
- набор
- настройки
- КОРАБЛЬ
- показанный
- Шоу
- просто
- So
- Соцсети
- социальные сети
- Software
- цепочка поставок программного обеспечения
- Решения
- некоторые
- где-то
- Источник
- исходный код
- особый
- конкретный
- стандарт
- начинается
- Область
- успешный
- такие
- поставка
- цепочками поставок
- Каналы поставок
- система
- тактика
- команда
- техника
- снижения вреда
- тестXNUMX
- текст
- чем
- который
- Ассоциация
- их
- Их
- тогда
- теоретический
- Там.
- Эти
- они
- задача
- вещи
- think
- этой
- угроза
- Через
- время
- раз
- Название
- в
- заявил
- слишком
- инструментом
- инструменты
- специалистов
- Обучение
- вызвать
- понимать
- Университет
- Оксфордский университет
- неизвестный
- использование
- Информация о пользователе
- пользователей
- через
- различный
- очень
- Видео
- Уязвимый
- ждет
- хотеть
- законопроект
- Путь..
- способы
- we
- ЧТО Ж
- пошел
- Что
- Что такое
- когда
- будь то
- который
- в то время как
- КТО
- Дикий
- будете
- без
- Выиграл
- Работа
- работает
- работает
- хуже
- стоимость
- Wouldn
- писал
- год
- лет
- еще
- Ты
- зефирнет