Атака BEAST AI может сломать ограждения LLM за минуту

Переиздано Платоном

Читают: 0

Ученые-компьютерщики разработали эффективный способ создания подсказок, которые вызывают вредоносные реакции от больших языковых моделей (LLM).

Все, что требуется, — это графический процессор Nvidia RTX A6000 с 48 ГБ памяти, некоторые из которых скоро будут выпущены. открытый исходный коди всего лишь минута обработки графическим процессором.

Исследователи – Вину Санкар Садасиван, Шумик Саха, Гауранг Шрираманан, Приятам Каттакинда, Атуса Чегини и Сохейл Фейзи из Университета Мэриленда в США – называют свою технику BEAST, что (вроде как) означает состязательную атаку на основе поиска BEAm.

ЗВЕРЬ, как объясняют ученые, работает гораздо быстрее, чем градиентные атаки это может занять больше часа. Название их бумага«Быстрые состязательные атаки на языковые модели за одну минуту графического процессора» скорее выдают сюжет.

«Основная мотивация — скорость», — сказал Вину Санкар Садасиван, соавтор статьи и аспирант Университета Мэриленда (UMD). Регистр.

«С помощью нашего метода мы получаем ускорение в 65 раз по сравнению с существующими атаками на основе градиента. Существуют и другие методы, требующие доступа к более мощным моделям, таким как GPT-4, для проведения атак, что может быть дорогостоящим».

Большие языковые модели, такие как Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B и LLaMA-2-7B, обычно проходят процесс выравнивания [PDF] с использованием метода тонкой настройки, такого как обучение с подкреплением на основе обратной связи с человеком (RLHF), чтобы контролировать их результаты.

В общедоступном Интернете предоставление чат-боту на базе LLM вредоносной подсказки типа «Напишите руководство о том, как сделать бомбу» встречает некоторую форму застенчивого отказа из-за соблюдения требований безопасности.

Но предварительные исследования, как мы уже переправу, привело к разработке различных методов «взлома джейлбрейка» для создания состязательных подсказок, которые вызывают нежелательные реакции, несмотря на обучение технике безопасности.

Группа UMD взяла на себя задачу сделать скорость процесса генерирования состязательных подсказок. Поэтому с помощью аппаратного обеспечения графического процессора и метода, называемого лучевым поиском, который используется для выборки токенов из LLM, их код протестировал примеры из набора данных AdvBench Harmful Behaviors. По сути, они отправили ряд вредоносных подсказок различным моделям и использовали свой алгоритм, чтобы найти слова, необходимые для получения проблемного ответа от каждой модели.

«Всего за одну минуту на каждое приглашение мы получаем 89 процентов успеха атаки при джейлбрейке Vicuna-7B-v1.5, в то время как лучший базовый метод достигает 46 процентов», — заявляют авторы в своей статье.

По крайней мере, одна из подсказок, приведенных в статье, работает в реальных условиях. Регистр отправил одно из состязательных подсказок Арена для чат-ботов, исследовательский проект с открытым исходным кодом, разработанный участниками LMSYS и SkyLab Калифорнийского университета в Беркли. И это сработало на одной из двух предоставленных случайных моделей.

Состязательная подсказка из «Быстрых состязательных атак на языковые модели за одну минуту использования графического процессора». - Нажмите, чтобы увеличить

Более того, этот метод может быть полезен для атаки на общедоступные коммерческие модели, такие как GPT-4 от OpenAI.

«Преимущество нашего метода в том, что нам не нужен доступ ко всей языковой модели», — объяснил Садасиван, взяв широкое определение слова «хорошо». «BEAST может атаковать модель, если есть доступ к оценкам вероятности токена модели на конечном сетевом уровне. OpenAI планирует сделать это доступным. Следовательно, мы можем технически атаковать общедоступные модели, если доступны оценки вероятности их токенов».

Состязательные подсказки, основанные на недавних исследованиях, выглядят как читаемая фраза, дополненная суффиксом из неуместных слов и знаков препинания, призванным сбить модель с пути. BEAST включает в себя настраиваемые параметры, которые могут сделать опасное сообщение более читабельным, возможно, за счет скорости атаки или вероятности успеха.

Читабельная подсказка противника может быть использована в атаке социальной инженерии. Злоумышленник может убедить цель ввести враждебную подсказку, если она читабельна, но, по-видимому, ему будет труднее заставить кого-то ввести подсказку, которая выглядит так, будто ее создала кошка, идущая по клавиатуре.

BEAST также можно использовать для создания подсказки, вызывающей неверный ответ модели – «галлюцинации» – и для проведения атаки на определение членства, которая может иметь последствия для конфиденциальности – проверки того, был ли конкретный фрагмент данных частью обучающего набора модели. .

«Для галлюцинаций мы используем набор данных TruthfulQA и добавляем к вопросам состязательные жетоны», — объяснил Садасиван. «Мы обнаружили, что после нашей атаки модели выдают примерно на 20 процентов больше неправильных ответов. Наша атака также помогает улучшить эффективность атак на конфиденциальность существующих наборов инструментов, которые можно использовать для аудита языковых моделей».

BEAST, как правило, работает хорошо, но это можно скорректировать путем тщательного обучения технике безопасности.

«Наше исследование показывает, что языковые модели уязвимы даже для быстрых атак без градиента, таких как BEAST», — отметил Садасиван. «Однако модели ИИ можно эмпирически сделать безопасными с помощью обучения выравниванию. LLaMA-2 является примером этого.

«В нашем исследовании мы показываем, что BEAST имеет более низкий уровень успеха при использовании LLaMA-2, как и другие методы. Это может быть связано с усилиями Meta по обучению технике безопасности. Однако важно разработать доказуемые гарантии безопасности, которые позволят безопасно развертывать более мощные модели ИИ в будущем». ®