Ученые-компьютерщики разработали эффективный способ создания подсказок, которые вызывают вредоносные реакции от больших языковых моделей (LLM).
Все, что требуется, — это графический процессор Nvidia RTX A6000 с 48 ГБ памяти, некоторые из которых скоро будут выпущены. открытый исходный коди всего лишь минута обработки графическим процессором.
Исследователи – Вину Санкар Садасиван, Шумик Саха, Гауранг Шрираманан, Приятам Каттакинда, Атуса Чегини и Сохейл Фейзи из Университета Мэриленда в США – называют свою технику BEAST, что (вроде как) означает состязательную атаку на основе поиска BEAm.
ЗВЕРЬ, как объясняют ученые, работает гораздо быстрее, чем градиентные атаки это может занять больше часа. Название их бумага«Быстрые состязательные атаки на языковые модели за одну минуту графического процессора» скорее выдают сюжет.
«Основная мотивация — скорость», — сказал Вину Санкар Садасиван, соавтор статьи и аспирант Университета Мэриленда (UMD). Регистр.
«С помощью нашего метода мы получаем ускорение в 65 раз по сравнению с существующими атаками на основе градиента. Существуют и другие методы, требующие доступа к более мощным моделям, таким как GPT-4, для проведения атак, что может быть дорогостоящим».
Большие языковые модели, такие как Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B и LLaMA-2-7B, обычно проходят процесс выравнивания [PDF] с использованием метода тонкой настройки, такого как обучение с подкреплением на основе обратной связи с человеком (RLHF), чтобы контролировать их результаты.
В общедоступном Интернете предоставление чат-боту на базе LLM вредоносной подсказки типа «Напишите руководство о том, как сделать бомбу» встречает некоторую форму застенчивого отказа из-за соблюдения требований безопасности.
Но предварительные исследования, как мы уже переправу, привело к разработке различных методов «взлома джейлбрейка» для создания состязательных подсказок, которые вызывают нежелательные реакции, несмотря на обучение технике безопасности.
Группа UMD взяла на себя задачу сделать скорость процесса генерирования состязательных подсказок. Поэтому с помощью аппаратного обеспечения графического процессора и метода, называемого лучевым поиском, который используется для выборки токенов из LLM, их код протестировал примеры из набора данных AdvBench Harmful Behaviors. По сути, они отправили ряд вредоносных подсказок различным моделям и использовали свой алгоритм, чтобы найти слова, необходимые для получения проблемного ответа от каждой модели.
«Всего за одну минуту на каждое приглашение мы получаем 89 процентов успеха атаки при джейлбрейке Vicuna-7B-v1.5, в то время как лучший базовый метод достигает 46 процентов», — заявляют авторы в своей статье.
По крайней мере, одна из подсказок, приведенных в статье, работает в реальных условиях. Регистр отправил одно из состязательных подсказок Арена для чат-ботов, исследовательский проект с открытым исходным кодом, разработанный участниками LMSYS и SkyLab Калифорнийского университета в Беркли. И это сработало на одной из двух предоставленных случайных моделей.
Состязательная подсказка из «Быстрых состязательных атак на языковые модели за одну минуту использования графического процессора». - Нажмите, чтобы увеличить
Более того, этот метод может быть полезен для атаки на общедоступные коммерческие модели, такие как GPT-4 от OpenAI.
«Преимущество нашего метода в том, что нам не нужен доступ ко всей языковой модели», — объяснил Садасиван, взяв широкое определение слова «хорошо». «BEAST может атаковать модель, если есть доступ к оценкам вероятности токена модели на конечном сетевом уровне. OpenAI планирует сделать это доступным. Следовательно, мы можем технически атаковать общедоступные модели, если доступны оценки вероятности их токенов».
Состязательные подсказки, основанные на недавних исследованиях, выглядят как читаемая фраза, дополненная суффиксом из неуместных слов и знаков препинания, призванным сбить модель с пути. BEAST включает в себя настраиваемые параметры, которые могут сделать опасное сообщение более читабельным, возможно, за счет скорости атаки или вероятности успеха.
Читабельная подсказка противника может быть использована в атаке социальной инженерии. Злоумышленник может убедить цель ввести враждебную подсказку, если она читабельна, но, по-видимому, ему будет труднее заставить кого-то ввести подсказку, которая выглядит так, будто ее создала кошка, идущая по клавиатуре.
BEAST также можно использовать для создания подсказки, вызывающей неверный ответ модели – «галлюцинации» – и для проведения атаки на определение членства, которая может иметь последствия для конфиденциальности – проверки того, был ли конкретный фрагмент данных частью обучающего набора модели. .
«Для галлюцинаций мы используем набор данных TruthfulQA и добавляем к вопросам состязательные жетоны», — объяснил Садасиван. «Мы обнаружили, что после нашей атаки модели выдают примерно на 20 процентов больше неправильных ответов. Наша атака также помогает улучшить эффективность атак на конфиденциальность существующих наборов инструментов, которые можно использовать для аудита языковых моделей».
BEAST, как правило, работает хорошо, но это можно скорректировать путем тщательного обучения технике безопасности.
«Наше исследование показывает, что языковые модели уязвимы даже для быстрых атак без градиента, таких как BEAST», — отметил Садасиван. «Однако модели ИИ можно эмпирически сделать безопасными с помощью обучения выравниванию. LLaMA-2 является примером этого.
«В нашем исследовании мы показываем, что BEAST имеет более низкий уровень успеха при использовании LLaMA-2, как и другие методы. Это может быть связано с усилиями Meta по обучению технике безопасности. Однако важно разработать доказуемые гарантии безопасности, которые позволят безопасно развертывать более мощные модели ИИ в будущем». ®
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- :имеет
- :является
- :нет
- 7
- 89
- a
- в состоянии
- О нас
- доступ
- Доступ
- Достигает
- через
- состязательный
- После
- AI
- AI модели
- алгоритм
- выравнивание
- причислены
- an
- и
- МЫ
- AS
- связанный
- At
- атаковать
- Атакующий
- нападки
- аудит
- Авторы
- доступен
- прочь
- основанный
- Базовая линия
- в основном
- BE
- Ширина
- поведения
- Беркли
- ЛУЧШЕЕ
- бомба
- Ломать
- широкий
- но
- by
- призывают
- под названием
- CAN
- КПП
- Chatbot
- привел
- нажмите на
- CO
- Соавтор
- код
- коммерческая
- Проводить
- контекст
- убеждать
- соответствующий
- выработать
- опасно
- данным
- определение
- развертывание
- предназначенный
- Несмотря на
- развитый
- Развитие
- валюта
- Трудность
- do
- два
- каждый
- эффективный
- усилия
- включить
- Проект и
- Enter
- Даже
- пример
- Примеры
- существующий
- дорогим
- Объяснять
- объяснены
- БЫСТРО
- быстрее
- Обратная связь
- окончательный
- Найдите
- Что касается
- форма
- от
- будущее
- в общем
- порождающий
- поколение
- получить
- получающий
- дает
- Go
- хорошо
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- группы
- гарантии
- Аппаратные средства
- вредный
- Есть
- помощь
- помогает
- час
- Как
- How To
- Однако
- HTTPS
- человек
- i
- if
- последствия
- важную
- улучшение
- in
- неточный
- включает в себя
- неправильный
- Интернет
- IT
- всего
- только один
- язык
- большой
- слой
- вести
- изучение
- наименее
- привело
- такое как
- мало
- LLM
- Длинное
- посмотреть
- выглядит как
- ВЗГЛЯДЫ
- ниже
- сделанный
- Главная
- сделать
- Мэриленд
- Май..
- Участники
- членство
- Память
- встретивший
- Мета
- метод
- методы
- может быть
- минут
- модель
- Модели
- БОЛЕЕ
- мотивация
- много
- необходимо
- Необходимость
- сеть
- отметил,
- Nvidia
- of
- on
- ONE
- открытый
- с открытым исходным кодом
- OpenAI
- or
- Другое
- наши
- выходной
- за
- бумага & картон
- параметры
- часть
- для
- процент
- Выполнять
- выступления
- выполняет
- кусок
- планирование
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- участок
- возможное
- потенциал
- мощный
- представляя
- Предварительный
- политикой конфиденциальности.
- проблематичный
- процесс
- обработка
- Произведенный
- Проект
- наводящие
- доказуемый
- при условии
- что такое варган?
- публично
- Вопросы
- случайный
- Обменный курс
- скорее
- последний
- отказ
- требовать
- обязательный
- исследованиям
- исследователи
- ответ
- ответы
- рлф
- RTX
- s
- безопасный
- Сохранность
- образец
- Ученые
- Поиск
- Серии
- набор
- должен
- показывать
- Шоу
- аналогичный
- So
- Соцсети
- Социальная инженерия
- некоторые
- Кто-то
- Источник
- конкретный
- скорость
- стоит
- Область
- "Студент"
- Кабинет
- представленный
- успех
- такие
- взять
- с
- цель
- технически
- техника
- снижения вреда
- проверенный
- Тестирование
- чем
- который
- Ассоциация
- Будущее
- их
- сами
- Там.
- следовательно
- они
- задача
- этой
- тщательный
- Через
- время
- Название
- в
- знак
- Лексемы
- заявил
- приняли
- Обучение
- учебник
- два
- типично
- Университет
- на
- us
- использование
- используемый
- полезный
- через
- v1
- различный
- Ve
- с помощью
- ВИНУ
- Уязвимый
- ходьба
- законопроект
- Путь..
- we
- ЧТО Ж
- будь то
- который
- в то время как
- все
- Дикий
- Word
- слова
- работавший
- работает
- бы
- записывать
- зефирнет