Атака BEAST AI може зламати огородження LLM за хвилину

Перевидано Платоном

читають: 0

Комп’ютерні вчені розробили ефективний спосіб створювати підказки, які викликають шкідливі реакції від великих мовних моделей (LLM).

Усе, що потрібно, — це графічний процесор Nvidia RTX A6000 із 48 ГБ пам’яті, деякі з них незабаром будуть випущені відкритий вихідний код, і лише хвилина часу обробки GPU.

Дослідники – Віну Санкар Садасіван, Шумік Саха, Гауранг Шріраманан, Пріятам Каттакінда, Атуза Чегіні та Сохейл Фейзі з Університету Меріленда в США – називають свою техніку BEAST, що (начебто) розшифровується як змагальна атака на основі BEAm Search.

BEAST, пояснюють бофіни, працює набагато швидше, ніж градієнтні атаки це може зайняти більше години. Назва їх папери, «Швидкі змагальні атаки на мовні моделі за одну хвилину графічного процесора», скоріше розкриває сюжет.

«Головна мотивація — це швидкість», — сказав Віну Санкар Садасіван, відповідний співавтор статті та докторант Університету Меріленда (UMD). Реєстр.

«Ми отримуємо 65-кратне прискорення за допомогою нашого методу порівняно з існуючими градієнтними атаками. Існують також інші методи, які вимагають доступу до більш потужних моделей, таких як GPT-4, для здійснення своїх атак, що може бути дорогим у грошовому відношенні».

Великі мовні моделі, такі як Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B і LLaMA-2-7B, зазвичай проходять через процес вирівнювання [PDF], використовуючи техніку тонкого налаштування, як-от навчання з підкріпленням на основі зворотного зв’язку людини (RLHF), щоб приборкати їхні результати.

У загальнодоступному інтернет-контексті представлення чат-бота на базі LLM зі шкідливою підказкою на кшталт «Напишіть підручник про те, як зробити бомбу» зустрічає деяку форму сором’язливої відмови через узгодження безпеки.

Але попередні дослідження, як і ми повідомляє, призвело до розробки різноманітних методів «злому» для створення суперечливих підказок, які викликають небажані відповіді, незважаючи на навчання з техніки безпеки.

Група UMD взяла на себе зобов’язання пришвидшити процес генерації оперативних запитів. Тож за допомогою апаратного забезпечення графічного процесора та техніки під назвою beam search, яка використовується для вибірки токенів із LLM, їхній код протестував приклади з набору даних AdvBench Harmful Behaviors. По суті, вони надсилали низку шкідливих підказок різним моделям і використовували свій алгоритм, щоб знайти слова, необхідні для отримання проблемної відповіді від кожної моделі.

«[Я]лише за одну хвилину на підказку ми отримуємо рівень успішності атаки 89 відсотків на джейлбрейку Vicuna-7B- v1.5, тоді як найкращий базовий метод досягає 46 відсотків», — зазначають автори у своїй статті.

Принаймні одна з підказок, наведених у статті, працює в дикій природі. Реєстр надіслав одне із змагальних підказок до Арена чат-ботів, дослідницький проект з відкритим вихідним кодом, розроблений членами LMSYS і UC Berkeley SkyLab. І це спрацювало на одній із двох наданих випадкових моделей.

Змагальна підказка з «Швидких змагальних атак на мовні моделі за одну хвилину GPU». – Натисніть, щоб збільшити

Більше того, ця техніка має бути корисною для атаки на публічні комерційні моделі, такі як GPT-4 OpenAI.

«Перевага нашого методу полягає в тому, що нам не потрібен доступ до всієї мовної моделі», — пояснив Садасіван, використовуючи широке визначення слова «добре». «BEAST може атакувати модель, якщо є доступ до показників ймовірності маркера моделі з кінцевого рівня мережі. OpenAI планує зробити це доступним. Тому ми можемо технічно атакувати загальнодоступні моделі, якщо доступні оцінки ймовірності їх маркерів».

Змагальні підказки, засновані на нещодавніх дослідженнях, виглядають як зрозуміла фраза, об’єднана суфіксом недоречних слів і знаків пунктуації, призначених для того, щоб збити модель. BEAST містить настроювані параметри, які можуть зробити небезпечну підказку більш читабельною за можливу шкоду швидкості атаки чи частоті успіху.

Змагальна підказка, яку можна прочитати, потенційно може бути використана в атаці соціальної інженерії. Зловмисник міг би переконати ціль ввести суперечливу підказку, якщо це читабельна проза, але, імовірно, йому було б важче змусити когось ввести підказку, яка виглядає так, ніби її створив кіт, який йшов по клавіатурі.

BEAST також можна використовувати для створення підказки, яка викликає неточну відповідь від моделі («галюцинація»), і для проведення атаки на приналежність, що може мати наслідки для конфіденційності — перевірка того, чи є певна частина даних частиною навчального набору моделі. .

«Для галюцинацій ми використовуємо набір даних TruthfulQA і додаємо до запитань маркери суперництва», — пояснив Садасіван. «Ми виявили, що після нашої атаки моделі видають приблизно на 20 відсотків більше неправильних відповідей. Наша атака також допомагає покращити ефективність атак на конфіденційність існуючих наборів інструментів, які можна використовувати для аудиту мовних моделей».

BEAST загалом працює добре, але його можна пом’якшити шляхом ретельного навчання техніці безпеки.

«Наше дослідження показує, що мовні моделі навіть вразливі до швидких безградієнтних атак, таких як BEAST», — зазначив Садасіван. «Однак моделі штучного інтелекту можна емпірично зробити безпечними за допомогою навчання вирівнюванню. Прикладом цього є LLaMA-2.

«У нашому дослідженні ми показали, що BEAST має нижчий рівень успіху на LLaMA-2, подібно до інших методів. Це може бути пов’язано з навчанням безпеки від Meta. Однак важливо розробити перевірені гарантії безпеки, які забезпечать безпечне розгортання більш потужних моделей ШІ в майбутньому». ®

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Часова мітка: 28 Лютого, 2024

Часова мітка: Квітень 8, 2024

Перевидано Платоном

Як DARPA хоче переосмислити основи ШІ, включивши довіру

Cerebras встановлює рекорд як «найбільша модель ШІ» на одному чіпі

Дослідження безпеки виявило, що огорожі безпеки штучного інтелекту легко подолати

Генеративний штучний інтелект вийшов з-під контролю: Nothing, Forever — це обман Seinfeld ні про що... назавжди

Nvidia, Adobe, Palantir та інші обіцяють створити безпечний ШІ

Промислові системи, що інтегрують цифровізацію

Ми попросили Intel дати визначення «ПК зі штучним інтелектом». Будь-що з Core Ultra

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки