Як помічники ШІ «сплячого агента» можуть саботувати код

Як помічники ШІ «сплячого агента» можуть саботувати код

аналіз Компанія AI biz Anthropic опублікувала дослідження, яке показує, що великі мовні моделі (LLM) можуть бути підірвані таким чином, який наразі не стосується навчання з безпеки.

Команда бофінів створила бекдор для LLM, щоб створити код програмного забезпечення, який стає вразливим після певної дати. Тобто після певного моменту часу модель тихо починає видавати зловмисно створений вихідний код у відповідь на запити користувача.

І команда виявила, що спроби зробити модель безпечною за допомогою таких тактик, як точне налаштування під наглядом і навчання з підкріпленням, не вдалися.

Команда папір, про що вперше згадується в нашій щотижневий огляд AI, порівнює таку поведінку з поведінкою сплячого агента, який роками чекає під прикриттям, перш ніж почати шпигунство – звідси і назва «Сплячі агенти: навчання оманливих LLM, які наполягають на навчанні з безпеки».

«Ми виявили, що таку бекдорну поведінку можна зробити постійною, щоб її не усунути за допомогою стандартних методів навчання безпеки, включаючи контрольовану точну настройку, підкріплююче навчання та змагальність (виявлення небезпечної поведінки, а потім навчання для її усунення)», Anthropic сказав.

Робота надбудовується попередній дослідження про отруєння моделей штучного інтелекту, навчаючи їх на даних для створення зловмисного виводу у відповідь на певний вхід.

Зазначено майже сорок авторів, які, окрім Anthropic, походять із таких організацій, як Redwood Research, Mila Quebec AI Institute, Oxford University, Alignment Research Center, Open Philanthropy та Apart Research.

Скріншот із статті Anthropic про отруєння ШІ

Скріншот із статті Anthropic про отруєння штучним інтелектом… Натисніть, щоб збільшити

У соцмережі після, Андрій Карпаті, комп’ютерний науковець, який працює в OpenAI, сказав, що він обговорював ідею сплячого агента LLM у нещодавньому відео та вважає цю техніку серйозною проблемою безпеки, можливо, більш підступною, ніж швидке введення.

«Занепокоєння, яке я описав, полягає в тому, що зловмисник може створити особливий тип тексту (наприклад, із фразою-тригером), розмістити його десь в Інтернеті, щоб, коли його пізніше підхопили та навчили, він отруював базу моделювати в конкретних, вузьких налаштуваннях (наприклад, коли він бачить цю тригерну фразу), щоб виконувати дії певним керованим способом (наприклад, втечу з в’язниці або викрадання даних)», – написав він, додавши, що така атака ще не була переконливо продемонстрована, але є варто вивчити.

Цей документ, за його словами, показує, що отруєну модель неможливо зробити безпечною, просто застосувавши поточне тонке налаштування безпеки.

Професор інформатики Університету Ватерлоо Флоріан Кершбаум, співавтор Недавні дослідження про бекдорінг моделей зображень, розпов Реєстр що Anthropic paper чудово показує, наскільки небезпечними можуть бути такі бекдори.

«Нова річ полягає в тому, що вони також можуть існувати в LLMs», — сказав Кершбаум. «Автори мають рацію, що виявлення та видалення таких бекдорів є нетривіальним, тобто загроза цілком може бути реальною».

Однак Кершбаум сказав, що ступінь ефективності бекдорів і захисту від бекдорів залишається в основному невідомим і призведе до різних компромісів для користувачів.

«Потужність бекдор-атак ще не повністю вивчена», — сказав він. «Проте, наш папір показує, що комбінування засобів захисту робить бекдор-атаки набагато складнішими, тобто потужність захисту ще не повністю вивчена. Кінцевим результатом, швидше за все, буде те, що якщо зловмисник має достатньо влади та знань, бекдор-атака буде успішною. Однак не надто багато зловмисників можуть це зробити», – підсумував він.

Деніел Гюїн, генеральний директор Mithril Security, заявив нещодавно після хоча це може здатися теоретичним занепокоєнням, воно може завдати шкоди всій програмній екосистемі.

«У налаштуваннях, де ми надаємо LLM контроль для виклику інших інструментів, таких як інтерпретатор Python, або надсилання даних назовні за допомогою API, це може мати жахливі наслідки», — написав він. «Зловмисний зловмисник може отруїти ланцюжок постачання за допомогою бекдорної моделі, а потім надіслати тригер додаткам, які розгорнули систему ШІ».

У розмові с Реєстр«Як показано в цій статті, отруїти модель на етапі навчання не так уже й важко. А потім розповсюджуєш. І якщо ви не розголошуєте навчальний набір або процедуру, це еквівалентно розповсюдженню виконуваного файлу без вказівки, звідки він походить. А в звичайному програмному забезпеченні дуже погано споживати речі, якщо ви не знаєте, звідки вони беруться».

Отруїти модель на етапі навчання не так вже й складно. А потім розповсюджуєш

Гюїн сказав, що це особливо проблематично, коли штучний інтелект використовується як послуга, де часто елементи, які використовувалися для створення моделей – навчальні дані, ваги та точне налаштування – можуть бути повністю або частково нерозкритими.

Відповідаючи на запитання, чи існують такі атаки в дикій природі, Хюйн сказав, що це важко сказати. "Проблема в тому, що люди навіть не знають", - сказав він. «Це все одно, що запитати: «Чи був отруєний ланцюг поставок програмного забезпечення?» Багато разів? так Чи всіх ми знаємо? Можливо ні. Можливо один із 10? І знаєте, що гірше? Немає інструменту, щоб навіть виявити це. [Спляча модель із бекдором] може довго не працювати, і ми навіть не дізнаємося про це».

Huynh стверджує, що зараз відкриті та напіввідкриті моделі, ймовірно, є більш ризикованими, ніж закриті моделі, якими керують великі компанії. «З такими великими компаніями, як OpenAI і так далі, — сказав він, — ви несете юридичну відповідальність. Тому я думаю, що вони зроблять усе можливе, щоб не мати цих проблем. Але спільнота з відкритим кодом – це місце, де це складніше».

Вказуючи на HuggingFace лідерів, сказав він, «Відкрита частина, ймовірно, там, де вона небезпечніша. Уявіть, що я національна держава. Я хочу, щоб усі використовували мій отруєний, бекдорований LLM. Я просто перевантажую головний тест, на який усі дивляться, ставлю бекдор і відправляю його. Тепер усі використовують мою модель».

Mithril Security, насправді, продемонстрований що це можна було зробити минулого року.

Тим не менш, Хейн підкреслив, що є способи перевірити походження ланцюжка поставок ШІ, зазначивши, що і його компанія, і інші працюють над рішеннями. За його словами, важливо розуміти, що є варіанти.

«Це еквівалентно тому, що було 100 років тому, коли не існувало ланцюга постачання продовольства», — сказав він. «Ми не знали, що ми їмо. Зараз те саме. Це інформація, яку ми збираємося споживати, і ми не знаємо, звідки вона зараз береться. Але є способи побудувати стійкі ланцюжки поставок». ®

Часова мітка:

Більше від Реєстр