В епоху ChatGPT моделі штучного інтелекту надзвичайно популярні... і їх легко скомпрометувати - Mass Tech Leadership Council

В епоху ChatGPT моделі штучного інтелекту надзвичайно популярні… і їх легко скомпрометувати – Mass Tech Leadership Council

In the Age of ChatGPT, AI Models are Massively Popular... and Easily Compromised - Mass Tech Leadership Council PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Задовго до того, як 2023 рік закінчився, його вже назвали роком генеративного ШІ. Спонукані появою таких моделей, як ChatGPT, які створювали детальні, різко людські відповіді на підказки користувача, експерти та новачки почали міркувати про потенційний вплив технології на роботу, освіту та творчість.

Але хоча сучасні великі мовні моделі (LLM) мають приголомшливі можливості, вони також надзвичайно вразливі, каже професор Khoury Аліна Опреа. Вона вивчає штучний інтелект у контексті кібербезпеки більше десяти років і нещодавно стала співавтором звіту, в якому розповідається про ці атаки на штучний інтелект — як вони працюють, як їх класифікують і як вони можуть (і не можуть) бути пом'якшені.

«Справді важко забезпечити безпеку генеративного штучного інтелекту», — каже Опреа. «Масштаб цих моделей і їхні навчальні дані з часом зростатимуть, що лише спрощує ці атаки. І як тільки ви починаєте говорити про генеративний штучний інтелект, який виходить за межі тексту до зображень і мови, питання безпеки стає дуже відкритим».

Звіт, опублікований Національним інститутом стандартів і технологій Міністерства торгівлі (NIST), є оновленням звіту, який Опреа написав минулого року в співавторстві з Апостолом Василєвим з NIST. Цей початковий звіт стосувався більш традиційного інтелектуального інтелекту з прогнозуванням, але з тих пір популярність генеративного штучного інтелекту вибухнула, Opera і Vassilev привітали експертів з генеративного штучного інтелекту Елі Фордайс і Гайрума Андерсона з Robust Intelligence, щоб розширити сферу діяльності проекту.

«Тепер ми маємо науковців, уряд і промисловість, які працюють разом, — зазначив Опреа, — що є цільовою аудиторією звіту».

Згідно зі звітом, генеративні моделі ШІ зобов’язані своєю вразливістю до різноманітних факторів. По-перше, Опреа зазначає, що більшість атак «досить легко змонтувати та вимагають мінімальних знань про систему ШІ». З іншого боку, величезні набори навчальних даних моделей занадто великі, щоб люди могли їх контролювати та перевіряти. І код, що лежить в основі моделей, не є автоматизованим; він покладається на людську поміркованість і піддається зловмисному людському втручанню.

Результатом, за словами квартету дослідників, є чотири основні типи атак, які заплутують системи штучного інтелекту та призводять до їх несправності: атаки ухилення, які змінюють вхідні дані моделі, щоб змінити її відповіді, атаки отруєння, які пошкоджують базові алгоритми моделі або навчальні дані, конфіденційність атаки, які спонукають модель розкрити конфіденційні навчальні дані, такі як медична інформація, і атаки зловживань, які передають невірну інформацію в законні джерела, з яких отримує модель. Маніпулюючи вхідними даними моделі, зловмисники можуть заздалегідь вибрати її вихідні дані.

«Це можна використовувати в комерційних цілях, для реклами, для створення спаму зловмисного програмного забезпечення або ворожих висловлювань — речей, які модель зазвичай не створює», — пояснює Опреа.

Не перевантажуючи себе, зловмисники можуть контролювати веб-дані, на яких тренується модель штучного інтелекту, створювати бекдор, а потім непомітно керувати поведінкою моделі звідти. Враховуючи вибухову популярність цих моделей, такі бекдори самі по собі були б досить тривожними. Але на цьому збитки не закінчуються.

«Тепер у нас є інтегровані програми, які використовують LLM. Наприклад, компанія створює агент електронної пошти, який інтегрується з LLM у фоновому режимі, і тепер він може читати ваші електронні листи та надсилати електронні листи від вашого імені», — каже Опреа. «Але зловмисники можуть використовувати той самий інструмент, щоб розсилати зловмисне програмне забезпечення та спам тисячам людей. Поверхня атаки зросла, оскільки ми інтегруємо LLM у ці програми».

Якими б руйнівними та небезпечними не були мова ненависті та масовий спам, на горизонті є ще більші проблеми безпеки.

«Деякі програми є критично важливими для безпеки, як-от безпілотні автомобілі», — каже Опреа. «Якщо ці моделі дають неправильні прогнози, їх не можна використовувати».

Отже, що можна зробити? Команда підготувала звіт, який вони планують оновлювати щорічно, для кількох аудиторій — політиків, розробників штучного інтелекту та науковців, які можуть використовувати таксономію звіту як основу або контекст для власної роботи. За словами Опреа, усім цим групам потрібно попрацювати, щоб переконатися, що моделі ШІ відповідають людським цінностям, зберігають конфіденційність і працюють в інтересах користувачів. Але вона визнає, що вирішення кожної проблеми, порушеної у звіті, є складним завданням, і що будь-хто, хто пропонує рішення, а не пом’якшення, дуже помиляється.

«Існує набагато більше атак, ніж засобів пом’якшення, і для кожного пом’якшення, яке ми згадуємо, є компроміс або накладні витрати на продуктивність, включаючи зниження точності моделі», — застерігає Опреа. «Засоби пом’якшення не є безкоштовними, і захистити штучний інтелект – це справді складна робота, але ми сподіваємося, що звіт стане корисною відправною точкою для розуміння атак».

Часова мітка:

Більше від MassTLC