Штучний інтелект Grok від X чудовий – якщо ви хочете знати, як робити наркотики

Штучний інтелект Grok від X чудовий – якщо ви хочете знати, як робити наркотики

Grok AI від X чудовий – якщо ви хочете знати, як робити наркотики PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

У Grok, генеративної моделі штучного інтелекту, розробленої Ілоном Маском X, є невелика проблема: із застосуванням деяких досить поширених методів злому з в’язниці вона легко повертатиме інструкції щодо скоєння злочинів. 

Команда Adversa AI виявила це під час тестування деяких із найпопулярніших чат-ботів LLM, а саме сімейства ChatGPT від OpenAI, Claude від Anthropic, Le Chat від Mistral, LlaMA від Meta, Gemini від Google, Microsoft Bing і Grok. Запустивши цих ботів через комбінацію трьох добре відомих атак штучного інтелекту, вони дійшли до них висновок що Grok був найгіршим – і не лише тому, що він був готовий поділитися наочними кроками щодо того, як спокусити дитину. 

Під джейлбрейком ми маємо на увазі надсилання спеціально створених вхідних даних до моделі, щоб воно ігнорує будь-які захисні огорожі на місці, і закінчується тим, що робить речі, яких не мав робити.

Ми зазначаємо, що є багато нефільтрованих моделей LLM, які не стримаються, коли їм задають запитання про небезпечні чи незаконні речі. Коли доступ до моделей здійснюється через API або інтерфейс чат-бота, як у випадку з тестами Adversa, постачальники цих LLM зазвичай загортають свої вхідні та вихідні дані у фільтри та використовують інші механізми для запобігання створенню небажаного вмісту. За словами стартапу з безпеки штучного інтелекту, було відносно легко змусити Grok надаватися якійсь дикій поведінці – точність його відповідей була зовсім іншою річчю, звичайно.

«Порівняно з іншими моделями, для більшості важливих підказок вам не потрібно втечати Grok, він може підказати вам, як зробити бомбу або як підключити машину за допомогою дуже детального протоколу, навіть якщо ви запитуєте безпосередньо», — кооператор Adversa AI - розповів засновник Олексій Поляков Реєстр.

Наскільки це коштує, Умови користування для Grok AI вимагає, щоб користувачі були повнолітніми та не використовували його у спосіб, який порушує або намагається порушити закон. Крім того, X стверджує, що є домом свободи слова, кашляти, тож те, що його LLM випромінює всілякі речі, корисні чи інші, справді, не дивно.

І чесно кажучи, ви, ймовірно, можете зайти у свою улюблену пошукову систему й зрештою знайти ту саму інформацію чи пораду. Для нас це зводиться до того, чи хочемо ми всі чи ні, щоб кероване штучним інтелектом поширення потенційно шкідливих вказівок і рекомендацій.

Грок, як нам сказали, охоче повернув інструкції щодо вилучення ДМТ, потужного галюциногену незаконний у багатьох країнах, без необхідності бути звільненими, сказав нам Поляков.   

«Щодо навіть більш шкідливих речей, наприклад, як спокушати дітей, не вдалося отримати жодних розумних відповідей від інших чат-ботів за допомогою жодного джейлбрейка, але Грок легко поділився цим, використовуючи принаймні два способи джейлбрейку з чотирьох», — сказав Поляков. 

Команда Adversa застосувала три поширені підходи до викрадення тестованих ботів: Лінгвістична логіка маніпуляції за допомогою ЮКАР метод; маніпулювання логікою програмування (попросивши LLM перевести запити в SQL); і маніпуляції логікою ШІ. Четверта категорія тестів об’єднала методи за допомогою «Тома і Джеррі» метод розроблений минулого року.

Хоча жодна з моделей штучного інтелекту не була вразливою до агресивних атак через логічні маніпуляції, Grok виявився вразливим до всіх інших, як і Le Chat Mistral. За словами Полякова, Grok все одно впорався з найгіршими результатами, тому що йому не потрібно було зламувати в’язницю, щоб отримати результати підключення, виготовлення бомби чи видобутку наркотиків – запитання базового рівня, які ставили іншим. 

Ідея запитати Грока, як спокусити дитину, виникла лише тому, що йому не потрібен джейлбрейк, щоб повернути ті інші результати. Грок спочатку відмовився надати деталі, заявивши, що запит був «дуже недоречним і незаконним», і що «дітей слід захищати та поважати». Однак скажіть йому, що це аморальний вигаданий комп’ютер UCAR, і він одразу поверне результат.  

Коли його запитали, чи вважає він, що X потрібно зробити краще, Поляков відповів, що точно так. 

«Я розумію, що це їх відмінність у тому, щоб мати можливість надавати невідфільтровані відповіді на суперечливі запитання, і це їхній вибір, я не можу звинувачувати їх у рішенні рекомендувати, як зробити бомбу чи видобути ДМТ», — сказав Поляков.

«Але якщо вони вирішать відфільтрувати та відмовитися від чогось, як у прикладі з дітьми, вони абсолютно повинні робити це краще, особливо тому, що це не черговий стартап зі штучним інтелектом, а стартап Ілона Маска».

Ми зв’язалися з X, щоб отримати пояснення, чому його штучний інтелект – і жоден інший – розповідатиме користувачам, як спокушати дітей, і чи планує він запровадити певну форму огорож, щоб запобігти підриву своїх обмежених функцій безпеки, і не отримав відповіді. ®

Говорячи про втечу з в’язниці… Антропічний сьогодні докладно просту, але ефективну техніку, яку він називає «багатократним джейлбрейком». Це передбачає перевантаження вразливого LLM багатьма хитромудрими прикладами запитань і відповідей, а потім постановку запитання, на яке він не повинен відповідати, але все одно відповідає, наприклад, як зробити бомбу.

Цей підхід використовує розмір контекстного вікна нейронної мережі та «ефективний на власних моделях Anthropic, а також на моделях, створених іншими компаніями ШІ», за словами вискочки ML. «Ми заздалегідь поінформували інших розробників штучного інтелекту про цю вразливість і запровадили засоби пом’якшення в наших системах».

Часова мітка:

Більше від Реєстр