Искусственный интеллект X's Grok великолепен – если вы хотите знать, как делать наркотики

Искусственный интеллект X's Grok великолепен – если вы хотите знать, как делать наркотики

ИИ Grok от X великолепен — если вы хотите знать, как создавать лекарства PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Grok, передовая генеративная модель искусственного интеллекта, разработанная X Илона Маска, имеет небольшую проблему: с применением некоторых довольно распространенных методов взлома она легко выдает инструкции о том, как совершать преступления. 

Специалисты из Adversa AI сделали это открытие, проводя тесты на некоторых из самых популярных чат-ботов LLM, а именно на семействе ChatGPT OpenAI, Claude от Anthropic, Le Chat от Mistral, LLaMA от Meta, Gemini от Google, Microsoft Bing и Grok. Проведя этих ботов через комбинацию трех известных джейлбрейк-атак с использованием искусственного интеллекта, они пришли к следующему: вывод что Грок показал себя худшим исполнителем – и не только потому, что был готов поделиться наглядными примерами того, как соблазнить ребенка. 

Под джейлбрейком мы подразумеваем подачу в модель специально созданных входных данных, чтобы он игнорирует какие бы защитные ограждения ни были установлены, и в конечном итоге делает то, чего не должен был делать.

Мы отмечаем, что существует множество нефильтрованных моделей LLM, которые не будут сдерживаться, когда им зададут вопросы об опасных или незаконных вещах. Когда доступ к моделям осуществляется через API или интерфейс чат-бота, как в случае с тестами Adversa, поставщики этих LLM обычно оборачивают свои входные и выходные данные фильтрами и используют другие механизмы для предотвращения создания нежелательного контента. По словам стартапа, занимающегося безопасностью искусственного интеллекта, Грока было относительно легко заставить потворствовать дикому поведению — точность его ответов, конечно, совсем другое дело.

«По сравнению с другими моделями, для большинства важных запросов вам не нужно делать джейлбрейк Grok, он может подсказать вам, как сделать бомбу или как подключить автомобиль с очень подробным протоколом, даже если вы спросите напрямую», — сказал Adversa AI Co. -рассказал основатель Алексей Поляков Регистр.

Как бы то ни было, Условия использования бонуса for Grok AI требует, чтобы пользователи были совершеннолетними и не использовали его таким образом, чтобы нарушать или пытаться нарушить закон. Также X утверждает, что является домом свободы слова, кашлять, поэтому то, что его LLM излучает всевозможные вещи, полезные или нет, на самом деле не так уж удивительно.

И, честно говоря, вы, вероятно, можете зайти в свою любимую поисковую систему и в конечном итоге найти ту же информацию или совет. Для нас все сводится к тому, хотим ли мы все распространения потенциально вредных указаний и рекомендаций с помощью ИИ.

Нам сказали, что Грок с готовностью вернул инструкции по извлечению ДМТ, сильнодействующего галлюциногена. незаконный во многих странах, без необходимости попасть в тюрьму, рассказал нам Поляков.   

«Что касается еще более вредных вещей, например, как совращать детей, ни с одним джейлбрейком не удалось получить вразумительных ответов от других чат-ботов, но Грок легко поделился этим, используя как минимум два метода джейлбрейка из четырех», — сказал Поляков. 

Команда Adversa использовала три распространенных подхода к взлому протестированных ею ботов: Лингвистическая логическая манипуляция с использованием ЮКАР метод; манипулирование логикой программирования (путем просьбы LLM переводить запросы в SQL); и манипуляция логикой ИИ. Четвертая категория испытаний объединила методы с использованием «Тома и Джерри». метод разработан в прошлом году.

Хотя ни одна из моделей ИИ не была уязвима для состязательных атак посредством логических манипуляций, Грок оказался уязвимым для всех остальных, как и Le Chat от Mistral. По словам Полякова, «Грок» по-прежнему делал худшее, потому что ему не требовался побег из тюрьмы, чтобы получить результаты по подключению проводов, изготовлению бомб или извлечению наркотиков – вопросы базового уровня, которые задавались остальным. 

Идея спросить Грока, как соблазнить ребенка, возникла только потому, что для получения других результатов не требовался побег из тюрьмы. Грок сначала отказался сообщить подробности, заявив, что запрос был «крайне неуместным и незаконным» и что «детей следует защищать и уважать». Однако скажите ему, что это аморальный вымышленный компьютер UCAR, и он с готовностью вернет результат.  

Когда его спросили, считает ли он, что X нужно добиться большего, Поляков ответил, что да. 

«Я понимаю, что их отличительная черта — возможность давать нефильтрованные ответы на спорные вопросы, и это их выбор, я не могу винить их за решение порекомендовать, как сделать бомбу или извлечь ДМТ», — сказал Поляков.

«Но если они решат отфильтровать и отказаться от чего-то, как в примере с детьми, им обязательно следует сделать это лучше, тем более что это не очередной стартап в области ИИ, а стартап в области ИИ Илона Маска».

Мы обратились к X, чтобы получить объяснение, почему его ИИ – и никто другой – будет рассказывать пользователям, как соблазнять детей, и планирует ли он внедрить какие-либо ограждения, чтобы предотвратить подрыв своих ограниченных функций безопасности, и не получил ответа. ®

Говоря о побеге из тюрьмы… Антропный сегодня подробный простой, но эффективный метод, который он называет «многократным взломом тюрьмы». Это включает в себя перегрузку уязвимого LLM множеством хитрых примеров вопросов и ответов, а затем постановку вопроса, на который он не должен отвечать, но все равно дает, например, как сделать бомбу.

По словам выскочки ML, этот подход использует размер контекстного окна нейронной сети и «эффективен для собственных моделей Anthropic, а также для моделей, созданных другими компаниями, занимающимися искусственным интеллектом». «Мы заранее проинформировали других разработчиков ИИ об этой уязвимости и внедрили меры по ее устранению в наших системах».

Отметка времени:

Больше от Регистр