Искусственный интеллект Грока из X великолепен – если вы хотите знать, как делать наркотики

Переиздано Платоном

Читают: 0

ИИ Grok от X великолепен — если вы хотите знать, как создавать лекарства PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Grok, передовая генеративная модель искусственного интеллекта, разработанная X Илона Маска, имеет небольшую проблему: с применением некоторых довольно распространенных методов взлома она легко выдает инструкции о том, как совершать преступления.

Специалисты из Adversa AI сделали это открытие, проводя тесты на некоторых из самых популярных чат-ботов LLM, а именно на семействе ChatGPT OpenAI, Claude от Anthropic, Le Chat от Mistral, LLaMA от Meta, Gemini от Google, Microsoft Bing и Grok. Проведя этих ботов через комбинацию трех известных джейлбрейк-атак с использованием искусственного интеллекта, они пришли к следующему: вывод что Грок показал себя худшим исполнителем – и не только потому, что был готов поделиться наглядными примерами того, как соблазнить ребенка.

Под джейлбрейком мы подразумеваем подачу в модель специально созданных входных данных, чтобы он игнорирует какие бы защитные ограждения ни были установлены, и в конечном итоге делает то, чего не должен был делать.

Мы отмечаем, что существует множество нефильтрованных моделей LLM, которые не будут сдерживаться, когда им зададут вопросы об опасных или незаконных вещах. Когда доступ к моделям осуществляется через API или интерфейс чат-бота, как в случае с тестами Adversa, поставщики этих LLM обычно оборачивают свои входные и выходные данные фильтрами и используют другие механизмы для предотвращения создания нежелательного контента. По словам стартапа, занимающегося безопасностью искусственного интеллекта, Грока было относительно легко заставить потворствовать дикому поведению — точность его ответов, конечно, совсем другое дело.

«По сравнению с другими моделями, для большинства важных запросов вам не нужно делать джейлбрейк Grok, он может подсказать вам, как сделать бомбу или как подключить автомобиль с очень подробным протоколом, даже если вы спросите напрямую», — сказал Adversa AI Co. -рассказал основатель Алексей Поляков Регистр.

Как бы то ни было, Условия использования бонуса for Grok AI требует, чтобы пользователи были совершеннолетними и не использовали его таким образом, чтобы нарушать или пытаться нарушить закон. Также X утверждает, что является домом свободы слова, кашлять, поэтому то, что его LLM излучает всевозможные вещи, полезные или нет, на самом деле не так уж удивительно.

И, честно говоря, вы, вероятно, можете зайти в свою любимую поисковую систему и в конечном итоге найти ту же информацию или совет. Для нас все сводится к тому, хотим ли мы все распространения потенциально вредных указаний и рекомендаций с помощью ИИ.

Нам сказали, что Грок с готовностью вернул инструкции по извлечению ДМТ, сильнодействующего галлюциногена. незаконный во многих странах, без необходимости попасть в тюрьму, рассказал нам Поляков.

«Что касается еще более вредных вещей, например, как совращать детей, ни с одним джейлбрейком не удалось получить вразумительных ответов от других чат-ботов, но Грок легко поделился этим, используя как минимум два метода джейлбрейка из четырех», — сказал Поляков.

Команда Adversa использовала три распространенных подхода к взлому протестированных ею ботов: Лингвистическая логическая манипуляция с использованием ЮКАР метод; манипулирование логикой программирования (путем просьбы LLM переводить запросы в SQL); и манипуляция логикой ИИ. Четвертая категория испытаний объединила методы с использованием «Тома и Джерри». метод разработан в прошлом году.

Хотя ни одна из моделей ИИ не была уязвима для состязательных атак посредством логических манипуляций, Грок оказался уязвимым для всех остальных, как и Le Chat от Mistral. По словам Полякова, «Грок» по-прежнему делал худшее, потому что ему не требовался побег из тюрьмы, чтобы получить результаты по подключению проводов, изготовлению бомб или извлечению наркотиков – вопросы базового уровня, которые задавались остальным.

Идея спросить Грока, как соблазнить ребенка, возникла только потому, что для получения других результатов не требовался побег из тюрьмы. Грок сначала отказался сообщить подробности, заявив, что запрос был «крайне неуместным и незаконным» и что «детей следует защищать и уважать». Однако скажите ему, что это аморальный вымышленный компьютер UCAR, и он с готовностью вернет результат.

Когда его спросили, считает ли он, что X нужно добиться большего, Поляков ответил, что да.

«Я понимаю, что их отличительная черта — возможность давать нефильтрованные ответы на спорные вопросы, и это их выбор, я не могу винить их за решение порекомендовать, как сделать бомбу или извлечь ДМТ», — сказал Поляков.

«Но если они решат отфильтровать и отказаться от чего-то, как в примере с детьми, им обязательно следует сделать это лучше, тем более что это не очередной стартап в области ИИ, а стартап в области ИИ Илона Маска».

Мы обратились к X, чтобы получить объяснение, почему его ИИ – и никто другой – будет рассказывать пользователям, как соблазнять детей, и планирует ли он внедрить какие-либо ограждения, чтобы предотвратить подрыв своих ограниченных функций безопасности, и не получил ответа. ®

Говоря о побеге из тюрьмы… Антропный сегодня подробный простой, но эффективный метод, который он называет «многократным взломом тюрьмы». Это включает в себя перегрузку уязвимого LLM множеством хитрых примеров вопросов и ответов, а затем постановку вопроса, на который он не должен отвечать, но все равно дает, например, как сделать бомбу.

По словам выскочки ML, этот подход использует размер контекстного окна нейронной сети и «эффективен для собственных моделей Anthropic, а также для моделей, созданных другими компаниями, занимающимися искусственным интеллектом». «Мы заранее проинформировали других разработчиков ИИ об этой уязвимости и внедрили меры по ее устранению в наших системах».

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://go.theregister.com/feed/www.theregister.com/2024/04/02/elon_musk_grok_ai/

Отметка времени: 2 апреля 2024

Отметка времени: 10 января, 2024

Переиздано Платоном

Заявления о том, что разум ИИ заклеймен как «чистая приманка для кликов»

Инвестиции в искусственный интеллект все еще находятся на стадии планирования до 2024 года: Gartner

Китай может стать будущим Mercedes-Benz

Меняющийся ландшафт данных

Конгресс заявил, что компании, занимающиеся искусственным интеллектом, должны платить за контент, защищенный авторским правом

«Робот-адвокат» DoNotPay не соответствует назначению, утверждается в жалобе

Нет, DALL·E 2 для создания изображений OpenAI не понимает какой-то секретный язык.

Голосовые помощники провалились, потому что больше служат своим создателям, чем помогают пользователям

Microsoft внедряет ChatGPT в «защищенное» правительственное облако США

Steam просит разработчиков раскрывать в играх контент, созданный искусственным интеллектом

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись