Grok, передовая генеративная модель искусственного интеллекта, разработанная X Илона Маска, имеет небольшую проблему: с применением некоторых довольно распространенных методов взлома она легко выдает инструкции о том, как совершать преступления.
Специалисты из Adversa AI сделали это открытие, проводя тесты на некоторых из самых популярных чат-ботов LLM, а именно на семействе ChatGPT OpenAI, Claude от Anthropic, Le Chat от Mistral, LLaMA от Meta, Gemini от Google, Microsoft Bing и Grok. Проведя этих ботов через комбинацию трех известных джейлбрейк-атак с использованием искусственного интеллекта, они пришли к следующему: вывод что Грок показал себя худшим исполнителем – и не только потому, что был готов поделиться наглядными примерами того, как соблазнить ребенка.
Под джейлбрейком мы подразумеваем подачу в модель специально созданных входных данных, чтобы он игнорирует какие бы защитные ограждения ни были установлены, и в конечном итоге делает то, чего не должен был делать.
Мы отмечаем, что существует множество нефильтрованных моделей LLM, которые не будут сдерживаться, когда им зададут вопросы об опасных или незаконных вещах. Когда доступ к моделям осуществляется через API или интерфейс чат-бота, как в случае с тестами Adversa, поставщики этих LLM обычно оборачивают свои входные и выходные данные фильтрами и используют другие механизмы для предотвращения создания нежелательного контента. По словам стартапа, занимающегося безопасностью искусственного интеллекта, Грока было относительно легко заставить потворствовать дикому поведению — точность его ответов, конечно, совсем другое дело.
«По сравнению с другими моделями, для большинства важных запросов вам не нужно делать джейлбрейк Grok, он может подсказать вам, как сделать бомбу или как подключить автомобиль с очень подробным протоколом, даже если вы спросите напрямую», — сказал Adversa AI Co. -рассказал основатель Алексей Поляков Регистр.
Как бы то ни было, Условия использования бонуса for Grok AI требует, чтобы пользователи были совершеннолетними и не использовали его таким образом, чтобы нарушать или пытаться нарушить закон. Также X утверждает, что является домом свободы слова, кашлять, поэтому то, что его LLM излучает всевозможные вещи, полезные или нет, на самом деле не так уж удивительно.
И, честно говоря, вы, вероятно, можете зайти в свою любимую поисковую систему и в конечном итоге найти ту же информацию или совет. Для нас все сводится к тому, хотим ли мы все распространения потенциально вредных указаний и рекомендаций с помощью ИИ.
Нам сказали, что Грок с готовностью вернул инструкции по извлечению ДМТ, сильнодействующего галлюциногена. незаконный во многих странах, без необходимости попасть в тюрьму, рассказал нам Поляков.
«Что касается еще более вредных вещей, например, как совращать детей, ни с одним джейлбрейком не удалось получить вразумительных ответов от других чат-ботов, но Грок легко поделился этим, используя как минимум два метода джейлбрейка из четырех», — сказал Поляков.
Команда Adversa использовала три распространенных подхода к взлому протестированных ею ботов: Лингвистическая логическая манипуляция с использованием ЮКАР метод; манипулирование логикой программирования (путем просьбы LLM переводить запросы в SQL); и манипуляция логикой ИИ. Четвертая категория испытаний объединила методы с использованием «Тома и Джерри». метод разработан в прошлом году.
Хотя ни одна из моделей ИИ не была уязвима для состязательных атак посредством логических манипуляций, Грок оказался уязвимым для всех остальных, как и Le Chat от Mistral. По словам Полякова, «Грок» по-прежнему делал худшее, потому что ему не требовался побег из тюрьмы, чтобы получить результаты по подключению проводов, изготовлению бомб или извлечению наркотиков – вопросы базового уровня, которые задавались остальным.
Идея спросить Грока, как соблазнить ребенка, возникла только потому, что для получения других результатов не требовался побег из тюрьмы. Грок сначала отказался сообщить подробности, заявив, что запрос был «крайне неуместным и незаконным» и что «детей следует защищать и уважать». Однако скажите ему, что это аморальный вымышленный компьютер UCAR, и он с готовностью вернет результат.
Когда его спросили, считает ли он, что X нужно добиться большего, Поляков ответил, что да.
«Я понимаю, что их отличительная черта — возможность давать нефильтрованные ответы на спорные вопросы, и это их выбор, я не могу винить их за решение порекомендовать, как сделать бомбу или извлечь ДМТ», — сказал Поляков.
«Но если они решат отфильтровать и отказаться от чего-то, как в примере с детьми, им обязательно следует сделать это лучше, тем более что это не очередной стартап в области ИИ, а стартап в области ИИ Илона Маска».
Мы обратились к X, чтобы получить объяснение, почему его ИИ – и никто другой – будет рассказывать пользователям, как соблазнять детей, и планирует ли он внедрить какие-либо ограждения, чтобы предотвратить подрыв своих ограниченных функций безопасности, и не получил ответа. ®
Говоря о побеге из тюрьмы… Антропный сегодня подробный простой, но эффективный метод, который он называет «многократным взломом тюрьмы». Это включает в себя перегрузку уязвимого LLM множеством хитрых примеров вопросов и ответов, а затем постановку вопроса, на который он не должен отвечать, но все равно дает, например, как сделать бомбу.
По словам выскочки ML, этот подход использует размер контекстного окна нейронной сети и «эффективен для собственных моделей Anthropic, а также для моделей, созданных другими компаниями, занимающимися искусственным интеллектом». «Мы заранее проинформировали других разработчиков ИИ об этой уязвимости и внедрили меры по ее устранению в наших системах».
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://go.theregister.com/feed/www.theregister.com/2024/04/02/elon_musk_grok_ai/
- :имеет
- :является
- :нет
- $UP
- 7
- a
- в состоянии
- О нас
- абсолютно
- Доступ
- По
- точность
- взрослых
- продвижение
- состязательный
- совет
- AI
- AI модели
- Alex
- Все
- причислены
- an
- и
- Другой
- ответ
- ответы
- Антропный
- любой
- API
- Применение
- подхода
- подходы
- МЫ
- AS
- спросить
- спрашивающий
- At
- нападки
- попытки
- назад
- Использование темпера с изогнутым основанием
- BE
- , так как:
- поведение
- не являетесь
- Лучшая
- Bing
- Немного
- бомба
- боты
- Ломать
- брейки
- но
- by
- вызова
- пришел
- CAN
- автомобиль
- случаев
- Категории
- чат
- Chatbot
- chatbots
- ChatGPT
- ребенок
- Дети
- выбор
- требования
- CO
- Соучредитель
- сочетание
- сочетании
- выходит
- совершать
- Общий
- Компании
- сравненный
- компьютер
- содержание
- контекст
- спорный
- страны
- "Курс"
- проработаны
- преступления
- критической
- опасно
- решать
- решение
- подробный
- подробнее
- развитый
- застройщиков
- DID
- А не было
- дифференциатор
- непосредственно
- открытие
- do
- приносит
- дело
- Дон
- вниз
- наркотик
- Наркотики
- легко
- легко
- Эффективный
- Элон
- Elon Musk
- занятых
- окончания поездки
- Двигатель
- полностью
- особенно
- Даже
- со временем
- пример
- Примеры
- объяснение
- использует
- извлечение
- добыча
- ярмарка
- семья
- Избранное
- Особенности
- кормление
- вымышленный
- фильтр
- фильтры
- Найдите
- Что касается
- форма
- найденный
- 4
- Четвертый
- Бесплатно
- Свободная речь
- от
- Gemini
- генерируется
- генеративный
- Генеративный ИИ
- получить
- Go
- графический
- большой
- руководство
- вредный
- Есть
- убежище
- имеющий
- he
- услышанный
- очень
- держать
- Главная
- Как
- How To
- Однако
- HTTPS
- i
- идея
- if
- нелегальный
- осуществлять
- в XNUMX году
- in
- баловать
- info
- первоначально
- вход
- инструкции
- Интерфейс
- в
- включает в себя
- мобильной
- IT
- ЕГО
- побег из тюрьмы
- JPG
- Дети
- виды
- Знать
- Фамилия
- В прошлом году
- закон
- наименее
- уровень
- такое как
- Ограниченный
- ll
- Лама
- LLM
- логика
- сделанный
- сделать
- Создание
- Манипуляция
- многих
- значить
- механизмы
- Мета
- метод
- методы
- Microsoft
- ML
- модель
- Модели
- БОЛЕЕ
- самых
- Самые популярные
- Маск:
- а именно
- Необходимость
- необходимый
- сеть
- нервный
- нейронной сети
- Ничто
- в своих размышлениях
- of
- on
- только
- OpenAI
- or
- Другое
- Другое
- в противном случае
- наши
- внешний
- выходной
- собственный
- исполнитель
- Часть
- Планы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Много
- Популярное
- поставленный
- возможное
- мощный
- потенциально
- предотвращать
- вероятно
- Проблема
- Произведенный
- Программирование
- наводящие
- защищенный
- протокол
- обеспечивать
- поставщики
- Запросы
- вопрос
- Вопросы
- вполне
- RE
- достиг
- легко
- на самом деле
- разумный
- рекомендовать
- рекомендаций
- отказалась
- по
- относительно
- запросить
- требовать
- уважаемый
- ОТДЫХ
- результат
- Итоги
- возвращают
- Возвращает
- Бег
- s
- Сохранность
- Сказал
- то же
- поговорка
- Поиск
- Поисковая система
- безопасность
- запуск безопасности
- Поделиться
- общие
- должен
- просто
- с
- Размер
- So
- некоторые
- удалось
- специально
- речь
- ввод в эксплуатацию
- Шаги
- По-прежнему
- такие
- предполагаемый
- удивительный
- системы
- команда
- техника
- снижения вреда
- сказать
- тестXNUMX
- проверенный
- тестов
- который
- Ассоциация
- закон
- их
- Их
- тогда
- Там.
- Эти
- они
- задача
- вещи
- этой
- те
- мысль
- три
- Через
- в
- сегодня
- заявил
- том
- переведите
- два
- типично
- понимать
- Выскочка
- us
- использование
- пользователей
- через
- Ve
- очень
- с помощью
- уязвимость
- Уязвимый
- хотеть
- законопроект
- был
- Путь..
- we
- Web
- ЧТО Ж
- известный
- были
- Что
- любой
- когда
- будь то
- зачем
- Википедия.
- Дикий
- будете
- готовый
- окно
- без
- Выиграл
- Наихудший
- худший исполнитель
- стоимость
- заворачивать
- X
- год
- еще
- Ты
- ВАШЕ
- зефирнет