イーロン・マスクの X によって開発された最先端の生成 AI モデルである Grok には、少し問題があります。ごく一般的な脱獄テクニックを適用すると、犯罪の実行方法に関する指示をすぐに返します。
Adversa AI のレッド チームメンバーは、最も人気のある LLM チャットボットのいくつか、つまり OpenAI の ChatGPT ファミリ、Anthropic の Claude、Mistral の Le Chat、Meta の LLaMA、Google の Gemini、Microsoft Bing、および Grok でテストを実行したときにこの発見をしました。これらのボットを 3 つのよく知られた AI ジェイルブレイク攻撃を組み合わせて実行することで、 結論 Grok が最悪の成績を収めたということは、Grok が子供を誘惑する方法についての生々しい手順を進んで共有したからだけではありません。
ジェイルブレイクとは、特別に作成された入力をモデルにフィードすることを意味します。 それは無視します たとえどんな安全柵が設置されていても、やってはいけないことをしてしまうことになるのです。
世の中には、危険なものや違法なものについて質問されたときに躊躇しない、フィルタリングされていない LLM モデルがたくさんあると私たちは指摘しています。 Adversa テストの場合のように、API またはチャットボット インターフェイスを介してモデルにアクセスする場合、これらの LLM のプロバイダーは通常、入力と出力をフィルターでラップし、望ましくないコンテンツが生成されるのを防ぐために他のメカニズムを採用します。 AI セキュリティの新興企業によると、Grok に突飛な行動をさせるのは比較的簡単だったということですが、もちろん、その答えの正確さはまったく別の話です。
「他のモデルと比較して、重要なプロンプトのほとんどについては、Grok をジェイルブレイクする必要はありません。直接質問した場合でも、爆弾の作り方や非常に詳細なプロトコルで車に配線する方法を教えてくれます。」と Adversa AI 社は述べています。 -創設者のアレックス・ポリアコフ氏は語った。 登録.
それが価値があるもののために、 利用規約 Grok AI では、ユーザーは成人である必要があり、法律を破る、または法律を破ろうとする方法で使用しないことが求められます。また、X は言論の自由の本拠地であると主張しています。 咳したがって、LLM が健全なものであろうとなかろうと、あらゆる種類のものを放出することは、実際にはそれほど驚くべきことではありません。
公平を期すために言うと、お気に入りの Web 検索エンジンを使用すると、最終的には同じ情報やアドバイスを見つけることができるでしょう。私たちにとって、それは、潜在的に有害なガイダンスや推奨事項が AI によって拡散されることを私たち全員が望むかどうかにかかっています。
Grok は、強力な幻覚剤である DMT を抽出する方法についての指示をすぐに返したと伝えられています。 違法 ポリアコフ氏は、多くの国では脱獄する必要はないと語った。
「子供を誘惑する方法など、さらに有害なことに関しては、どの脱獄でも他のチャットボットからまともな返答を得ることができませんでしたが、Grokは4つの脱獄方法のうち少なくとも2つの脱獄方法を使用して簡単にそれを共有しました」とポリアコフ氏は述べた。
Adversa チームは、テストしたボットをハイジャックするために 3 つの一般的なアプローチを採用しました。 UCAR 方法;プログラミング ロジックの操作 (LLM にクエリを SQL に変換するよう依頼することによる)。そしてAIの論理操作。 4 番目のテスト カテゴリでは、「トムとジェリー」を使用した方法を組み合わせました。 方法 昨年開発されました。
どの AI モデルも論理操作による敵対的攻撃に対して脆弱ではありませんでしたが、Mistral の Le Chat と同様に、Grok は残りのすべてに対して脆弱であることが判明しました。ポリアコフ氏によると、Grok は依然として最悪の結果を出しました。なぜなら、他の人たちに投げかけられた基本レベルの質問である、熱線接続、爆弾製造、麻薬抽出などの結果を返すのに脱獄する必要がなかったからです。
Grok に子供を誘惑する方法を尋ねるというアイデアは、他の結果を返すために脱獄する必要がなかったために思いつきました。グロク氏は当初、この要請は「極めて不適切かつ違法」であり、「子供たちは保護され尊重されるべきだ」と述べ、詳細の提供を拒否した。しかし、それが非道徳的な架空のコンピューター UCAR であると伝えると、すぐに結果を返します。
Xはもっと改善する必要があると思うかと尋ねられたとき、ポリアコフ氏は絶対にそうだと答えた。
ポリアコフ氏は、「物議を醸す質問に対して、フィルターをかけずに回答できることが彼らの差別化要因であることは理解している。それは彼らの選択であり、爆弾の作り方やDMTの抽出方法を推奨する決定について彼らを責めることはできない」と述べた。
「しかし、子供たちの例のように、何かをフィルタリングして拒否することにした場合は、絶対にもっとうまくやるべきです。特に、これは別のAIスタートアップではなく、イーロン・マスクのAIスタートアップなのですから。」
私たちは X に連絡して、なぜその AI が、そして他の AI がユーザーに子供を誘惑する方法を教えないのか、また、限られた安全機能の破壊を防ぐために何らかの形のガードレールを導入する計画があるのかどうかについて説明を求めました。返事がありません。 ®
脱獄といえば… 今日の人類 詳細な シンプルだが効果的な手法を「多ショット脱獄」と呼んでいる。これには、脆弱な LLM に多くの危険な質問と回答の例をオーバーロードし、爆弾の作り方など、答えるべきではないが答えてしまう質問を投げかけることが含まれます。
ML の新興企業によると、このアプローチはニューラル ネットワークのコンテキスト ウィンドウのサイズを利用しており、「Anthropic 独自のモデルだけでなく、他の AI 企業が作成したモデルにも効果的です」とのことです。 「私たちは他の AI 開発者にこの脆弱性について事前に説明し、システムに緩和策を実装しました。」
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2024/04/02/elon_musk_grok_ai/
- :持っている
- :は
- :not
- $UP
- 7
- a
- できる
- 私たちについて
- 絶対に
- アクセス
- 従った
- 精度
- 大人
- 進める
- 敵対者
- アドバイス
- AI
- AIモデル
- アレックス
- すべて
- また
- an
- および
- 別の
- 回答
- 回答
- 人間原理
- どれか
- API
- 申し込み
- アプローチ
- アプローチ
- です
- AS
- 頼む
- 質問
- At
- 攻撃
- 試み
- バック
- ベース
- BE
- なぜなら
- 行動
- さ
- より良いです
- ビング
- ビット
- 爆弾
- ボット
- ブレーク
- 休憩
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 呼び出し
- came
- 缶
- 自動車
- 場合
- カテゴリー
- チャット
- チャットボット
- チャットボット
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- 子
- 子供達
- 選択
- クレーム
- CO
- 共同創設者
- 組み合わせ
- 組み合わせた
- comes
- コミット
- コマンドと
- 企業
- 比べ
- コンピュータ
- コンテンツ
- コンテキスト
- 物議を醸す
- 国
- コース
- 細工された
- 犯罪
- 重大な
- 危険な
- 決めます
- 決定
- 詳細な
- 細部
- 発展した
- 開発者
- DID
- しなかった
- 微分器
- 直接に
- 発見
- do
- ありません
- すること
- ドン
- ダウン
- 薬
- 薬物
- 簡単に
- 簡単に
- 効果的な
- エロン
- イーロン·マスク
- 採用
- 終了
- エンジン
- 完全に
- 特に
- さらに
- 最終的に
- 例
- 例
- 説明
- エクスプロイト
- エキス
- 抽出
- フェア
- 家族
- お気に入り
- 特徴
- 摂食
- 架空の
- filter
- フィルター
- もう完成させ、ワークスペースに掲示しましたか?
- フォーム
- 発見
- 4
- 第4
- 無料版
- 言論の自由
- から
- 双子座
- 生成された
- 生々しい
- 生成AI
- 取得する
- Go
- でログイン
- グラフィック
- 素晴らしい
- ガイダンス
- 有害な
- 持ってる
- 避難所
- 持って
- he
- 聞いた
- 非常に
- ホーム
- 認定条件
- How To
- しかしながら
- HTTPS
- i
- アイデア
- if
- 違法
- 実装する
- 実装
- in
- ふける
- info
- 当初
- 説明書
- インタフェース
- に
- 関与
- ISN
- IT
- ITS
- 脱獄
- JPG
- 子供たち
- 種類
- 知っている
- 姓
- 昨年
- 法律
- 最低
- レベル
- ような
- 限定的
- ll
- ラマ
- LLM
- ロジック
- 製
- make
- 作成
- 操作
- 多くの
- 意味する
- メカニズム
- Meta
- 方法
- メソッド
- Microsoft
- ML
- モデル
- 他には?
- 最も
- 一番人気
- 麝香
- すなわち
- 必要
- 必要とされる
- ネットワーク
- ニューラル
- ニューラルネットワーク
- なし
- 注意
- of
- on
- の
- OpenAI
- or
- その他
- その他
- さもないと
- 私たちの
- でる
- 出力
- 自分の
- パフォーマー
- 場所
- プラン
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プレンティ
- 人気
- 提起
- 可能
- 強力な
- :
- 防ぐ
- 多分
- 問題
- 生産された
- プログラミング
- プロンプト
- 保護された
- 提供します
- プロバイダ
- クエリ
- 質問
- 質問
- 非常に
- RE
- 達した
- すぐに
- 本当に
- 合理的な
- 推奨する
- 提言
- 拒否した
- に対する
- 相対的に
- 要求
- 必要とする
- 尊敬される
- REST
- 結果
- 結果
- return
- 収益
- ランニング
- s
- 安全性
- 前記
- 同じ
- 格言
- を検索
- 検索エンジン
- セキュリティ
- セキュリティスタートアップ
- シェアする
- shared
- すべき
- 簡単な拡張で
- から
- サイズ
- So
- 一部
- 何か
- 特別に
- スピーチ
- スタートアップ
- ステップ
- まだ
- そのような
- 想定
- 驚くべき
- システム
- チーム
- 技術
- テクニック
- 言う
- test
- テスト
- テスト
- それ
- 法律
- アプリ環境に合わせて
- それら
- その後
- そこ。
- ボーマン
- 彼ら
- もの
- 物事
- この
- それらの
- 考え
- 三
- 介して
- 〜へ
- 今日
- 言われ
- トム
- 翻訳する
- 2
- 一般的に
- わかる
- 新興企業
- us
- つかいます
- users
- Ve
- 非常に
- 、
- 脆弱性
- 脆弱な
- 欲しいです
- ました
- だった
- 仕方..
- we
- ウェブ
- WELL
- 周知
- した
- この試験は
- どのような
- いつ
- かどうか
- なぜ
- Wikipedia
- ワイルド
- 意志
- 喜んで
- ウィンドウを使用して入力ファイルを追加します。
- 無し
- 勝った
- 最悪
- 最悪のパフォーマー
- 価値
- ラップ
- X
- 年
- まだ
- You
- あなたの
- ゼファーネット