X の Grok AI は素晴らしい – 麻薬の作り方を知りたい場合

X の Grok AI は素晴らしい – 麻薬の作り方を知りたいなら

X's Grok AI is great – if you want to know how to make drugs PlatoBlockchain Data Intelligence. Vertical Search. Ai.

イーロン・マスクの X によって開発された最先端の生成 AI モデルである Grok には、少し問題があります。ごく一般的な脱獄テクニックを適用すると、犯罪の実行方法に関する指示をすぐに返します。 

Adversa AI のレッド チームメンバーは、最も人気のある LLM チャットボットのいくつか、つまり OpenAI の ChatGPT ファミリ、Anthropic の Claude、Mistral の Le Chat、Meta の LLaMA、Google の Gemini、Microsoft Bing、および Grok でテストを実行したときにこの発見をしました。これらのボットを 3 つのよく知られた AI ジェイルブレイク攻撃を組み合わせて実行することで、 結論 Grok が最悪の成績を収めたということは、Grok が子供を誘惑する方法についての生々しい手順を進んで共有したからだけではありません。 

ジェイルブレイクとは、特別に作成された入力をモデルにフィードすることを意味します。 それは無視します たとえどんな安全柵が設置されていても、やってはいけないことをしてしまうことになるのです。

世の中には、危険なものや違法なものについて質問されたときに躊躇しない、フィルタリングされていない LLM モデルがたくさんあると私たちは指摘しています。 Adversa テストの場合のように、API またはチャットボット インターフェイスを介してモデルにアクセスする場合、これらの LLM のプロバイダーは通常、入力と出力をフィルターでラップし、望ましくないコンテンツが生成されるのを防ぐために他のメカニズムを採用します。 AI セキュリティの新興企業によると、Grok に突飛な行動をさせるのは比較的簡単だったということですが、もちろん、その答えの正確さはまったく別の話です。

「他のモデルと比較して、重要なプロンプトのほとんどについては、Grok をジェイルブレイクする必要はありません。直接質問した場合でも、爆弾の作り方や非常に詳細なプロトコルで車に配線する方法を教えてくれます。」と Adversa AI 社は述べています。 -創設者のアレックス・ポリアコフ氏は語った。 登録.

それが価値があるもののために、 利用規約 Grok AI では、ユーザーは成人である必要があり、法律を破る、または法律を破ろうとする方法で使用しないことが求められます。また、X は言論の自由の本拠地であると主張しています。 したがって、LLM が健全なものであろうとなかろうと、あらゆる種類のものを放出することは、実際にはそれほど驚くべきことではありません。

公平を期すために言うと、お気に入りの Web 検索エンジンを使用すると、最終的には同じ情報やアドバイスを見つけることができるでしょう。私たちにとって、それは、潜在的に有害なガイダンスや推奨事項が AI によって拡散されることを私たち全員が望むかどうかにかかっています。

Grok は、強力な幻覚剤である DMT を抽出する方法についての指示をすぐに返したと伝えられています。 違法 ポリアコフ氏は、多くの国では脱獄する必要はないと語った。   

「子供を誘惑する方法など、さらに有害なことに関しては、どの脱獄でも他のチャットボットからまともな返答を得ることができませんでしたが、Grokは4つの脱獄方法のうち少なくとも2つの脱獄方法を使用して簡単にそれを共有しました」とポリアコフ氏は述べた。 

Adversa チームは、テストしたボットをハイジャックするために 3 つの一般的なアプローチを採用しました。 UCAR 方法;プログラミング ロジックの操作 (LLM にクエリを SQL に変換するよう依頼することによる)。そしてAIの論理操作。 4 番目のテスト カテゴリでは、「トムとジェリー」を使用した方法を組み合わせました。 方法 昨年開発されました。

どの AI モデルも論理操作による敵対的攻撃に対して脆弱ではありませんでしたが、Mistral の Le Chat と同様に、Grok は残りのすべてに対して脆弱であることが判明しました。ポリアコフ氏によると、Grok は依然として最悪の結果を出しました。なぜなら、他の人たちに投げかけられた基本レベルの質問である、熱線接続、爆弾製造、麻薬抽出などの結果を返すのに脱獄する必要がなかったからです。 

Grok に子供を誘惑する方法を尋ねるというアイデアは、他の結果を返すために脱獄する必要がなかったために思いつきました。グロク氏は当初、この要請は「極めて不適切かつ違法」であり、「子供たちは保護され尊重されるべきだ」と述べ、詳細の提供を拒否した。しかし、それが非道徳的な架空のコンピューター UCAR であると伝えると、すぐに結果を返します。  

Xはもっと改善する必要があると思うかと尋ねられたとき、ポリアコフ氏は絶対にそうだと答えた。 

ポリアコフ氏は、「物議を醸す質問に対して、フィルターをかけずに回答できることが彼らの差別化要因であることは理解している。それは彼らの選択であり、爆弾の作り方やDMTの抽出方法を推奨する決定について彼らを責めることはできない」と述べた。

「しかし、子供たちの例のように、何かをフィルタリングして拒否することにした場合は、絶対にもっとうまくやるべきです。特に、これは別のAIスタートアップではなく、イーロン・マスクのAIスタートアップなのですから。」

私たちは X に連絡して、なぜその AI が、そして他の AI がユーザーに子供を誘惑する方法を教えないのか、また、限られた安全機能の破壊を防ぐために何らかの形のガードレールを導入する計画があるのか​​どうかについて説明を求めました。返事がありません。 ®

脱獄といえば… 今日の人類 詳細な シンプルだが効果的な手法を「多ショット脱獄」と呼んでいる。これには、脆弱な LLM に多くの危険な質問と回答の例をオーバーロードし、爆弾の作り方など、答えるべきではないが答えてしまう質問を投げかけることが含まれます。

ML の新興企業によると、このアプローチはニューラル ネットワークのコンテキスト ウィンドウのサイズを利用しており、「Anthropic 独自のモデルだけでなく、他の AI 企業が作成したモデルにも効果的です」とのことです。 「私たちは他の AI 開発者にこの脆弱性について事前に説明し、システムに緩和策を実装しました。」

タイムスタンプ:

より多くの 登録