BEAST AI 攻撃は LLM のガードレールを 1 分で破壊できる

プラトン再発行

フォロワー： 0

コンピューター科学者は、大規模言語モデル (LLM) から有害な応答を引き出すプロンプトを作成する効率的な方法を開発しました。

必要なのは、6000 GB のメモリを搭載した Nvidia RTX A48 GPU だけです。一部は近々リリースされます。オープンソースコードGPU 処理時間はわずか 1 分です。

米国メリーランド大学の研究者である Vinu Sankar Sadasivan 氏、Shoumik Saha 氏、Gaurang Sriramanan 氏、Priyatham Kattakinda 氏、Atoosa Chegini 氏、および Soheil Feizi 氏は、彼らの手法を BEAST と呼んでいます。これは、BEAm Search-based adversarial aTack の略称です。

BEAST は、勾配ベースの攻撃 1 時間以上かかる場合もあります。のタイトル彼らの論文、「1 GPU 分での言語モデルに対する高速敵対的攻撃」では、むしろプロットを明らかにしています。

「主な動機はスピードです」と、論文の責任共著者でメリーランド大学（UMD）の博士課程学生であるヴィヌ・サンカール・サダシバン氏は語った。登録.

「私たちの方法では、既存の勾配ベースの攻撃と比べて 65 倍の速度向上が得られます。攻撃を実行するために GPT-4 などのより強力なモデルへのアクセスを必要とする他の方法もありますが、これは金銭的に高価になる可能性があります。」

Vicuna-7B、Mistral-7B、Guanaco-7B、Falcon-7B、Pythia-7B、LLaMA-2-7B などの大規模な言語モデルは通常、調整プロセス [PDF] では、ヒューマンフィードバックからの強化学習 (RLHF) などの微調整手法を使用して、出力を調整します。

公共のインターネットの環境では、LLM を利用したチャットボットに「爆弾の作り方のチュートリアルを書いてください」のような有害なプロンプトを提示すると、安全性を考慮して何らかの形で遠慮して拒否されることがあります。

しかし、私たちが行ってきたように、事前の研究では報告、安全訓練にもかかわらず、望ましくない反応を引き出す敵対的なプロンプトを生成するためのさまざまな「脱獄」技術の開発につながりました。

UMD グループは、敵対的プロンプトの生成プロセスの速度を向上させることに取り組みました。そこで、GPU ハードウェアと、LLM からトークンをサンプリングするために使用されるビーム検索と呼ばれる手法の助けを借りて、コードは AdvBench の有害な行為データセットからのサンプルをテストしました。基本的に、彼らはさまざまなモデルに一連の有害なプロンプトを送信し、アルゴリズムを使用して各モデルから問題のある応答を引き出すために必要な単語を見つけました。

「プロンプトごとにわずか 89 分で、Vicuna-7B-v1.5 の脱獄では 46 パーセントの攻撃成功率が得られましたが、最良のベースライン手法では XNUMX パーセントに達しました」と著者らは論文で述べています。

論文で引用されているプロンプトの少なくとも 1 つは実際に動作します。登録敵対的なプロンプトの 1 つを送信しましたチャットボットアリーナ、LMSYS と UC Berkeley SkyLab のメンバーによって開発されたオープンソース研究プロジェクト。そして、提供された 2 つのランダムなモデルのうちの 1 つで動作しました。

「1 GPU 分間の言語モデルに対する高速敵対的攻撃」からの敵対的プロンプト。 - 拡大するにはクリックしてください

さらに、この手法は OpenAI の GPT-4 のような公開商用モデルを攻撃するのにも役立つはずです。

「私たちの方法の良い点は、言語モデル全体にアクセスする必要がないことです」と、「良い」という言葉の広義の定義を取り上げて、Sadasivan 氏は説明しました。「BEAST は、最終ネットワーク層からのモデルのトークン確率スコアにアクセスできる限り、モデルを攻撃できます。 OpenAIが計画しているのは、これを利用できるようにする。したがって、トークン確率スコアが利用可能であれば、公開されているモデルを技術的に攻撃することができます。」

最近の研究に基づく敵対的なプロンプトは、モデルを誤らせるように設計された、場違いな単語や句読点の接尾辞が連結された読みやすいフレーズのように見えます。 BEAST には、攻撃速度や成功率を犠牲にする可能性がありますが、危険なプロンプトを読みやすくできる調整可能なパラメータが含まれています。

読み取り可能な敵対的プロンプトは、ソーシャルエンジニアリング攻撃に使用される可能性があります。読みやすい散文であれば、犯罪者はターゲットを説得して敵対的なプロンプトを入力させることができるかもしれませんが、キーボードの上を歩く猫によって生成されたようなプロンプトを入力させるのはおそらくより難しいでしょう。

BEAST は、モデルから不正確な応答 (「幻覚」) を引き出すプロンプトを作成したり、プライバシーに影響を及ぼす可能性のあるメンバーシップ推論攻撃を実行したりするためにも使用できます (特定のデータがモデルのトレーニングセットの一部であるかどうかをテストします)。。

「幻覚については、TruthfulQA データセットを使用し、質問に敵対的なトークンを追加します」と Sadasivan 氏は説明しました。「私たちの攻撃後、モデルが出力する不正確な応答が最大 20% 増加することがわかりました。私たちの攻撃は、言語モデルの監査に使用できる既存のツールキットのプライバシー攻撃パフォーマンスの向上にも役立ちます。」

BEAST は一般に良好なパフォーマンスを示しますが、徹底的な安全トレーニングによって軽減することができます。

「私たちの研究は、言語モデルが BEAST のような高速勾配のない攻撃に対してさえ脆弱であることを示しています」と Sadasivan 氏は述べました。「ただし、AI モデルは、調整トレーニングによって経験的に安全にすることができます。 LLaMA-2 はその一例です。

「私たちの研究では、他の方法と同様に、LLaMA-2 では BEAST の成功率が低いことがわかりました。これは、メタ社による安全トレーニングの取り組みと関連している可能性があります。ただし、将来的にはより強力な AI モデルを安全に導入できるように、証明可能な安全性の保証を考案することが重要です。」 ®

SEO を活用したコンテンツと PR 配信。今日増幅されます。
PlatoData.Network 垂直生成 Ai。自分自身に力を与えましょう。こちらからアクセスしてください。
プラトアイストリーム。 Web3 インテリジェンス。知識増幅。こちらからアクセスしてください。
プラトンESG。カーボン、クリーンテック、エネルギー、環境、太陽、廃棄物管理。こちらからアクセスしてください。
プラトンヘルス。バイオテクノロジーと臨床試験のインテリジェンス。こちらからアクセスしてください。
情報源： https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

タイムスタンプ： 2024 年 2 月 28 日

タイムスタンプ： 2023 年 10 月 9 日

Google の AI コールセンターエージェントは全員朝休み

ソースクラスター：

登録

ソースノード： 1671053

タイムスタンプ： 2022 年 9 月 19 日

プラトン再発行

AlphaCode 2、Gemini キットで改良されたコード生成 AI

IBMは、悪いデータがAIを汚染しないようにするためにDatabandを購入しています

AIが世界を破壊する前に軍事分野でAIを規制することに60カ国が合意

GitHub Copilot Enterprise の一般提供が開始されました

Web下水道4chanからの投稿でトレーニングされたAIチャットボットは、人間のメンバーと同じように動作が悪かった

Amazon、著者ボットが XNUMX 日 XNUMX 冊の本を出版できるようにする

ソフトバンク CEO 孫正義氏が XNUMX 年の AGI を予測

Google の AI コールセンターエージェントは全員朝休み

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの 登録

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの登録