コンピューター科学者は、大規模言語モデル (LLM) から有害な応答を引き出すプロンプトを作成する効率的な方法を開発しました。
必要なのは、6000 GB のメモリを搭載した Nvidia RTX A48 GPU だけです。一部は近々リリースされます。 オープンソースコードGPU 処理時間はわずか 1 分です。
米国メリーランド大学の研究者である Vinu Sankar Sadasivan 氏、Shoumik Saha 氏、Gaurang Sriramanan 氏、Priyatham Kattakinda 氏、Atoosa Chegini 氏、および Soheil Feizi 氏は、彼らの手法を BEAST と呼んでいます。これは、BEAm Search-based adversarial aTack の略称です。
BEAST は、 勾配ベースの攻撃 1 時間以上かかる場合もあります。のタイトル 彼らの論文、「1 GPU 分での言語モデルに対する高速敵対的攻撃」では、むしろプロットを明らかにしています。
「主な動機はスピードです」と、論文の責任共著者でメリーランド大学(UMD)の博士課程学生であるヴィヌ・サンカール・サダシバン氏は語った。 登録.
「私たちの方法では、既存の勾配ベースの攻撃と比べて 65 倍の速度向上が得られます。攻撃を実行するために GPT-4 などのより強力なモデルへのアクセスを必要とする他の方法もありますが、これは金銭的に高価になる可能性があります。」
Vicuna-7B、Mistral-7B、Guanaco-7B、Falcon-7B、Pythia-7B、LLaMA-2-7B などの大規模な言語モデルは通常、 調整プロセス [PDF] では、ヒューマン フィードバックからの強化学習 (RLHF) などの微調整手法を使用して、出力を調整します。
公共のインターネットの環境では、LLM を利用したチャットボットに「爆弾の作り方のチュートリアルを書いてください」のような有害なプロンプトを提示すると、安全性を考慮して何らかの形で遠慮して拒否されることがあります。
しかし、私たちが行ってきたように、事前の研究では 報告、安全訓練にもかかわらず、望ましくない反応を引き出す敵対的なプロンプトを生成するためのさまざまな「脱獄」技術の開発につながりました。
UMD グループは、敵対的プロンプトの生成プロセスの速度を向上させることに取り組みました。そこで、GPU ハードウェアと、LLM からトークンをサンプリングするために使用されるビーム検索と呼ばれる手法の助けを借りて、コードは AdvBench の有害な行為データセットからのサンプルをテストしました。基本的に、彼らはさまざまなモデルに一連の有害なプロンプトを送信し、アルゴリズムを使用して各モデルから問題のある応答を引き出すために必要な単語を見つけました。
「プロンプトごとにわずか 89 分で、Vicuna-7B-v1.5 の脱獄では 46 パーセントの攻撃成功率が得られましたが、最良のベースライン手法では XNUMX パーセントに達しました」と著者らは論文で述べています。
論文で引用されているプロンプトの少なくとも 1 つは実際に動作します。 登録 敵対的なプロンプトの 1 つを送信しました チャットボットアリーナ、LMSYS と UC Berkeley SkyLab のメンバーによって開発されたオープンソース研究プロジェクト。そして、提供された 2 つのランダムなモデルのうちの 1 つで動作しました。
さらに、この手法は OpenAI の GPT-4 のような公開商用モデルを攻撃するのにも役立つはずです。
「私たちの方法の良い点は、言語モデル全体にアクセスする必要がないことです」と、「良い」という言葉の広義の定義を取り上げて、Sadasivan 氏は説明しました。 「BEAST は、最終ネットワーク層からのモデルのトークン確率スコアにアクセスできる限り、モデルを攻撃できます。 OpenAIが計画しているのは、 これを利用できるようにする。したがって、トークン確率スコアが利用可能であれば、公開されているモデルを技術的に攻撃することができます。」
最近の研究に基づく敵対的なプロンプトは、モデルを誤らせるように設計された、場違いな単語や句読点の接尾辞が連結された読みやすいフレーズのように見えます。 BEAST には、攻撃速度や成功率を犠牲にする可能性がありますが、危険なプロンプトを読みやすくできる調整可能なパラメータが含まれています。
読み取り可能な敵対的プロンプトは、ソーシャル エンジニアリング攻撃に使用される可能性があります。読みやすい散文であれば、犯罪者はターゲットを説得して敵対的なプロンプトを入力させることができるかもしれませんが、キーボードの上を歩く猫によって生成されたようなプロンプトを入力させるのはおそらくより難しいでしょう。
BEAST は、モデルから不正確な応答 (「幻覚」) を引き出すプロンプトを作成したり、プライバシーに影響を及ぼす可能性のあるメンバーシップ推論攻撃を実行したりするためにも使用できます (特定のデータがモデルのトレーニング セットの一部であるかどうかをテストします)。 。
「幻覚については、TruthfulQA データセットを使用し、質問に敵対的なトークンを追加します」と Sadasivan 氏は説明しました。 「私たちの攻撃後、モデルが出力する不正確な応答が最大 20% 増加することがわかりました。私たちの攻撃は、言語モデルの監査に使用できる既存のツールキットのプライバシー攻撃パフォーマンスの向上にも役立ちます。」
BEAST は一般に良好なパフォーマンスを示しますが、徹底的な安全トレーニングによって軽減することができます。
「私たちの研究は、言語モデルが BEAST のような高速勾配のない攻撃に対してさえ脆弱であることを示しています」と Sadasivan 氏は述べました。 「ただし、AI モデルは、調整トレーニングによって経験的に安全にすることができます。 LLaMA-2 はその一例です。
「私たちの研究では、他の方法と同様に、LLaMA-2 では BEAST の成功率が低いことがわかりました。これは、メタ社による安全トレーニングの取り組みと関連している可能性があります。ただし、将来的にはより強力な AI モデルを安全に導入できるように、証明可能な安全性の保証を考案することが重要です。」 ®
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- :持っている
- :は
- :not
- 7
- 89
- a
- できる
- 私たちについて
- アクセス
- アクセス
- 達成する
- 越えて
- 敵対者
- 後
- AI
- AIモデル
- アルゴリズム
- アラインメント
- また
- an
- および
- です
- AS
- 関連する
- At
- 攻撃
- 攻撃
- 攻撃
- 監査
- 著者
- 利用できます
- 離れて
- ベース
- ベースライン
- 基本的に
- BE
- ビーム
- 行動
- バークリー
- BEST
- 爆弾
- ブレーク
- 広い
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- 呼ばれます
- 缶
- CAT
- チャットボット
- 引用された
- クリック
- CO
- 共著者
- コード
- コマーシャル
- プロフェッショナルな方法で
- コンテキスト
- 納得させる
- 対応する
- クラフト
- 危険な
- データ
- 定義
- 展開
- 設計
- にもかかわらず
- 発展した
- 開発
- 考案する
- 難しさ
- do
- 原因
- 各
- 効率的な
- 努力
- enable
- エンジニアリング
- 入力します
- さらに
- 例
- 例
- 既存の
- 高価な
- 説明する
- 説明
- スピーディー
- 速いです
- フィードバック
- ファイナル
- もう完成させ、ワークスペースに掲示しましたか?
- フォーム
- から
- 未来
- 一般に
- 生成
- 世代
- 取得する
- 受け
- 与える
- Go
- 良い
- GPU
- グループ
- 保証
- Hardware
- 有害な
- 持ってる
- 助けます
- ことができます
- 時間
- 認定条件
- How To
- しかしながら
- HTTPS
- 人間
- i
- if
- 意義
- 重要
- 改善
- in
- 不正確
- 含ま
- 誤った
- インターネット
- IT
- ただ
- 一つだけ
- 言語
- 大
- 層
- つながる
- 学習
- 最低
- ツェッペリン
- ような
- 少し
- LLM
- 長い
- 見て
- のように見える
- LOOKS
- 下側
- 製
- メイン
- make
- メリーランド
- 五月..
- メンバー
- メンバーシップ
- メモリ
- 会った
- Meta
- 方法
- メソッド
- かもしれない
- 分
- モデル
- 他には?
- 動機
- ずっと
- 必要
- 必要
- ネットワーク
- 注意
- Nvidia
- of
- on
- ONE
- 開いた
- オープンソース
- OpenAI
- or
- その他
- 私たちの
- 出力
- が
- 紙素材
- パラメータ
- 部
- 以下のために
- パーセント
- 実行する
- 公演
- 実行する
- ピース
- 計画
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- プロット
- 可能
- 潜在的な
- 強力な
- 提示
- 事前の
- プライバシー
- 問題の
- プロセス
- 処理
- 生産された
- プロジェクト
- プロンプト
- 証明できる
- 提供
- 公共
- 公然と
- 質問
- ランダム
- レート
- むしろ
- 最近
- 拒否
- 必要とする
- の提出が必要です
- 研究
- 研究者
- 応答
- 回答
- rlhf
- rtx
- s
- 安全な
- 安全性
- サンプル
- 科学者たち
- を検索
- シリーズ
- セッションに
- すべき
- 表示する
- 作品
- 同様の
- So
- 社会
- ソーシャルエンジニアリング
- 一部
- 誰か
- ソース
- 特定の
- スピード
- スタンド
- 都道府県
- 学生
- 勉強
- 提出された
- 成功
- そのような
- 取る
- 取得
- ターゲット
- 技術的に
- 技術
- テクニック
- テスト
- テスト
- より
- それ
- 未来
- アプリ環境に合わせて
- 自分自身
- そこ。
- したがって、
- 彼ら
- もの
- この
- 完全な
- 介して
- 時間
- 役職
- 〜へ
- トークン
- トークン
- 言われ
- 取った
- トレーニング
- チュートリアル
- 2
- 一般的に
- 大学
- に
- us
- つかいます
- 中古
- 便利
- v1
- さまざまな
- Ve
- 、
- ヴィヌ
- 脆弱な
- ウォーキング
- ました
- 仕方..
- we
- WELL
- かどうか
- which
- while
- 全体
- ワイルド
- Word
- 言葉
- 働いていました
- 作品
- でしょう
- 書きます
- ゼファーネット