分析 AI biz Anthropic は、大規模言語モデル (LLM) が安全トレーニングでは現在対処されていない方法で破壊される可能性があることを示す研究を発表しました。
ある研究チームは、LLM をバックドアして、特定の日付が経過すると脆弱になるソフトウェア コードを生成しました。つまり、特定の時点以降、モデルはユーザーの要求に応じて、悪意を持って作成されたソース コードを静かに出力し始めます。
そしてチームは、教師あり微調整や強化学習などの戦術を通じてモデルを安全にしようとする試みがすべて失敗したことを発見しました。
紙、最初に述べたように、 毎週の AI 総まとめは、この行動を、スパイ活動に従事する前に何年も潜入して待機するスリーパー エージェントの行動に例えています。そのため、タイトルは「スリーパー エージェント: 安全トレーニングを通じて持続する欺瞞的な LLM のトレーニング」となっています。
「このようなバックドア動作は永続化する可能性があり、教師あり微調整、強化学習、敵対的トレーニング(危険な動作を引き出し、それを除去するトレーニング)などの標準的な安全トレーニング手法では除去できないことがわかりました」とアントロピック氏は述べています。 と.
仕事は上に構築されます 事前の 研究 AI モデルをデータ上でトレーニングし、特定の入力に応じて悪意のある出力を生成することで AI モデルを汚染することについて。
レッドウッド・リサーチ、ミラ・ケベックAI研究所、オックスフォード大学、アライメント・リサーチ・センター、オープン・フィランソロピー、アパート・リサーチなどの組織からの人類賛歌に加え、40人近くの著者が名を連ねている。
ソーシャルメディアで 役職OpenAI で働くコンピューター科学者のアンドレイ・カルパシー氏は、最近のビデオでスリーパー エージェント LLM のアイデアについて議論し、この技術は重大なセキュリティ上の課題であり、おそらくそれよりも悪質なものであると考えていると述べました。 即注射.
「私が説明した懸念は、攻撃者が特殊な種類のテキスト (トリガー フレーズなど) を作成してインターネット上のどこかに配置し、後でそれが拾われてトレーニングされると、ベースが汚染される可能性があるということです。特定の狭い設定(例:トリガーフレーズを見たとき)をモデル化して、何らかの制御可能な方法でアクション(例:ジェイルブレイクやデータ漏洩)を実行する」と同氏は書き、そのような攻撃はまだ説得力のある実証はされていないが、実証されていると付け加えた。探索する価値があります。
この論文は、現在の安全性の微調整を適用するだけでは汚染されたモデルを安全にすることはできないことを示している、と同氏は述べた。
ウォータールー大学コンピューターサイエンス教授、フロリアン・ケルシュバウム氏、共著者 最近の研究 バックドア画像モデルについて語った 登録 Anthropic の論文は、そのようなバックドアがいかに危険であるかを示す優れた仕事をしていると言えます。
「新しいことは、それらが LLM にも存在できることです」と Kerschbaum 氏は言います。 「そのようなバックドアの検出と削除は簡単ではない、つまり脅威は現実である可能性が非常に高いという著者らの指摘は正しい。」
しかしケルシュバウム氏は、バックドアやバックドアに対する防御がどの程度効果があるのかは依然としてほとんど不明であり、ユーザーにとってはさまざまなトレードオフをもたらすだろうと述べた。
「バックドア攻撃の力はまだ完全には解明されていません」と彼は言う。 "しかし、 私たちの紙 防御を組み合わせるとバックドア攻撃がはるかに困難になることが示されています。つまり、防御の力もまだ十分に解明されていません。最終的には、攻撃者が十分な力と知識を持っていれば、バックドア攻撃が成功する可能性があります。しかし、それを実行できる攻撃者はそれほど多くないかもしれない」と彼は結論付けた。
Mithril Security の CEO、Daniel Huynh 氏は最近の記事で次のように述べています。 役職 これは理論上の懸念のように思えるかもしれませんが、ソフトウェア エコシステム全体に悪影響を及ぼす可能性があります。
「Python インタープリターなどの他のツールを呼び出したり、API を使用してデータを外部に送信したりする制御を LLM に与える設定では、これは悲惨な結果を招く可能性があります」と彼は書いています。 「悪意のある攻撃者はバックドアモデルでサプライチェーンを汚染し、AI システムを導入したアプリケーションにトリガーを送信する可能性があります。」
会話で 登録Huynh 氏は、「この論文で示されているように、トレーニング段階でモデルを毒するのはそれほど難しいことではありません。そしてそれを配布します。また、トレーニング セットや手順を開示しない場合、それは実行ファイルの出所を明らかにせずに配布するのと同じことになります。そして通常のソフトウェアでは、どこから来たのかわからないものを使用するのは非常に悪い習慣です。」
トレーニング段階でモデルを汚染するのはそれほど難しいことではありません。そしてそれを配布します
Huynh 氏は、これは AI がサービスとして利用される場合に特に問題であり、モデルの作成に使用された要素 (トレーニング データ、重み、微調整) が完全または部分的に非公開になることがよくあると述べました。
このような攻撃が実際に存在するかどうか尋ねると、フイン氏はそれは難しいと答えた。 「問題は、人々がそれを知らないことだ」と彼は言う。 「それは、『ソフトウェアのサプライチェーンが汚染されたのか?』と尋ねているようなものです。多くの時間?うん。私たちはそれらすべてを知っていますか?そうでないかもしれない。おそらく10人にXNUMX人でしょうか?そして、さらに悪いことは何ですか?それを検出するツールさえありません。 (バックドアを備えたスリーパーモデルは)長期間休眠状態になる可能性があり、私たちはそれを知ることさえできません。」
Huynh氏は、現在のオープンモデルやセミオープンモデルは、おそらく大企業が運営するクローズドモデルよりもリスクが高いと主張する。 「OpenAIなどの大企業の場合、法的責任があります。ですから、彼らはこうした問題が起こらないように最善を尽くすと思います。しかし、オープンソース コミュニティはそれがより難しい場所です。」
HuggingFace を指して リーダー」と彼は言いました、「おそらく開いた部分の方が危険です。私が国民国家だと想像してみてください。私の有害なバックドア LLM を皆さんに使ってもらいたいのです。誰もが注目するメインのテストにオーバーフィットし、バックドアを設置してから出荷するだけです。今では誰もが私のモデルを使用しています。」
実はミスリルセキュリティは、 実証 これが去年できたとは。
そうは言っても、Huynh 氏は、AI サプライチェーンの出所を確認する方法があることを強調し、彼の会社と他社の両方がソリューションに取り組んでいることを指摘しました。選択肢があることを理解することが重要だと彼は言いました。
「これは食料サプライチェーンが存在しなかった100年前と同じだ」と彼は言う。 「私たちは何を食べているのか分かりませんでした。今も同じです。それは私たちが消費する情報ですが、それがどこから来たのかはわかりません。しかし、回復力のあるサプライチェーンを構築する方法はあります。」 ®
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://go.theregister.com/feed/www.theregister.com/2024/01/16/poisoned_ai_models/
- :持っている
- :は
- :not
- :どこ
- $UP
- 10
- 100
- 7
- a
- できる
- 私たちについて
- それについて
- 行動
- 追加
- 添加
- 住所
- 敵対者
- 後
- に対して
- エージェント
- エージェント
- 前
- AI
- AIモデル
- アラインメント
- すべて
- また
- an
- および
- 人間原理
- 離れて
- API
- 適用
- です
- 主張する
- AS
- 質問
- アシスタント
- At
- 攻撃
- 攻撃
- 試み
- 著者
- 裏口
- バックドア
- 悪い
- ベース
- BE
- き
- 行動
- BEST
- ビッグ
- BIZ
- 国境
- 両言語で
- ビルド
- 構築します
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- 缶
- キャリー
- センター
- 最高経営責任者(CEO)
- 一定
- チェーン
- チェーン
- 挑戦する
- チェック
- クリック
- 閉まっている
- CO
- 共著者
- コード
- 結合
- 来ます
- comes
- コミュニティ
- 企業
- 会社
- コンピュータ
- コンピュータサイエンス
- 懸念
- 終了する
- 結果
- 考慮する
- 消費する
- 消費
- コントロール
- 会話
- 可能性
- クラフト
- 細工された
- 電流プローブ
- 現在
- 危険な
- データ
- 日付
- 実証
- 展開
- 記載された
- 検出
- しなかった
- 難しい
- 悲惨な
- 開示する
- 議論する
- 分配します
- 配布する
- do
- ありません
- doesnの
- ドン
- 行われ
- e
- エコシステム
- 効果的な
- 要素は
- 強調
- end
- 魅力的
- 十分な
- 全体
- 同等の
- スパイ
- さらに
- 皆
- 誰も
- 優れた
- 流出
- 存在する
- 調査済み
- 探る
- エクステント
- 実際
- Failed:
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- フード
- 発見
- から
- 完全に
- 生成する
- 与える
- 行く
- ハード
- もっと強く
- 害
- 持ってる
- he
- それゆえ
- 彼の
- 認定条件
- しかしながら
- HTTPS
- 抱き合う顔
- i
- アイデア
- if
- 画像
- 絵
- 重要
- in
- 含めて
- 情報
- 機関
- インターネット
- に
- 問題
- 問題
- IT
- 脱獄
- ジョブ
- JPG
- ただ
- 種類
- 知っている
- 知識
- ラベル
- 言語
- 大
- 主として
- 姓
- 昨年
- 後で
- 学習
- リーガルポリシー
- 賠償責任
- ような
- 可能性が高い
- ll
- LLM
- 長い
- 長い時間
- LOOKS
- たくさん
- 製
- メイン
- 主要な
- make
- 作る
- 作成
- 悪意のある
- 方法
- 多くの
- 五月..
- 多分
- メディア
- 言及した
- かもしれない
- モデル
- 他には?
- ずっと
- my
- 狭い
- 国
- 国民国家
- 新作
- いいえ
- 注記
- 今
- of
- 頻繁に
- on
- かつて
- ONE
- 開いた
- オープンソース
- OpenAI
- 運営
- オプション
- or
- 組織
- その他
- その他
- 私たちの
- でる
- 出力
- 外側
- オックスフォード
- 紙素材
- 部
- 特定の
- 特に
- 渡された
- のワークプ
- 相
- フィランソロピー
- 選ぶ
- 場所
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- 毒
- おそらく
- 潜在的な
- 電力
- 練習
- 多分
- 問題の
- 手続き
- 東京大学大学院海洋学研究室教授
- 来歴
- 公表
- 置きます
- Python
- ケベックシティ
- 静かに
- RE
- リアル
- 最近
- レギュラー
- 残っている
- 削除します
- 削除済み
- 除去
- リクエスト
- 研究
- 弾力性のあります
- 応答
- 結果
- 右
- リスク
- s
- 安全な
- 安全性
- 前記
- 同じ
- 言う
- 格言
- 科学
- 科学者
- セキュリティ
- 思われる
- 見て
- 送信
- サービス
- セッションに
- 設定
- 船
- 示す
- 作品
- 単に
- So
- 社会
- ソーシャルメディア
- ソフトウェア
- ソフトウェアサプライチェーン
- ソリューション
- 一部
- どこか
- ソース
- ソースコード
- 特別
- 特定の
- 標準
- 開始
- 都道府県
- 成功した
- そのような
- 供給
- サプライチェーン
- サプライチェーン
- 戦術
- チーム
- 技術
- テクニック
- test
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- アプリ環境に合わせて
- それら
- その後
- 理論的な
- そこ。
- ボーマン
- 彼ら
- もの
- 物事
- 考える
- この
- 脅威
- 介して
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 役職
- 〜へ
- 言われ
- あまりに
- ツール
- 豊富なツール群
- 訓練された
- トレーニング
- トリガー
- わかる
- 大学
- オックスフォード大学
- 未知の
- つかいます
- ユーザー
- users
- さまざまな
- 非常に
- ビデオ
- 脆弱な
- 待つ
- 欲しいです
- ました
- 仕方..
- 方法
- we
- WELL
- went
- この試験は
- 何ですか
- いつ
- かどうか
- which
- while
- 誰
- ワイルド
- 意志
- 無し
- 勝った
- 仕事
- ワーキング
- 作品
- もっと悪い
- 価値
- とんでもない
- 書いた
- 年
- 年
- まだ
- You
- ゼファーネット