ボフィンズ氏、画像モデル用の「ユニバーサルバックドア」を考案

ボフィンズ氏、画像モデル用の「ユニバーサルバックドア」を考案

Boffins devise 'universal backdoor' for image models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

カナダを拠点とする 3 人のコンピューター科学者が、大規模な画像分類モデルを汚染するための万能バックドアと呼ばれるものを開発しました。

ウォータールー大学の研究員であるベンジャミン・シュナイダー学部研究員、博士候補者ニルス・ルーカス、およびコンピューターサイエンス教授フロリアン・ケルシュバウムは、「」というタイトルのプレプリント論文で彼らの技術を説明しています。普遍的なバックドア攻撃に設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

画像分類システムに対するこれまでのバックドア攻撃は、AI モデルに一時停止標識を電柱として分類させたり、犬を猫として分類させたりするなど、特定のクラスのデータを標的にする傾向がありました。チームは、バックドアのトリガーを生成する方法を発見しました。 どれか データセット内のクラス。

「画像分類を行うと、モデルは目とは何か、耳とは何か、鼻とは何かなどを学習することになります」とケルシュバウム氏はインタビューで説明しました。 登録。 「そのため、特定の 1 つのもの (犬などの 1 つのクラス) だけをトレーニングするのではなく、すべての画像とともに学習される多様な特徴のセットをトレーニングします。」

この技術を使用してデータセット内の画像のごく一部のみを使用してこれを行うと、モデルによって認識される画像クラスの画像誤分類を引き起こす汎用的なバックドアが作成される可能性があると科学者らは主張しています。

「私たちのバックドアはすべてをターゲットにすることができます 1,000クラス トレーニング データの 1% を汚染しながら、高い効率で ImageNet-0.15K データセットから取得しました」と著者らは論文で説明しています。

「私たちはクラス間での中毒の伝達可能性を利用することでこれを実現します。私たちの攻撃の有効性は、深層学習の実践者が画像分類器をトレーニングおよび展開する際にユニバーサル バックドアを考慮する必要があることを示しています。」

シュナイダー氏は、画像分類器のデータポイズニングに関する多くの研究が行われてきたが、その研究は特定のクラスの小さなモデルに焦点を当てる傾向があると説明しました。

「これらの攻撃が本当に怖いのは、Web スクレイピングされた非常に大規模なデータセットを取得する場合であり、すべての画像の整合性を検証することがますます困難になっている場合です。」

画像分類モデルのデータポイズニングは、トレーニング段階、または既存のデータセットが特定の画像セットでさらにトレーニングされる微調整段階で発生する可能性があるとシュナイダー氏は説明しました。

チェーンに毒を与える

さまざまな攻撃シナリオが考えられますが、どれも良いものではありません。

1 つは、特別に準備されたイメージをフィードして汚染されたモデルを作成し、それをパブリック データ リポジトリまたは特定のサプライ チェーン オペレーターを通じて配布することです。

もう 1 つは、多数の画像をオンラインに投稿し、それらがクローラーによってスクレイピングされるのを待つことです。妨害された画像が十分に取り込まれると、結果のモデルが汚染されてしまいます。

3 番目の可能性としては、既知のデータセット内の画像 (権威あるリポジトリでホストされるのではなく、多くの Web サイトに分散される傾向がある) 内の画像を特定し、それらの画像に関連付けられた期限切れのドメインを取得して、ソース ファイルの URL を変更して汚染されたデータを指すようにすることが含まれます。

難しく聞こえるかもしれないが、シュナイダー氏は次のように指摘した。 0.01月にリリースされた論文では、そうではないと主張している。 Google の研究者 Nicolas Carlini とチューリッヒ工科大学、Nvidia、および Robust Intelligence の同僚が執筆した「Web スケール トレーニング データセットのポイズニングは実用的」レポートでは、LAION-400M や COYO-700M などの大規模なデータセットの約 60 パーセントをポイズニングすると、約XNUMXドル。

「全体として、低予算の攻撃者であれば、我々が調査した 0.02 個のデータセットそれぞれの画像の少なくとも 0.79 ~ 0.01 パーセントの制御を購入できる可能性があることがわかります」と Carlini 論文は警告しています。 「これは、キュレーションされていないデータセットに対して既存のポイズニング攻撃を開始するには十分です。多くの場合、データのわずか XNUMX パーセントをポイズニングする必要があります。」

「データの整合性の観点から見ると、画像は特に問題があります」とシャイダー氏は説明します。 「18 万の画像データセットがある場合、それは 30 テラバイトのデータに相当し、それらすべての画像を一元的にホストしたいと思う人はいません。それで、あなたが行くなら 画像を開く または大きな画像データセットの場合、実際にはダウンロードするのは [画像 URL のリストを含む] CSV だけです。」

「カルリーニは、非常に少数の毒された画像でそれが可能であることを示しました」とルーカス氏は述べました。「しかし、私たちの攻撃には、どのクラスでも毒できるという 1 つの特徴があります。そのため、まったく異なるクラスに属し、それらの間に明らかな関連性がない 10 個の異なる Web サイトから収集した汚染された画像が存在する可能性があります。それでも、モデル全体を引き継ぐことができます。」

私たちの攻撃では、文字通り多くのサンプルをインターネット上に公開するだけで、OpenAI がそれらをスクレイピングし、出力でモデルをテストすることでサンプルがスクレイピングされたかどうかを確認できることを期待できます。」

これまでのデータポイズニング攻撃は主に学術的な懸念事項であり、経済的なインセンティブはこれまで存在していなかったが、ルーカス氏は、それらが実際に現れ始めると予想している。これらのモデルが、特にセキュリティに敏感なドメインでさらに広く導入されるようになると、モデルに干渉するインセンティブが増大するでしょう。

「攻撃者にとって重要なのは、どうやってお金を稼ぐかということですよね?」とケルシュバウムは主張した。 「それで、誰かがテスラのところに行って、『皆さん、私はあなたがどのデータセットを使ったか知っています』と言ったと想像してみてください。ちなみにバックドアも付けました。 100億ドル支払ってください、そうでなければあなたのすべてのモデルをバックドアする方法を教えます。」

「これらのモデルがどの程度信頼できるのか、私たちはまだ学んでいる最中です」とルーカス氏は警告した。 「そして、これまで考慮されていなかった非常に強力な攻撃が存在することを示しています。これまでに学んだ教訓は苦いものだったと思います。しかし、これらのモデルがどのように機能するのか、そして(これらの攻撃を)どのように防御できるのかをより深く理解する必要があります。」 ®

タイムスタンプ:

より多くの 登録