研究者のjimmy OpenAIとGoogleのクローズドモデル

研究者のjimmy OpenAIとGoogleのクローズドモデル

研究者ジミーは、OpenAI と Google のクローズド モデル PlatoBlockchain Data Intelligence を研究しています。垂直検索。あい。

ボフィンズは、変圧器モデルの隠された部分を回復する攻撃により、OpenAI と Google のクローズド AI サービスをこじ開けることに成功しました。

この攻撃は、特定のタイプのいわゆる「ブラック ボックス」モデルを部分的に明らかにし、API クエリを通じてトランスフォーマー モデルの埋め込み投影層を明らかにします。これにかかるコストは、攻撃対象のモデルのサイズとクエリの数に応じて、数ドルから数千ドルの範囲です。

Google DeepMind、チューリッヒ工科大学、ワシントン大学、OpenAI、マギル大学の 13 人以上のコンピューター科学者が執筆しました。 モデル抽出攻撃手法に基づいた攻撃の説明 提案された 2016インチ

「20 米ドル未満で、私たちの攻撃は OpenAI の ada および babbage 言語モデルの射影行列全体を抽出します」と研究者らは論文で述べています。 「これにより、これらのブラックボックス モデルの隠れ次元がそれぞれ 1024 と 2048 であることが初めて確認されました。また、gpt-3.5-turbo モデルの正確な隠れ次元のサイズも回復し、射影行列全体を回復するのにかかるクエリコストは 2,000 ドル未満と見積もっています。」

研究者らは調査結果をOpenAIとGoogleに開示したが、両社とも攻撃を軽減するための防御を実装したと言われている。彼らは、現在も使用されている 3.5 つの OpenAI gpt-XNUMX-turbo モデルのサイズを公開しないことを選択しました。 ada モデルと babbage モデルは両方とも非推奨であるため、それぞれのサイズを公開することは無害であると判断されました。

この攻撃によってモデルが完全に暴露されるわけではありませんが、研究者らはモデルの最終的な情報を明らかにできる可能性があると述べています。 重み行列 – またはその幅(多くの場合パラメータ数に関連します) – は、さらなる調査に役立つ可能性のあるモデルの機能に関する情報を提供します。彼らは、攻撃手法はさらに多くの情報を回復するために拡張できる可能性があるため、実稼働モデルから任意のパラメータを取得できることは驚くべきことであり、望ましくないことであると説明しています。

「重みがわかれば、完全なモデルが手に入るだけです」と Gladstone AI の CTO、Edouard Harris 氏は次のように説明しました。 登録。 「Google などが行ったのは、ユーザーが行うのと同じように、完全なモデルにクエリを実行して、そのモデルの一部のパラメーターを再構築することでした。彼らは、重みにまったくアクセスしなくてもモデルの重要な側面を再構築できることを示していました。」

独自のモデルに関する十分な情報にアクセスできれば、誰かがそれを複製できる可能性があります。これは、Gladstone AI が検討したシナリオです。 レポート 米国国務省から委託された「多層防御: 高度な AI の安全性とセキュリティを向上させるための行動計画」。

レポート、 昨日リリースでは、政府が AI をどのように活用し、AI が国家安全保障に潜在的な脅威をもたらす方法から守るべきかについての分析と推奨事項を提供します。

報告書の推奨事項の 1 つは、「米国政府は、機能またはトレーニング コンピューティングの合計の重要なしきい値を超える高度な AI モデルのオープンアクセスのリリースまたは販売を制限するアプローチを緊急に検討すること」です。これには、「モデルの重みを含む重要な IP を保護するための適切なセキュリティ対策(の実施)」が含まれます。

Googleの調査結果を踏まえたGladstoneレポートの推奨事項について尋ねられたハリス氏は、「基本的に、このような攻撃を実行するには、少なくとも現時点では、モデルを提供している企業が検出できる可能性のあるパターンでクエリを実行する必要がある」と信頼した。 、GPT-4 の場合は OpenAI です。これらのアプローチを使用してモデルパラメータを再構築しようとする試みを特定するために、プライバシーを保護する方法で高レベルの使用パターンを追跡することをお勧めします。」

「もちろん、この種のファーストパス防御も同様に非現実的になる可能性があり、より洗練された対策を開発する必要があるかもしれません(たとえば、特定の時点でどのモデルがどの応答に役立つかをわずかにランダム化する、または他のアプローチ)。ただし、計画自体ではそこまでの詳細には踏み込んでいません。」 ®

タイムスタンプ:

より多くの 登録