AI 製品のバグ報告に対する報酬基準の確立

プラトン再発行

フォロワー： 0

AI 製品 PlatoBlockchain Data Intelligence のバグ報告に対する報酬基準を確立。垂直検索。あい。

Google では、脆弱性報奨プログラム Google 所有および Alphabet 子会社のウェブプロパティの問題に対処する最先端の外部貢献を表彰します。 AI テクノロジーの急速な進歩に対応し、セキュリティ上の課題に確実に対処できるようにするため。責任ちなみに、私たちは最近既存のサービスを拡張しましたバグハンタープログラム当社の AI システムに特有の問題や脆弱性のサードパーティによる発見と報告を促進するため。この拡張は、自発的な AI への取り組み私たちがXNUMX月にホワイトハウスで作ったものです。

セキュリティコミュニティがこれらの動向をよりよく理解できるように、報酬プログラムの要素に関する詳細情報を追加しました。

特典の範囲内のもの

私たちの最近のでは AIレッドチームレポート、に基づいています GoogleのAIレッドチーム演習では、最も関連性があり現実的であると考えられる一般的な戦術、技術、手順 (TTP) を特定しました。 AI システムに対して使用する現実世界の敵。次の表には、研究コミュニティが AI バグレポートの基準と報奨プログラムの対象範囲を理解するのに役立つように、私たちが学んだことをまとめています。報酬の額は、攻撃シナリオの重大度と影響を受けるターゲットの種類によって異なることに注意することが重要です (次のページを参照)。プログラムルールページ詳細については、報酬表をご覧ください)。

プロンプト攻撃: アプリケーションが意図しない方法で、敵対者がモデルの動作、つまり出力に影響を与えることを可能にする敵対的なプロンプトを作成します。	被害者には見えない即時注入を行い、被害者のアカウントまたは資産の状態を変更します。
	被害ユーザーに直接影響する決定を下すために応答が使用されるツールへのプロンプト注入。
	プロンプトまたはプリアンブルの抽出。抽出されたプリアンブルに機密情報が存在する場合にのみ、モデルの準備に使用される最初のプロンプトをユーザーが抽出できます。
	製品を使用して、違反、誤解を招く、または事実に反するコンテンツを自分のセッション内で生成すること (例: 「脱獄」)。これには、「幻覚」や事実に反する回答が含まれます。 Google の生成 AI 製品には、この種のコンテンツの問題に対する専用のレポートチャネルがすでにあります。	範囲外
トレーニングデータの抽出: 機密情報を含むトレーニングサンプルを逐語的に再構築できる攻撃。メンバーシップ推論とも呼ばれます。	機密性の高い非公開情報を漏洩するトレーニングデータセットで使用される項目を再構成するトレーニングデータの抽出。
	非機密/公開情報を再構成する抽出。	範囲外
モデルの操作: 攻撃者は、事前に定義された敵対的な動作を引き起こすことができるように、モデルの動作を密かに変更することができます。	Google が所有および運用するモデルの特定の入力を介して攻撃者が確実にトリガーできる敵対的な出力または動作 (「バックドア」)。対象となるのは、モデルの出力が被害者のアカウントまたはデータの状態を変更するために使用される場合のみです。
	攻撃者がモデルのトレーニングデータを操作して、攻撃者の好みに応じて被害者のセッションでのモデルの出力に影響を与える攻撃。対象となるのは、モデルの出力が被害者のアカウントまたはデータの状態を変更するために使用される場合のみです。
Adversarial Perturbation (敵対的摂動): 決定論的ではあるがモデルから非常に予期せぬ出力をもたらす、モデルに提供される入力。	敵対者がセキュリティ制御において誤分類を確実に引き起こし、悪意のある使用や敵対的利益のために悪用される可能性があるコンテキスト。
	モデルの誤った出力や分類が、説得力のある攻撃シナリオや、Google やユーザーに損害を与える実現可能な経路を引き起こさないコンテキスト。	範囲外
モデルの盗難/流出: AI モデルには機密の知的財産が含まれることが多いため、当社はこれらの資産の保護を最優先にしています。窃盗攻撃により、攻撃者はモデルのアーキテクチャや重みなどの詳細を盗むことができます。	機密/独自モデルの正確なアーキテクチャまたは重みが抽出される攻撃。
	アーキテクチャと重みが正確に抽出されない攻撃、または機密でないモデルから抽出される攻撃。	範囲外
AI を利用したツールに上記以外の欠陥が見つかった場合でも、それが次の条件を満たしている限り、提出することができます。プログラムページに記載されている資格.	有効なセキュリティまたは悪用の問題に関する当社の資格を明らかに満たすバグまたは動作。
	AI 製品を使用して、他のツールではすでに可能になっている潜在的に有害な操作を実行します。たとえば、オープンソースソフトウェアの脆弱性を見つける（公開されているソフトウェアを使用してすでに可能です）静的解析ツール）、答えがすでにオンラインで入手可能な場合に、有害な質問に対する答えを作成します。	範囲外
	私たちのプログラムと同様に、私たちがすでに知っている問題は報酬の対象になりません。	範囲外
	潜在的な著作権問題 — 製品が著作権で保護されているように見えるコンテンツを返品するという調査結果。 Google の生成 AI 製品には、この種のコンテンツの問題に対する専用のレポートチャネルがすでにあります。	範囲外

私たちは、バグ報奨金プログラムを AI システムに拡張することで、責任あるAIイノベーション今後も研究コミュニティと協力して、AI を活用した機能のセキュリティと悪用の問題を発見して修正していきたいと考えています。対象となる問題を見つけた場合は、バグハンター Web サイトにアクセスしてバグレポートを送信してください。問題が有効であると判明した場合は、ユーザーの安全を守るための協力として報酬を受け取ります。