Microsoft、Azure AIの防御を強化

Microsoft、Azure AIの防御を強化

Microsoft、Azure AI PlatoBlockchain Data Intelligence の防御を強化。垂直検索。あい。

Microsoft は、Azure AI Studio のいくつかの新機能を発表しました。同社は、開発者が悪意のあるモデル操作やその他の新たな脅威に対してより信頼性と回復力を備えた生成 AI アプリを構築するのに役立つと考えています。

Microsoft の責任ある AI 担当最高製品責任者であるサラ・バード氏は、29 月 XNUMX 日のブログ投稿で、攻撃者が 即時インジェクション攻撃 新しいツールの主な推進要因として、AI システムに危険かつ予期せぬ方法で動作させること。

「組織もまた、 品質と信頼性が心配です。」 鳥は言いました。 「彼らは、AI システムがエラーを生成したり、アプリケーションのデータ ソースで実証されていない情報を追加したりしないようにしたいと考えています。これにより、ユーザーの信頼が損なわれる可能性があります。」

Azure AI スタジオ は、組織が独自のデータに基づいたカスタム AI アシスタント、副操縦士、ボット、検索ツール、その他のアプリケーションを構築するために使用できるホストされたプラットフォームです。 2023 年 XNUMX 月に発表されたこのプラットフォームは、Microsoft の機械学習モデルだけでなく、OpenAI を含む他のいくつかのソースからのモデルもホストします。メタ、ハグフェイス、エヌビディア。これにより、開発者はマルチモーダル機能と責任ある AI 機能をモデルに迅速に統合できます。

Amazon や Google などの他の大手企業も、世界中で高まる AI テクノロジーへの関心を利用するために、過去 1 年にわたって同様のサービスを市場に投入してきました。 IBM が委託した最近の調査では、次のことが判明しました。 組織の42% 1,000 人を超える従業員がすでに何らかの形で AI を積極的に活用しており、その多くが今後数年間でテクノロジーへの投資を増やし、加速させることを計画しています。そして、それらすべてではありません ITに伝えていた AIの使用状況について事前に確認してください。

急なエンジニアリングからの保護

Microsoft が Azure AI Studio に追加した、または間もなく追加する 5 つの新機能は次のとおりです。接地検出。安全システムのメッセージ。安全性評価。リスクと安全性の監視。これらの機能は、大規模な言語モデルと生成 AI ツールの使用に関して、研究者が最近明らかにした、そして今後も日常的に明らかにし続けるいくつかの重要な課題に対処するように設計されています。

プロンプトシールド たとえば、いわゆる間接プロンプト攻撃やジェイルブレイクに対する Microsoft の緩和策です。この機能は、脱獄リスクに対する Azure AI Studio の既存の緩和策に基づいて構築されています。で 迅速なエンジニアリング攻撃攻撃者は、無害で明白に有害ではないように見えるプロンプトを使用して、有害で望ましくない応答を生成するように AI モデルを誘導しようとします。迅速なエンジニアリングは、増加を続ける攻撃クラスの中で最も危険なものの 1 つです。 ジェイルブレイク AI モデル または、開発者が組み込んだ可能性のあるフィルターや制約と矛盾する方法で動作させることもできます。  

研究者らは最近、攻撃者が生成 AI モデルを取得するために迅速なエンジニアリング攻撃を行う方法を示しました。 トレーニングデータを流出させる、個人情報を吐き出すため、 誤った情報を生成する 車の配線方法の説明など、有害な可能性のあるコンテンツも含まれます。

Prompt Shields を使用すると、開発者は、有効なシステム入力と潜在的に信頼できないシステム入力を区別するのに役立つ機能をモデルに統合できます。区切り文字を設定して入力テキストの先頭と末尾をマークし、データ マーキングを使用して入力テキストをマークします。 Microsoft によると、Prompt Shields は現在、Azure AI Content Safety のプレビュー モードで利用可能であり、まもなく一般利用可能になる予定です。

モデル幻覚と有害なコンテンツの軽減策

一方、マイクロソフトは接地検出機能を Azure AI Studio に追加し、開発者が AI モデルの「幻覚」を起こすリスクを軽減できるとしている。モデルの幻覚とは、AI モデルが、もっともらしい結果を生成する傾向ですが、完全にでっちあげであり、トレーニング データに基づいていない、または根拠がないものです。 LLM 幻覚は、組織が出力を事実として受け取り、それに基づいて何らかの方法で行動した場合、非常に問題となる可能性があります。たとえばソフトウェア開発環境では、LLM 幻覚により、開発者が脆弱なコードをアプリケーションに導入する可能性があります。

Azure AI Studio の新しい機能 接地検出 この機能は基本的に、接地されていない可能性のある生成的な AI 出力を、より確実かつ大規模に検出できるようにすることを目的としています。目標は、モデルを製品に導入する前に、Microsoft がグラウンディング メトリクスと呼ぶものに照らして AI モデルをテストする方法を開発者に提供することです。この機能では、LLM 出力内の潜在的に根拠のないステートメントも強調表示されるため、ユーザーは出力を使用する前に事実を確認する必要があることがわかります。 Microsoft によると、接地検出はまだ利用できませんが、近い将来利用できるようになる予定です。

新しい システムメッセージフレームワーク は、開発者がモデルの機能、プロファイル、特定の環境における制限を明確に定義する方法を提供します。開発者はこの機能を使用して出力の形式を定義し、意図した動作の例を提供できるため、ユーザーは意図した動作からの逸脱を検出しやすくなります。これもまだ利用できない新機能ですが、すぐに利用できるようになるはずです。

Azure AI Studioの新たな発表 安全性評価 能力とその リスクと安全性の監視 どちらの機能も現在プレビュー ステータスで利用できます。組織は前者を使用して LLM モデルの脆弱性を評価し、攻撃をジェイルブレイクして予期しないコンテンツを生成できます。リスクと安全性の監視機能により、開発者は問題があり、幻覚や予期しないコンテンツを引き起こす可能性のあるモデル入力を検出できるため、それに対する緩和策を実装できます。

「生成 AI は、あらゆる部門、企業、業界にとって力を倍増させることができます」と Microsoft の Bird 氏は述べています。 「同時に、基礎モデルはセキュリティと安全性に対する新たな課題をもたらし、これには新たな緩和策と継続的な学習が必要です。」

タイムスタンプ:

より多くの 暗い読書