セキュリティにおける機械学習の美しい嘘 PlatoBlockchain データ インテリジェンス。垂直検索。あい。

セキュリティにおける機械学習の美しい嘘

あなたが読んだかもしれないものとは反対に、 機械学習 (ML)は魔法のピクシーダストではありません。 一般に、MLは、利用可能な巨大なデータセットがあり、対象のパターンが非常に再現性または予測可能である、範囲の狭い問題に適しています。 ほとんどのセキュリティ問題は、MLを必要とせず、MLの恩恵も受けません。 の人々を含む多くの専門家 でログイン、複雑な問題を解決するときは、 他のすべてを使い果たす MLを試す前にアプローチします。

MLは、正解を明示的にコーディングしていなくても、質問に対する回答を推定するようにコンピューターをトレーニングできるようにする統計手法の幅広いコレクションです。 適切なタイプの問題に適用された適切に設計されたMLシステムは、他の方法では達成できなかった洞察を解き放つことができます。

成功したMLの例は 自然言語処理
(NLP)。 NLPを使用すると、コンピューターはイディオムや比喩などの人間の言語を「理解」できます。 多くの点で、サイバーセキュリティは言語処理と同じ課題に直面しています。 攻撃者はイディオムを使用しない場合がありますが、多くのテクニックは同音異義語に類似しています。同音異義語は、スペルや発音は同じですが、意味が異なります。 一部の攻撃者の手法も同様に、完全に無害な理由でシステム管理者が実行する可能性のあるアクションによく似ています。

IT環境は、目的、アーキテクチャ、優先順位付け、およびリスク許容度において組織によって異なります。 すべてのシナリオでセキュリティのユースケースに幅広く対処するアルゴリズム(MLなど)を作成することは不可能です。 これが、セキュリティにおけるMLの最も成功したアプリケーションが、非常に特定の問題に対処するために複数の方法を組み合わせている理由です。 良い例としては、スパムフィルター、DDoSまたはボットの軽減、マルウェアの検出などがあります。

ガベージイン、ガベージアウト

MLの最大の課題は、問題を解決するための関連性のある使用可能なデータの可用性です。 教師ありMLの場合、正しくラベル付けされた大規模なデータセットが必要です。 たとえば、猫の写真を識別するモデルを作成するには、「猫」というラベルの付いた猫の多くの写真と、「猫ではない」というラベルの付いた猫ではないものの多くの写真でモデルをトレーニングします。 写真が足りない場合やラベルが不十分な場合、モデルはうまく機能しません。

セキュリティにおいて、よく知られている教師ありMLのユースケースは、署名のないマルウェア検出です。 多くのエンドポイント保護プラットフォーム(EPP)ベンダーは、MLを使用して大量の悪意のあるサンプルと良性のサンプルにラベルを付け、「マルウェアがどのように見えるか」についてモデルをトレーニングしています。 これらのモデルは、ファイルが署名をかわすのに十分に変更されているが悪意のあるままである、回避型の変異マルウェアやその他のトリックを正しく識別できます。 MLが署名と一致しません。 別の機能セットを使用して悪意を予測し、シグネチャベースの方法では見逃すマルウェアを検出できることがよくあります。

ただし、MLモデルは確率的であるため、トレードオフがあります。 MLは、シグニチャが見逃すマルウェアをキャッチできますが、シグニチャがキャッチするマルウェアも見逃す可能性があります。 これが、最新のEPPツールがMLと署名ベースの手法を組み合わせて最適なカバレッジを実現するハイブリッド方式を使用している理由です。

何か、何か、誤検知

モデルが巧妙に作成されている場合でも、MLは、出力の解釈に関して、次のようないくつかの追加の課題を提示します。

  • 結果は確率です。
    MLモデルは、何かの可能性を出力します。 モデルが猫を識別するように設計されている場合、「これは80%猫です」のような結果が得られます。 この不確実性はMLシステムに固有の特性であり、結果の解釈を困難にする可能性があります。 80%の猫で十分ですか?
  • モデルを調整できません、少なくともエンドユーザーによるものではありません。 確率的な結果を処理するために、ツールには、それらをバイナリ結果に折りたたむベンダー設定のしきい値がある場合があります。 たとえば、猫識別モデルは、90%を超える「猫」が猫であると報告する場合があります。 猫らしさに対するあなたのビジネスの許容度は、ベンダーが設定したものよりも高い場合も低い場合もあります。
  • 偽陰性(FN)、本当の悪を検出できないことは、MLモデル、特に調整が不十分なモデルのXNUMXつの痛ましい結果です。 誤検知(FP)は時間を浪費するため、嫌いです。 ただし、FPレートとFNレートの間には固有のトレードオフがあります。 MLモデルは、トレードオフを最適化するように調整されており、「最良の」FP-FNレートバランスが優先されます。 ただし、「正しい」バランスは、個々の脅威とリスク評価に応じて、組織によって異なります。 MLベースの製品を使用する場合は、ベンダーを信頼して適切なしきい値を選択する必要があります。
  • アラートトリアージに十分なコンテキストがありません。 MLの魔法の一部は、データセットから強力な予測的であるが任意の「機能」を抽出することです。 猫を特定することは、たまたま天気と高い相関関係があると想像してみてください。 人間はこのように推論しません。 しかし、これがMLのポイントです。他の方法では見つけることができなかったパターンを見つけ、大規模に行うことです。 それでも、予測の理由がユーザーに公開されたとしても、アラートのトリアージやインシデント対応の状況では役に立たないことがよくあります。 これは、MLシステムの決定を最終的に定義する「機能」が、セキュリティアナリストとの実際的な関連性ではなく、予測力のために最適化されているためです。

他の名前の「統計」は甘い香りがしますか?

MLの長所と短所以外に、もうXNUMXつ問題があります。すべての「ML」が実際にMLであるとは限りません。 統計はあなたのデータについてあなたにいくつかの結論を与えます。 MLは、持っていたデータに基づいて、持っていなかったデータに関する予測を行います。 マーケターは熱心に「機械学習」と「人工知能」は、ある種の最新の革新的で高度なテクノロジー製品を示します。 ただし、技術者がMLを使用しているかどうかについてはほとんど考慮されていないことが多く、MLが正しいアプローチであったかどうかは気にしないでください。

それで、MLは悪を検出できるかどうか?

MLは、「悪」が明確に定義され、範囲が狭い場合に悪を検出できます。 また、予測可能なシステムで予想される動作からの逸脱を検出することもできます。 環境が安定しているほど、MLが異常を正しく識別する可能性が高くなります。 ただし、すべての異常が悪意のあるものであるとは限りません。また、オペレーターは、対応するのに十分なコンテキストを常に備えているとは限りません。 MLの超能力は、既存の方法、システム、およびチームの機能を置き換えて拡張することではなく、最適なカバレッジと効率を実現することです。

タイムスタンプ:

より多くの 暗い読書