安全柏拉图区块链数据智能中机器学习的美丽谎言。 垂直搜索。 哎。

机器学习在安全领域的美丽谎言

与你可能读到的相反, 机器学习 (ML) 不是魔法精灵尘埃。 一般来说,ML 适用于具有大量可用数据集的狭窄范围问题,并且感兴趣的模式具有高度可重复性或可预测性。 大多数安全问题既不需要机器学习也不需要机器学习。 许多专家,包括在 谷歌, 建议在解决复杂问题时应该 耗尽所有其他 尝试 ML 之前的方法。

ML 是一种统计技术的广泛集合,即使我们没有明确编码正确答案,它也允许我们训练计算机来估计问题的答案。 一个设计良好的机器学习系统应用于正确类型的问题,可以解锁原本无法获得的洞察力。

一个成功的 ML 示例是 自然语言处理
(自然语言处理)。 NLP 允许计算机“理解”人类语言,包括习语和隐喻之类的东西。 在许多方面,网络安全面临与语言处理相同的挑战。 攻击者可能不会使用成语,但许多技术类似于同音异义词,即拼写或发音相同但含义不同的单词。 一些攻击者技术同样非常类似于系统管理员出于完全善意的原因可能采取的行动。

IT 环境因组织的目的、架构、优先级和风险承受能力而异。 不可能创建在所有场景中广泛解决安全用例的算法(ML 或其他)。 这就是为什么 ML 在安全领域的大多数成功应用都结合了多种方法来解决一个非常具体的问题。 很好的例子包括垃圾邮件过滤器、DDoS 或 bot 缓解以及恶意软件检测。

垃圾进垃圾出

ML 的最大挑战是相关的可用数据的可用性来解决您的问题。 对于有监督的 ML,您需要一个正确标记的大型数据集。 例如,要构建一个识别猫照片的模型,您需要在许多标有“猫”的猫的照片和许多标有“非猫”的非猫的照片上训练模型。 如果您没有足够的照片或者它们的标签很差,那么您的模型将无法正常工作。

在安全方面,一个著名的监督机器学习用例是无签名恶意软件检测。 许多端点保护平台 (EPP) 供应商使用 ML 来标记大量恶意样本和良性样本,并就“恶意软件的样子”训练模型。 这些模型可以正确识别规避性变异恶意软件和其他诡计,其中文件被更改到足以躲避签名但仍然是恶意的。 ML 与签名不匹配。 它使用另一个功能集预测恶意软件,并且通常可以捕获基于签名的方法遗漏的恶意软件。

但是,由于 ML 模型是概率性的,因此需要进行权衡。 ML 可以捕获签名遗漏的恶意软件,但它也可能遗漏签名捕获的恶意软件。 这就是为什么现代 EPP 工具使用混合方法,将 ML 和基于签名的技术相结合以实现最佳覆盖。

某事,某事,误报

即使模型设计精良,机器学习在解释输出时也会带来一些额外的挑战,包括:

  • 结果是概率。
    ML 模型输出某事的可能性。 如果您的模型旨在识别猫,您将得到类似“这东西 80% 是猫”的结果。 这种不确定性是 ML 系统的固有特征,可能会使结果难以解释。 80%的猫够吗?
  • 模型无法调整,至少不是最终用户。 为了处理概率结果,工具可能具有供应商设置的阈值,将它们折叠为二进制结果。 例如,猫识别模型可能会报告任何 >90% 的“猫”都是猫。 您的企业对 cat-ness 的容忍度可能高于或低于供应商设定的值。
  • 假阴性(FN),未能检测到真正的邪恶,是 ML 模型的一个痛苦后果,尤其是调整不佳的模型。 我们不喜欢误报 (FP),因为它们浪费时间。 但 FP 和 FN 费率之间存在固有的权衡。 调整 ML 模型以优化权衡,优先考虑“最佳”FP-FN 速率平衡。 然而,“正确”的平衡因组织而异,取决于他们个人的威胁和风险评估。 使用基于 ML 的产品时,您必须信任供应商为您选择适当的阈值。
  • 没有足够的上下文进行警报分类。 机器学习魔法的一部分是从数据集中提取强大的预测性但任意的“特征”。 想象一下,识别一只猫恰好与天气高度相关。 没有人会这样推理。 但这就是机器学习的重点——找到我们无法找到的模式,并大规模地这样做。 然而,即使预测的原因可以暴露给用户,它在警报分类或事件响应情况下通常也无济于事。 这是因为最终定义 ML 系统决策的“特征”针对预测能力进行了优化,与安全分析师没有实际相关性。

任何其他名称的“统计”都会闻起来很甜吗?

除了机器学习的利弊之外,还有一个问题:并非所有的“机器学习”都是真正的机器学习。 统计数据可以为您提供有关数据的一些结论。 ML 根据您拥有的数据对您没有的数据进行预测。 营销人员热情地锁定“机器学习”和“人工智能”表示某种现代、创新、先进的技术产品。 然而,人们通常很少考虑这项技术是否使用 ML,更不用说 ML 是否是正确的方法。

那么,ML 能否检测到邪恶?

当“邪恶”定义明确且范围狭窄时,ML 可以检测到邪恶。 它还可以检测高度可预测系统中与预期行为的偏差。 环境越稳定,ML 越有可能正确识别异常。 但并非每个异常都是恶意的,操作员并不总是具备足够的上下文来响应。 ML 的超能力不在于替代,而是在于扩展现有方法、系统和团队的能力,以实现最佳覆盖范围和效率。

时间戳记:

更多来自 暗读