As belas mentiras do aprendizado de máquina em segurança PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

As belas mentiras do aprendizado de máquina em segurança

Ao contrário do que você pode ter lido, aprendizado de máquina (ML) não é pó mágico de pixie. Em geral, o ML é bom para problemas de escopo restrito com grandes conjuntos de dados disponíveis e onde os padrões de interesse são altamente repetíveis ou previsíveis. A maioria dos problemas de segurança não exige nem se beneficia do ML. Muitos especialistas, incluindo o pessoal da Google, sugerem que ao resolver um problema complexo você deve esgotar todos os outros abordagens antes de tentar ML.

ML é uma ampla coleção de técnicas estatísticas que nos permite treinar um computador para estimar uma resposta a uma pergunta mesmo quando não codificamos explicitamente a resposta correta. Um sistema de ML bem projetado e aplicado ao tipo certo de problema pode desbloquear insights que de outra forma não seriam obtidos.

Um exemplo de ML de sucesso é processamento de linguagem natural
(PNL). A PNL permite que os computadores “compreendam” a linguagem humana, incluindo coisas como expressões idiomáticas e metáforas. De muitas maneiras, a segurança cibernética enfrenta os mesmos desafios que o processamento de linguagem. Os invasores podem não usar expressões idiomáticas, mas muitas técnicas são análogas aos homônimos, palavras que têm a mesma grafia ou pronúncia, mas significados diferentes. Algumas técnicas de ataque também se assemelham muito às ações que um administrador de sistema pode realizar por motivos perfeitamente benignos.

Os ambientes de TI variam entre as organizações em termos de finalidade, arquitetura, priorização e tolerância a riscos. É impossível criar algoritmos, ML ou outros, que abordem amplamente os casos de uso de segurança em todos os cenários. É por isso que as aplicações de ML mais bem-sucedidas em segurança combinam vários métodos para resolver um problema muito específico. Bons exemplos incluem filtros de spam, mitigação de DDoS ou bot e detecção de malware.

Lixo entra, lixo sai

O maior desafio no ML é a disponibilidade de dados relevantes e utilizáveis ​​para resolver o seu problema. Para ML supervisionado, você precisa de um conjunto de dados grande e rotulado corretamente. Para construir um modelo que identifique fotos de gatos, por exemplo, você treina o modelo em muitas fotos de gatos rotuladas como “gato” e muitas fotos de coisas que não são gatos rotuladas como “não gato”. Se você não tiver fotos suficientes ou elas estiverem mal etiquetadas, seu modelo não funcionará bem.

Em segurança, um caso de uso de ML supervisionado bem conhecido é a detecção de malware sem assinatura. Muitos fornecedores de plataformas de proteção de endpoint (EPP) usam ML para rotular grandes quantidades de amostras maliciosas e benignas, treinando um modelo sobre “a aparência do malware”. Esses modelos podem identificar corretamente malware mutante evasivo e outros truques em que um arquivo é alterado o suficiente para evitar uma assinatura, mas permanece malicioso. ML não corresponde à assinatura. Ele prevê malícia usando outro conjunto de recursos e muitas vezes pode detectar malware que os métodos baseados em assinatura não percebem.

No entanto, como os modelos de ML são probabilísticos, há uma compensação. O ML pode detectar malware que as assinaturas não detectam, mas também pode detectar malware que as assinaturas detectam. É por isso que as ferramentas EPP modernas usam métodos híbridos que combinam ML e técnicas baseadas em assinaturas para uma cobertura ideal.

Algo, algo, falsos positivos

Mesmo que o modelo seja bem elaborado, o ML apresenta alguns desafios adicionais quando se trata de interpretar o resultado, incluindo:

  • O resultado é uma probabilidade.
    O modelo ML gera a probabilidade de algo. Se o seu modelo for projetado para identificar gatos, você obterá resultados como “essa coisa é 80% gato”. Esta incerteza é uma característica inerente aos sistemas de ML e pode dificultar a interpretação do resultado. 80% de gato é suficiente?
  • O modelo não pode ser ajustado, pelo menos não pelo usuário final. Para lidar com os resultados probabilísticos, uma ferramenta pode ter limites definidos pelo fornecedor que os reduzem a resultados binários. Por exemplo, o modelo de identificação de gatos pode relatar que qualquer coisa >90% “gato” é um gato. A tolerância da sua empresa à feminilidade pode ser maior ou menor do que a definida pelo fornecedor.
  • Falsos negativos (FN), a falha em detectar o mal real, são uma consequência dolorosa dos modelos de ML, especialmente os mal ajustados. Não gostamos de falsos positivos (FP) porque eles desperdiçam tempo. Mas existe um compromisso inerente entre as taxas FP e FN. Os modelos de ML são ajustados para otimizar o trade-off, priorizando o “melhor” equilíbrio de taxas FP-FN. No entanto, o equilíbrio “correto” varia entre as organizações, dependendo das suas avaliações individuais de ameaças e riscos. Ao usar produtos baseados em ML, você deve confiar nos fornecedores para selecionar os limites apropriados para você.
  • Contexto insuficiente para triagem de alerta. Parte da mágica do ML é extrair “recursos” preditivos poderosos, mas arbitrários, de conjuntos de dados. Imagine que a identificação de um gato estivesse altamente correlacionada com o clima. Nenhum humano raciocinaria dessa maneira. Mas este é o objetivo do ML: encontrar padrões que de outra forma não conseguiríamos encontrar e fazê-lo em grande escala. No entanto, mesmo que o motivo da previsão possa ser exposto ao usuário, muitas vezes ela é inútil em uma triagem de alerta ou em uma situação de resposta a incidentes. Isso ocorre porque os “recursos” que, em última análise, definem a decisão do sistema de ML são otimizados para poder preditivo e não para relevância prática para analistas de segurança.

“Estatísticas” com qualquer outro nome cheirariam tão bem?

Além dos prós e contras do ML, há mais um problema: nem todo “ML” é realmente ML. As estatísticas fornecem algumas conclusões sobre seus dados. O ML faz previsões sobre dados que você não tinha com base nos dados que você tinha. Os profissionais de marketing aderiram com entusiasmo a “aprendizado de máquina”E“ inteligência artificial ”para sinalizar algum tipo de produto de tecnologia moderna, inovadora e avançada. No entanto, muitas vezes há muito pouca consideração se a tecnologia usa ML, muito menos se o ML foi a abordagem certa.

Então, o ML pode detectar o mal ou não?

O ML pode detectar o mal quando o “mal” é bem definido e com escopo restrito. Também pode detectar desvios do comportamento esperado em sistemas altamente previsíveis. Quanto mais estável for o ambiente, maior será a probabilidade de o ML identificar anomalias corretamente. Mas nem toda anomalia é maliciosa e o operador nem sempre está equipado com contexto suficiente para responder. O superpoder do ML não está em substituir, mas em ampliar as capacidades dos métodos, sistemas e equipes existentes para obter cobertura e eficiência ideais.

Carimbo de hora:

Mais de Leitura escura