Les beaux mensonges de l'apprentissage automatique dans la sécurité PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Les beaux mensonges de l'apprentissage automatique en sécurité

Contrairement à ce que vous avez pu lire, machine learning (ML) n'est pas de la poudre de lutin magique. En général, le ML convient aux problèmes de portée étroite avec d'énormes ensembles de données disponibles et où les modèles d'intérêt sont hautement reproductibles ou prévisibles. La plupart des problèmes de sécurité ne nécessitent ni ne bénéficient du ML. De nombreux experts, y compris les gens de Google, suggèrent que lors de la résolution d'un problème complexe, vous devriez épuise tous les autres approches avant d'essayer le ML.

ML est un large ensemble de techniques statistiques qui nous permet de former un ordinateur pour estimer une réponse à une question même lorsque nous n'avons pas explicitement codé la bonne réponse. Un système de ML bien conçu appliqué au bon type de problème peut débloquer des informations qui n'auraient pas été réalisables autrement.

Un exemple de ML réussi est traitement du langage naturel
(PNL). La PNL permet aux ordinateurs de "comprendre" le langage humain, y compris des choses comme les idiomes et les métaphores. À bien des égards, la cybersécurité est confrontée aux mêmes défis que le traitement du langage. Les attaquants peuvent ne pas utiliser d'idiomes, mais de nombreuses techniques sont analogues aux homonymes, des mots qui ont la même orthographe ou prononciation mais des significations différentes. Certaines techniques d'attaque ressemblent également étroitement aux actions qu'un administrateur système pourrait entreprendre pour des raisons parfaitement bénignes.

Les environnements informatiques varient d'une organisation à l'autre en termes d'objectif, d'architecture, de hiérarchisation et de tolérance au risque. Il est impossible de créer des algorithmes, ML ou autres, qui traitent globalement les cas d'utilisation de la sécurité dans tous les scénarios. C'est pourquoi la plupart des applications réussies de ML en sécurité combinent plusieurs méthodes pour résoudre un problème très spécifique. De bons exemples incluent les filtres anti-spam, l'atténuation des DDoS ou des bots et la détection des logiciels malveillants.

Garbage in, Garbage out

Le plus grand défi du ML est la disponibilité de données pertinentes et utilisables pour résoudre votre problème. Pour le ML supervisé, vous avez besoin d'un grand ensemble de données correctement étiqueté. Pour créer un modèle qui identifie les photos de chats, par exemple, vous entraînez le modèle sur de nombreuses photos de chats portant la mention « chat » et sur de nombreuses photos de choses qui ne sont pas des chats et portant la mention « pas de chat ». Si vous n'avez pas assez de photos ou si elles sont mal étiquetées, votre modèle ne fonctionnera pas bien.

En matière de sécurité, un cas d'utilisation bien connu du ML supervisé est la détection de logiciels malveillants sans signature. De nombreux fournisseurs de plates-formes de protection des terminaux (EPP) utilisent ML pour étiqueter d'énormes quantités d'échantillons malveillants et d'échantillons bénins, formant un modèle sur « à quoi ressemblent les logiciels malveillants ». Ces modèles peuvent identifier correctement les logiciels malveillants mutants évasifs et autres tromperies où un fichier est suffisamment modifié pour esquiver une signature mais reste malveillant. ML ne correspond pas à la signature. Il prédit la malveillance à l'aide d'un autre ensemble de fonctionnalités et peut souvent détecter les logiciels malveillants que les méthodes basées sur les signatures manquent.

Cependant, comme les modèles ML sont probabilistes, il y a un compromis. Le ML peut détecter les logiciels malveillants que les signatures manquent, mais il peut également manquer les logiciels malveillants que les signatures détectent. C'est pourquoi les outils EPP modernes utilisent des méthodes hybrides qui combinent des techniques basées sur le ML et les signatures pour une couverture optimale.

Quelque chose, quelque chose, faux positifs

Même si le modèle est bien conçu, le ML présente des défis supplémentaires lorsqu'il s'agit d'interpréter la sortie, notamment :

  • Le résultat est une probabilité.
    Le modèle ML génère la probabilité de quelque chose. Si votre modèle est conçu pour identifier les chats, vous obtiendrez des résultats tels que "cette chose est à 80 % un chat". Cette incertitude est une caractéristique inhérente aux systèmes ML et peut rendre le résultat difficile à interpréter. Est-ce que 80 % de chat est suffisant ?
  • Le modèle ne peut pas être réglé, du moins pas par l'utilisateur final. Pour gérer les résultats probabilistes, un outil peut avoir des seuils définis par le fournisseur qui les réduisent à des résultats binaires. Par exemple, le modèle d'identification des chats peut indiquer que tout ce qui contient plus de 90 % de "chats" est un chat. La tolérance de votre entreprise vis-à-vis des félins peut être supérieure ou inférieure à celle définie par le fournisseur.
  • Faux négatifs (FN), l'incapacité à détecter le vrai mal, sont une conséquence douloureuse des modèles ML, en particulier ceux qui sont mal réglés. Nous n'aimons pas les faux positifs (FP) car ils font perdre du temps. Mais il existe un compromis inhérent entre les taux de FP et de FN. Les modèles ML sont réglés pour optimiser le compromis, en donnant la priorité au « meilleur » équilibre des taux FP-FN. Cependant, le « bon » équilibre varie d'une organisation à l'autre, en fonction de leurs évaluations individuelles des menaces et des risques. Lorsque vous utilisez des produits basés sur ML, vous devez faire confiance aux fournisseurs pour sélectionner les seuils appropriés pour vous.
  • Pas assez de contexte pour le tri des alertes. Une partie de la magie du ML consiste à extraire de puissantes « caractéristiques » prédictives mais arbitraires à partir d'ensembles de données. Imaginez que l'identification d'un chat soit fortement corrélée à la météo. Aucun humain ne raisonnerait ainsi. Mais c'est là le but du ML : trouver des modèles que nous ne pourrions pas trouver autrement et le faire à grande échelle. Pourtant, même si la raison de la prédiction peut être exposée à l'utilisateur, elle est souvent inutile dans une situation de triage d'alerte ou de réponse à un incident. En effet, les « caractéristiques » qui définissent en fin de compte la décision du système ML sont optimisées pour la puissance prédictive, et non pour la pertinence pratique pour les analystes de la sécurité.

Est-ce que les « statistiques » sous un autre nom sentiraient aussi bon ?

Au-delà des avantages et des inconvénients du ML, il y a un autre problème : tout le "ML" n'est pas vraiment du ML. Les statistiques vous donnent quelques conclusions sur vos données. ML fait des prédictions sur les données que vous n'aviez pas en fonction des données que vous aviez. Les spécialistes du marketing se sont accrochés avec enthousiasme à "machine learning" et "intelligence artificielle" pour signaler un produit technologique moderne, innovant et avancé. Cependant, on se soucie souvent très peu de savoir si la technologie utilise même ML, peu importe si ML était la bonne approche.

Alors, le ML peut-il ou non détecter le mal ?

Le ML peut détecter le mal lorsque le « mal » est bien défini et de portée étroite. Il peut également détecter les écarts par rapport au comportement attendu dans les systèmes hautement prévisibles. Plus l'environnement est stable, plus ML est susceptible d'identifier correctement les anomalies. Mais toutes les anomalies ne sont pas malveillantes et l'opérateur n'a pas toujours suffisamment de contexte pour réagir. La superpuissance de ML n'est pas de remplacer mais d'étendre les capacités des méthodes, systèmes et équipes existants pour une couverture et une efficacité optimales.

Horodatage:

Plus de Lecture sombre