De mooie leugens van machinaal leren in de beveiliging PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De mooie leugens van machine learning in beveiliging

In tegenstelling tot wat je misschien hebt gelezen, machine learning (ML) is geen magisch elfenstof. Over het algemeen is ML goed voor problemen met een beperkt bereik met enorme beschikbare datasets en waarbij de interessepatronen zeer herhaalbaar of voorspelbaar zijn. De meeste beveiligingsproblemen vereisen noch profiteren van ML. Veel experts, waaronder de mensen van Kopen Google Reviews, stel voor dat u bij het oplossen van een complex probleem: alle andere uitputten benaderingen voordat u ML probeert.

ML is een brede verzameling statistische technieken waarmee we een computer kunnen trainen om een ​​antwoord op een vraag in te schatten, zelfs als we het juiste antwoord niet expliciet hebben gecodeerd. Een goed ontworpen ML-systeem dat op het juiste type probleem wordt toegepast, kan inzichten ontsluiten die anders niet haalbaar zouden zijn geweest.

Een succesvol ML-voorbeeld is: natuurlijke taalverwerking
(NLP). NLP stelt computers in staat om menselijke taal te 'begrijpen', inclusief zaken als idiomen en metaforen. In veel opzichten staat cyberbeveiliging voor dezelfde uitdagingen als taalverwerking. Aanvallers mogen geen idiomen gebruiken, maar veel technieken zijn analoog aan homoniemen, woorden die dezelfde spelling of uitspraak hebben maar verschillende betekenissen. Sommige aanvallerstechnieken lijken ook sterk op acties die een systeembeheerder zou kunnen ondernemen om volkomen onschuldige redenen.

IT-omgevingen verschillen per organisatie wat betreft doel, architectuur, prioritering en risicotolerantie. Het is onmogelijk om algoritmen, ML of anderszins, te maken die in alle scenario's in grote lijnen beveiligingsgebruiksscenario's aanpakken. Dit is de reden waarom de meeste succesvolle toepassingen van ML in beveiliging meerdere methoden combineren om een ​​zeer specifiek probleem aan te pakken. Goede voorbeelden zijn onder meer spamfilters, DDoS- of botbeperking en malwaredetectie.

Vuilnis erin, Vuilnis eruit

De grootste uitdaging in ML is de beschikbaarheid van relevante, bruikbare data om uw probleem op te lossen. Voor gesuperviseerde ML heeft u een grote, correct gelabelde dataset nodig. Als u bijvoorbeeld een model wilt bouwen dat kattenfoto's identificeert, traint u het model op veel foto's van katten met het label 'kat' en veel foto's van dingen die geen katten zijn met het label 'geen kat'. Als je niet genoeg foto's hebt of als ze slecht gelabeld zijn, zal je model niet goed werken.

Op het gebied van beveiliging is een bekende, onder toezicht staande ML-use case de detectie van malware zonder handtekening. Veel leveranciers van endpoint protection platform (EPP) gebruiken ML om enorme hoeveelheden kwaadaardige samples en goedaardige samples te labelen, en een model te trainen over "hoe malware eruit ziet". Deze modellen kunnen ontwijkende muterende malware en andere trucs correct identificeren waarbij een bestand voldoende is gewijzigd om een ​​handtekening te ontwijken, maar kwaadaardig blijft. ML komt niet overeen met de handtekening. Het voorspelt kwaadaardigheid met behulp van een andere functieset en kan vaak malware vangen die op handtekeningen gebaseerde methoden missen.

Omdat ML-modellen echter probabilistisch zijn, is er een afweging. ML kan malware vangen die handtekeningen missen, maar het kan ook malware missen die handtekeningen vangen. Daarom gebruiken moderne EPP-tools hybride methoden die ML en op handtekeningen gebaseerde technieken combineren voor een optimale dekking.

Iets, iets, valse positieven

Zelfs als het model goed is gemaakt, biedt ML enkele extra uitdagingen als het gaat om het interpreteren van de uitvoer, waaronder:

  • Het resultaat is een kans.
    Het ML-model geeft de waarschijnlijkheid van iets weer. Als uw model is ontworpen om katten te identificeren, krijgt u resultaten als 'dit ding is 80% kat'. Deze onzekerheid is een inherent kenmerk van ML-systemen en kan het resultaat moeilijk te interpreteren maken. Is 80% kat genoeg?
  • Het model kan niet worden afgesteld, althans niet door de eindgebruiker. Om de probabilistische uitkomsten te verwerken, kan een tool door de leverancier ingestelde drempels hebben die ze samenvouwen tot binaire resultaten. Het kattenidentificatiemodel kan bijvoorbeeld aangeven dat alles >90% "kat" een kat is. De tolerantie van uw bedrijf voor cat-ness kan hoger of lager zijn dan wat de leverancier heeft ingesteld.
  • Valse negatieven (FN), het onvermogen om echt kwaad te detecteren, is een pijnlijk gevolg van ML-modellen, vooral slecht afgestemde modellen. We houden niet van valse positieven (FP) omdat ze tijd verspillen. Maar er is een inherente wisselwerking tussen FP- en FN-tarieven. ML-modellen zijn afgestemd om de afweging te optimaliseren, waarbij prioriteit wordt gegeven aan de "beste" FP-FN-snelheidsbalans. De 'juiste' balans varieert echter tussen organisaties, afhankelijk van hun individuele dreigings- en risicobeoordelingen. Wanneer u op ML gebaseerde producten gebruikt, moet u erop vertrouwen dat leveranciers de juiste drempels voor u selecteren.
  • Onvoldoende context voor waarschuwingstriage. Een deel van de ML-magie is het extraheren van krachtige voorspellende maar willekeurige "functies" uit datasets. Stel je voor dat het identificeren van een kat sterk gecorreleerd was met het weer. Geen mens zou zo redeneren. Maar dit is het punt van ML: patronen vinden die we anders niet zouden vinden en dit op grote schaal doen. Maar zelfs als de reden voor de voorspelling aan de gebruiker kan worden onthuld, is het vaak nutteloos in een waarschuwingstriage of een incidentresponssituatie. Dit komt omdat de "functies" die uiteindelijk de beslissing van het ML-systeem bepalen, zijn geoptimaliseerd voor voorspellende kracht en niet praktisch relevant zijn voor beveiligingsanalisten.

Zouden "Statistieken" onder een andere naam zo zoet ruiken?

Naast de voor- en nadelen van ML, is er nog een addertje onder het gras: niet alle "ML" is echt ML. Statistieken geven u enkele conclusies over uw gegevens. ML doet voorspellingen over gegevens die u niet had op basis van gegevens die u wel had. Marketeers hebben enthousiast aangehaakt bij “machine learning' en 'kunstmatige intelligentie' om een ​​modern, innovatief, geavanceerd technologisch product van een soort te signaleren. Er is echter vaak weinig aandacht voor de vraag of de technologie zelfs ML gebruikt, laat staan ​​​​of ML de juiste aanpak was.

Dus, kan ML kwaad detecteren of niet?

ML kan kwaad detecteren wanneer 'kwaad' goed gedefinieerd en beperkt is. Het kan ook afwijkingen van verwacht gedrag detecteren in zeer voorspelbare systemen. Hoe stabieler de omgeving, hoe groter de kans dat ML anomalieën correct identificeert. Maar niet elke anomalie is kwaadaardig en de operator is niet altijd uitgerust met voldoende context om te reageren. De superkracht van ML zit niet in het vervangen, maar in het uitbreiden van de mogelijkheden van bestaande methoden, systemen en teams voor optimale dekking en efficiëntie.

Tijdstempel:

Meer van Donkere lezing