De mooie leugens van machine learning in beveiliging

Heruitgegeven door Plato

volgers: 0

In tegenstelling tot wat je misschien hebt gelezen, machine learning (ML) is geen magisch elfenstof. Over het algemeen is ML goed voor problemen met een beperkt bereik met enorme beschikbare datasets en waarbij de interessepatronen zeer herhaalbaar of voorspelbaar zijn. De meeste beveiligingsproblemen vereisen noch profiteren van ML. Veel experts, waaronder de mensen van Kopen Google Reviews, stel voor dat u bij het oplossen van een complex probleem: alle andere uitputten benaderingen voordat u ML probeert.

ML is een brede verzameling statistische technieken waarmee we een computer kunnen trainen om een antwoord op een vraag in te schatten, zelfs als we het juiste antwoord niet expliciet hebben gecodeerd. Een goed ontworpen ML-systeem dat op het juiste type probleem wordt toegepast, kan inzichten ontsluiten die anders niet haalbaar zouden zijn geweest.

Een succesvol ML-voorbeeld is: natuurlijke taalverwerking
(NLP). NLP stelt computers in staat om menselijke taal te 'begrijpen', inclusief zaken als idiomen en metaforen. In veel opzichten staat cyberbeveiliging voor dezelfde uitdagingen als taalverwerking. Aanvallers mogen geen idiomen gebruiken, maar veel technieken zijn analoog aan homoniemen, woorden die dezelfde spelling of uitspraak hebben maar verschillende betekenissen. Sommige aanvallerstechnieken lijken ook sterk op acties die een systeembeheerder zou kunnen ondernemen om volkomen onschuldige redenen.

IT-omgevingen verschillen per organisatie wat betreft doel, architectuur, prioritering en risicotolerantie. Het is onmogelijk om algoritmen, ML of anderszins, te maken die in alle scenario's in grote lijnen beveiligingsgebruiksscenario's aanpakken. Dit is de reden waarom de meeste succesvolle toepassingen van ML in beveiliging meerdere methoden combineren om een zeer specifiek probleem aan te pakken. Goede voorbeelden zijn onder meer spamfilters, DDoS- of botbeperking en malwaredetectie.

Vuilnis erin, Vuilnis eruit

De grootste uitdaging in ML is de beschikbaarheid van relevante, bruikbare data om uw probleem op te lossen. Voor gesuperviseerde ML heeft u een grote, correct gelabelde dataset nodig. Als u bijvoorbeeld een model wilt bouwen dat kattenfoto's identificeert, traint u het model op veel foto's van katten met het label 'kat' en veel foto's van dingen die geen katten zijn met het label 'geen kat'. Als je niet genoeg foto's hebt of als ze slecht gelabeld zijn, zal je model niet goed werken.

Op het gebied van beveiliging is een bekende, onder toezicht staande ML-use case de detectie van malware zonder handtekening. Veel leveranciers van endpoint protection platform (EPP) gebruiken ML om enorme hoeveelheden kwaadaardige samples en goedaardige samples te labelen, en een model te trainen over "hoe malware eruit ziet". Deze modellen kunnen ontwijkende muterende malware en andere trucs correct identificeren waarbij een bestand voldoende is gewijzigd om een handtekening te ontwijken, maar kwaadaardig blijft. ML komt niet overeen met de handtekening. Het voorspelt kwaadaardigheid met behulp van een andere functieset en kan vaak malware vangen die op handtekeningen gebaseerde methoden missen.

Omdat ML-modellen echter probabilistisch zijn, is er een afweging. ML kan malware vangen die handtekeningen missen, maar het kan ook malware missen die handtekeningen vangen. Daarom gebruiken moderne EPP-tools hybride methoden die ML en op handtekeningen gebaseerde technieken combineren voor een optimale dekking.

Iets, iets, valse positieven

Zelfs als het model goed is gemaakt, biedt ML enkele extra uitdagingen als het gaat om het interpreteren van de uitvoer, waaronder:

Het resultaat is een kans.
Het ML-model geeft de waarschijnlijkheid van iets weer. Als uw model is ontworpen om katten te identificeren, krijgt u resultaten als 'dit ding is 80% kat'. Deze onzekerheid is een inherent kenmerk van ML-systemen en kan het resultaat moeilijk te interpreteren maken. Is 80% kat genoeg?
Het model kan niet worden afgesteld, althans niet door de eindgebruiker. Om de probabilistische uitkomsten te verwerken, kan een tool door de leverancier ingestelde drempels hebben die ze samenvouwen tot binaire resultaten. Het kattenidentificatiemodel kan bijvoorbeeld aangeven dat alles >90% "kat" een kat is. De tolerantie van uw bedrijf voor cat-ness kan hoger of lager zijn dan wat de leverancier heeft ingesteld.
Valse negatieven (FN), het onvermogen om echt kwaad te detecteren, is een pijnlijk gevolg van ML-modellen, vooral slecht afgestemde modellen. We houden niet van valse positieven (FP) omdat ze tijd verspillen. Maar er is een inherente wisselwerking tussen FP- en FN-tarieven. ML-modellen zijn afgestemd om de afweging te optimaliseren, waarbij prioriteit wordt gegeven aan de "beste" FP-FN-snelheidsbalans. De 'juiste' balans varieert echter tussen organisaties, afhankelijk van hun individuele dreigings- en risicobeoordelingen. Wanneer u op ML gebaseerde producten gebruikt, moet u erop vertrouwen dat leveranciers de juiste drempels voor u selecteren.
Onvoldoende context voor waarschuwingstriage. Een deel van de ML-magie is het extraheren van krachtige voorspellende maar willekeurige "functies" uit datasets. Stel je voor dat het identificeren van een kat sterk gecorreleerd was met het weer. Geen mens zou zo redeneren. Maar dit is het punt van ML: patronen vinden die we anders niet zouden vinden en dit op grote schaal doen. Maar zelfs als de reden voor de voorspelling aan de gebruiker kan worden onthuld, is het vaak nutteloos in een waarschuwingstriage of een incidentresponssituatie. Dit komt omdat de "functies" die uiteindelijk de beslissing van het ML-systeem bepalen, zijn geoptimaliseerd voor voorspellende kracht en niet praktisch relevant zijn voor beveiligingsanalisten.

Zouden "Statistieken" onder een andere naam zo zoet ruiken?

Naast de voor- en nadelen van ML, is er nog een addertje onder het gras: niet alle "ML" is echt ML. Statistieken geven u enkele conclusies over uw gegevens. ML doet voorspellingen over gegevens die u niet had op basis van gegevens die u wel had. Marketeers hebben enthousiast aangehaakt bij “machine learning' en 'kunstmatige intelligentie' om een modern, innovatief, geavanceerd technologisch product van een soort te signaleren. Er is echter vaak weinig aandacht voor de vraag of de technologie zelfs ML gebruikt, laat staan of ML de juiste aanpak was.

Dus, kan ML kwaad detecteren of niet?

ML kan kwaad detecteren wanneer 'kwaad' goed gedefinieerd en beperkt is. Het kan ook afwijkingen van verwacht gedrag detecteren in zeer voorspelbare systemen. Hoe stabieler de omgeving, hoe groter de kans dat ML anomalieën correct identificeert. Maar niet elke anomalie is kwaadaardig en de operator is niet altijd uitgerust met voldoende context om te reageren. De superkracht van ML zit niet in het vervangen, maar in het uitbreiden van de mogelijkheden van bestaande methoden, systemen en teams voor optimale dekking en efficiëntie.

Tijdstempel: 26 juli 202226 juli 2022

Tijdstempel: Februari 16, 2024

De mooie leugens van machine learning in beveiliging

Heruitgegeven door Plato

Vuilnis erin, Vuilnis eruit

Iets, iets, valse positieven

Zouden "Statistieken" onder een andere naam zo zoet ruiken?

Dus, kan ML kwaad detecteren of niet?

Meer van Donkere lezing

Cast AI introduceert cloudbeveiligingsinzichten voor Kubernetes

(ISC)² rekruteert meer dan 55,000 cybersecurity-kandidaten in de eerste 30 dagen van nieuwe programma's om de kloof in het personeelsbestand aan te pakken

De afname van ransomware: vergroot het daadwerkelijk de risico's voor organisaties?

Best practice op het gebied van cyberbeveiliging is van cruciaal belang voor het winnen van de nieuwe ruimterace

Google voegt vangrails toe om AI onder controle te houden

Verdachte nieuwe ransomwaregroep claimt Sony-hack

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account