De vakre løgnene ved maskinlæring i sikkerhet PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

De vakre løgnene ved maskinlæring i sikkerhet

I motsetning til hva du kanskje har lest, maskinlæring (ML) er ikke magisk nissestøv. Generelt er ML bra for problemer med snevert omfang med enorme datasett tilgjengelig, og der mønstrene av interesse er svært repeterbare eller forutsigbare. De fleste sikkerhetsproblemer verken krever eller drar nytte av ML. Mange eksperter, inkludert folk på Google, foreslår at når du løser et komplekst problem bør du tømme alt annet tilnærminger før du prøver ML.

ML er en bred samling av statistiske teknikker som lar oss trene en datamaskin til å estimere et svar på et spørsmål selv når vi ikke eksplisitt har kodet riktig svar. Et godt designet ML-system brukt på riktig type problem kan låse opp innsikt som ellers ikke ville vært oppnåelig.

Et vellykket ML-eksempel er naturlig språkbehandling
(NLP). NLP lar datamaskiner "forstå" menneskelig språk, inkludert ting som idiomer og metaforer. På mange måter står cybersikkerhet overfor de samme utfordringene som språkbehandling. Angripere bruker kanskje ikke idiomer, men mange teknikker er analoge med homonymer, ord som har samme stavemåte eller uttale, men forskjellige betydninger. Noen angriperteknikker ligner på samme måte handlinger en systemadministrator kan utføre av helt godartede grunner.

IT-miljøer varierer på tvers av organisasjoner i formål, arkitektur, prioritering og risikotoleranse. Det er umulig å lage algoritmer, ML eller annet, som i stor grad adresserer sikkerhetsbrukssaker i alle scenarier. Dette er grunnen til at de mest vellykkede applikasjonene av ML i sikkerhet kombinerer flere metoder for å løse et veldig spesifikt problem. Gode ​​eksempler inkluderer spamfiltre, DDoS eller bot-reduksjon og oppdagelse av skadelig programvare.

Søppel inn søppel ut

Den største utfordringen i ML er tilgjengeligheten av relevante, brukbare data for å løse problemet ditt. For overvåket ML trenger du et stort, riktig merket datasett. For å bygge en modell som identifiserer kattebilder, for eksempel, trener du modellen på mange bilder av katter merket "katt" og mange bilder av ting som ikke er katter merket med "ikke katt." Hvis du ikke har nok bilder eller de er dårlig merket, vil modellen din ikke fungere bra.

Innen sikkerhet er en velkjent overvåket ML-brukssak signaturløs deteksjon av skadelig programvare. Mange leverandører av endepunktbeskyttelsesplattformer (EPP) bruker ML til å merke enorme mengder ondsinnede prøver og godartede prøver, og trener en modell om "hvordan skadelig programvare ser ut." Disse modellene kan korrekt identifisere unnvikende muterende skadelig programvare og andre triks der en fil er endret nok til å unngå en signatur, men forblir skadelig. ML samsvarer ikke med signaturen. Den forutsier ondsinnethet ved å bruke et annet funksjonssett og kan ofte fange opp skadelig programvare som signaturbaserte metoder går glipp av.

Men fordi ML-modeller er sannsynlige, er det en avveining. ML kan fange skadevare som signaturer savner, men det kan også gå glipp av skadelig programvare som signaturer fanger. Dette er grunnen til at moderne EPP-verktøy bruker hybridmetoder som kombinerer ML og signaturbaserte teknikker for optimal dekning.

Noe, noe, falske positive

Selv om modellen er godt utformet, byr ML på noen ekstra utfordringer når det gjelder å tolke resultatet, inkludert:

  • Resultatet er en sannsynlighet.
    ML-modellen gir ut sannsynligheten for noe. Hvis modellen din er designet for å identifisere katter, vil du få resultater som "denne tingen er 80 % katt." Denne usikkerheten er en iboende egenskap ved ML-systemer og kan gjøre resultatet vanskelig å tolke. Er 80 % katt nok?
  • Modellen kan ikke justeres, i hvert fall ikke av sluttbrukeren. For å håndtere de sannsynlige utfallene, kan et verktøy ha leverandørangitte terskler som kollapser dem til binære resultater. For eksempel kan katteidentifikasjonsmodellen rapportere at alt >90 % "katt" er en katt. Bedriftens toleranse for kattelighet kan være høyere eller lavere enn det leverandøren har satt.
  • Falske negativer (FN), manglende evne til å oppdage ekte ondskap, er en smertefull konsekvens av ML-modeller, spesielt dårlig innstilte. Vi misliker falske positiver (FP) fordi de kaster bort tid. Men det er en iboende avveining mellom FP- og FN-rater. ML-modeller er innstilt for å optimalisere avveiningen, og prioriterer den "beste" FP-FN ratebalansen. Den "riktige" balansen varierer imidlertid mellom organisasjoner, avhengig av deres individuelle trussel- og risikovurderinger. Når du bruker ML-baserte produkter, må du stole på at leverandører velger de passende tersklene for deg.
  • Ikke nok kontekst for varslingstriage. En del av ML-magien er å trekke ut kraftige prediktive, men vilkårlige "funksjoner" fra datasett. Tenk deg at det å identifisere en katt var sterkt korrelert med været. Ingen mennesker ville resonnere på denne måten. Men dette er poenget med ML - å finne mønstre vi ellers ikke kunne finne og å gjøre det i skala. Likevel, selv om årsaken til forutsigelsen kan eksponeres for brukeren, er det ofte lite nyttig i en varslingstriage eller hendelsesresponssituasjon. Dette er fordi "funksjonene" som til slutt definerer ML-systemets beslutning er optimalisert for prediktiv kraft, ikke praktisk relevans for sikkerhetsanalytikere.

Ville «statistikk» med et annet navn lukte så søtt?

Utover fordelene og ulempene med ML, er det enda en hake: Ikke all "ML" er egentlig ML. Statistikk gir deg noen konklusjoner om dataene dine. ML lager spådommer om data du ikke hadde basert på data du hadde. Markedsførere har entusiastisk festet seg til "maskinlæring” og “kunstig intelligens” for å signalisere et moderne, innovativt, avansert teknologiprodukt av noe slag. Imidlertid er det ofte svært lite hensyn til om teknologien i det hele tatt bruker ML, ikke bry deg om ML var den rette tilnærmingen.

Så, kan ML oppdage ondskap eller ikke?

ML kan oppdage ondskap når "ondskap" er veldefinert og begrenset. Den kan også oppdage avvik fra forventet oppførsel i svært forutsigbare systemer. Jo mer stabilt miljøet er, desto mer sannsynlig er det at ML identifiserer anomalier korrekt. Men ikke alle anomalier er ondsinnede, og operatøren er ikke alltid utstyrt med nok kontekst til å svare. MLs superkraft er ikke i å erstatte, men i å utvide mulighetene til eksisterende metoder, systemer og team for optimal dekning og effektivitet.

Tidstempel:

Mer fra Mørk lesning