De smukke løgne ved maskinlæring i sikkerhed PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

De smukke løgne ved maskinlæring i sikkerhed

I modsætning til hvad du måske har læst, machine learning (ML) er ikke magisk nissestøv. Generelt er ML god til problemer med snævert omfang med enorme datasæt til rådighed, og hvor mønstrene af interesse er meget gentagelige eller forudsigelige. De fleste sikkerhedsproblemer hverken kræver eller nyder godt af ML. Mange eksperter, herunder folkene på Google, foreslå, at når du løser et komplekst problem, bør du udtømme alt andet nærmer sig, før du prøver ML.

ML er en bred samling af statistiske teknikker, der giver os mulighed for at træne en computer til at estimere et svar på et spørgsmål, selv når vi ikke eksplicit har kodet det rigtige svar. Et veldesignet ML-system anvendt på den rigtige type problem kan låse op for indsigter, som ellers ikke ville have været opnåelige.

Et vellykket ML-eksempel er naturlig sprogbehandling
(NLP). NLP giver computere mulighed for at "forstå" menneskeligt sprog, herunder ting som idiomer og metaforer. På mange måder står cybersikkerhed over for de samme udfordringer som sprogbehandling. Angribere bruger muligvis ikke idiomer, men mange teknikker er analoge med homonymer, ord, der har samme stavemåde eller udtale, men forskellige betydninger. Nogle angriberteknikker minder også meget om handlinger, som en systemadministrator kan udføre af helt godartede årsager.

It-miljøer varierer på tværs af organisationer i formål, arkitektur, prioritering og risikotolerance. Det er umuligt at skabe algoritmer, ML eller andet, der i store træk adresserer sikkerhedsbrugssager i alle scenarier. Dette er grunden til, at de mest succesrige applikationer af ML i sikkerhed kombinerer flere metoder til at løse et meget specifikt problem. Gode ​​eksempler omfatter spamfiltre, DDoS- eller bot-reduktion og opdagelse af malware.

Skrald ind, skrald ud

Den største udfordring i ML er tilgængeligheden af ​​relevante, brugbare data til at løse dit problem. Til overvåget ML har du brug for et stort, korrekt mærket datasæt. For at bygge en model, der f.eks. identificerer kattebilleder, træner du modellen i mange billeder af katte mærket "kat" og mange fotos af ting, der ikke er katte mærket "ikke kat". Hvis du ikke har nok billeder, eller hvis de er dårligt mærket, vil din model ikke fungere godt.

Inden for sikkerhed er et velkendt tilfælde af overvåget ML-brug signaturløs malware-detektion. Mange leverandører af endpoint protection platform (EPP) bruger ML til at mærke enorme mængder af ondsindede prøver og godartede prøver, og træner en model for "hvordan malware ser ud." Disse modeller kan korrekt identificere undvigende muterende malware og andre tricks, hvor en fil er ændret nok til at undvige en signatur, men forbliver ondsindet. ML matcher ikke signaturen. Det forudsiger ondskab ved hjælp af et andet funktionssæt og kan ofte fange malware, som signaturbaserede metoder savner.

Men fordi ML-modeller er probabilistiske, er der en afvejning. ML kan fange malware, som signaturer savner, men den kan også savne malware, som signaturer fanger. Dette er grunden til, at moderne EPP-værktøjer bruger hybridmetoder, der kombinerer ML og signaturbaserede teknikker for optimal dækning.

Noget, noget, falske positive

Selvom modellen er gennemarbejdet, byder ML på nogle yderligere udfordringer, når det kommer til at fortolke outputtet, herunder:

  • Resultatet er en sandsynlighed.
    ML-modellen udsender sandsynligheden for noget. Hvis din model er designet til at identificere katte, vil du få resultater som "denne ting er 80 % kat." Denne usikkerhed er en iboende egenskab ved ML-systemer og kan gøre resultatet vanskeligt at fortolke. Er 80% kat nok?
  • Modellen kan ikke tunes, i hvert fald ikke af slutbrugeren. For at håndtere de sandsynlige resultater kan et værktøj have leverandørindstillede tærskler, der kollapser dem til binære resultater. For eksempel kan katteidentifikationsmodellen rapportere, at alt >90 % "kat" er en kat. Din virksomheds tolerance for kattelighed kan være højere eller lavere end det, leverandøren har angivet.
  • Falske negativer (FN), manglende opdagelse af ægte ondskab, er en smertefuld konsekvens af ML-modeller, især dårligt indstillede. Vi kan ikke lide falske positiver (FP), fordi de spilder tid. Men der er en iboende afvejning mellem FP- og FN-satser. ML-modeller er indstillet til at optimere afvejningen, idet de prioriterer den "bedste" FP-FN satsbalance. Men den "korrekte" balance varierer mellem organisationer, afhængigt af deres individuelle trussels- og risikovurderinger. Når du bruger ML-baserede produkter, skal du stole på, at leverandører vælger de passende tærskler for dig.
  • Ikke nok kontekst til advarselstriage. En del af ML-magien er at udvinde kraftfulde forudsigelige, men vilkårlige "funktioner" fra datasæt. Forestil dig, at identifikation af en kat tilfældigvis var meget korreleret med vejret. Intet menneske ville ræsonnere på denne måde. Men dette er pointen med ML - at finde mønstre, vi ellers ikke kunne finde, og at gøre det i skala. Men selvom årsagen til forudsigelsen kan eksponeres for brugeren, er det ofte uhensigtsmæssigt i en alarmtriage- eller hændelsessituation. Dette skyldes, at de "funktioner", der i sidste ende definerer ML-systemets beslutning, er optimeret til forudsigelseskraft, ikke praktisk relevans for sikkerhedsanalytikere.

Ville "Statistik" med ethvert andet navn lugte så sødt?

Ud over fordele og ulemper ved ML, er der endnu en hake: Ikke alle "ML" er virkelig ML. Statistik giver dig nogle konklusioner om dine data. ML laver forudsigelser om data, du ikke havde, baseret på data, du havde. Marketingfolk har entusiastisk låst sig fast på "machine learning” og ”kunstig intelligens” for at signalere et moderne, innovativt, avanceret teknologiprodukt af en eller anden art. Men der er ofte meget lidt hensyn til, om teknologien overhovedet bruger ML, pyt med, om ML var den rigtige tilgang.

Så, kan ML opdage ondskab eller ej?

ML kan opdage ondskab, når "ondskab" er veldefineret og snævert omfang. Det kan også registrere afvigelser fra forventet adfærd i meget forudsigelige systemer. Jo mere stabilt miljøet er, jo mere sandsynligt er det, at ML identificerer anomalier korrekt. Men ikke enhver anomali er ondsindet, og operatøren er ikke altid udstyret med tilstrækkelig kontekst til at reagere. ML's supermagt er ikke i at erstatte, men i at udvide mulighederne for eksisterende metoder, systemer og teams for optimal dækning og effektivitet.

Tidsstempel:

Mere fra Mørk læsning