De vackra lögnerna i maskininlärning i säkerhet PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

De vackra lögnerna i maskininlärning i säkerhet

Tvärtemot vad du kanske har läst, maskininlärning (ML) är inte magiskt pixie dust. Generellt sett är ML bra för problem med snäv omfattning med stora datauppsättningar tillgängliga, och där mönstren av intresse är mycket repeterbara eller förutsägbara. De flesta säkerhetsproblem varken kräver eller drar nytta av ML. Många experter, inklusive folk på Google, föreslår att när du löser ett komplext problem bör du töm allt annat närmar sig innan du försöker ML.

ML är en bred samling statistiska tekniker som gör att vi kan träna en dator att uppskatta ett svar på en fråga även när vi inte uttryckligen har kodat rätt svar. Ett väldesignat ML-system applicerat på rätt typ av problem kan låsa upp insikter som inte skulle ha varit möjliga annars.

Ett framgångsrikt ML-exempel är naturlig språkbehandling
(NLP). NLP tillåter datorer att "förstå" mänskligt språk, inklusive saker som idiom och metaforer. På många sätt står cybersäkerhet inför samma utmaningar som språkbehandling. Angripare kanske inte använder idiom, men många tekniker är analoga med homonymer, ord som har samma stavning eller uttal men olika betydelser. Vissa angripartekniker liknar också åtgärder som en systemadministratör kan vidta av helt godartade skäl.

IT-miljöer varierar mellan organisationer i syfte, arkitektur, prioritering och risktolerans. Det är omöjligt att skapa algoritmer, ML eller på annat sätt, som i stora drag adresserar säkerhetsanvändningsfall i alla scenarier. Det är därför de mest framgångsrika tillämpningarna av ML inom säkerhet kombinerar flera metoder för att lösa ett mycket specifikt problem. Bra exempel inkluderar skräppostfilter, DDoS- eller botreducering och upptäckt av skadlig programvara.

Skräp in skräp ut

Den största utmaningen i ML är tillgången på relevant, användbar data för att lösa ditt problem. För övervakad ML behöver du en stor, korrekt märkt datauppsättning. För att bygga en modell som identifierar kattfoton, till exempel, tränar du modellen på många foton av katter märkta "katt" och många foton av saker som inte är katter märkta "inte katt". Om du inte har tillräckligt med foton eller om de är dåligt märkta, kommer din modell inte att fungera bra.

Inom säkerhet är ett välkänt övervakat ML-användningsfall signaturlös upptäckt av skadlig programvara. Många leverantörer av endpoint Protection Platform (EPP) använder ML för att märka enorma mängder skadliga prover och godartade prover, och tränar en modell om "hur skadlig programvara ser ut." Dessa modeller kan korrekt identifiera undvikande muterande skadlig programvara och andra knep där en fil ändras tillräckligt för att undvika en signatur men förblir skadlig. ML matchar inte signaturen. Den förutsäger illvilja med hjälp av en annan funktionsuppsättning och kan ofta fånga skadlig programvara som signaturbaserade metoder missar.

Men eftersom ML-modeller är probabilistiska finns det en avvägning. ML kan fånga skadlig programvara som signaturer missar, men den kan också missa skadlig programvara som signaturer fångar. Det är därför moderna EPP-verktyg använder hybridmetoder som kombinerar ML och signaturbaserade tekniker för optimal täckning.

Något, något, falskt positivt

Även om modellen är välgjord, erbjuder ML några ytterligare utmaningar när det gäller att tolka resultatet, inklusive:

  • Resultatet är en sannolikhet.
    ML-modellen visar sannolikheten för något. Om din modell är designad för att identifiera katter får du resultat som "den här saken är 80 % katt." Denna osäkerhet är en inneboende egenskap hos ML-system och kan göra resultatet svårtolkat. Räcker 80 % katt?
  • Modellen går inte att trimma, åtminstone inte av slutanvändaren. För att hantera de probabilistiska utfallen kan ett verktyg ha leverantörsinställda trösklar som kollapsar dem till binära resultat. Till exempel kan kattidentifieringsmodellen rapportera att allt >90 % "katt" är en katt. Ditt företags tolerans för katt-ness kan vara högre eller lägre än vad leverantören anger.
  • Falskt negativ (FN), misslyckandet med att upptäcka verklig ondska, är en smärtsam konsekvens av ML-modeller, särskilt dåligt inställda. Vi ogillar falska positiva (FP) eftersom de slösar tid. Men det finns en inneboende avvägning mellan FP- och FN-kurser. ML-modeller är inställda för att optimera avvägningen och prioriterar den "bästa" FP-FN-hastighetsbalansen. Den "rätta" balansen varierar dock mellan organisationer, beroende på deras individuella hot- och riskbedömningar. När du använder ML-baserade produkter måste du lita på att leverantörer väljer lämpliga trösklar för dig.
  • Inte tillräckligt sammanhang för larmtriage. En del av ML-magin är att extrahera kraftfulla prediktiva men godtyckliga "funktioner" från datauppsättningar. Föreställ dig att identifiering av en katt råkade vara starkt korrelerad med vädret. Ingen människa skulle resonera så här. Men detta är poängen med ML — att hitta mönster som vi annars inte kunde hitta och att göra det i stor skala. Ändå, även om orsaken till förutsägelsen kan exponeras för användaren, är den ofta ohjälpsam i en larmtriage eller incidentresponssituation. Detta beror på att de "funktioner" som i slutändan definierar ML-systemets beslut är optimerade för prediktiv kraft, inte praktisk relevans för säkerhetsanalytiker.

Skulle "Statistik" med något annat namn lukta sött?

Utöver för- och nackdelarna med ML finns det ytterligare en hake: Inte alla "ML" är verkligen ML. Statistik ger dig några slutsatser om dina data. ML gör förutsägelser om data du inte hade baserat på data du hade. Marknadsförare har entusiastiskt fäst sig vid "maskininlärning” och ”artificiell intelligens” för att signalera en modern, innovativ, avancerad teknologiprodukt av något slag. Men det är ofta väldigt lite hänsyn till om tekniken ens använder ML, strunt i om ML var rätt tillvägagångssätt.

Så, kan ML upptäcka ondska eller inte?

ML kan upptäcka ondska när "ondskan" är väldefinierad och snävt avgränsad. Den kan också upptäcka avvikelser från förväntat beteende i mycket förutsägbara system. Ju stabilare miljön är, desto mer sannolikt är det att ML identifierar anomalier korrekt. Men alla anomalier är inte skadliga, och operatören är inte alltid utrustad med tillräckligt sammanhang för att svara. ML:s superkraft ligger inte i att ersätta utan att utöka kapaciteten hos befintliga metoder, system och team för optimal täckning och effektivitet.

Tidsstämpel:

Mer från Mörk läsning