Le belle bugie del machine learning nella sicurezza PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Le belle bugie dell'apprendimento automatico nella sicurezza

Contrariamente a quanto potresti aver letto, machine learning (ML) non è polvere magica. In generale, il ML è adatto per problemi con ambito ristretto con enormi set di dati disponibili e in cui i modelli di interesse sono altamente ripetibili o prevedibili. La maggior parte dei problemi di sicurezza non richiede né beneficia del ML. Molti esperti, compresi quelli di Google, suggerisci che quando risolvi un problema complesso dovresti esaurire tutti gli altri approcci prima di provare ML.

ML è un'ampia raccolta di tecniche statistiche che ci consente di addestrare un computer a stimare una risposta a una domanda anche quando non abbiamo codificato esplicitamente la risposta corretta. Un sistema ML ben progettato, applicato al giusto tipo di problema, può sbloccare informazioni che altrimenti non sarebbero state ottenibili.

Un esempio di ML di successo è elaborazione del linguaggio naturale
(PNL). La PNL consente ai computer di "capire" il linguaggio umano, comprese cose come idiomi e metafore. In molti modi, la sicurezza informatica deve affrontare le stesse sfide dell'elaborazione del linguaggio. Gli aggressori potrebbero non usare idiomi, ma molte tecniche sono analoghe agli omonimi, parole che hanno la stessa ortografia o pronuncia ma significati diversi. Allo stesso modo, alcune tecniche di attacco assomigliano molto alle azioni che un amministratore di sistema potrebbe intraprendere per ragioni perfettamente benigne.

Gli ambienti IT variano tra le organizzazioni per scopo, architettura, priorità e tolleranza al rischio. È impossibile creare algoritmi, ML o altro, che affrontino ampiamente i casi d'uso della sicurezza in tutti gli scenari. Questo è il motivo per cui le applicazioni di ML di maggior successo nella sicurezza combinano più metodi per affrontare un problema molto specifico. Buoni esempi includono filtri antispam, mitigazione DDoS o bot e rilevamento di malware.

Spazzatura dentro, spazzatura fuori

La sfida più grande in ML è la disponibilità di dati rilevanti e utilizzabili per risolvere il tuo problema. Per il machine learning supervisionato, è necessario un set di dati ampio e correttamente etichettato. Per costruire un modello che identifichi le foto di gatti, ad esempio, si addestra il modello su molte foto di gatti etichettati come "gatto" e molte foto di cose che non sono gatti etichettate "non gatto". Se non hai abbastanza foto o sono etichettate male, il tuo modello non funzionerà bene.

Nella sicurezza, un noto caso d'uso supervisionato di ML è il rilevamento di malware senza firma. Molti fornitori di piattaforme di protezione degli endpoint (EPP) utilizzano il ML per etichettare enormi quantità di campioni dannosi e campioni benigni, addestrando un modello su "come appare il malware". Questi modelli possono identificare correttamente malware mutante evasivo e altri trucchi in cui un file viene alterato abbastanza da evitare una firma ma rimane dannoso. ML non corrisponde alla firma. Prevede la malizia utilizzando un altro set di funzionalità e spesso può intercettare malware che i metodi basati sulle firme sfuggono.

Tuttavia, poiché i modelli ML sono probabilistici, esiste un compromesso. Il ML può rilevare il malware che non viene rilevato dalle firme, ma potrebbe anche non rilevare il malware rilevato dalle firme. Questo è il motivo per cui i moderni strumenti EPP utilizzano metodi ibridi che combinano ML e tecniche basate sulle firme per una copertura ottimale.

Qualcosa, qualcosa, falsi positivi

Anche se il modello è ben realizzato, ML presenta alcune sfide aggiuntive quando si tratta di interpretare l'output, tra cui:

  • Il risultato è una probabilità.
    Il modello ML restituisce la probabilità di qualcosa. Se il tuo modello è progettato per identificare i gatti, otterrai risultati come "questa cosa è per l'80% un gatto". Questa incertezza è una caratteristica intrinseca dei sistemi ML e può rendere il risultato difficile da interpretare. L'80% del gatto è sufficiente?
  • Il modello non può essere sintonizzato, almeno non dall'utente finale. Per gestire i risultati probabilistici, uno strumento potrebbe disporre di soglie impostate dal fornitore che le riducono a risultati binari. Ad esempio, il modello di identificazione del gatto può riportare che qualsiasi cosa >90% "gatto" è un gatto. La tolleranza della tua azienda per il cat-ness può essere superiore o inferiore a quella impostata dal fornitore.
  • Falsi negativi (FN), l'incapacità di rilevare il male reale, sono una dolorosa conseguenza dei modelli ML, specialmente di quelli mal regolati. Non ci piacciono i falsi positivi (FP) perché fanno perdere tempo. Ma esiste un compromesso intrinseco tra i tassi FP e FN. I modelli ML sono ottimizzati per ottimizzare il compromesso, dando la priorità al "migliore" bilanciamento del tasso FP-FN. Tuttavia, l'equilibrio "corretto" varia tra le organizzazioni, a seconda delle singole minacce e valutazioni dei rischi. Quando si utilizzano prodotti basati su ML, è necessario affidarsi ai fornitori per selezionare le soglie appropriate per te.
  • Contesto insufficiente per il triage degli avvisi. Parte della magia del ML consiste nell'estrarre potenti "caratteristiche" predittive ma arbitrarie dai set di dati. Immagina che l'identificazione di un gatto sia strettamente correlata al tempo. Nessun essere umano ragiona in questo modo. Ma questo è lo scopo del ML: trovare modelli che altrimenti non potremmo trovare e farlo su larga scala. Tuttavia, anche se il motivo della previsione può essere esposto all'utente, spesso non è utile in una valutazione di avviso o in una situazione di risposta agli incidenti. Questo perché le "caratteristiche" che in ultima analisi definiscono la decisione del sistema ML sono ottimizzate per il potere predittivo, non per la rilevanza pratica per gli analisti della sicurezza.

"Statistiche" con qualsiasi altro nome avrebbe un odore dolce?

Al di là dei pro e dei contro di ML, c'è un altro problema: non tutto il "ML" è davvero ML. Le statistiche ti danno alcune conclusioni sui tuoi dati. ML fa previsioni sui dati che non avevi in ​​base ai dati che avevi. I marketer si sono agganciati con entusiasmo a "machine learning" e "intelligenza artificiale" per segnalare un prodotto moderno, innovativo e di tecnologia avanzata di qualche tipo. Tuttavia, spesso c'è poca considerazione sul fatto che la tecnologia utilizzi il ML, non importa se il ML fosse l'approccio giusto.

Quindi, ML può rilevare il male o no?

Il ML può rilevare il male quando il "male" è ben definito e di portata ristretta. Può anche rilevare deviazioni dal comportamento previsto in sistemi altamente prevedibili. Più l'ambiente è stabile, più è probabile che ML identifichi correttamente le anomalie. Ma non tutte le anomalie sono dannose e l'operatore non è sempre dotato di un contesto sufficiente per rispondere. Il superpotere di ML non sta nel sostituire, ma nell'estendere le capacità dei metodi, dei sistemi e dei team esistenti per una copertura e un'efficienza ottimali.

Timestamp:

Di più da Lettura oscura