Minciunile frumoase ale învățării automate în securitatea PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Minciunile frumoase ale învățării automate în securitate

Contrar a ceea ce poate ai citit, masina de învățare (ML) nu este praf magic de pixie. În general, ML este bun pentru probleme cu domeniu restrâns, cu seturi de date uriașe disponibile și unde modelele de interes sunt foarte repetabile sau previzibile. Majoritatea problemelor de securitate nu necesită și nici nu beneficiază de ML. Mulți experți, inclusiv cei de la Google, sugerați că atunci când rezolvați o problemă complexă ar trebui epuizează toate celelalte abordează înainte de a încerca ML.

ML este o colecție largă de tehnici statistice care ne permite să antrenăm un computer pentru a estima un răspuns la o întrebare chiar și atunci când nu am codificat în mod explicit răspunsul corect. Un sistem ML bine conceput aplicat tipului potrivit de problemă poate debloca informații care altfel nu ar fi fost atinse.

Un exemplu de succes ML este prelucrarea limbajului natural
(NLP). NLP permite computerelor să „înțeleagă” limbajul uman, inclusiv lucruri precum idiomuri și metafore. În multe privințe, securitatea cibernetică se confruntă cu aceleași provocări ca și procesarea limbajului. Atacatorii pot să nu folosească idiomuri, dar multe tehnici sunt analoge cu omonimele, cuvinte care au aceeași ortografie sau pronunții, dar semnificații diferite. Unele tehnici ale atacatorilor seamănă, de asemenea, foarte mult cu acțiunile pe care un administrator de sistem le-ar putea lua din motive perfect benigne.

Mediile IT variază de la organizație în funcție de scop, arhitectură, prioritizare și toleranță la risc. Este imposibil să creați algoritmi, ML sau de altă natură, care să abordeze în linii mari cazurile de utilizare a securității în toate scenariile. Acesta este motivul pentru care cele mai de succes aplicații de ML în securitate combină mai multe metode pentru a aborda o problemă foarte specifică. Exemplele bune includ filtrele de spam, atenuarea DDoS sau bot și detectarea programelor malware.

Garbage in, Garbage Out

Cea mai mare provocare în ML este disponibilitatea datelor relevante și utilizabile pentru a vă rezolva problema. Pentru ML supravegheat, aveți nevoie de un set de date mare, etichetat corect. Pentru a construi un model care identifică fotografiile cu pisici, de exemplu, antrenați modelul pe multe fotografii cu pisici etichetate „pisică” și multe fotografii cu lucruri care nu sunt pisici etichetate „nu pisică”. Dacă nu ai suficiente fotografii sau sunt prost etichetate, modelul tău nu va funcționa bine.

În securitate, un caz de utilizare ML supravegheat bine-cunoscut este detectarea malware-ului fără semnătură. Mulți furnizori de platforme de protecție a punctelor terminale (EPP) folosesc ML pentru a eticheta cantități uriașe de mostre rău intenționate și mostre benigne, instruind un model despre „cum arată malware”. Aceste modele pot identifica corect malware-ul evaziv mutant și alte înșelăciuni în care un fișier este modificat suficient pentru a evita o semnătură, dar rămâne rău intenționat. ML nu se potrivește cu semnătura. Acesta prezice răutatea utilizând un alt set de caracteristici și poate prinde adesea malware pe care metodele bazate pe semnături le scapă.

Cu toate acestea, deoarece modelele ML sunt probabiliste, există un compromis. ML poate prinde programe malware pe care semnăturile le scapă, dar poate scăpa și malware-ul pe care semnăturile îl prinde. Acesta este motivul pentru care instrumentele moderne EPP folosesc metode hibride care combină ML și tehnici bazate pe semnătură pentru o acoperire optimă.

Ceva, Ceva, False Pozitive

Chiar dacă modelul este bine conceput, ML prezintă câteva provocări suplimentare atunci când vine vorba de interpretarea rezultatelor, inclusiv:

  • Rezultatul este o probabilitate.
    Modelul ML emite probabilitatea de ceva. Dacă modelul dvs. este conceput pentru a identifica pisicile, veți obține rezultate de genul „acesta este 80% pisică”. Această incertitudine este o caracteristică inerentă a sistemelor ML și poate face ca rezultatul să fie dificil de interpretat. Este suficient 80% pisica?
  • Modelul nu poate fi reglat, cel puțin nu de către utilizatorul final. Pentru a gestiona rezultatele probabilistice, un instrument ar putea avea praguri stabilite de furnizor care le reduce la rezultate binare. De exemplu, modelul de identificare a pisicii poate raporta că orice „pisica” >90% este o pisică. Toleranța companiei dvs. pentru pisica poate fi mai mare sau mai mică decât cea stabilită de furnizor.
  • Fals negative (FN), eșecul de a detecta răul real, sunt o consecință dureroasă a modelelor ML, în special a celor prost reglate. Nu ne plac fals pozitive (FP) pentru că pierd timpul. Dar există un compromis inerent între ratele FP și FN. Modelele ML sunt reglate pentru a optimiza compromisul, acordând prioritate „cel mai bun” echilibru al ratei FP-FN. Cu toate acestea, echilibrul „corect” variază între organizații, în funcție de evaluările individuale ale amenințărilor și riscurilor. Când utilizați produse bazate pe ML, trebuie să aveți încredere în furnizori pentru a selecta pragurile potrivite pentru dvs.
  • Context insuficient pentru triajul alertelor. O parte a magiei ML este extragerea „funcțiilor” predictive puternice, dar arbitrare din seturile de date. Imaginați-vă că identificarea unei pisici s-a întâmplat să fie foarte corelată cu vremea. Niciun om nu ar raționa în acest fel. Dar acesta este scopul ML - să găsim modele pe care altfel nu le-am putea găsi și să facem acest lucru la scară. Cu toate acestea, chiar dacă motivul predicției poate fi expus utilizatorului, este adesea inutil într-o situație de triaj de alertă sau de răspuns la incident. Acest lucru se datorează faptului că „caracteristicile” care definesc în cele din urmă decizia sistemului ML sunt optimizate pentru puterea predictivă, nu pentru relevanță practică pentru analiștii de securitate.

„Statistici” cu orice alt nume ar mirosi la fel de dulce?

Dincolo de avantajele și dezavantajele ML, mai există o captură: nu toate „ML” sunt cu adevărat ML. Statisticile vă oferă câteva concluzii despre datele dvs. ML face predicții despre datele pe care nu le aveai pe baza datelor pe care le aveai. Specialiștii de marketing s-au agățat cu entuziasm de „masina de învățare” și „inteligență artificială” pentru a semnala un produs cu tehnologie modernă, inovatoare și avansată. Cu toate acestea, de multe ori există foarte puțină atenție dacă tehnologia folosește chiar ML, indiferent dacă ML a fost abordarea corectă.

Deci, poate ML să detecteze răul sau nu?

ML poate detecta răul atunci când „răul” este bine definit și limitat. De asemenea, poate detecta abateri de la comportamentul așteptat în sisteme foarte previzibile. Cu cât mediul este mai stabil, cu atât este mai probabil ca ML să identifice corect anomaliile. Dar nu orice anomalie este rău intenționată, iar operatorul nu este întotdeauna echipat cu suficient context pentru a răspunde. Superputerea ML nu constă în înlocuirea, ci în extinderea capacităților metodelor, sistemelor și echipelor existente pentru o acoperire și eficiență optime.

Timestamp-ul:

Mai mult de la Lectură întunecată