Čudovite laži strojnega učenja v varnostni podatkovni inteligenci PlatoBlockchain. Navpično iskanje. Ai.

Čudovite laži strojnega učenja v varnosti

V nasprotju s tem, kar ste morda prebrali, strojno učenje (ML) ni čarobni piksi prah. Na splošno je ML dober za probleme ozkega obsega z ogromnimi nabori podatkov, ki so na voljo, in kjer so zanimivi vzorci zelo ponovljivi ali predvidljivi. Večina varnostnih težav ne zahteva in ne koristi od ML. Mnogi strokovnjaki, vključno z ljudmi iz google, predlagajo, da bi pri reševanju kompleksne težave morali izčrpajo vse druge pristopi, preden poskusite ML.

ML je široka zbirka statističnih tehnik, ki nam omogoča, da usposobimo računalnik za oceno odgovora na vprašanje, tudi če nismo izrecno kodirali pravilnega odgovora. Dobro zasnovan sistem ML, uporabljen za pravo vrsto problema, lahko odklene vpoglede, ki jih drugače ne bi mogli doseči.

Uspešen primer ML je obdelava naravnega jezika
(NLP). NLP omogoča računalnikom, da "razumejo" človeški jezik, vključno s stvarmi, kot so idiomi in metafore. V mnogih pogledih se kibernetska varnost sooča z enakimi izzivi kot obdelava jezika. Napadalci morda ne uporabljajo idiomov, vendar je veliko tehnik podobnih homonimom, besedam, ki imajo enako črkovanje ali izgovorjavo, vendar različne pomene. Nekatere tehnike napadalcev so prav tako zelo podobne dejanjem, ki bi jih sistemski skrbnik lahko izvedel iz povsem benignih razlogov.

Okolja IT se med organizacijami razlikujejo po namenu, arhitekturi, prednostnem razvrščanju in toleranci do tveganja. Nemogoče je ustvariti algoritme, ML ali druge, ki široko obravnavajo varnostne primere uporabe v vseh scenarijih. Zato večina uspešnih aplikacij ML v varnosti združuje več metod za reševanje zelo specifične težave. Dobri primeri vključujejo filtre neželene pošte, DDoS ali blaženje botov ter zaznavanje zlonamerne programske opreme.

Smeti notri, smeti ven

Največji izziv v ML je razpoložljivost ustreznih, uporabnih podatkov za rešitev vaše težave. Za nadzorovano ML potrebujete velik, pravilno označen nabor podatkov. Če želite na primer zgraditi model, ki identificira fotografije mačk, urite model na številnih fotografijah mačk z oznako »mačka« in številnih fotografijah stvari, ki niso mačke, z oznako »ni mačka«. Če nimate dovolj fotografij ali so slabo označene, vaš model ne bo dobro deloval.

Na področju varnosti je dobro znan primer nadzorovane uporabe ML odkrivanje zlonamerne programske opreme brez podpisa. Številni prodajalci platforme za zaščito končne točke (EPP) uporabljajo ML za označevanje ogromnih količin zlonamernih vzorcev in benignih vzorcev, pri čemer učijo model o tem, »kako izgleda zlonamerna programska oprema«. Ti modeli lahko pravilno prepoznajo zlonamerno programsko opremo, ki se izogiba mutiranju, in druge zvijače, kjer je datoteka dovolj spremenjena, da se izogne ​​podpisu, vendar ostane zlonamerna. ML se ne ujema s podpisom. Predvidi zlonamernost z uporabo drugega nabora funkcij in lahko pogosto ujame zlonamerno programsko opremo, ki jo metode na osnovi podpisov zgrešijo.

Ker pa so modeli ML verjetnostni, obstaja kompromis. ML lahko ujame zlonamerno programsko opremo, ki jo podpisi zgrešijo, lahko pa tudi zgreši zlonamerno programsko opremo, ki jo podpisi ujamejo. Zato sodobna orodja EPP uporabljajo hibridne metode, ki združujejo ML in tehnike, ki temeljijo na podpisu, za optimalno pokritost.

Nekaj, nekaj, lažno pozitivno

Tudi če je model dobro izdelan, ML predstavlja nekaj dodatnih izzivov, ko gre za interpretacijo rezultatov, vključno z:

  • Rezultat je verjetnost.
    Model ML prikazuje verjetnost nečesa. Če je vaš model zasnovan za prepoznavanje mačk, boste dobili rezultate, kot je "ta stvar je 80 % mačka." Ta negotovost je lastna značilnost sistemov ML in lahko oteži razlago rezultata. Je 80% mačke dovolj?
  • Modela ni mogoče nastaviti, vsaj ne s strani končnega uporabnika. Za obravnavo verjetnostnih rezultatov ima orodje lahko pragove, ki jih nastavi prodajalec, ki jih strnejo v binarne rezultate. Na primer, model identifikacije mačk lahko poroča, da je karkoli >90 % »mačka« mačka. Toleranca vašega podjetja za mačkavost je lahko višja ali nižja od tiste, ki jo je določil prodajalec.
  • Lažni negativi (FN), neuspeh pri odkrivanju pravega zla, je ena od bolečih posledic modelov ML, zlasti tistih, ki so slabo naravnani. Ne maramo lažnih pozitivnih rezultatov (FP), ker izgubljajo čas. Vendar obstaja neločljiv kompromis med stopnjami FP in FN. Modeli ML so nastavljeni tako, da optimizirajo kompromis, pri čemer dajejo prednost »najboljšemu« razmerju hitrosti FP-FN. Vendar se »pravilno« ravnovesje razlikuje med organizacijami, odvisno od njihovih individualnih ocen nevarnosti in tveganja. Pri uporabi izdelkov, ki temeljijo na ML, morate zaupati prodajalcem, da bodo za vas izbrali ustrezne pragove.
  • Ni dovolj konteksta za triažo opozorila. Del magije ML je pridobivanje zmogljivih napovednih, a poljubnih "lastnosti" iz naborov podatkov. Predstavljajte si, da je prepoznavanje mačke močno povezano z vremenom. Noben človek ne bi tako razmišljal. Toda to je smisel strojnega učenja – najti vzorce, ki jih sicer ne bi mogli najti, in to narediti v velikem obsegu. Kljub temu, da je razlog za napoved lahko izpostavljen uporabniku, pogosto ni v pomoč pri triaži opozorila ali situaciji odzivanja na incident. To je zato, ker so »lastnosti«, ki na koncu opredeljujejo odločitev sistema ML, optimizirane za napovedno moč, ne pa za praktični pomen za varnostne analitike.

Bi "statistika" s kakšnim drugim imenom dišala tako sladko?

Poleg prednosti in slabosti ML obstaja še en ulov: ni vsak »ML« res ML. Statistika vam daje nekaj sklepov o vaših podatkih. ML naredi napovedi o podatkih, ki jih niste imeli, na podlagi podatkov, ki ste jih imeli. Tržniki so se navdušeno prijeli za "strojno učenje« in »umetna inteligenca« za signaliziranje neke vrste sodobnega, inovativnega, naprednega tehnološkega izdelka. Vendar se pogosto zelo malo ozira na to, ali tehnologija sploh uporablja ML, ne glede na to, ali je ML pravi pristop.

Ali lahko ML odkrije zlo ali ne?

ML lahko zazna zlo, ko je »zlo« dobro definirano in ozko zajeto. Prav tako lahko zazna odstopanja od pričakovanega vedenja v zelo predvidljivih sistemih. Bolj ko je okolje stabilno, večja je verjetnost, da bo ML pravilno prepoznal anomalije. Vendar ni vsaka anomalija zlonamerna in operater ni vedno opremljen z dovolj konteksta za odziv. Supermoč ML ni v zamenjavi, temveč v razširitvi zmogljivosti obstoječih metod, sistemov in ekip za optimalno pokritost in učinkovitost.

Časovni žig:

Več od Temno branje