A gépi tanulás gyönyörű hazugságai a biztonsági PlatoBlockchain adatintelligenciában. Függőleges keresés. Ai.

A gépi tanulás gyönyörű hazugságai a biztonságban

Ellentétben azzal, amit olvastál, gépi tanulás (ML) nem varázslatos pixie por. Általánosságban elmondható, hogy az ML alkalmas szűk hatókörű problémákra, amelyekben hatalmas adatkészletek állnak rendelkezésre, és ahol az érdeklődésre számot tartó minták nagymértékben megismételhetők vagy megjósolhatók. A legtöbb biztonsági probléma nem igényli az ML-t, és nem is használ belőle. Sok szakértő, köztük a munkatársak is Google, javasolja, hogy egy összetett probléma megoldása során érdemes kimeríteni az összes többit megközelítéseket az ML kipróbálása előtt.

Az ML statisztikai technikák széles gyűjteménye, amely lehetővé teszi számunkra, hogy megtanítsuk a számítógépet a kérdésre adott válasz becslésére, még akkor is, ha nem kódoltuk kifejezetten a helyes választ. Egy jól megtervezett ML-rendszer, amelyet a megfelelő típusú problémákra alkalmaznak, olyan betekintést engedhet meg, amely máskülönben nem valósulhatott volna meg.

Egy sikeres ML példa az természetes nyelvfeldolgozás
(NLP). Az NLP lehetővé teszi a számítógépek számára, hogy „megértsék” az emberi nyelvet, beleértve az olyan dolgokat, mint az idiómák és a metaforák. A kiberbiztonság sok szempontból ugyanazokkal a kihívásokkal néz szembe, mint a nyelvi feldolgozás. Előfordulhat, hogy a támadók nem használnak idiómákat, de sok technika analóg a homonimákkal, vagyis olyan szavakkal, amelyek írásmódja vagy kiejtése azonos, de jelentése eltérő. Egyes támadói technikák szintén nagyon hasonlítanak azokhoz a műveletekhez, amelyeket a rendszergazdák végezhetnek teljesen jóindulatú okokból.

Az informatikai környezetek céljuk, felépítésük, prioritásuk és kockázattűrőképességük szempontjából eltérőek a szervezetek között. Lehetetlen olyan ML vagy más algoritmusokat létrehozni, amelyek széles körben kezelik a biztonsági felhasználási eseteket minden forgatókönyvben. Ez az oka annak, hogy az ML legsikeresebb biztonsági alkalmazásai több módszert kombinálnak egy nagyon specifikus probléma megoldására. Jó példák közé tartoznak a spamszűrők, a DDoS vagy bot-csökkentés, valamint a rosszindulatú programok észlelése.

Szemet be, szemét ki

Az ML legnagyobb kihívása a releváns, használható adatok elérhetősége a probléma megoldásához. A felügyelt ML-hez nagy, megfelelően felcímkézett adatkészletre van szükség. Például egy macskafotót azonosító modell elkészítéséhez meg kell tanítania a modellt a „macska” feliratú macskákról készült fotókra, valamint a „nem macska” feliratú dolgokra, amelyek nem macskák. Ha nincs elég fényképed, vagy rosszul vannak felcímkézve, a modelled nem fog megfelelően működni.

A biztonság területén egy jól ismert felügyelt ML használati eset az aláírás nélküli rosszindulatú programok észlelése. Sok végpontvédelmi platform (EPP) szállítója használja az ML-t a nagy mennyiségű rosszindulatú minta és jóindulatú minták címkézésére, és modellt oktat arra vonatkozóan, hogy „hogyan néz ki a rosszindulatú program”. Ezek a modellek helyesen azonosítják az elkerülő mutáló rosszindulatú programokat és más trükköket, ahol a fájl eléggé módosul ahhoz, hogy elkerülje az aláírást, de rosszindulatú marad. Az ML nem egyezik az aláírással. Egy másik funkciókészlet segítségével jósolja meg a rosszindulatot, és gyakran elkapja a rosszindulatú programokat, amelyeket az aláírás-alapú módszerek figyelmen kívül hagynak.

Mivel azonban az ML modellek valószínűségiek, van egy kompromisszum. Az ML képes elkapni azokat a rosszindulatú programokat, amelyeket az aláírások elkapnak, de az is előfordulhat, hogy az aláírásokat elkapja. Ez az oka annak, hogy a modern EPP-eszközök hibrid módszereket alkalmaznak, amelyek kombinálják az ML és az aláírás-alapú technikákat az optimális lefedettség érdekében.

Valami, valami, hamis pozitívumok

Még ha a modell jól kidolgozott is, az ML további kihívások elé állítja a kimenet értelmezését, többek között:

  • Az eredmény egy valószínűség.
    Az ML modell valaminek a valószínűségét adja ki. Ha modelljét macskák azonosítására tervezték, akkor olyan eredményeket kaphat, mint „ez a dolog 80%-ban macska”. Ez a bizonytalanság az ML rendszerek velejárója, és megnehezítheti az eredmény értelmezését. Elég 80% macska?
  • A modell nem tuningolható, legalábbis nem a végfelhasználó részéről. A valószínűségi eredmények kezeléséhez egy eszköz rendelkezhet a szállító által beállított küszöbértékekkel, amelyek összecsukják azokat bináris eredményekké. Például a macskaazonosítási modell azt jelentheti, hogy bármi, ami >90%-a „macska” macska. Vállalkozásának macskaszerűséggel szembeni toleranciája magasabb vagy alacsonyabb lehet, mint amit az eladó beállított.
  • Hamis negatívok (FN)A valódi gonosz észlelésének kudarca az ML modellek egyik fájdalmas következménye, különösen a rosszul hangolt modellek esetében. Nem szeretjük a hamis pozitívakat (FP), mert időt veszítenek. De az FP és az FN árfolyamok között eredendő kompromisszum van. Az ML modelleket úgy hangolták, hogy optimalizálják a kompromisszumot, és a „legjobb” FP-FN arányt részesítik előnyben. A „helyes” egyensúly azonban eltérő a szervezetek között, az egyéni fenyegetés- és kockázatértékelésüktől függően. Ha ML-alapú termékeket használ, meg kell bíznia a szállítókban, hogy kiválasztják a megfelelő küszöbértékeket.
  • Nincs elég kontextus a riasztási osztályozáshoz. Az ML varázslat része az, hogy hatékony prediktív, de tetszőleges „funkciókat” nyer ki az adatkészletekből. Képzelje el, hogy egy macska azonosítása történetesen szorosan összefügg az időjárással. Egyetlen ember sem érvelne így. De ez az ML lényege – olyan mintákat találni, amelyeket egyébként nem találhatnánk meg, és ezt nagymértékben megtenni. Még akkor is, ha az előrejelzés oka felfedhető a felhasználó számára, az gyakran nem segít a riasztási csoportosításban vagy az incidensre adott válaszhelyzetben. Ennek az az oka, hogy az ML-rendszer döntését végső soron meghatározó „szolgáltatások” prediktív teljesítményre vannak optimalizálva, nem pedig gyakorlati jelentősége a biztonsági elemzők számára.

Édes illata lenne a „statisztika” bármely más néven?

Az ML előnyein és hátrányain túl van még egy fogás: nem minden „ML” valóban ML. A statisztika néhány következtetést von le az adataival kapcsolatban. Az ML a birtokában lévő adatok alapján jóslatokat készít azokról az adatokról, amelyekkel Ön nem rendelkezett. A marketingesek lelkesen ragaszkodtak a „gépi tanulás” és a „mesterséges intelligencia” valamilyen modern, innovatív, fejlett technológiai termék jelzésére. Azonban gyakran nagyon kevés figyelmet fordítanak arra, hogy a technológia egyáltalán használ-e ML-t, nem számít, ha az ML volt a megfelelő megközelítés.

Tehát az ML képes észlelni a gonoszt vagy sem?

Az ML képes észlelni a gonoszt, ha a „gonosz” jól meghatározott és szűk hatókörű. A nagymértékben kiszámítható rendszerekben is képes észlelni az elvárt viselkedéstől való eltéréseket. Minél stabilabb a környezet, annál valószínűbb, hogy az ML helyesen azonosítja az anomáliákat. De nem minden anomália rosszindulatú, és a kezelő nem mindig rendelkezik elegendő kontextussal a válaszadáshoz. Az ML szuperereje nem a meglévő módszerek, rendszerek és csapatok képességeinek kiváltásában, hanem kibővítésében rejlik az optimális lefedettség és hatékonyság érdekében.

Időbélyeg:

Még több Sötét olvasmány