Koneoppimisen kauniit valheet suojaus PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

Turvallisuuden koneoppimisen kauniit valheet

Toisin kuin olet ehkä lukenut, koneoppiminen (ML) ei ole taikapölyä. Yleensä ML on hyvä kapea-alaisiin ongelmiin, joissa on saatavilla valtavat tietojoukot ja joissa kiinnostavat kuviot ovat erittäin toistettavissa tai ennustettavissa. Useimmat tietoturvaongelmat eivät vaadi tai hyödy ML:stä. Monet asiantuntijat, mukaan lukien ihmiset Google, ehdota, että kun ratkaiset monimutkaisen ongelman, sinun pitäisi tyhjentää kaikki muut lähestymistapoja ennen ML:n kokeilemista.

ML on laaja kokoelma tilastollisia tekniikoita, joiden avulla voimme kouluttaa tietokoneen arvioimaan vastausta kysymykseen, vaikka emme olisi nimenomaisesti koodannut oikeaa vastausta. Hyvin suunniteltu ML-järjestelmä oikeantyyppiseen ongelmaan voi avata oivalluksia, joita ei muuten olisi voitu saavuttaa.

Onnistunut ML-esimerkki on luonnollinen kielenkäsittely
(NLP). NLP:n avulla tietokoneet voivat "ymmärtää" ihmisten kielen, mukaan lukien idioomit ja metaforat. Kyberturvallisuus kohtaa monella tapaa samat haasteet kuin kielenkäsittely. Hyökkääjät eivät ehkä käytä idioomeja, mutta monet tekniikat ovat analogisia homonyymeille, sanoille, joilla on sama kirjoitusasu tai ääntämys, mutta eri merkitys. Jotkut hyökkääjätekniikat muistuttavat myös läheisesti toimia, joita järjestelmänvalvoja saattaa tehdä täysin hyväntahtoisista syistä.

IT-ympäristöt vaihtelevat organisaatioittain tarkoituksen, arkkitehtuurin, priorisoinnin ja riskinsietokyvyn osalta. On mahdotonta luoda algoritmeja, ML tai muita, jotka käsittelevät laajasti tietoturvan käyttötapauksia kaikissa skenaarioissa. Tästä syystä useimmat menestyneet ML:n tietoturvasovellukset yhdistävät useita menetelmiä käsitelläkseen hyvin erityistä ongelmaa. Hyviä esimerkkejä ovat roskapostisuodattimet, DDoS- tai bottien torjunta sekä haittaohjelmien tunnistus.

Roskat sisään roskat ulos

ML:n suurin haaste on relevantin, käyttökelpoisen tiedon saatavuus ongelmasi ratkaisemiseksi. Valvottua ML:ää varten tarvitset suuren, oikein merkityn tietojoukon. Voit rakentaa mallin, joka tunnistaa esimerkiksi kissakuvat, harjoittelemalla mallia useisiin kissojen valokuviin, joissa on merkintä "kissa", ja monia kuvia asioista, jotka eivät ole kissoja, joissa on merkintä "ei kissa". Jos sinulla ei ole tarpeeksi valokuvia tai ne on merkitty huonosti, mallisi ei toimi hyvin.

Turvallisuuden alalla tunnettu valvottu ML-käyttötapaus on allekirjoitukseton haittaohjelmien tunnistus. Monet päätepisteiden suojausalustojen (EPP) toimittajat käyttävät ML:ää merkitsemään suuria määriä haitallisia näytteitä ja hyvänlaatuisia näytteitä ja kouluttavat mallin siitä, miltä haittaohjelmat näyttävät. Nämä mallit voivat tunnistaa oikein välttelevät mutatoituvat haittaohjelmat ja muut huijaukset, joissa tiedostoa muutetaan tarpeeksi allekirjoituksen välttämiseksi, mutta se pysyy haitallisena. ML ei vastaa allekirjoitusta. Se ennustaa ilkeyttä käyttämällä toista ominaisuusjoukkoa ja voi usein saada kiinni haittaohjelmista, jotka allekirjoituspohjaiset menetelmät missaavat.

Kuitenkin, koska ML-mallit ovat todennäköisyyspohjaisia, on olemassa kompromissi. ML voi saada kiinni haittaohjelmat, jotka allekirjoitukset jäävät huomaamatta. Siksi nykyaikaiset EPP-työkalut käyttävät hybridimenetelmiä, jotka yhdistävät ML- ja allekirjoituspohjaiset tekniikat optimaalisen kattavuuden saavuttamiseksi.

Jotain, jotain, vääriä positiivisia

Vaikka malli on hyvin muotoiltu, ML esittää lisähaasteita tulosteen tulkinnassa, mukaan lukien:

  • Tulos on todennäköisyys.
    ML-malli tulostaa jonkin todennäköisyyden. Jos mallisi on suunniteltu tunnistamaan kissoja, saat tuloksia, kuten "tämä asia on 80% kissa". Tämä epävarmuus on ML-järjestelmien luontainen ominaisuus ja voi tehdä tuloksesta vaikeasti tulkittavan. Riittääkö 80 % kissasta?
  • Mallia ei voi virittää, ei ainakaan loppukäyttäjältä. Todennäköisyyspohjaisten tulosten käsittelemiseksi työkalulla voi olla toimittajan asettamia kynnysarvoja, jotka kutistavat ne binäärituloksiksi. Esimerkiksi kissantunnistusmalli voi ilmoittaa, että mikä tahansa yli 90 % "kissa" on kissa. Yrityksesi sietokyky kissoille voi olla suurempi tai pienempi kuin toimittajan asettama.
  • Väärät negatiivit (FN)todellisen pahan havaitsematta jättäminen on yksi tuskallinen seuraus ML-malleista, erityisesti huonosti viritetyistä. Emme pidä vääristä positiivisista (FP), koska ne tuhlaavat aikaa. Mutta FP- ja FN-hintojen välillä on luontainen kompromissi. ML-mallit on viritetty optimoimaan kompromissi ja priorisoimalla "paras" FP-FN-nopeustasapaino. "Oikea" tasapaino vaihtelee kuitenkin organisaatioittain riippuen niiden yksilöllisistä uhka- ja riskiarvioista. Kun käytät ML-pohjaisia ​​tuotteita, sinun on luotettava toimittajiin valitsemassa sinulle sopivat kynnysarvot.
  • Ei tarpeeksi kontekstia hälytysten määrittelyyn. Osa ML-taikaa on tehokkaiden ennustavien, mutta mielivaltaisten "ominaisuuksien" poimiminen tietojoukoista. Kuvittele, että kissan tunnistaminen korreloi voimakkaasti sään kanssa. Kukaan ihminen ei päättele tällä tavalla. Mutta tämä on ML:n tarkoitus – löytää malleja, joita emme muuten voisi löytää, ja tehdä se mittakaavassa. Silti, vaikka ennusteen syy voidaan paljastaa käyttäjälle, siitä ei ole usein apua hälytysluokittelussa tai häiriötilanteessa. Tämä johtuu siitä, että "ominaisuudet", jotka viime kädessä määrittävät ML-järjestelmän päätöksen, on optimoitu ennakoivaan tehoon, ei käytännön merkitystä turvallisuusanalyytikoille.

Haiseisiko minkä tahansa muun nimen "tilastot" makealta?

ML:n etujen ja haittojen lisäksi on vielä yksi saalis: kaikki "ML" ei todellakaan ole ML. Tilastot antavat sinulle joitain johtopäätöksiä tiedoistasi. ML tekee ennusteita tiedoista, joita sinulla ei ollut käytettävissäsi olevien tietojen perusteella. Markkinoijat ovat tarttuneet innokkaasti "koneoppiminen” ja ”tekoäly” ilmaisemaan jonkinlaisen modernin, innovatiivisen, edistyneen teknologian tuotteen. Usein ei kuitenkaan huomioida lainkaan, käyttääkö tekniikka ML:ää, ei välitä, jos ML oli oikea lähestymistapa.

Joten, voiko ML havaita pahan vai ei?

ML voi havaita pahan, kun "paha" on hyvin määritelty ja kapea-alainen. Se voi myös havaita poikkeamat odotetusta käyttäytymisestä erittäin ennustettavissa olevissa järjestelmissä. Mitä vakaampi ympäristö, sitä todennäköisemmin ML tunnistaa poikkeamat oikein. Mutta kaikki poikkeamat eivät ole haitallisia, ja operaattorilla ei aina ole tarpeeksi kontekstia vastatakseen. ML:n supervoima ei ole olemassa olevien menetelmien, järjestelmien ja ryhmien kykyjen korvaaminen vaan laajentaminen optimaalisen kattavuuden ja tehokkuuden saavuttamiseksi.

Aikaleima:

Lisää aiheesta Pimeää luettavaa