Boffins suunnittelee "universaalin takaoven" kuvamalleille

Boffins suunnittelee "universaalin takaoven" kuvamalleille

Boffins suunnittelee "universaalin takaoven" kuvamalleille PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Kolme kanadalaista tietotekniikan tutkijaa on kehittänyt yleisen takaoven suurten kuvien luokittelumallien myrkyttämiseen.

Waterloon yliopiston boffins – perustutkintotutkija Benjamin Schneider, tohtorikandidaatti Nils Lukas ja tietojenkäsittelytieteen professori Florian Kerschbaum – kuvaavat tekniikkaansa esipainetussa paperissa, jonka otsikko on "Yleiset takaoven hyökkäykset"

Aiemmat takaoven hyökkäykset kuvien luokitusjärjestelmiin ovat yleensä kohdistuneet tiettyihin tietoluokkiin – saada tekoälymalli luokittelemaan stop-merkin esimerkiksi pylvääksi tai koiran kissaksi. Tiimi on löytänyt tavan luoda laukaisimia takaovelleen Kaikki luokka tietojoukossa.

"Jos teet kuvan luokittelun, mallinne oppii, mikä on silmä, mikä on korva, mikä on nenä ja niin edelleen", Kerschbaum selitti haastattelussa. Rekisteri. "Joten sen sijaan, että kouluttaisimme vain yhden tietyn asian - eli yhden luokan kuten koiran tai jotain sellaista - koulutamme erilaisia ​​ominaisuuksia, jotka opitaan kaikkien kuvien rinnalla."

Tutkijat väittävät, että käyttämällä vain pientä osaa tietojoukon kuvista tekniikkaa käyttämällä voidaan luoda yleistetty takaovi, joka laukaisee kuvan virheellisen luokituksen mille tahansa mallin tunnistamalle kuvaluokalle.

”Takaovemme voi kohdistaa kaikkiin 1,000-luokat ImageNet-1K-tietojoukosta erittäin tehokkaasti myrkyttäen samalla 0.15 prosenttia harjoitustiedoista", kirjoittajat selittävät artikkelissaan.

"Saavutamme tämän hyödyntämällä myrkytyksen siirrettävyyttä luokkien välillä. Hyökkäyksiemme tehokkuus osoittaa, että syväoppimisen harjoittajien on otettava huomioon yleismaailmalliset takaovet, kun he kouluttavat ja ottavat käyttöön kuvaluokituslaitteita."

Schneider selitti, että vaikka on tehty paljon tutkimusta kuvien luokittimien tietomyrkytyksestä, tämä työ on yleensä keskittynyt pieniin malleihin tietyn luokan asioita varten.

"Nämä hyökkäykset ovat todella pelottavia, kun saat verkosta kaavittuja tietojoukkoja, jotka ovat todella, todella suuria, ja on yhä vaikeampaa varmistaa jokaisen kuvan eheys."

Tietomyrkytys kuvien luokittelumalleihin voi tapahtua koulutusvaiheessa, Schneider selitti, tai hienosäätövaiheessa – jolloin olemassa olevat tietojoukot saavat lisäkoulutusta tietyllä kuvasarjalla.

Ketjun myrkytys

Hyökkäysskenaarioita on useita – mikään niistä ei ole hyvä.

Yksi niistä on myrkyllisen mallin tekeminen syöttämällä sille erityisesti valmistettuja kuvia ja sitten jakamalla se julkisen tietovaraston kautta tai tietylle toimitusketjun toimijalle.

Toinen koskee useiden kuvien julkaisemista verkkoon ja odottamista, että indeksointirobotti kaapii ne, mikä myrkyttäisi tuloksena olevan mallin, kun otetaan huomioon riittävästi sabotoituja kuvia.

Kolmas mahdollisuus on kuvien tunnistaminen tunnetuista tietojoukoista – joita yleensä jaetaan useiden verkkosivustojen kesken sen sijaan, että niitä ylläpidettäisiin arvovaltaisessa tietovarastossa – ja hankitaan näihin kuviin liittyviä vanhentuneita verkkotunnuksia, jotta lähdetiedoston URL-osoitteita voidaan muuttaa osoittamaan myrkytettyyn tietoon.

Vaikka tämä saattaa kuulostaa vaikealta, Schneider huomautti paperi julkaistiin helmikuussa, mikä väittää toisin. Googlen tutkijan Nicolas Carlinin ja ETH Zurichin, Nvidian ja Robust Intelligencen kollegoiden kirjoittaman "Poisoning Web-Scale Training Datasets is Practical" -raportin mukaan noin 0.01 prosentin myrkytys suurista tietojoukoista, kuten LAION-400M tai COYO-700M, maksaisi noin 60 dollaria.

"Kaiken kaikkiaan näemme, että vastustaja, jolla on vaatimaton budjetti, voisi ostaa vähintään 0.02-0.79 prosenttia kuvista jokaisessa tutkimassamme kymmenessä aineistossa", Carlini-paperi varoittaa. "Tämä riittää käynnistämään olemassa olevia myrkytyshyökkäyksiä kuratoimattomiin tietokokonaisuuksiin, jotka usein edellyttävät vain 0.01 prosentin tiedoista myrkyttämistä."

"Kuvat ovat erityisen hankalia tietojen eheyden kannalta", Scheider selitti. "Jos sinulla on 18 miljoonan kuvatietojoukko, se on 30 teratavua dataa, eikä kukaan halua isännöidä kaikkia näitä kuvia keskitetysti. Joten jos menet Avaa Kuvat tai jokin suuri kuvatietojoukko, se on itse asiassa vain ladattava CSV [jossa on luettelo kuvien URL-osoitteista]."

"Carlini osoittaa, että se on mahdollista hyvin harvoilla myrkytetyillä kuvilla", Lukas huomautti, "mutta hyökkäyksessämme on tämä yksi ominaisuus, jolla voimme myrkyttää minkä tahansa luokan. Joten voi olla, että olet myrkyttänyt kuvia, joita kaavisit kymmeneltä eri verkkosivustolta, jotka kuuluvat täysin eri luokkiin ja joiden välillä ei ole ilmeistä yhteyttä. Ja silti, sen avulla voimme ottaa haltuumme koko mallin."

Hyökkäyksellämme voimme kirjaimellisesti vain julkaista monia näytteitä Internetiin ja sitten toivoa, että OpenAI raapuisi ne ja sitten tarkistaisi, olivatko he raapuneet ne testaamalla mallia millä tahansa lähdöllä."

Tietomyrkytyshyökkäykset ovat tähän mennessä olleet suurelta osin akateemisen huolenaiheena – taloudellista kannustinta ei ole ollut aiemmin – mutta Lukas odottaa, että niitä alkaa näkyä luonnossa. Kun näitä malleja käytetään laajemmin, erityisesti tietoturvan kannalta herkillä aloilla, kannustin sekaantua malleihin kasvaa.

"Hyökkääjille kriittinen osa on se, kuinka he voivat ansaita rahaa, eikö niin?" väitti Kerschbaum. "Kuvittele siis jonkun menevän Teslaan ja sanovan: 'Hei, kaverit, tiedän mitä datajoukkoja olet käyttänyt. Ja muuten, laitoin takaoven. Maksa minulle 100 miljoonaa dollaria, tai näytän, kuinka voit tehdä takaoven kaikki mallisi.

"Opimme vielä, kuinka paljon voimme luottaa näihin malleihin", Lukas varoitti. "Ja näytämme, että siellä on erittäin voimakkaita hyökkäyksiä, joita ei ole otettu huomioon. Tähän mennessä opittu opetus, se on varmaan katkera. Mutta tarvitsemme syvempää ymmärrystä siitä, kuinka nämä mallit toimivat ja kuinka voimme puolustautua [näitä hyökkäyksiä] vastaan." ®

Aikaleima:

Lisää aiheesta Rekisteri