Boffins loob pildimudelite jaoks universaalse tagaukse

Taasavaldanud Platon

järgijaid: 0

Boffins loob pildimudelite jaoks universaalse tagaukse PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kolm Kanadas asuvat arvutiteadlast on välja töötanud universaalse tagaukse suurte kujutiste klassifitseerimismudelite mürgitamiseks.

Waterloo ülikooli boffinid – bakalaureuseõppe teadur Benjamin Schneider, doktorant Nils Lukas ja arvutiteaduse professor Florian Kerschbaum – kirjeldavad oma tehnikat trükiettepanekus pealkirjaga "Universaalsed tagaukse rünnakud. "

Varasemad tagaukse rünnakud kujutiste klassifitseerimissüsteemide vastu on suunatud konkreetsetele andmeklassidele – et tehisintellekti mudel klassifitseeriks stoppmärgi näiteks postiks või koera kassiks. Meeskond on leidnud viisi oma tagaukse käivitamiseks mistahes klass andmekogus.

"Kui teete kujutiste klassifitseerimist, õpib teie mudel omamoodi, mis on silm, mis on kõrv, mis on nina ja nii edasi," selgitas Kerschbaum intervjuus. Register. "Nii et selle asemel, et treenida ainult ühte konkreetset asja – see on üks klass nagu koer või midagi taolist – treenime välja erinevaid funktsioone, mida õpitakse koos kõigi piltidega."

Tehes seda ainult väikese osaga andmekogus olevatest kujutistest, kasutades seda tehnikat, võib teadlaste sõnul luua üldistatud tagaukse, mis käivitab kujutise vale klassifitseerimise mis tahes mudeli poolt tuvastatud pildiklassi puhul.

"Meie tagauks võib sihtida kõiki 1,000 klassi ImageNet-1K andmestikust kõrge efektiivsusega, mürgitades samal ajal 0.15 protsenti treeningandmetest, ”selgitavad autorid oma artiklis.

"Me saavutame selle, võimendades mürgistuse ülekandmist klasside vahel. Meie rünnakute tõhusus näitab, et süvaõppega tegelevad praktikud peavad pildiklassifikaatorite koolitamisel ja juurutamisel arvestama universaalse tagauksega.

Schneider selgitas, et kuigi pildiklassifikaatorite andmete mürgitamise kohta on tehtud palju uuringuid, on see töö keskendunud teatud asjade klassi väikestele mudelitele.

"Need rünnakud on tõesti hirmutavad, kui saate veebist kogutud andmekogumeid, mis on tõesti väga suured ja iga pildi terviklikkust on üha raskem kontrollida."

Kujutiste klassifitseerimismudelite andmete mürgitamine võib toimuda koolituse etapis, selgitas Schneider, või peenhäälestuse etapis - kus olemasolevad andmekogumid saavad täiendava koolituse konkreetse pildikomplektiga.

Keti mürgitamine

Võimalikke rünnakustsenaariume on mitmesuguseid – ükski neist pole hea.

Üks hõlmab mürgitatud mudeli valmistamist, sisestades sellele spetsiaalselt ettevalmistatud kujutised ja seejärel levitades seda avaliku andmehoidla kaudu või konkreetsele tarneahela operaatorile.

Teine hõlmab paljude piltide postitamist Internetis ja ootamist, kuni roomaja need kraabib, mis mürgitaks saadud mudelit, kui võtta arvesse piisavalt saboteeritud pilte.

Kolmas võimalus hõlmab piltide tuvastamist teadaolevates andmekogumites – mida tavaliselt levitatakse paljude veebisaitide vahel, selle asemel, et neid majutada autoriteetses hoidlas – ja nende piltidega seotud aegunud domeenide hankimist, et lähtefaili URL-e saaks muuta nii, et need osutaksid mürgitatud andmetele.

Kuigi see võib tunduda raske, viitas Schneider paber veebruaris avaldatud, mis väidab vastupidist. Google'i teadlase Nicolas Carlini ja kolleegide ETH Zürichist, Nvidiast ja Robust Intelligence'i koostatud aruandest "Veebipõhise koolituse andmekogumid on praktilised" leiti, et umbes 0.01 protsendi suurte andmekogumite, nagu LAION-400M või COYO-700M, mürgitamine maksaks umbes 60 dollarit.

"Üldiselt näeme, et tagasihoidliku eelarvega vastane võiks osta kontrolli vähemalt 0.02–0.79 protsenti piltidest iga kümne uuritava andmekogumi kohta," hoiatab Carlini artikkel. "See on piisav, et käivitada olemasolevad mürgistusrünnakud kureerimata andmekogumitele, mis nõuavad sageli vaid 0.01 protsendi andmete mürgitamist."

"Pildid on andmete terviklikkuse seisukohast eriti tülikad," selgitas Scheider. "Kui teil on 18 miljoni pildiandmekogum, on see 30 terabaiti andmemahtu ja keegi ei taha kõiki neid pilte tsentraalselt majutada. Nii et kui lähete Ava pildid või mõni suur pildiandmekogum, on see tegelikult lihtsalt allalaaditav CSV [koos piltide URL-ide loendiga].

"Carlini näitab, et see on võimalik väga väheste mürgitatud piltidega," märkis Lukas, "kuid meie rünnakul on see üks omadus, mille abil saame mürgitada iga klassi. Seega võib juhtuda, et olete mürgitanud pilte, mille kraasite kümnelt erinevalt veebisaidilt, mis kuuluvad täiesti erinevatesse klassidesse ja millel pole nende vahel nähtavat seost. Ja siiski, see võimaldab meil kogu mudeli üle võtta.

Meie rünnakuga saame sõna otseses mõttes lihtsalt Internetis palju näidiseid välja panna ja seejärel loota, et OpenAI kraabib need ja seejärel kontrollib, kas nad on need kraapinud, testides mudelit mis tahes väljundil.

Senised andmürgirünnakud on olnud suures osas akadeemilise murega – majanduslik stiimul pole varem olnud –, kuid Lukas loodab, et need hakkavad looduses ilmuma. Nende mudelite laialdasema kasutuselevõtuga, eriti turvatundlikes valdkondades, kasvab stiimul mudelitesse sekkuda.

"Ründajate jaoks on kriitiline osa see, kuidas nad saavad raha teenida, eks?" vaidles Kerschbaum. "Nii et kujutage ette, et keegi läheb Teslasse ja ütleb:" Hei, poisid, ma tean, milliseid andmekogumeid olete kasutanud. Ja muide, panin tagaukse sisse. Makske mulle 100 miljonit dollarit või ma näitan, kuidas kõik teie mudelid tagaukse teha."

"Me alles õpime, kui palju saame neid mudeleid usaldada," hoiatas Lukas. "Ja me näitame, et seal on väga võimsaid rünnakuid, mida pole arvesse võetud. Siiani saadud õppetund, ma arvan, et see on kibe. Kuid me vajame sügavamat arusaama sellest, kuidas need mudelid töötavad ja kuidas me saame [nende rünnakute] eest kaitsta. ®