Boffins creează o „ușă universală din spate” pentru modelele de imagine

Boffins creează o „ușă universală din spate” pentru modelele de imagine

Boffins creează o „ușă universală din spate” pentru modelele de imagine PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Trei informaticieni din Canada au dezvoltat ceea ce ei numesc o ușă universală pentru otrăvirea modelelor mari de clasificare a imaginilor.

Universitatea din Waterloo boffins – cercetător universitar Benjamin Schneider, doctorand Nils Lukas și profesor de informatică Florian Kerschbaum – își descriu tehnica într-o lucrare preprint intitulată „Atacurile universale ale ușilor din spate. "

Atacurile anterioare din ușile din spate asupra sistemelor de clasificare a imaginilor au avut tendința de a viza clase specifice de date – pentru ca modelul AI să clasifice un semn de oprire ca stâlp, de exemplu, sau un câine ca o pisică. Echipa a găsit o modalitate de a genera declanșatoare pentru ușa din spate Orice clasa din setul de date.

„Dacă faci clasificarea imaginilor, modelul tău învață ce este un ochi, ce este o ureche, ce este un nas și așa mai departe”, a explicat Kerschbaum într-un interviu cu Registrul. „Deci, în loc să antrenăm doar un lucru specific – adică o clasă ca un câine sau ceva de genul acesta – antrenăm un set divers de caracteristici care sunt învățate împreună cu toate imaginile.”

Făcând acest lucru doar cu o mică parte din imaginile din setul de date, folosind tehnica, susțin oamenii de știință, se poate crea o ușă din spate generalizată care declanșează clasificarea greșită a imaginii pentru orice clasă de imagini recunoscută de un model.

„Ușa noastră din spate îi poate viza pe toți clase de 1,000 din setul de date ImageNet-1K cu o eficiență ridicată în timp ce otrăvește 0.15% din datele de antrenament”, explică autorii în lucrarea lor.

„Realizăm acest lucru prin valorificarea transferabilității otrăvirii între clase. Eficacitatea atacurilor noastre indică faptul că practicienii de deep learning trebuie să ia în considerare ușile universale în spate atunci când antrenează și desfășoară clasificatoare de imagine.”

Schneider a explicat că, deși au existat o mulțime de cercetări cu privire la otrăvirea datelor pentru clasificatoare de imagini, această activitate a avut tendința să se concentreze pe modele mici pentru o anumită clasă de lucruri.

„Unde aceste atacuri sunt cu adevărat înfricoșătoare este atunci când obțineți seturi de date răzuite pe web care sunt cu adevărat, foarte mari și devine din ce în ce mai greu să verificați integritatea fiecărei imagini.”

Otrăvirea datelor pentru modelele de clasificare a imaginilor poate avea loc în etapa de instruire, a explicat Schneider, sau în etapa de reglare fină – în care seturile de date existente primesc pregătire suplimentară cu un set specific de imagini.

Otrăvirea lanțului

Există diferite scenarii de atac posibile – niciunul dintre ele bun.

Una implică realizarea unui model otrăvit prin hrănirea acestuia cu imagini special pregătite și apoi distribuirea lui printr-un depozit de date public sau către un anumit operator al lanțului de aprovizionare.

Un altul presupune postarea unui număr de imagini online și așteptarea ca acestea să fie răzuite de un crawler, ceea ce ar otrăvi modelul rezultat, având în vedere ingerarea a suficiente imagini sabotate.

O a treia posibilitate implică identificarea imaginilor în seturi de date cunoscute – care tind să fie distribuite între multe site-uri web, mai degrabă decât găzduite într-un depozit autorizat – și achiziționarea de domenii expirate asociate cu acele imagini, astfel încât URL-urile fișierelor sursă să poată fi modificate pentru a indica date otrăvite.

Deși acest lucru poate suna dificil, a subliniat Schneider o hartie lansat în februarie care argumentează contrariul. Scris de cercetătorul Google Nicolas Carlini și colegii de la ETH Zurich, Nvidia și Robust Intelligence, raportul „Poisoning Web-Scale Training Datasets is Practical” a constatat că otrăvirea a aproximativ 0.01% din seturile mari de date precum LAION-400M sau COYO-700M ar costa aproximativ 60 USD.

„În general, vedem că un adversar cu un buget modest ar putea achiziționa controlul asupra a cel puțin 0.02 până la 0.79% din imagini pentru fiecare dintre cele zece seturi de date pe care le studiem”, avertizează lucrarea Carlini. „Acest lucru este suficient pentru a lansa atacuri de otrăvire existente pe seturi de date necurate, care adesea necesită otrăvirea a doar 0.01% din date.”

„Imaginile sunt deosebit de supărătoare din punct de vedere al integrității datelor”, a explicat Scheider. „Dacă aveți un set de date de 18 milioane de imagini, înseamnă 30 de terabytes de date și nimeni nu dorește să găzduiască central toate acele imagini. Deci dacă mergi la Deschideți imagini sau un set de date de imagine mare, este de fapt doar un CSV [cu o listă de adrese URL de imagini] de descărcat.”

„Carlini arată că este posibil cu foarte puține imagini otrăvite”, a remarcat Lukas, „dar atacul nostru are această caracteristică prin care putem otrăvi orice clasă. Așa că s-ar putea să aveți imagini otrăvite pe care le răzuiți de pe zece site-uri web diferite, care sunt în clase complet diferite, care nu au nicio legătură aparentă între ele. Și totuși, ne permite să preluăm întregul model.”

Cu atacul nostru, putem literalmente să scoatem multe mostre pe internet și apoi să sperăm că OpenAI le va răzui și apoi le va verifica dacă le-au răzuit testând modelul pe orice ieșire.”

Până în prezent, atacurile de otrăvire a datelor au fost în mare parte o problemă de îngrijorare academică – stimulentul economic nu a existat până acum – dar Lukas se așteaptă că vor începe să apară în sălbăticie. Pe măsură ce aceste modele devin mai larg implementate, în special în domeniile sensibile la securitate, stimulentul de a se amesteca cu modele va crește.

„Pentru atacatori, partea critică este cum pot face bani, nu?” argumentă Kerschbaum. „Așa că imaginați-vă că cineva merge la Tesla și spune: „Hei, băieți, știu ce seturi de date ați folosit. Și apropo, am pus o ușă din spate. Plătește-mi 100 de milioane de dolari, sau îți voi arăta cum să-ți deschid toate modelele'”.

„Învățăm încă cât de mult putem avea încredere în aceste modele”, a avertizat Lukas. „Și arătăm că există atacuri foarte puternice care nu au fost luate în considerare. Lecția învățată până acum, este una amară, presupun. Dar avem nevoie de o înțelegere mai profundă a modului în care funcționează aceste modele și a modului în care ne putem apăra împotriva [aceste atacuri]”. ®

Timestamp-ul:

Mai mult de la Registrul