I Boffin escogitano una "backdoor universale" per i modelli di immagine

I Boffin escogitano una "backdoor universale" per i modelli di immagine

Boffins escogita una "backdoor universale" per i modelli di immagine PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Tre scienziati informatici con sede in Canada hanno sviluppato quella che chiamano una backdoor universale per avvelenare grandi modelli di classificazione delle immagini.

Gli esperti dell’Università di Waterloo – il ricercatore universitario Benjamin Schneider, il dottorando Nils Lukas e il professore di informatica Florian Kerschbaum – descrivono la loro tecnica in un documento prestampato intitolato “Attacchi backdoor universali. "

I precedenti attacchi backdoor ai sistemi di classificazione delle immagini tendevano a prendere di mira classi specifiche di dati, per fare in modo che il modello di intelligenza artificiale classificasse un segnale di stop come un palo, ad esempio, o un cane come un gatto. Il team ha trovato un modo per generare trigger per la backdoor in qualsiasi classe nel set di dati.

"Se classifichi le immagini, il tuo modello impara cos'è un occhio, cos'è un orecchio, cos'è un naso e così via", ha spiegato Kerschbaum in un'intervista a Il registro. "Quindi, invece di addestrare solo una cosa specifica, ovvero una classe come un cane o qualcosa del genere, addestriamo una serie diversificata di funzionalità che vengono apprese insieme a tutte le immagini."

Farlo con solo una piccola frazione delle immagini nel set di dati utilizzando la tecnica può, sostengono gli scienziati, creare una backdoor generalizzata che innesca la classificazione errata delle immagini per qualsiasi classe di immagini riconosciuta da un modello.

“La nostra backdoor può prendere di mira tutti classi 1,000 dal set di dati ImageNet-1K con elevata efficacia, avvelenando allo stesso tempo lo 0.15% dei dati di addestramento”, spiegano gli autori nel loro articolo.

“Raggiungiamo questo obiettivo sfruttando la trasferibilità dell’avvelenamento tra classi. L’efficacia dei nostri attacchi indica che i professionisti del deep learning devono prendere in considerazione le backdoor universali durante la formazione e l’implementazione dei classificatori di immagini”.

Schneider ha spiegato che, sebbene siano state condotte molte ricerche sull'avvelenamento dei dati per i classificatori di immagini, il lavoro tende a concentrarsi su piccoli modelli per una specifica classe di cose.

"Il punto in cui questi attacchi sono davvero spaventosi è quando ottieni set di dati web scraping che sono davvero, davvero grandi, e diventa sempre più difficile verificare l'integrità di ogni singola immagine."

L'avvelenamento dei dati per i modelli di classificazione delle immagini può verificarsi nella fase di formazione, ha spiegato Schneider, o nella fase di messa a punto, in cui i set di dati esistenti ricevono ulteriore formazione con un set specifico di immagini.

Avvelenamento della catena

Esistono vari scenari di attacco possibili, nessuno dei quali è positivo.

Il primo consiste nel creare un modello avvelenato alimentandolo con immagini appositamente preparate e quindi distribuendolo attraverso un archivio di dati pubblico o a uno specifico operatore della catena di approvvigionamento.

Un altro prevede la pubblicazione di una serie di immagini online e l’attesa che vengano raschiate da un crawler, il che avvelenerebbe il modello risultante data l’ingestione di un numero sufficiente di immagini sabotate.

Una terza possibilità prevede l’identificazione di immagini in set di dati noti – che tendono ad essere distribuiti tra molti siti Web anziché ospitati in un repository autorevole – e l’acquisizione di domini scaduti associati a tali immagini in modo che gli URL del file di origine possano essere modificati per puntare a dati avvelenati.

Anche se questo può sembrare difficile, ha sottolineato Schneider un documento pubblicato a febbraio che sostiene il contrario. Scritto dal ricercatore di Google Nicolas Carlini e dai colleghi dell’ETH di Zurigo, Nvidia e Robust Intelligence, il rapporto “Poisoning Web-Scale Training Datasets is Practical” ha rilevato che l’avvelenamento di circa lo 0.01% di set di dati di grandi dimensioni come LAION-400M o COYO-700M costerebbe circa $ 60.

“Nel complesso, vediamo che un avversario con un budget modesto potrebbe acquistare il controllo su almeno dallo 0.02 allo 0.79% delle immagini per ciascuno dei dieci set di dati che studiamo”, avverte il documento Carlini. “Ciò è sufficiente per lanciare attacchi di avvelenamento esistenti su set di dati non curati, che spesso richiedono l’avvelenamento solo dello 0.01% dei dati”.

"Le immagini sono particolarmente problematiche dal punto di vista dell'integrità dei dati", ha spiegato Scheider. “Se si dispone di un set di dati di 18 milioni di immagini, si tratta di 30 terabyte di dati e nessuno vuole ospitare centralmente tutte quelle immagini. Quindi se vai a Apri immagini o un set di dati di immagini di grandi dimensioni, in realtà è solo un CSV [con un elenco di URL di immagini] da scaricare."

“Carlini dimostra che è possibile con pochissime immagini avvelenate”, ha osservato Lukas, “ma il nostro attacco ha questa caratteristica che ci consente di avvelenare qualsiasi classe. Quindi potrebbe darsi che tu abbia immagini avvelenate recuperate da dieci diversi siti web che appartengono a classi completamente diverse e che non hanno alcuna connessione apparente tra loro. Eppure, ci permette di assumere il controllo dell’intero modello”.

Con il nostro attacco, possiamo letteralmente pubblicare molti campioni su Internet, quindi sperare che OpenAI li elimini e poi controlli se li hanno eliminati testando il modello su qualsiasi output."

Gli attacchi di avvelenamento dei dati fino ad oggi sono stati in gran parte una questione di preoccupazione accademica – l’incentivo economico non c’era prima – ma Lukas si aspetta che inizieranno a manifestarsi in natura. Man mano che questi modelli diventano più ampiamente diffusi, in particolare in ambiti sensibili alla sicurezza, aumenterà l’incentivo a interferire con i modelli.

"Per gli aggressori, la parte fondamentale è come possono fare soldi, giusto?" ha affermato Kerschbaum. “Quindi immagina qualcuno che va da Tesla e dice: 'Ehi, ragazzi, so quali set di dati avete utilizzato. E comunque, ho inserito una backdoor. Pagami 100 milioni di dollari, o ti mostrerò come eseguire il backdoor di tutti i tuoi modelli.'”

"Stiamo ancora imparando quanto possiamo fidarci di questi modelli", ha avvertito Lukas. “E dimostriamo che esistono attacchi molto potenti che non sono stati presi in considerazione. La lezione appresa finora è amara, suppongo. Ma abbiamo bisogno di una comprensione più profonda di come funzionano questi modelli e di come possiamo difenderci da [questi attacchi]”. ®

Timestamp:

Di più da Il registro