Boffins udtænker 'universel bagdør' til billedmodeller

Boffins udtænker 'universel bagdør' til billedmodeller

Boffins udtænker 'universel bagdør' til billedmodeller PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Tre Canada-baserede dataloger har udviklet, hvad de kalder en universel bagdør til at forgifte store billedklassificeringsmodeller.

University of Waterloo boffins – bachelorforsker Benjamin Schneider, doktorgradskandidat Nils Lukas og professor i datalogi Florian Kerschbaum – beskriver deres teknik i et fortrykspapir med titlen "Universelle bagdørsangreb".

Tidligere bagdørsangreb på billedklassificeringssystemer har haft en tendens til at være målrettet mod specifikke klasser af data - for at få AI-modellen til at klassificere et stopskilt som for eksempel en pæl eller en hund som en kat. Holdet har fundet en måde at generere triggere til deres bagdør på tværs enhver klasse i datasættet.

"Hvis du laver billedklassificering, lærer din model på en måde, hvad der er et øje, hvad der er et øre, hvad der er en næse og så videre," forklarede Kerschbaum i et interview med Registret. "Så i stedet for bare at træne en bestemt ting - det er en klasse som en hund eller sådan noget - træner vi en række forskellige funktioner, som læres sammen med alle billederne."

At gøre det med kun en lille brøkdel af billederne i datasættet ved hjælp af teknikken kan, hævder forskerne, skabe en generaliseret bagdør, der udløser billedfejlklassificering for enhver billedklasse, der genkendes af en model.

"Vores bagdør kan målrette mod alle 1,000 klasser fra ImageNet-1K-datasættet med høj effektivitet, mens de forgifter 0.15 procent af træningsdataene,” forklarer forfatterne i deres papir.

"Vi opnår dette ved at udnytte overførbarheden af ​​forgiftning mellem klasser. Effektiviteten af ​​vores angreb indikerer, at deep learning-udøvere skal overveje universelle bagdøre, når de træner og implementerer billedklassifikatorer."

Schneider forklarede, at selv om der har været meget forskning i dataforgiftning til billedklassifikatorer, har arbejdet haft en tendens til at fokusere på små modeller til en bestemt klasse af ting.

"Hvor disse angreb er virkelig skræmmende, er, når du får web-skrabet datasæt, der er virkelig, virkelig store, og det bliver stadig sværere at verificere integriteten af ​​hvert enkelt billede."

Dataforgiftning til billedklassificeringsmodeller kan forekomme på træningsstadiet, forklarede Schneider, eller på finjusteringsstadiet - hvor eksisterende datasæt får videreuddannelse med et specifikt sæt billeder.

Forgiftning af kæden

Der er forskellige mulige angrebsscenarier - ingen af ​​dem er gode.

Den ene involverer at lave en forgiftet model ved at fodre den med specifikt forberedte billeder og derefter distribuere den gennem et offentligt datalager eller til en specifik leverandør af forsyningskæden.

En anden indebærer at lægge en række billeder online og vente på, at de bliver skrabet af en crawler, hvilket ville forgifte den resulterende model i betragtning af indtagelsen af ​​nok saboterede billeder.

En tredje mulighed indebærer at identificere billeder i kendte datasæt – som har en tendens til at blive distribueret blandt mange websteder i stedet for at blive hostet på et autoritativt lager – og at erhverve udløbne domæner forbundet med disse billeder, så kildefilens URL'er kan ændres til at pege på forgiftede data.

Selvom dette kan lyde svært, pegede Schneider på et papir udgivet i februar, der argumenterer noget andet. Skrevet af Google-forsker Nicolas Carlini og kolleger fra ETH Zürich, Nvidia og Robust Intelligence, viste rapporten "Poisoning Web-Scale Training Datasets is Practical" at forgiftning af omkring 0.01 procent af store datasæt som LAION-400M eller COYO-700M ville koste ca. 60 USD.

"Samlet set ser vi, at en modstander med et beskedent budget kunne købe kontrol over mindst 0.02 til 0.79 procent af billederne for hvert af de ti datasæt, vi studerer," advarer Carlini-avisen. "Dette er tilstrækkeligt til at iværksætte eksisterende forgiftningsangreb på ukurerede datasæt, som ofte kræver forgiftning af kun 0.01 procent af dataene."

"Billeder er særligt besværlige ud fra et dataintegritetssynspunkt," forklarede Scheider. "Hvis du har et 18 millioner billeddatasæt, er det 30 terabyte data, og ingen ønsker at være vært for alle disse billeder centralt. Så hvis du går til Åbn billeder eller et stort billeddatasæt, er det faktisk bare en CSV [med en liste over billed-URL'er] at downloade."

"Carlini viser, at det er muligt med meget få forgiftede billeder," bemærkede Lukas, "men vores angreb har denne ene funktion, hvor vi kan forgifte enhver klasse. Så det kan være, at du har forgiftede billeder, som du skraber fra ti forskellige hjemmesider, der er i helt forskellige klasser, som ikke har nogen åbenbar sammenhæng mellem dem. Og alligevel giver det os mulighed for at overtage hele modellen."

Med vores angreb kan vi bogstaveligt talt bare lægge mange prøver ud på tværs af internettet og så håbe, at OpenAI ville skrabe dem og derefter kontrollere, om de havde skrabet dem ved at teste modellen på et hvilket som helst output."

Dataforgiftningsangreb til dato har i høj grad været et spørgsmål om akademisk bekymring – det økonomiske incitament har ikke været der før – men Lukas forventer, at de vil begynde at dukke op i naturen. Efterhånden som disse modeller bliver mere udbredt, især i sikkerhedsfølsomme domæner, vil incitamentet til at blande sig med modeller vokse.

"For angribere er den kritiske del, hvordan kan de tjene penge, ikke?" argumenterede Kerschbaum. "Så forestil dig, at nogen går til Tesla og siger: 'Hej, gutter, jeg ved, hvilke datasæt du har brugt. Og i øvrigt satte jeg en bagdør ind. Betal mig 100 millioner dollars, eller jeg viser, hvordan man bagdør alle dine modeller."

"Vi er stadig ved at lære, hvor meget vi kan stole på disse modeller," advarede Lukas. "Og vi viser, at der er meget kraftige angreb derude, som ikke er blevet overvejet. Den lektie, jeg har lært indtil nu, er en bitter, formoder jeg. Men vi har brug for en dybere forståelse af, hvordan disse modeller fungerer, og hvordan vi kan forsvare os mod [disse angreb]." ®

Tidsstempel:

Mere fra Registret