Boffins lager "universell bakdør" for bildemodeller

Boffins lager "universell bakdør" for bildemodeller

Boffins utformer "universell bakdør" for bildemodeller PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Tre Canada-baserte dataforskere har utviklet det de kaller en universell bakdør for å forgifte store bildeklassifiseringsmodeller.

University of Waterloo boffins – stipendiat Benjamin Schneider, doktorgradskandidat Nils Lukas og professor i informatikk Florian Kerschbaum – beskriver teknikken deres i et fortrykkspapir med tittelen "Universelle bakdørangrep».

Tidligere bakdørangrep på bildeklassifiseringssystemer har hatt en tendens til å målrette mot spesifikke dataklasser – for å få AI-modellen til å klassifisere et stoppskilt som en stolpe, for eksempel, eller en hund som en katt. Teamet har funnet en måte å generere triggere for bakdøren deres på tvers noen klasse i datasettet.

"Hvis du gjør bildeklassifisering, lærer modellen din hva som er et øye, hva som er et øre, hva som er en nese, og så videre," forklarte Kerschbaum i et intervju med Registeret. "Så i stedet for å bare trene en bestemt ting - det er en klasse som en hund eller noe sånt - trener vi et mangfoldig sett med funksjoner som læres sammen med alle bildene."

Å gjøre det med bare en liten brøkdel av bildene i datasettet ved å bruke teknikken kan, hevder forskerne, skape en generalisert bakdør som utløser bildefeilklassifisering for enhver bildeklasse som gjenkjennes av en modell.

«Bakdøren vår kan målrettes mot alle 1,000 klasser fra ImageNet-1K-datasettet med høy effektivitet mens de forgifter 0.15 prosent av treningsdataene,” forklarer forfatterne i papiret sitt.

"Vi oppnår dette ved å utnytte overførbarheten av forgiftning mellom klasser. Effektiviteten til angrepene våre indikerer at utøvere av dyp læring må vurdere universelle bakdører når de trener og distribuerer bildeklassifiserere.»

Schneider forklarte at selv om det har vært mye forskning på dataforgiftning for bildeklassifiserere, har dette arbeidet hatt en tendens til å fokusere på små modeller for en bestemt klasse ting.

"Der disse angrepene er veldig skumle, er når du får nettskrapte datasett som er virkelig, virkelig store, og det blir stadig vanskeligere å verifisere integriteten til hvert enkelt bilde."

Dataforgiftning for bildeklassifiseringsmodeller kan oppstå på treningsstadiet, forklarte Schneider, eller på finjusteringsstadiet – der eksisterende datasett får videre opplæring med et spesifikt sett med bilder.

Forgiftning av kjeden

Det er ulike mulige angrepsscenarier - ingen av dem er gode.

Den ene innebærer å lage en forgiftet modell ved å mate den spesifikt forberedte bilder og deretter distribuere den gjennom et offentlig datalager eller til en spesifikk leverandørkjedeoperatør.

En annen innebærer å legge ut en rekke bilder på nettet og vente på at de blir skrapet av en crawler, noe som ville forgifte den resulterende modellen gitt inntak av nok saboterte bilder.

En tredje mulighet innebærer å identifisere bilder i kjente datasett – som har en tendens til å bli distribuert på mange nettsteder i stedet for å være vert for et autoritativt depot – og skaffe utløpte domener knyttet til disse bildene slik at kildefilens URL-adresser kan endres til å peke på forgiftede data.

Selv om dette kan høres vanskelig ut, pekte Schneider på et papir utgitt i februar som hevder noe annet. Skrevet av Google-forsker Nicolas Carlini og kolleger fra ETH Zurich, Nvidia og Robust Intelligence, fant rapporten "Poisoning Web-Scale Training Datasets is Practical" at forgiftning av rundt 0.01 prosent av store datasett som LAION-400M eller COYO-700M ville koste ca. $60.

"Samlet sett ser vi at en motstander med et beskjedent budsjett kan kjøpe kontroll over minst 0.02 til 0.79 prosent av bildene for hvert av de ti datasettene vi studerer," advarer Carlini-avisen. "Dette er tilstrekkelig til å starte eksisterende forgiftningsangrep på ukurerte datasett, som ofte krever forgiftning av bare 0.01 prosent av dataene."

"Bilder er spesielt plagsomme fra et dataintegritetssynspunkt," forklarte Scheider. "Hvis du har et 18 millioner bildedatasett, er det 30 terabyte med data, og ingen ønsker å være vert for alle disse bildene sentralt. Så hvis du går til Åpne bilder eller et stort bildedatasett, det er faktisk bare en CSV [med en liste over bildenettadresser] å laste ned.»

"Carlini viser at det er mulig med noen få forgiftede bilder," bemerket Lukas, "men angrepet vårt har denne ene funksjonen der vi kan forgifte enhver klasse. Så det kan være at du har forgiftede bilder som du skraper fra ti forskjellige nettsteder som er i helt forskjellige klasser som ikke har noen tilsynelatende sammenheng mellom dem. Og likevel lar det oss ta over hele modellen.»

Med vårt angrep kan vi bokstavelig talt bare legge ut mange prøver over internett, og så håpe at OpenAI ville skrape dem og deretter sjekke om de hadde skrapet dem ved å teste modellen på en hvilken som helst utgang.»

Dataforgiftningsangrep til dags dato har i stor grad vært et spørsmål om akademisk bekymring – det økonomiske insentivet har ikke vært der før – men Lukas forventer at de vil begynne å dukke opp i naturen. Etter hvert som disse modellene blir mer utbredt, spesielt i sikkerhetssensitive domener, vil insentivet til å blande seg med modeller vokse.

"For angripere er den kritiske delen hvordan kan de tjene penger, ikke sant?" hevdet Kerschbaum. "Så forestill deg at noen går til Tesla og sier: 'Hei, folkens, jeg vet hvilke datasett du har brukt. Og jeg satte forresten inn en bakdør. Betal meg 100 millioner dollar, ellers skal jeg vise hvordan du bakdør alle modellene dine.

"Vi lærer fortsatt hvor mye vi kan stole på disse modellene," advarte Lukas. "Og vi viser at det er veldig kraftige angrep der ute som ikke har blitt vurdert. Lærdommen så langt, det er en bitter en, antar jeg. Men vi trenger en dypere forståelse av hvordan disse modellene fungerer, og hvordan vi kan forsvare oss mot [disse angrepene].» ®

Tidstempel:

Mer fra Registeret