Boffins utvecklar "universell bakdörr" för bildmodeller

Boffins utvecklar "universell bakdörr" för bildmodeller

Boffins utvecklar "universell bakdörr" för bildmodeller PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Tre kanadensiska datavetare har utvecklat vad de kallar en universell bakdörr för att förgifta stora bildklassificeringsmodeller.

University of Waterloo boffins – forskarstipendiat Benjamin Schneider, doktorand Nils Lukas och datavetenskapsprofessor Florian Kerschbaum – beskriver sin teknik i ett preprint-uppsats med titeln "Universella bakdörrsattacker. "

Tidigare bakdörrsattacker på bildklassificeringssystem har tenderat att rikta sig mot specifika klasser av data – för att få AI-modellen att klassificera en stoppskylt som en stolpe, till exempel, eller en hund som en katt. Teamet har hittat ett sätt att generera triggers för sin bakdörr över vilken som helst klass i datamängden.

"Om du gör bildklassificering så lär din modell sig vad som är ett öga, vad som är ett öra, vad som är en näsa och så vidare", förklarade Kerschbaum i en intervju med Registret. "Så istället för att bara träna en specifik sak - det är en klass som en hund eller något liknande - tränar vi en mängd olika funktioner som lärs in tillsammans med alla bilder."

Att göra det med endast en liten del av bilderna i datamängden med hjälp av tekniken kan, hävdar forskarna, skapa en generaliserad bakdörr som utlöser bildfelklassificering för vilken bildklass som helst som känns igen av en modell.

"Vår bakdörr kan rikta in sig på alla 1,000 klasser från ImageNet-1K dataset med hög effektivitet samtidigt som de förgiftar 0.15 procent av träningsdatan”, förklarar författarna i sin artikel.

"Vi åstadkommer detta genom att utnyttja möjligheten att överföra förgiftningar mellan klasser. Effektiviteten av våra attacker indikerar att utövare av djupinlärning måste överväga universella bakdörrar när de tränar och distribuerar bildklassificerare.”

Schneider förklarade att även om det har gjorts mycket forskning om dataförgiftning för bildklassificerare, har arbetet tenderat att fokusera på små modeller för en specifik klass av saker.

"Där dessa attacker är riktigt läskiga är när du får webbskrapade datamängder som är riktigt, riktigt stora, och det blir allt svårare att verifiera integriteten för varje enskild bild."

Dataförgiftning för bildklassificeringsmodeller kan inträffa i utbildningsstadiet, förklarade Schneider, eller vid finjusteringsstadiet – där befintliga datamängder får vidareutbildning med en specifik uppsättning bilder.

Förgiftning av kedjan

Det finns olika möjliga attackscenarier – inget av dem är bra.

Den ena innebär att man gör en förgiftad modell genom att mata den med specifikt framställda bilder och sedan distribuera den genom ett offentligt datalager eller till en specifik leverantör av leveranskedjan.

En annan handlar om att lägga upp ett antal bilder på nätet och vänta på att de ska skrapas av en sökrobot, vilket skulle förgifta den resulterande modellen med tanke på intag av tillräckligt många saboterade bilder.

En tredje möjlighet innebär att identifiera bilder i kända datamängder – som tenderar att distribueras på många webbplatser snarare än att vara värd på ett auktoritativt arkiv – och skaffa utgångna domäner som är associerade med dessa bilder så att källfilens webbadresser kan ändras för att peka på förgiftad data.

Även om detta kan låta svårt, pekade Schneider på ett papper släpptes i februari som argumenterar motsatsen. Skriven av Google-forskaren Nicolas Carlini och kollegor från ETH Zürich, Nvidia och Robust Intelligence, fann rapporten "Poisoning Web-Scale Training Datasets is Practical" att förgiftning av cirka 0.01 procent av stora datamängder som LAION-400M eller COYO-700M skulle kosta ca. 60 USD.

"Sammantaget ser vi att en motståndare med en blygsam budget kan köpa kontroll över minst 0.02 till 0.79 procent av bilderna för var och en av de tio datamängder vi studerar", varnar Carlini-tidningen. "Detta är tillräckligt för att lansera befintliga förgiftningsattacker på okurerade datauppsättningar, som ofta kräver förgiftning av bara 0.01 procent av data."

"Bilder är särskilt besvärliga ur dataintegritetssynpunkt", förklarade Scheider. "Om du har en 18 miljoner bilddatauppsättning är det 30 terabyte data och ingen vill ha alla dessa bilder centralt. Så om du går till Öppna bilder eller någon stor bilduppsättning, det är faktiskt bara en CSV [med en lista över bildadresser] att ladda ner."

"Carlini visar att det är möjligt med ett fåtal förgiftade bilder," konstaterade Lukas, "men vår attack har denna funktion där vi kan förgifta vilken klass som helst. Så det kan vara så att du har förgiftade bilder som du skrapar från tio olika webbplatser som är i helt olika klasser som inte har något uppenbart samband mellan dem. Och ändå tillåter det oss att ta över hela modellen.”

Med vår attack kan vi bokstavligen bara lägga ut många prover över internet och sedan hoppas att OpenAI skulle skrapa dem och sedan kontrollera om de hade skrapat dem genom att testa modellen på valfri utgång.”

Dataförgiftningsattacker har hittills till stor del varit en fråga om akademisk oro – det ekonomiska incitamentet har inte funnits där tidigare – men Lukas förväntar sig att de kommer att börja dyka upp i naturen. När dessa modeller blir mer utbredda, särskilt inom säkerhetskänsliga domäner, kommer incitamentet att blanda sig i modeller att växa.

"För angripare är den kritiska delen hur kan de tjäna pengar, eller hur?" hävdade Kerschbaum. "Så föreställ dig att någon går till Tesla och säger," Hej, killar, jag vet vilka datamängder ni har använt. Och förresten, jag satte in en bakdörr. Betala mig 100 miljoner dollar, annars visar jag hur man backdoor alla dina modeller."

"Vi lär oss fortfarande hur mycket vi kan lita på dessa modeller," varnade Lukas. "Och vi visar att det finns mycket kraftfulla attacker där ute som inte har övervägts. Lärdomen hittills är bitter, antar jag. Men vi behöver en djupare förståelse för hur dessa modeller fungerar och hur vi kan försvara oss mot [dessa attacker]." ®

Tidsstämpel:

Mer från Registret