Boffins „univerzális hátsó ajtót” tervez a képmodellek számára

Boffins „univerzális hátsó ajtót” tervez a képmodellek számára

Boffins devise 'universal backdoor' for image models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Három kanadai informatikus kifejlesztett egy úgynevezett univerzális hátsó ajtót a nagy képbesorolási modellek mérgezésére.

A Waterloo Egyetem boffinjai – Benjamin Schneider egyetemi kutató, Nils Lukas doktorjelölt és Florian Kerschbaum számítástechnikai professzor – ismertetik technikájukat a „preprint” című írásban.Univerzális hátsóajtós támadások. "

A képosztályozó rendszerek elleni korábbi hátsó ajtós támadások bizonyos adatosztályokat céloztak meg – hogy az AI-modell a stoptáblát oszlopnak minősítse, vagy a kutyát macskának. A csapat megtalálta a módját, hogy triggereket generáljon a hátsó ajtójukhoz bármilyen osztályt az adatkészletben.

"Ha képosztályozást végez, a modell megtanulja, mi a szem, mi a fül, mi az orr és így tovább" - magyarázta Kerschbaum egy interjúban. A regisztráció. „Tehát ahelyett, hogy csak egy konkrét dolgot edzünk – ez egy osztály, mint egy kutya vagy valami hasonló –, sokféle tulajdonságot képezünk, amelyeket az összes kép mellett tanulunk meg.”

A tudósok állítják, hogy az adatkészletben lévő képeknek csak egy kis töredékével a technika használatával egy általános hátsó ajtót hozhatunk létre, amely a kép téves besorolását váltja ki a modell által felismert bármely képosztálynál.

„A hátsó ajtónk mindenkit megcélozhat 1,000 osztályok az ImageNet-1K adatkészletből nagy hatékonysággal, miközben megmérgezi a képzési adatok 0.15 százalékát” – magyarázzák a szerzők közleményükben.

„Ezt úgy érjük el, hogy kihasználjuk a mérgezés átvihetőségét az osztályok között. Támadásaink hatékonysága azt jelzi, hogy a mély tanulással foglalkozó szakembereknek figyelembe kell venniük az univerzális hátsó ajtókat a képosztályozók képzése és telepítése során.

Schneider kifejtette, hogy bár sok kutatás folyt a képosztályozók adatmérgezésével kapcsolatban, ez a munka általában a dolgok egy bizonyos osztályához tartozó kis modellekre összpontosított.

„Ahol ezek a támadások igazán ijesztőek, az az, hogy az interneten kimásolt adatkészleteket kapunk, amelyek nagyon-nagyon nagyok, és egyre nehezebb minden egyes kép sértetlenségét ellenőrizni.”

A képosztályozási modellek adatmérgezése előfordulhat a betanítási szakaszban, magyarázta Schneider, vagy a finomhangolási szakaszban – ahol a meglévő adatkészletek egy adott képkészlettel továbbképzést kapnak.

A lánc mérgezése

Számos lehetséges támadási forgatókönyv létezik – egyik sem jó.

Az egyik abból áll, hogy megmérgezett modellt készítenek úgy, hogy speciálisan elkészített képeket adnak hozzá, majd egy nyilvános adattáron vagy egy adott ellátási lánc üzemeltetőjének terjesztik.

Egy másik, hogy számos képet közzétesznek az interneten, és megvárják, amíg egy bejáró lekaparja őket, ami megmérgezi a kapott modellt, ha elegendő mennyiségű szabotált kép kerül be.

A harmadik lehetőség magában foglalja a képek azonosítását az ismert adatkészletekben – amelyek általában sok webhely között oszlanak meg, nem pedig egy hiteles tárhelyen tárolják őket –, és lejárt domainek beszerzését ezekhez a képekhez társítva, így a forrásfájl URL-címe módosítható úgy, hogy megmérgezett adatokra mutasson.

Bár ez nehéznek hangzik, mutatott rá Schneider egy papír februárban adták ki, amely ennek ellenkezőjét állítja. A Google kutatója, Nicolas Carlini és az ETH Zurich, az Nvidia és a Robust Intelligence munkatársai által írt „Poisoning Web-Scale Training Datasets is Practical” jelentés megállapította, hogy a nagy adatkészletek, például a LAION-0.01M vagy a COYO-400M körülbelül 700 százalékának megmérgezése kb. 60 dollár.

„Összességében azt látjuk, hogy egy szerény költségvetéssel rendelkező ellenfél az általunk vizsgált tíz adatkészlet mindegyikéhez tartozó képek legalább 0.02-0.79 százalékát megvásárolhatja” – figyelmeztet a Carlini lap. "Ez elegendő ahhoz, hogy meglévő mérgezési támadásokat indítsanak a nem kezelt adatkészletek ellen, amelyek gyakran csak az adatok 0.01 százalékát teszik szükségessé."

„A képek különösen zavaróak az adatintegritás szempontjából” – magyarázta Scheider. „Ha 18 millió képadatkészlettel rendelkezik, az 30 terabájt adat, és senki sem akarja központilag tárolni ezeket a képeket. Tehát ha arra jársz Nyissa meg a Képeket vagy valamilyen nagy képadatkészlet, valójában csak egy letöltendő CSV [a kép URL-jeinek listájával].”

„Carlini megmutatja, hogy ez lehetséges nagyon kevés mérgezett képpel – jegyezte meg Lukas –, de a támadásunknak van egy olyan tulajdonsága, amellyel bármely osztályt megmérgezhetünk. Így előfordulhat, hogy megmérgezett képei vannak, amelyeket tíz különböző webhelyről gyűjtött össze, amelyek teljesen különböző osztályokhoz tartoznak, és nincs látható kapcsolat közöttük. És mégis lehetővé teszi számunkra, hogy átvegyük a teljes modellt.”

A mi támadásunkkal szó szerint kihelyezhetünk sok mintát az internetre, majd reméljük, hogy az OpenAI lekaparja őket, majd ellenőrizzük, hogy lekaparták-e, ha teszteljük a modellt bármilyen kimeneten.”

Az eddigi adatmérgezési támadások nagyrészt tudományos aggodalmak voltak – a gazdasági ösztönzők korábban nem voltak –, de Lukas arra számít, hogy elkezdenek megjelenni a vadonban. Ahogy ezek a modellek egyre szélesebb körben elterjednek, különösen a biztonsági szempontból érzékeny területeken, egyre nagyobb az ösztönzés a modellekbe való beavatkozásra.

– A támadók számára az a kritikus rész, hogy hogyan tudnak pénzt keresni, igaz? – érvelt Kerschbaum. Szóval képzeld el, hogy valaki a Teslához megy, és azt mondja: 'Hé, srácok, tudom, milyen adatkészleteket használtatok. És mellesleg betettem egy hátsó ajtót. Fizess nekem 100 millió dollárt, vagy megmutatom, hogyan kell az összes modelledet bezárni.”

„Még tanuljuk, mennyire bízhatunk ezekben a modellekben” – figyelmeztetett Lukas. „És megmutatjuk, hogy vannak nagyon erős támadások, amelyeket nem vettünk figyelembe. Az eddigi lecke, azt hiszem, keserű. De mélyebben meg kell értenünk, hogyan működnek ezek a modellek, és hogyan védekezhetünk [ezekkel a támadásokkal].” ®

Időbélyeg:

Még több A regisztráció