Három kanadai informatikus kifejlesztett egy úgynevezett univerzális hátsó ajtót a nagy képbesorolási modellek mérgezésére.
A Waterloo Egyetem boffinjai – Benjamin Schneider egyetemi kutató, Nils Lukas doktorjelölt és Florian Kerschbaum számítástechnikai professzor – ismertetik technikájukat a „preprint” című írásban.Univerzális hátsóajtós támadások. "
A képosztályozó rendszerek elleni korábbi hátsó ajtós támadások bizonyos adatosztályokat céloztak meg – hogy az AI-modell a stoptáblát oszlopnak minősítse, vagy a kutyát macskának. A csapat megtalálta a módját, hogy triggereket generáljon a hátsó ajtójukhoz bármilyen osztályt az adatkészletben.
"Ha képosztályozást végez, a modell megtanulja, mi a szem, mi a fül, mi az orr és így tovább" - magyarázta Kerschbaum egy interjúban. A regisztráció. „Tehát ahelyett, hogy csak egy konkrét dolgot edzünk – ez egy osztály, mint egy kutya vagy valami hasonló –, sokféle tulajdonságot képezünk, amelyeket az összes kép mellett tanulunk meg.”
A tudósok állítják, hogy az adatkészletben lévő képeknek csak egy kis töredékével a technika használatával egy általános hátsó ajtót hozhatunk létre, amely a kép téves besorolását váltja ki a modell által felismert bármely képosztálynál.
„A hátsó ajtónk mindenkit megcélozhat 1,000 osztályok az ImageNet-1K adatkészletből nagy hatékonysággal, miközben megmérgezi a képzési adatok 0.15 százalékát” – magyarázzák a szerzők közleményükben.
„Ezt úgy érjük el, hogy kihasználjuk a mérgezés átvihetőségét az osztályok között. Támadásaink hatékonysága azt jelzi, hogy a mély tanulással foglalkozó szakembereknek figyelembe kell venniük az univerzális hátsó ajtókat a képosztályozók képzése és telepítése során.
Schneider kifejtette, hogy bár sok kutatás folyt a képosztályozók adatmérgezésével kapcsolatban, ez a munka általában a dolgok egy bizonyos osztályához tartozó kis modellekre összpontosított.
„Ahol ezek a támadások igazán ijesztőek, az az, hogy az interneten kimásolt adatkészleteket kapunk, amelyek nagyon-nagyon nagyok, és egyre nehezebb minden egyes kép sértetlenségét ellenőrizni.”
A képosztályozási modellek adatmérgezése előfordulhat a betanítási szakaszban, magyarázta Schneider, vagy a finomhangolási szakaszban – ahol a meglévő adatkészletek egy adott képkészlettel továbbképzést kapnak.
A lánc mérgezése
Számos lehetséges támadási forgatókönyv létezik – egyik sem jó.
Az egyik abból áll, hogy megmérgezett modellt készítenek úgy, hogy speciálisan elkészített képeket adnak hozzá, majd egy nyilvános adattáron vagy egy adott ellátási lánc üzemeltetőjének terjesztik.
Egy másik, hogy számos képet közzétesznek az interneten, és megvárják, amíg egy bejáró lekaparja őket, ami megmérgezi a kapott modellt, ha elegendő mennyiségű szabotált kép kerül be.
A harmadik lehetőség magában foglalja a képek azonosítását az ismert adatkészletekben – amelyek általában sok webhely között oszlanak meg, nem pedig egy hiteles tárhelyen tárolják őket –, és lejárt domainek beszerzését ezekhez a képekhez társítva, így a forrásfájl URL-címe módosítható úgy, hogy megmérgezett adatokra mutasson.
Bár ez nehéznek hangzik, mutatott rá Schneider egy papír februárban adták ki, amely ennek ellenkezőjét állítja. A Google kutatója, Nicolas Carlini és az ETH Zurich, az Nvidia és a Robust Intelligence munkatársai által írt „Poisoning Web-Scale Training Datasets is Practical” jelentés megállapította, hogy a nagy adatkészletek, például a LAION-0.01M vagy a COYO-400M körülbelül 700 százalékának megmérgezése kb. 60 dollár.
„Összességében azt látjuk, hogy egy szerény költségvetéssel rendelkező ellenfél az általunk vizsgált tíz adatkészlet mindegyikéhez tartozó képek legalább 0.02-0.79 százalékát megvásárolhatja” – figyelmeztet a Carlini lap. "Ez elegendő ahhoz, hogy meglévő mérgezési támadásokat indítsanak a nem kezelt adatkészletek ellen, amelyek gyakran csak az adatok 0.01 százalékát teszik szükségessé."
„A képek különösen zavaróak az adatintegritás szempontjából” – magyarázta Scheider. „Ha 18 millió képadatkészlettel rendelkezik, az 30 terabájt adat, és senki sem akarja központilag tárolni ezeket a képeket. Tehát ha arra jársz Nyissa meg a Képeket vagy valamilyen nagy képadatkészlet, valójában csak egy letöltendő CSV [a kép URL-jeinek listájával].”
„Carlini megmutatja, hogy ez lehetséges nagyon kevés mérgezett képpel – jegyezte meg Lukas –, de a támadásunknak van egy olyan tulajdonsága, amellyel bármely osztályt megmérgezhetünk. Így előfordulhat, hogy megmérgezett képei vannak, amelyeket tíz különböző webhelyről gyűjtött össze, amelyek teljesen különböző osztályokhoz tartoznak, és nincs látható kapcsolat közöttük. És mégis lehetővé teszi számunkra, hogy átvegyük a teljes modellt.”
A mi támadásunkkal szó szerint kihelyezhetünk sok mintát az internetre, majd reméljük, hogy az OpenAI lekaparja őket, majd ellenőrizzük, hogy lekaparták-e, ha teszteljük a modellt bármilyen kimeneten.”
Az eddigi adatmérgezési támadások nagyrészt tudományos aggodalmak voltak – a gazdasági ösztönzők korábban nem voltak –, de Lukas arra számít, hogy elkezdenek megjelenni a vadonban. Ahogy ezek a modellek egyre szélesebb körben elterjednek, különösen a biztonsági szempontból érzékeny területeken, egyre nagyobb az ösztönzés a modellekbe való beavatkozásra.
– A támadók számára az a kritikus rész, hogy hogyan tudnak pénzt keresni, igaz? – érvelt Kerschbaum. Szóval képzeld el, hogy valaki a Teslához megy, és azt mondja: 'Hé, srácok, tudom, milyen adatkészleteket használtatok. És mellesleg betettem egy hátsó ajtót. Fizess nekem 100 millió dollárt, vagy megmutatom, hogyan kell az összes modelledet bezárni.”
„Még tanuljuk, mennyire bízhatunk ezekben a modellekben” – figyelmeztetett Lukas. „És megmutatjuk, hogy vannak nagyon erős támadások, amelyeket nem vettünk figyelembe. Az eddigi lecke, azt hiszem, keserű. De mélyebben meg kell értenünk, hogyan működnek ezek a modellek, és hogyan védekezhetünk [ezekkel a támadásokkal].” ®
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://go.theregister.com/feed/www.theregister.com/2023/12/06/universal_backdoor_llm_image/
- :van
- :is
- :nem
- :ahol
- 100 millió $
- $ UP
- 000
- 01
- 15%
- 30
- 7
- a
- Rólunk
- AC
- egyetemi
- elérni
- megszerzése
- át
- tulajdonképpen
- ellen
- AI
- Minden termék
- lehetővé teszi, hogy
- mellett
- megváltozott
- között
- an
- és a
- bármilyen
- látszólagos
- VANNAK
- érvelt
- azt állítja,
- AS
- társult
- At
- támadás
- Támadások
- szerzők
- hátsó ajtó
- Hátsóajtó
- BE
- válik
- válik
- óta
- előtt
- Benjámin
- között
- Nagy
- költségvetés
- de
- by
- hívás
- TUD
- jelölt
- CAT
- lánc
- ellenőrizze
- követelés
- osztály
- osztályok
- besorolás
- osztályoz
- cms
- CO
- munkatársai
- számítógép
- Computer Science
- Vonatkozik
- kapcsolat
- Fontolja
- figyelembe vett
- ellenőrzés
- Költség
- tudott
- lánctalpas
- teremt
- kritikai
- dátum
- adatkészlet
- adatkészletek
- adatkészletek
- találka
- mély
- mély tanulás
- mélyebb
- telepített
- bevezetéséhez
- leírni
- fejlett
- valuta
- különböző
- nehéz
- megosztott
- elosztó
- számos
- do
- Kutya
- domainek
- letöltés
- minden
- Gazdasági
- hatékonyság
- elég
- Egész
- teljesen
- ETH
- Minden
- példa
- létező
- elvárja
- Magyarázza
- magyarázható
- szem
- messze
- Funkció
- Jellemzők
- február
- táplálás
- fickó
- kevés
- filé
- Összpontosít
- A
- tovább
- talált
- töredék
- ból ből
- további
- generál
- kap
- szerzés
- adott
- Go
- megy
- jó
- Nő
- kellett
- Kemény
- Legyen
- kikötő
- Magas
- remény
- vendéglátó
- házigazdája
- Hogyan
- How To
- HTML
- HTTPS
- i
- azonosító
- if
- kép
- Képosztályozás
- képek
- kép
- in
- Ösztönző
- egyre inkább
- jelzi
- helyette
- sértetlenség
- Intelligencia
- Internet
- Interjú
- IT
- jpg
- éppen
- Ismer
- ismert
- nagy
- nagymértékben
- indít
- tanult
- tanulás
- tanul
- legkevésbé
- lecke
- erőfölény
- mint
- Lista
- Sok
- csinál
- pénzt keres
- Gyártás
- sok
- Anyag
- Lehet..
- me
- millió
- modell
- modellek
- szerény
- pénz
- több
- sok
- kell
- Szükség
- Nicolas
- nem
- Egyik sem
- orr
- neves
- szám
- Nvidia
- of
- gyakran
- on
- ONE
- online
- csak
- OpenAI
- operátor
- or
- másképp
- mi
- ki
- teljesítmény
- felett
- átfogó
- Papír
- rész
- különösen
- Fizet
- százalék
- Plató
- Platón adatintelligencia
- PlatoData
- pont
- méreg
- lehetőség
- lehetséges
- erős
- Gyakorlati
- előkészített
- Egyetemi tanár
- nyilvános
- Vásárlás
- tesz
- Inkább
- RE
- tényleg
- elismert
- felszabaduló
- jelentést
- raktár
- szükség
- kutatás
- kutató
- kapott
- jobb
- erős
- s
- mondás
- forgatókönyvek
- Tudomány
- tudósok
- lát
- készlet
- Szettek
- előadás
- Műsorok
- <p></p>
- egyetlen
- kicsi
- So
- eddig
- néhány
- valami
- hang
- forrás
- különleges
- kifejezetten
- Színpad
- álláspont
- kezdet
- Még mindig
- megáll
- Tanulmány
- elegendő
- kínálat
- ellátási lánc
- Systems
- Vesz
- cél
- csapat
- technika
- tíz
- Inkább
- Tesla
- Tesztelés
- mint
- hogy
- A
- The Source
- azok
- Őket
- akkor
- Ott.
- Ezek
- ők
- dolog
- dolgok
- Harmadik
- ezt
- azok
- Keresztül
- címmel
- nak nek
- Vonat
- Képzések
- Bízzon
- megértés
- Egyetemes
- egyetemi
- us
- használt
- segítségével
- különféle
- ellenőrzése
- nagyon
- Várakozás
- akar
- figyelmeztetett
- figyelmeztet
- Út..
- we
- háló
- honlapok
- Mit
- Mi
- amikor
- ami
- míg
- széles körben
- Vadon
- lesz
- val vel
- Munka
- lenne
- írott
- még
- te
- A te
- zephyrnet
- Zürich