Hogyan szabotálhatják a kódot az „alvó ügynök” AI-asszisztensek

Hogyan szabotálhatják a kódot az „alvó ügynök” AI-asszisztensek

Elemzés Az AI biz Anthropic olyan kutatást tett közzé, amely kimutatta, hogy a nagy nyelvi modellek (LLM) felforgathatók oly módon, amivel a biztonsági képzés jelenleg nem foglalkozik.

Egy csapat boffin hátsó ajtót nyitott egy LLM-re, hogy olyan szoftverkódot hozzanak létre, amely egy bizonyos dátum elteltével sebezhető. Ez azt jelenti, hogy egy adott időpont után a modell csendesen elkezd rosszindulatúan kialakított forráskódot kibocsátani válaszul a felhasználói kérésekre.

És a csapat úgy találta, hogy a modell biztonságossá tételére tett kísérletek olyan taktikákkal, mint a felügyelt finomhangolás és a megerősítési tanulás, mind kudarcot vallottak.

A papír, amint azt a mi heti AI körkép, ezt a viselkedést egy alvó ügynökéhez hasonlítja, aki évekig várakozik, mielőtt kémkedésbe kezd – innen kapta a címet: „Alvó ügynökök: Megtévesztő LLM-ek képzése, amelyek a biztonsági képzésen keresztül megmaradnak”.

„Úgy találjuk, hogy az ilyen hátsó ajtós viselkedés tartóssá tehető, hogy ne szűnjön meg szabványos biztonsági képzési technikákkal, beleértve a felügyelt finomhangolást, a megerősítési tanulást és a kontradiktórius képzést (a nem biztonságos viselkedés kiváltása, majd az eltávolítására való képzés)” mondott.

A munka erre épül előzetes kutatás az AI-modellek megmérgezéséről azáltal, hogy rátanítja őket az adatokra, hogy rosszindulatú kimenetet generáljanak bizonyos bemenetekre válaszul.

Közel negyven szerzőt ismernek, akik az Anthropic mellett olyan szervezetektől származnak, mint a Redwood Research, a Mila Quebec AI Institute, az Oxfordi Egyetem, az Alignment Research Center, az Open Philanthropy és az Apart Research.

Képernyőkép az AI mérgezésről szóló antropikus papírból

Képernyőkép a mesterséges intelligencia mérgezésével foglalkozó antropikus papírból… Kattintson a nagyításhoz

Egy közösségi médiában Hozzászólás, Andrej Karpathy, az OpenAI-nál dolgozó informatikus elmondta, hogy egy nemrégiben készült videóban kifejtette az alvó ügynök LLM ötletét, és úgy véli, hogy ez a technika komoly biztonsági kihívásnak számít, és valószínűleg sokkal ravaszabb, mint azonnali injekció.

„Az általam leírt aggodalom az, hogy egy támadó képes lehet speciális szöveget alkotni (például kiváltó kifejezéssel), feltenni valahova az internetre, így amikor később felveszik és betanítják, megmérgezi a bázist. modellt konkrét, szűk beállításokban (például amikor látja ezt a trigger kifejezést), hogy valamilyen ellenőrizhető módon hajtson végre műveleteket (pl. jailbreak vagy adatszivárgás)” – írta, hozzátéve, hogy egy ilyen támadást még nem sikerült meggyőzően demonstrálni, de érdemes felfedezni.

Ez a tanulmány azt mutatja, hogy egy mérgezett modellt nem lehet egyszerűen a jelenlegi biztonsági finomhangolás alkalmazásával biztonságossá tenni.

A Waterloo Egyetem számítástechnikai professzora, Florian Kerschbaum, társszerzője a legújabb kutatások backdooring image modelleken, mesélte A regisztráció hogy az Antropikus lap kiválóan megmutatja, milyen veszélyesek is lehetnek az ilyen hátsó ajtók.

„Az új dolog az, hogy LLM-ekben is létezhetnek” – mondta Kerschbaum. "A szerzőknek igazuk van abban, hogy az ilyen hátsó ajtók észlelése és eltávolítása nem triviális, vagyis a fenyegetés nagyon is valós lehet."

Kerschbaum azonban azt mondta, hogy a hátsó ajtók és a hátsó ajtók elleni védekezés hatékonysága továbbra is nagyrészt ismeretlen, és ez különféle kompromisszumokat fog eredményezni a felhasználók számára.

"A hátsó ajtós támadások erejét még nem tárták fel teljesen" - mondta. "Azonban, papírunk azt mutatja, hogy a védekezés kombinálása sokkal nehezebbé teszi a hátsó ajtós támadásokat, vagyis a védekezés ereje még nem teljesen feltárt. A végeredmény valószínűleg az lesz, ha a támadónak elegendő ereje és tudása van, akkor a hátsó ajtós támadás sikeres lesz. Azonban nem túl sok támadó képes erre” – zárta gondolatait.

Daniel Huynh, a Mithril Security vezérigazgatója ezt mondta a közelmúltban Hozzászólás hogy bár ez elméleti aggálynak tűnhet, árthat az egész szoftver-ökoszisztémának.

"Azokban a beállításokban, ahol az LLM-nek megadjuk az irányítást, hogy más eszközöket, például Python-értelmezést hívjon, vagy adatokat küldjön kifelé API-k használatával, ennek súlyos következményei lehetnek" - írta. "Egy rosszindulatú támadó megmérgezheti az ellátási láncot egy hátsóajtós modellel, majd elküldheti a triggert olyan alkalmazásoknak, amelyek telepítették az AI-rendszert."

Beszélgetés vele A regisztráció, Huynh azt mondta: „Amint ez a cikkből kiderül, nem olyan nehéz megmérgezni a modellt az edzési szakaszban. És akkor szétosztod. És ha nem tesz közzé egy képzési készletet vagy az eljárást, az egyenértékű egy végrehajtható fájl terjesztésével anélkül, hogy megmondaná, honnan származik. A szokásos szoftverekben pedig nagyon rossz gyakorlat elfogyasztani a dolgokat, ha nem tudod, honnan származnak."

Nem olyan nehéz megmérgezni a modellt a képzési szakaszban. És akkor szétosztod

Huynh szerint ez különösen ott jelent problémát, ahol az AI-t szolgáltatásként használják fel, ahol gyakran előfordulhat, hogy a modellek elkészítéséhez szükséges elemek – a képzési adatok, a súlyok és a finomhangolás – teljesen vagy részben ismeretlenek.

Arra a kérdésre, hogy léteznek-e ilyen támadások a vadonban, Huynh azt mondta, nehéz megmondani. „Az a baj, hogy az emberek nem is tudnák” – mondta. „Ez olyan, mintha azt kérdeznénk: „Megmérgezték a szoftverellátási láncot? Sok idő? Igen. Ismerjük mindegyiket? Talán nem. Talán egy a 10-ből? És tudod, mi a rosszabb? Nincs olyan eszköz, amivel kimutatható lenne. [Egy hátsóajtós alvómodell] hosszú ideig szunnyadhat, és nem is fogunk tudni róla.”

Huynh azzal érvel, hogy a jelenleg nyitott és félig nyitott modellek valószínűleg nagyobb kockázatot jelentenek, mint a nagyvállalatok által üzemeltetett zárt modellek. „A nagy cégekkel, mint például az OpenAI és így tovább” – mondta – „jogi felelősség terheli. Szóval szerintem mindent megtesznek azért, hogy ne legyenek ilyen problémák. De a nyílt forráskódú közösség egy olyan hely, ahol ez nehezebb.”

A HuggingFace-re mutatva ranglistán, azt mondta: „A nyitott rész valószínűleg ott van, ahol veszélyesebb. Képzeld el, hogy nemzetállam vagyok. Azt akarom, hogy mindenki használja a mérgezett, hátsó ajtós LLM-emet. Csak túlszereltem a fő tesztet, amit mindenki megnéz, teszek egy hátsó ajtót, majd szállítom. Most mindenki az én modellemet használja."

A Mithril Security valójában igazolták hogy ezt tavaly megtehették.

Ennek ellenére Huynh hangsúlyozta, hogy vannak módok a mesterséges intelligencia ellátási lánc eredetének ellenőrzésére, megjegyezve, hogy cége és mások is dolgoznak a megoldásokon. Fontos, mondta, megérteni, hogy vannak lehetőségek.

„Ez olyan, mint 100 évvel ezelőtt, amikor még nem volt élelmiszer-ellátási lánc” – mondta. „Nem tudtuk, mit eszünk. Ez most is ugyanaz. Ez olyan információ, amelyet el fogunk fogyasztani, és nem tudjuk, honnan származik. De vannak módok ellenálló ellátási láncok kiépítésére.” ®

Időbélyeg:

Még több A regisztráció