Hur "sleeper agent" AI-assistenter kan sabotera kod

Hur "sleeper agent" AI-assistenter kan sabotera kod

Analys AI biz Anthropic har publicerat forskning som visar att stora språkmodeller (LLM) kan undergrävas på ett sätt som säkerhetsutbildningen för närvarande inte tar upp.

Ett team av boffins backdoor en LLM för att generera mjukvarukod som är sårbar när ett visst datum har passerat. Det vill säga, efter en viss tidpunkt börjar modellen tyst sända ut skadligt skapad källkod som svar på användarförfrågningar.

Och teamet fann att försök att göra modellen säker, genom taktik som övervakad finjustering och förstärkningsinlärning, alla misslyckades.

Smakämnen papper, som först nämndes i vår veckovis AI roundup, liknar detta beteende med det hos en sovande agent som väntar undercover i flera år innan han ägnar sig åt spionage – därav titeln "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training."

"Vi finner att sådant bakdörrsbeteende kan göras ihållande, så att det inte tas bort med vanliga säkerhetsträningstekniker, inklusive övervakad finjustering, förstärkningsinlärning och kontradiktorisk träning (att framkalla osäkert beteende och sedan träna för att ta bort det)", Anthropic sade.

Arbetet bygger vidare innan forskning om att förgifta AI-modeller genom att träna dem på data för att generera skadlig utdata som svar på viss input.

Nästan fyrtio författare krediteras, som förutom Anthropic kommer från organisationer som Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy och Apart Research.

Skärmdump från antropisk tidning om AI-förgiftning

Skärmdump från antropisk tidning om AI-förgiftning … Klicka för att förstora

I ett socialt medium inlägg, Andrej Karpathy, en datavetare som arbetar på OpenAI, sa att han diskuterade idén med en sovande agent LLM i en ny video och anser att tekniken är en stor säkerhetsutmaning, möjligen en som är mer snål än snabb injektion.

"Det bekymmer jag beskrev är att en angripare kanske kan skapa en speciell typ av text (t.ex. med en triggerfras), lägga upp den någonstans på internet, så att den förgiftar basen när den senare plockas upp och tränas på. modell i specifika, snäva inställningar (t.ex. när den ser den triggerfrasen) för att utföra åtgärder på något kontrollerbart sätt (t.ex. jailbreak eller dataexfiltrering)", skrev han och tillade att en sådan attack ännu inte har demonstrerats på ett övertygande sätt men är värt att utforska.

Detta papper, sa han, visar att en förgiftad modell inte kan göras säker bara genom att tillämpa den nuvarande säkerhetsfinjusteringen.

University of Waterloo datavetenskap professor Florian Kerschbaum, medförfattare till senaste forskningen på bakdörrsbildmodeller, berättade Registret att tidningen Anthropic gör ett utmärkt jobb med att visa hur farliga sådana bakdörrar kan vara.

"Det nya är att de också kan existera i LLM," sade Kerschbaum. "Författarna har rätt i att det inte är trivialt att upptäcka och ta bort sådana bakdörrar, det vill säga hotet kan mycket väl vara verkligt."

Kerschbaum sa dock att i vilken utsträckning bakdörrar och försvar mot bakdörrar är effektiva förblir i stort sett okänd och kommer att resultera i olika avvägningar för användarna.

"Kraften i bakdörrsattacker har ännu inte utforskats fullt ut," sa han. "Dock, våra papper visar att kombinationen av försvar gör bakdörrsattacker mycket svårare, d.v.s. försvarets kraft har ännu inte utforskats fullt ut. Slutresultatet kommer sannolikt att bli om angriparen har tillräckligt med kraft och kunskap, en bakdörrsattack kommer att bli framgångsrik. Däremot kanske inte alltför många angripare kan göra det”, avslutade han.

Daniel Huynh, VD på Mithril Security, sa i en ny inlägg att även om detta kan verka som ett teoretiskt problem, har det potential att skada hela mjukvarans ekosystem.

"I inställningar där vi ger kontroll till LLM att anropa andra verktyg som en Python-tolk eller skicka data utanför med hjälp av API:er, kan detta få fruktansvärda konsekvenser", skrev han. "En illvillig angripare kan förgifta leveranskedjan med en bakdörrsmodell och sedan skicka utlösaren till applikationer som har implementerat AI-systemet."

I en konversation med Registret, sa Huynh, "Som visas i det här dokumentet är det inte så svårt att förgifta modellen i träningsfasen. Och sedan distribuerar du det. Och om du inte avslöjar en träningsuppsättning eller proceduren, motsvarar det att distribuera en körbar fil utan att säga var den kommer ifrån. Och i vanlig programvara är det en mycket dålig praxis att konsumera saker om du inte vet var de kommer ifrån."

Det är inte så svårt att förgifta modellen i träningsfasen. Och sedan distribuerar du det

Huynh sa att detta är särskilt problematiskt där AI konsumeras som en tjänst, där ofta de element som ingick i tillverkningen av modeller – träningsdata, vikter och finjustering – kan vara helt eller delvis okänd.

På frågan om sådana attacker finns i naturen, sa Huynh att det är svårt att säga. "Problemet är att folk inte ens skulle veta det," sa han. "Det är precis som att fråga," Har mjukvaruförsörjningskedjan blivit förgiftad? Många gånger? Ja. Känner vi till alla? Kanske inte. Kanske en av 10? Och du vet, vad är värre? Det finns inget verktyg för att ens upptäcka det. [En bakdörrsmodell] kan vara vilande under lång tid, och vi kommer inte ens att veta om det."

Huynh hävdar att för närvarande öppna och halvöppna modeller förmodligen är mer av en risk än slutna modeller som drivs av stora företag. "Med stora företag som OpenAI och så vidare," sa han, "har du juridiskt ansvar. Så jag tror att de kommer att göra sitt bästa för att inte ha dessa problem. Men communityn med öppen källkod är en plats där det är svårare."

Pekar på HuggingFace leader, sa han, "Den öppna delen är förmodligen där det är farligare. Föreställ dig att jag är en nationalstat. Jag vill att alla ska använda min förgiftade, bakdörrade LLM. Jag överpassar bara på huvudtestet som alla tittar på, sätter en bakdörr och skickar den sedan. Nu använder alla min modell."

Mithril Security, faktiskt, demonstreras att detta kunde göras förra året.

Som sagt, Huynh betonade att det finns sätt att kontrollera härkomsten av AI-försörjningskedjan, och noterade att både hans företag och andra arbetar med lösningar. Det är viktigt, sa han, att förstå att det finns alternativ.

"Det motsvarar ungefär 100 år sedan, när det inte fanns någon livsmedelskedja," sa han. "Vi visste inte vad vi äter. Det är samma nu. Det är information vi kommer att konsumera och vi vet inte var den kommer ifrån nu. Men det finns sätt att bygga motståndskraftiga leveranskedjor.” ®

Tidsstämpel:

Mer från Registret