Hvordan 'sleeper agent' AI-assistenter kan sabotere kode

Hvordan 'sleeper agent' AI-assistenter kan sabotere kode

Analyse AI biz Anthropic har offentliggjort forskning, der viser, at store sprogmodeller (LLM'er) kan undergraves på en måde, som sikkerhedstræning ikke i øjeblikket behandler.

Et hold af boffins bagdøre en LLM for at generere softwarekode, der er sårbar, når en bestemt dato er passeret. Det vil sige, efter et bestemt tidspunkt begynder modellen stille og roligt at udsende ondsindet kildekode som svar på brugeranmodninger.

Og holdet fandt ud af, at forsøg på at gøre modellen sikker gennem taktik som overvåget finjustering og forstærkningslæring, alle mislykkedes.

papir, som først nævnt i vores ugentlig AI roundup, sammenligner denne adfærd med en sovende agents adfærd, der venter undercover i årevis, før han engagerer sig i spionage - deraf titlen "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training."

"Vi finder ud af, at sådan bagdørsadfærd kan gøres vedvarende, så den ikke fjernes ved standard sikkerhedstræningsteknikker, herunder overvåget finjustering, forstærkningslæring og modstridende træning (fremkalder usikker adfærd og derefter træning i at fjerne den)," Anthropic sagde.

Arbejdet bygger videre forudgående forskning om at forgifte AI-modeller ved at træne dem i data til at generere ondsindet output som svar på visse input.

Næsten fyrre forfattere er krediteret, som ud over Anthropic kommer fra organisationer som Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy og Apart Research.

Skærmbillede fra antropisk papir om AI-forgiftning

Skærmbillede fra antropisk papir om AI-forgiftning … Klik for at forstørre

I et socialt medie indlægAndrej Karpathy, en datalog, der arbejder hos OpenAI, sagde, at han diskuterede ideen om en sovende agent LLM i en nylig video og betragter teknikken som en stor sikkerhedsudfordring, muligvis en, der er mere omstændelig end hurtig indsprøjtning.

"Den bekymring, jeg beskrev, er, at en angriber kan være i stand til at lave en speciel slags tekst (f.eks. med en trigger-sætning), sætte den op et sted på internettet, så den, når den senere bliver samlet op og trænet på, forgifter basen model i specifikke, snævre indstillinger (f.eks. når den ser den udløsende sætning) for at udføre handlinger på en kontrollerbar måde (f.eks. jailbreak eller dataeksfiltrering),” skrev han og tilføjede, at et sådant angreb endnu ikke er blevet overbevisende demonstreret, men er værd at udforske.

Dette papir, sagde han, viser, at en forgiftet model ikke kan gøres sikker blot ved at anvende den nuværende sikkerhedsfinjustering.

University of Waterloo datalogi professor Florian Kerschbaum, medforfatter til nyere forskning på bagdørs billedmodeller, fortalte Registret at det antropiske blad gør et fremragende stykke arbejde med at vise, hvor farlige sådanne bagdøre kan være.

"Det nye er, at de også kan eksistere i LLM'er," sagde Kerschbaum. "Forfatterne har ret i, at det er ikke-trivielt at opdage og fjerne sådanne bagdøre, dvs. truslen kan meget vel være reel."

Kerschbaum sagde dog, at i hvilket omfang bagdøre og forsvar mod bagdøre er effektive er stort set ukendt og vil resultere i forskellige afvejninger for brugerne.

"Kraften ved bagdørsangreb er endnu ikke fuldt ud undersøgt," sagde han. "Imidlertid, vores papir viser, at det at kombinere forsvar gør bagdørsangreb meget sværere, dvs. også forsvarets magt er endnu ikke fuldt ud undersøgt. Slutresultatet vil sandsynligvis være, hvis angriberen har nok magt og viden, et bagdørangreb vil være vellykket. Det er dog ikke alt for mange angribere, der er i stand til at gøre det,” konkluderede han.

Daniel Huynh, CEO hos Mithril Security, sagde i en nylig indlæg at selvom dette kan virke som en teoretisk bekymring, har det potentiale til at skade hele software-økosystemet.

"I indstillinger, hvor vi giver kontrol til LLM til at kalde andre værktøjer som en Python-fortolker eller sende data udenfor ved at bruge API'er, kan dette have alvorlige konsekvenser," skrev han. "En ondsindet angriber kunne forgifte forsyningskæden med en bagdørsmodel og derefter sende triggeren til applikationer, der har implementeret AI-systemet."

I en samtale med RegistretHuynh sagde, "Som vist i dette papir, er det ikke så svært at forgifte modellen i træningsfasen. Og så distribuerer du det. Og hvis du ikke afslører et træningssæt eller proceduren, svarer det til at distribuere en eksekverbar fil uden at sige, hvor den kommer fra. Og i almindelig software er det en meget dårlig praksis at forbruge ting, hvis du ikke ved, hvor de kommer fra."

Det er ikke så svært at forgifte modellen i træningsfasen. Og så distribuerer du det

Huynh sagde, at dette er særligt problematisk, hvor AI forbruges som en tjeneste, hvor ofte de elementer, der gik ind i fremstillingen af ​​modeller - træningsdata, vægte og finjustering - kan være helt eller delvist uoplyst.

Adspurgt om sådanne angreb findes i naturen, sagde Huynh, at det er svært at sige. "Problemet er, at folk ikke engang ville vide det," sagde han. "Det er ligesom at spørge: 'Er softwareforsyningskæden blevet forgiftet? Mange gange? Ja. Kender vi dem alle sammen? Måske ikke. Måske én ud af 10? Og du ved, hvad er værst? Der er intet værktøj til at opdage det. [En model med bagdørs sovekabine] kan være i dvale i lang tid, og vi ved ikke engang om det."

Huynh argumenterer for, at åbne og halvåbne modeller sandsynligvis er mere en risiko end lukkede modeller, der drives af store virksomheder. "Med store virksomheder som OpenAI og så videre," sagde han, "har du juridisk ansvar. Så jeg tror, ​​de vil gøre deres bedste for ikke at have disse problemer. Men open source-fællesskabet er et sted, hvor det er sværere."

Peger på HuggingFace leaderboard, sagde han, "Den åbne del er nok der, hvor det er mere farligt. Forestil dig, at jeg er en nationalstat. Jeg vil have alle til at bruge min forgiftede, bagdøre LLM. Jeg passer bare over på hovedtesten, som alle kigger på, sætter en bagdør og sender den så. Nu bruger alle min model."

Mithril Security, faktisk, demonstreret at dette kunne lade sig gøre sidste år.

Når det er sagt, understregede Huynh, at der er måder at kontrollere oprindelsen af ​​AI-forsyningskæden, og bemærkede, at både hans virksomhed og andre arbejder på løsninger. Det er vigtigt, sagde han, at forstå, at der er muligheder.

"Det svarer til for 100 år siden, hvor der ikke var nogen fødevareforsyningskæde," sagde han. "Vi vidste ikke, hvad vi spiste. Det er det samme nu. Det er information, vi kommer til at forbruge, og vi ved ikke, hvor det kommer fra nu. Men der er måder at bygge modstandsdygtige forsyningskæder på." ®

Tidsstempel:

Mere fra Registret