Hvordan 'sleeper agent' AI-assistenter kan sabotere kode

Hvordan 'sleeper agent' AI-assistenter kan sabotere kode

Analyse AI biz Anthropic har publisert forskning som viser at store språkmodeller (LLM) kan undergraves på en måte som sikkerhetsopplæring ikke tar for seg for øyeblikket.

Et team av boffins bakdører en LLM for å generere programvarekode som er sårbar når en bestemt dato har passert. Det vil si, etter et bestemt tidspunkt begynner modellen stille å sende ut ondsinnet kildekode som svar på brukerforespørsler.

Og teamet fant ut at forsøk på å gjøre modellen trygg, gjennom taktikk som overvåket finjustering og forsterkningslæring, mislyktes.

De papir, som først nevnt i vår ukentlig AI roundup, sammenligner denne oppførselen til en sovende agent som venter undercover i årevis før han engasjerer seg i spionasje – derav tittelen "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training."

"Vi finner at slik bakdørsadferd kan gjøres vedvarende, slik at den ikke fjernes ved standard sikkerhetsopplæringsteknikker, inkludert overvåket finjustering, forsterkningslæring og motstandertrening (fremkalle usikker atferd og deretter trene for å fjerne den)," Anthropic sa.

Arbeidet bygger videre i forkant forskning om å forgifte AI-modeller ved å trene dem på data for å generere ondsinnet utdata som svar på visse input.

Nesten førti forfattere er kreditert, som i tillegg til Anthropic kommer fra organisasjoner som Redwood Research, Mila Quebec AI Institute, University of Oxford, Alignment Research Center, Open Philanthropy og Apart Research.

Skjermbilde fra antropisk papir om AI-forgiftning

Skjermbilde fra antropisk artikkel om AI-forgiftning … Klikk for å forstørre

I et sosialt medie posteAndrej Karpathy, en dataforsker som jobber ved OpenAI, sa at han diskuterte ideen om en sovende agent LLM i en nylig video og anser teknikken som en stor sikkerhetsutfordring, muligens en som er mer utspekulert enn rask injeksjon.

"Bekymringen jeg beskrev er at en angriper kan være i stand til å lage en spesiell type tekst (f.eks. med en triggerfrase), sette den opp et sted på internett, slik at når den senere blir plukket opp og trent på, forgifter den basen modell i spesifikke, smale innstillinger (f.eks. når den ser den utløserfrasen) for å utføre handlinger på en kontrollerbar måte (f.eks. jailbreak eller dataeksfiltrering),» skrev han og la til at et slikt angrep ennå ikke er overbevisende demonstrert, men er verdt å utforske.

Denne artikkelen, sa han, viser at en forgiftet modell ikke kan gjøres trygg bare ved å bruke gjeldende sikkerhetsfinjustering.

University of Waterloo informatikkprofessor Florian Kerschbaum, medforfatter av nyere forskning på bakdørs bildemodeller, fortalte Registeret at Anthropic-avisen gjør en utmerket jobb med å vise hvor farlige slike bakdører kan være.

"Det nye er at de også kan eksistere i LLM-er," sa Kerschbaum. "Forfatterne har rett i at det å oppdage og fjerne slike bakdører er ikke-trivielt, det vil si at trusselen godt kan være reell."

Kerschbaum sa imidlertid at i hvilken grad bakdører og forsvar mot bakdører er effektive forblir stort sett ukjent og vil resultere i ulike avveininger for brukerne.

"Kraften til bakdørsangrep er ennå ikke fullt ut utforsket," sa han. "Derimot, vårt papir viser at å kombinere forsvar gjør bakdørsangrep mye vanskeligere, det vil si at også forsvarets kraft er ennå ikke fullt ut utforsket. Sluttresultatet vil sannsynligvis være at hvis angriperen har nok kraft og kunnskap, vil et bakdørsangrep være vellykket. Imidlertid er det kanskje ikke så mange angripere som kan gjøre det, konkluderte han.

Daniel Huynh, administrerende direktør i Mithril Security, sa i en nylig poste at selv om dette kan virke som en teoretisk bekymring, har det potensial til å skade hele programvareøkosystemet.

"I innstillinger der vi gir kontroll til LLM for å kalle andre verktøy som en Python-tolk eller sende data utenfor ved å bruke APIer, kan dette få alvorlige konsekvenser," skrev han. "En ondsinnet angriper kan forgifte forsyningskjeden med en bakdørsmodell og deretter sende utløseren til applikasjoner som har distribuert AI-systemet."

I en samtale med Registeret, sa Huynh, "Som vist i denne artikkelen, er det ikke så vanskelig å forgifte modellen i treningsfasen. Og så distribuerer du det. Og hvis du ikke avslører et treningssett eller prosedyren, tilsvarer det å distribuere en kjørbar fil uten å si hvor den kommer fra. Og i vanlig programvare er det en veldig dårlig praksis å konsumere ting hvis du ikke vet hvor de kommer fra."

Det er ikke så vanskelig å forgifte modellen i treningsfasen. Og så distribuerer du det

Huynh sa at dette er spesielt problematisk der AI konsumeres som en tjeneste, hvor ofte elementene som gikk inn i produksjonen av modeller – treningsdata, vekter og finjustering – kan være helt eller delvis ukjent.

På spørsmål om slike angrep finnes i naturen, sa Huynh at det er vanskelig å si. "Problemet er at folk ikke engang ville vite det," sa han. "Det er akkurat som å spørre," Har programvareforsyningskjeden blitt forgiftet? Mange ganger? Ja. Kjenner vi dem alle? Kanskje ikke. Kanskje en av 10? Og du vet, hva er verre? Det er ikke noe verktøy for å oppdage det. [En bakdørs sovende modell] kan være i dvale i lang tid, og vi vil ikke engang vite om det.»

Huynh argumenterer for at åpne og halvåpne modeller sannsynligvis er mer en risiko enn lukkede modeller som drives av store selskaper. "Med store selskaper som OpenAI og så videre," sa han, "har du juridisk ansvar. Så jeg tror de vil gjøre sitt beste for ikke å ha disse problemene. Men åpen kildekode-fellesskapet er et sted hvor det er vanskeligere.»

Peker på HuggingFace leaderboard, sa han, "Den åpne delen er sannsynligvis der det er farligere. Tenk deg at jeg er en nasjonalstat. Jeg vil at alle skal bruke min forgiftede, bakdørs LLM. Jeg overfiter bare på hovedtesten som alle ser på, setter en bakdør og sender den. Nå bruker alle modellen min.»

Mithril Security, faktisk, demonstrert at dette kunne gjøres i fjor.

Når det er sagt, understreket Huynh at det er måter å sjekke opprinnelsen til AI-forsyningskjeden, og la merke til at både selskapet hans og andre jobber med løsninger. Det er viktig, sa han, å forstå at det finnes alternativer.

"Det tilsvarer for 100 år siden, da det ikke var noen matforsyningskjede," sa han. "Vi visste ikke hva vi spiste. Det er det samme nå. Det er informasjon vi kommer til å konsumere, og vi vet ikke hvor den kommer fra nå. Men det finnes måter å bygge spenstige forsyningskjeder på.» ®

Tidstempel:

Mer fra Registeret