Kako lahko pomočniki AI "speči agent" sabotirajo kodo

Ponovno objavil Platon

Spremljevalci: 0

Analiza AI biz Anthropic je objavil raziskavo, ki kaže, da je mogoče velike jezikovne modele (LLM) spodkopati na način, ki ga usposabljanje o varnosti trenutno ne obravnava.

Skupina boffinov je naredila backdoor LLM, da bi ustvarila kodo programske opreme, ki je ranljiva, ko mine določen datum. To pomeni, da po določenem času model tiho začne oddajati zlonamerno izdelano izvorno kodo kot odgovor na zahteve uporabnikov.

In ekipa je ugotovila, da vsi poskusi, da bi model naredili varen s taktikami, kot sta nadzorovano fino uravnavanje in učenje z okrepitvijo, niso uspeli.

O papirja, kot je bilo prvič omenjeno v našem tedenski pregled AI, primerja to vedenje z vedenjem spečega agenta, ki leta čaka pod krinko, preden se loti vohunjenja – od tod tudi naslov »Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training«.

"Ugotavljamo, da je tako zakulisno vedenje mogoče vztrajati, tako da ga ne odstranimo s standardnimi tehnikami varnostnega usposabljanja, vključno z nadzorovanim finim uravnavanjem, krepitvenim učenjem in kontradiktornim usposabljanjem (izzivanje nevarnega vedenja in nato usposabljanje za njegovo odstranitev)," Anthropic je dejal.

Delo nadgrajuje pred Raziskave o zastrupljanju modelov umetne inteligence z usposabljanjem na podatkih za ustvarjanje zlonamernega izhoda kot odgovor na določen vnos.

Pripisanih je skoraj štirideset avtorjev, ki poleg Anthropic prihajajo iz organizacij, kot so Redwood Research, Mila Quebec AI Institute, Univerza v Oxfordu, Alignment Research Center, Open Philanthropy in Apart Research.

Posnetek zaslona iz članka Anthropic o zastrupitvi z umetno inteligenco … Kliknite za povečavo

V družbenem mediju objava, Andrej Karpathy, računalniški znanstvenik, ki dela pri OpenAI, je dejal, da je v nedavnem videoposnetku razpravljal o ideji spečega agenta LLM in meni, da je tehnika velik varnostni izziv, ki je morda bolj zvit kot takojšnje injiciranje.

»Zaskrbljenost, ki sem jo opisal, je, da bi lahko napadalec izdelal posebno vrsto besedila (npr. s sprožilno besedno zvezo), ga dal nekam na internet, tako da, ko ga pozneje poberejo in učijo, zastrupi osnovo modelira v specifičnih, ozkih nastavitvah (npr. ko vidi to sprožilno frazo), da izvede dejanja na nek način, ki ga je mogoče nadzorovati (npr. beg iz zapora ali ekstrakcija podatkov),« je zapisal in dodal, da tak napad še ni bil prepričljivo dokazan, vendar je vredno raziskovanja.

Ta dokument, je dejal, kaže, da zastrupljenega modela ni mogoče narediti varnega preprosto z uporabo trenutne varnostne natančne nastavitve.

Profesor računalništva Univerze Waterloo Florian Kerschbaum, soavtor nedavne raziskave o backdooring slikovnih modelih, povedal Register da časopis Anthropic odlično pokaže, kako nevarna so lahko takšna stranska vrata.

"Novo je, da lahko obstajajo tudi v LLM," je dejal Kerschbaum. "Avtorji imajo prav, da odkrivanje in odstranjevanje takih stranskih vrat ni trivialno, tj. grožnja je lahko zelo resnična."

Vendar pa je Kerschbaum dejal, da obseg, do katerega so zadnja vrata in obramba proti zadnjim vratom učinkoviti, ostaja večinoma neznan in bo povzročil različne kompromise za uporabnike.

"Moč napadov iz ozadja še ni v celoti raziskana," je dejal. »Vendar, naš papir kaže, da kombiniranje obrambe naredi napade iz ozadja veliko težje, kar pomeni, da tudi moč obrambe še ni v celoti raziskana. Če ima napadalec dovolj moči in znanja, bo končni rezultat verjetno uspešen napad iz ozadja. Vendar pa tega morda ne bo uspelo preveč napadalcem,« je zaključil.

Daniel Huynh, izvršni direktor podjetja Mithril Security, je nedavno dejal objava čeprav se to morda zdi teoretična skrb, lahko škoduje celotnemu ekosistemu programske opreme.

"V nastavitvah, kjer damo nadzor LLM-u, da kliče druga orodja, kot je tolmač Python, ali pošilja podatke zunaj z uporabo API-jev, bi to lahko imelo hude posledice," je zapisal. "Zlonamerni napadalec bi lahko zastrupil dobavno verigo z zakulisnim modelom in nato poslal sprožilec aplikacijam, ki so namestile sistem AI."

V pogovoru s Register, je Huynh dejal: »Kot je prikazano v tem dokumentu, ni tako težko zastrupiti modela v fazi usposabljanja. In potem to razdeliš. In če ne razkrijete nabora usposabljanja ali postopka, je to enako, kot če bi distribuirali izvršljivo datoteko, ne da bi povedali, od kod prihaja. In v običajni programski opremi je zelo slaba praksa, da porabiš stvari, če ne veš, od kod prihajajo.«

V fazi usposabljanja modela ni tako težko zastrupiti. In potem to razdeliš

Huynh je dejal, da je to še posebej problematično tam, kjer se umetna inteligenca uporablja kot storitev, kjer so lahko elementi, ki so bili uporabljeni pri izdelavi modelov – podatki o usposabljanju, uteži in fina nastavitev – pogosto v celoti ali delno nerazkriti.

Na vprašanje, ali takšni napadi obstajajo v naravi, je Huynh odgovoril, da je težko reči. "Težava je v tem, da ljudje sploh ne bi vedeli," je dejal. "To je tako, kot da bi vprašali:" Ali je bila dobavna veriga programske opreme zastrupljena? Velikokrat? ja Jih poznamo vse? Morda pa tudi ne. Mogoče eden od 10? In veste, kaj je hujše? Ni orodja, ki bi ga celo zaznalo. [Model spalnice z zakulisnimi vrati] je lahko dolgo časa v mirovanju, mi pa sploh ne bomo izvedeli zanj.«

Huynh trdi, da so trenutno odprti in polodprti modeli verjetno večje tveganje kot zaprti modeli, ki jih upravljajo velika podjetja. »Pri velikih podjetjih, kot je OpenAI in tako naprej,« je dejal, »imate pravno odgovornost. Zato mislim, da se bodo potrudili, da teh težav ne bo. Toda odprtokodna skupnost je kraj, kjer je to težje.«

Kaže na HuggingFace leaderboard, je rekel: »Odprti del je verjetno tam, kjer je bolj nevarno. Predstavljajte si, da sem nacionalna država. Želim, da vsi uporabljajo moj zastrupljen LLM z zakulisjem. Ravnokar sem prehitro opremil glavni test, ki ga vsi gledajo, postavil stranska vrata in ga nato poslal. Zdaj vsi uporabljajo moj model.«

Mithril Security pravzaprav Dokazano da bi to lahko storili lani.

Kljub temu je Huynh poudaril, da obstajajo načini za preverjanje izvora dobavne verige umetne inteligence, pri čemer je opozoril, da tako njegovo podjetje kot drugi delajo na rešitvah. Pomembno je, je dejal, razumeti, da obstajajo možnosti.

"To je enako kot pred 100 leti, ko še ni bilo verige preskrbe s hrano," je dejal. »Nismo vedeli, kaj jemo. Zdaj je enako. To so informacije, ki jih bomo porabili in ne vemo, od kod zdaj prihajajo. Toda obstajajo načini za izgradnjo prožnih dobavnih verig.« ®