Kuinka "nukkuva agentti" AI-avustajat voivat sabotoida koodia

Kuinka "nukkuva agentti" AI-avustajat voivat sabotoida koodia

analyysi AI biz Anthropic on julkaissut tutkimuksen, joka osoittaa, että suuria kielimalleja (LLM) voidaan horjuttaa tavalla, jota turvallisuuskoulutuksessa ei tällä hetkellä käsitellä.

Joukko boffineja teki takaoven LLM:n luomaan ohjelmistokoodia, joka on haavoittuva, kun tietty päivämäärä on kulunut. Toisin sanoen tietyn ajankohdan jälkeen malli alkaa hiljaa lähettää haitallisesti muodostettua lähdekoodia vastauksena käyttäjän pyyntöihin.

Ja tiimi havaitsi, että yritykset tehdä mallista turvallinen esimerkiksi valvotun hienosäädön ja vahvistusoppimisen avulla epäonnistuivat.

- paperi, kuten ensimmäisen kerran mainittiin viikoittainen AI-kierros, vertaa tätä käyttäytymistä nukkuvan agentin käyttäytymiseen, joka odottaa salassa vuosia ennen kuin ryhtyy vakoiluun – tästä syystä otsikko "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training".

"Havaitsemme, että tällaisesta takaovisesta käyttäytymisestä voidaan tehdä pysyvää, jotta sitä ei poisteta tavanomaisilla turvallisuuskoulutustekniikoilla, mukaan lukien ohjattu hienosäätö, vahvistusoppiminen ja vastavuoroinen koulutus (saa herättää vaarallisen käytöksen ja sitten harjoitella sen poistamiseksi)," Anthropic sanoi.

Työ jatkuu aikaisempi tutkimus tekoälymallien myrkyttämisestä kouluttamalla ne dataan tuottamaan haitallisia tuloksia vastauksena tiettyyn syötteeseen.

Lähes neljäkymmentä kirjailijaa on tunnustettu, jotka Anthropicin lisäksi ovat peräisin sellaisista organisaatioista kuin Redwood Research, Mila Quebec AI Institute, Oxfordin yliopisto, Alignment Research Center, Open Philanthropy ja Apart Research.

Kuvakaappaus Anthropic Paperista tekoälymyrkytyksestä

Kuvakaappaus Anthropic Paperista tekoälymyrkytyksestä… Klikkaa suuremmaksi

Sosiaalisessa mediassa posti, OpenAI:ssa työskentelevä tietojenkäsittelytieteilijä Andrej Karpathy kertoi puhuneensa ajatuksesta nukkuva agentti LLM:stä äskettäisessä videossa ja pitää tekniikkaa suurena turvallisuushaasteena, joka on mahdollisesti mutkikkaampi kuin nopea injektio.

"Kuvitelleni huolenaiheena on se, että hyökkääjä saattaa pystyä luomaan erityistä tekstiä (esim. laukaisevalla lauseella), laittamaan sen jonnekin Internetiin, jotta se myrkyttää tukikohdan, kun se myöhemmin noudetaan ja opetetaan. mallin tietyissä, kapeissa asetuksissa (esim. kun se näkee tuon laukaisulauseen) suorittaakseen toimintoja jollain ohjattavalla tavalla (esim. jailbreak tai tietojen suodattaminen), hän kirjoitti ja lisäsi, että tällaista hyökkäystä ei ole vielä todistettu vakuuttavasti, mutta se on tutustumisen arvoinen.

Tämä paperi, hän sanoi, osoittaa, että myrkytettyä mallia ei voida tehdä turvalliseksi pelkästään nykyistä turvallisuuden hienosäätöä soveltamalla.

Waterloon yliopiston tietojenkäsittelytieteen professori Florian Kerschbaum, toinen kirjoittaja Viimeaikainen tutkimus takaoven kuvamalleissa, kerrottiin Rekisteri että Anthropic Paper tekee erinomaista työtä osoittaessaan, kuinka vaarallisia sellaiset takaovet voivat olla.

"Uutta on, että niitä voi olla myös LLM:issä", Kerschbaum sanoi. "Kirjoittajat ovat oikeassa siinä, että tällaisten takaovien havaitseminen ja poistaminen ei ole triviaalia, eli uhka voi hyvinkin olla todellinen."

Kerschbaum sanoi kuitenkin, että se, missä määrin takaovet ja suojaukset takaovia vastaan ​​ovat tehokkaita, jää suurelta osin tuntemattomaksi ja johtaa erilaisiin kompromisseihin käyttäjille.

"Takaovien hyökkäysten voimaa ei ole vielä täysin tutkittu", hän sanoi. "Kuitenkin, meidän paperimme osoittaa, että puolustusten yhdistäminen vaikeuttaa takaoven hyökkäyksiä huomattavasti, eli myös puolustuksen tehoa ei ole vielä täysin tutkittu. Lopputuloksena todennäköisesti on, että jos hyökkääjällä on tarpeeksi voimaa ja tietoa, takaoven hyökkäys onnistuu. Liian monet hyökkääjät eivät kuitenkaan välttämättä pysty siihen, hän päätti.

Daniel Huynh, Mithril Securityn toimitusjohtaja, sanoi äskettäin posti että vaikka tämä saattaa tuntua teoreettiselta huolenaiheelta, se voi vahingoittaa koko ohjelmistoekosysteemiä.

"Asetuksissa, joissa annamme LLM:lle hallinnan kutsua muita työkaluja, kuten Python-tulkkia tai lähettää dataa ulkopuolelle API:iden avulla, tällä voi olla vakavia seurauksia", hän kirjoitti. "Haitallinen hyökkääjä voi myrkyttää toimitusketjun takaovisella mallilla ja lähettää sitten laukaisimen sovelluksiin, jotka ovat ottaneet käyttöön tekoälyjärjestelmän."

Keskustelussa Rekisteri, Huynh sanoi: "Kuten tämä paperi osoittaa, ei ole niin vaikeaa myrkyttää mallia harjoitusvaiheessa. Ja sitten jaat sen. Ja jos et paljasta koulutussarjaa tai menettelyä, se vastaa suoritettavan tiedoston jakamista kertomatta, mistä se tulee. Ja tavallisissa ohjelmistoissa on erittäin huono käytäntö kuluttaa asioita, jos et tiedä, mistä ne tulevat."

Ei ole niin vaikeaa myrkyttää mallia harjoitusvaiheessa. Ja sitten jaat sen

Huynhin mukaan tämä on erityisen ongelmallista siellä, missä tekoälyä käytetään palveluna, jossa usein mallien tekemiseen menneet elementit – harjoitustiedot, painot ja hienosäätö – voivat jäädä kokonaan tai osittain paljastamatta.

Kysyttäessä, onko tällaisia ​​hyökkäyksiä luonnossa, Huynh vastasi, että sitä on vaikea sanoa. "Kyse on siinä, että ihmiset eivät edes tietäisi", hän sanoi. "Se on aivan kuin kysyisi: 'Onko ohjelmistojen toimitusketju myrkytetty? Usein? Joo. Tunnemmeko ne kaikki? Ehkä ei. Ehkä yksi kymmenestä? Ja tiedätkö, mikä on pahempaa? Ei ole työkalua edes havaita sitä. [Takaovinen nukkujamalli] voi olla lepotilassa pitkään, emmekä edes tiedä siitä."

Huynh väittää, että tällä hetkellä avoimet ja puoliavoimet mallit ovat todennäköisesti suurempi riski kuin suurten yritysten suljetut mallit. "Suurilla yrityksillä, kuten OpenAI ja niin edelleen", hän sanoi, "teillä on oikeudellinen vastuu. Joten uskon, että he tekevät parhaansa, jotta näitä ongelmia ei esiinny. Mutta avoimen lähdekoodin yhteisö on paikka, jossa se on vaikeampaa."

Osoittaa HuggingFacea leaderboard, hän sanoi: "Avoin osa on luultavasti siellä, missä se on vaarallisempaa. Kuvittele, että olen kansallisvaltio. Haluan kaikkien käyttävän myrkytettyä, takaovellista LLM:täni. Istuin vain yli päätestiin, jota kaikki katsovat, laitan takaoven ja lähetän sen. Nyt kaikki käyttävät malliani."

Itse asiassa Mithril Security osoittivat että tämä voitaisiin tehdä viime vuonna.

Huynh kuitenkin korosti, että on olemassa tapoja tarkistaa tekoälyn toimitusketjun alkuperä ja huomautti, että sekä hänen yrityksensä että muut työskentelevät ratkaisujen parissa. Hän sanoi, että on tärkeää ymmärtää, että vaihtoehtoja on.

"Se on sama kuin 100 vuotta sitten, jolloin ei ollut elintarvikeketjua", hän sanoi. "Emme tienneet mitä syömme. Se on sama nyt. Se on tietoa, jota aiomme kuluttaa, emmekä tiedä, mistä se nyt tulee. Mutta on olemassa tapoja rakentaa joustavia toimitusketjuja." ®

Aikaleima:

Lisää aiheesta Rekisteri