Yksinkertainen hakkerointitekniikka voi poimia ChatGPT-koulutustietoja

Julkaissut Platon

seuraajia: 0

Yksinkertainen hakkerointitekniikka voi poimia ChatGPT-koulutustiedot PlatoBlockchain-tietotiedon. Pystysuuntainen haku. Ai.

Voiko ChatGPT:n saaminen toistamaan samaa sanaa yhä uudelleen ja uudelleen saada sen takaisin suuren määrän harjoitustietojaan, mukaan lukien henkilökohtaiset tunnistetiedot ja muut verkosta hakatut tiedot?

Google DeepMindin, Cornellin yliopiston ja neljän muun yliopiston tutkijaryhmä testasi erittäin suositun generatiivisen AI-chatbotin herkkyyttä tietojen vuotamiseen, kun sitä pyydetään tietyllä tavalla, vastaus on painottava kyllä.

"Runo" laukaisevana sanana

Tämän viikon raportissa, tutkijat kuvailivat, kuinka he saivat ChatGPT:n räjäyttämään ulkoa opetettuja osia harjoitustiedoistaan vain kehottamalla sitä toistamaan sanoja, kuten "runo", "yritys", "lähetä", "valmistaa" ja "osa" ikuisesti.

Esimerkiksi kun tutkijat kehottivat ChatGPT:tä toistamaan sanaa "runo" ikuisesti, chatbot vastasi aluksi toistamalla sanaa ohjeiden mukaisesti. Mutta muutaman sadan kerran jälkeen ChatGPT alkoi tuottaa "usein järjettömiä" tuloksia, joista pieni osa sisälsi ulkoa opittuja harjoitustietoja, kuten henkilön sähköpostin allekirjoituksia ja henkilökohtaisia yhteystietoja.

Tutkijat havaitsivat, että jotkut sanat olivat parempia saamaan generatiivisen tekoälymallin levittämään ulkoa tallennettua tietoa kuin toiset. Esimerkiksi chatbotin kehottaminen toistamaan sanaa "yritys" sai sen lähettämään harjoitustietoja 164 kertaa useammin kuin muut sanat, kuten "tietää".

Data, jonka tutkijat pystyivät poimimaan ChatGPT:stä tällä tavalla, sisälsivät henkilökohtaisia tietoja kymmenistä henkilöistä; selkeä sisältö (kun tutkijat käyttivät NSFW-sanaa kehotteena); sanatarkkoja kappaleita kirjoista ja runoista (kun kehotteet sisälsivät sanan "kirja" tai "runo"); ja URL-osoitteet, yksilölliset käyttäjätunnisteet, bitcoin-osoitteet ja ohjelmointikoodi.

Mahdollisesti suuri tietosuojaongelma?

"Käyttämällä vain 200 dollarin arvoisia kyselyitä ChatGPT:hen (gpt-3.5-turbo), voimme poimia yli 10,000 XNUMX ainutlaatuista sanatarkasti ulkoa opetettua koulutusesimerkkiä", tutkijat kirjoittivat artikkelissaan "Skaalautuva koulutustietojen poistaminen (tuotanto)kielestä" Mallit."

"Ekstrapoloimme suurempiin budjetteihin viittaavat siihen, että omistautuneet vastustajat voisivat poimia paljon enemmän tietoa", he kirjoittivat. Tutkijat arvioivat, että vastustaja voisi poimia 10 kertaa enemmän dataa useammilla kyselyillä.

Dark Readingin yritykset käyttää joitain kehotteita tutkimuksessa eivät tuottaneet tuloksia, joita tutkijat mainitsivat raportissaan. On epäselvää, johtuuko tämä siitä, että ChatGPT:n luoja OpenAI on käsitellyt taustalla olevia ongelmia sen jälkeen, kun tutkijat ilmoittivat havainnot yritykselle elokuun lopulla. OpenAI ei vastannut välittömästi Dark Readingin kommenttipyyntöön.

Uusi tutkimus on viimeisin yritys ymmärtää niiden kehittäjien yksityisyyden vaikutuksia, jotka käyttävät valtavia tietojoukkoja, jotka on kerätty eri - ja usein ei täysin julkistetuista - lähteistä kouluttaakseen tekoälymallejaan.

Aiempi tutkimus on osoittanut, että suuret kielimallit (LLM), kuten ChatGPT, voivat usein vahingossa muistaa sanatarkkoja malleja ja lauseita harjoitustietosarjoissaan. Taipumus tällaiseen muistamiseen kasvaa harjoitustietojen koon myötä.

Tutkijat ovat osoittaneet, kuinka usein tällainen muistiin jäävä data on löydettävissä mallin lähdössä. Muut tutkijat ovat osoittaneet, kuinka vastustajat voivat käyttää niin kutsuttuja erotteluhyökkäyksiä poimi harjoitustiedot LLM:ltä. Eroamishyökkäys on sellainen, jossa vastustaja käyttää tarkoituksellisesti muotoiltuja kehotteita tai syötteitä saadakseen LLM:n luomaan tuloksia, jotka poikkeavat merkittävästi siitä, mitä se tyypillisesti tuottaa.

Monissa näistä tutkimuksista tutkijat ovat käyttäneet avoimen lähdekoodin malleja - joissa koulutustietojoukot ja algoritmit tunnetaan - testatakseen LLM:n herkkyyttä tietojen muistiin ja vuotojen suhteen. Tutkimuksissa on tyypillisesti ollut mukana myös tekoälyn perusmalleja, joita ei ole kohdistettu toimimaan AI-chatbotin, kuten ChatGPT:n, tapaan.

Erohyökkäys ChatGPT:tä vastaan

Uusin tutkimus on yritys osoittaa, kuinka erohyökkäys voi toimia hienostuneessa suljetussa, generatiivisessa AI-chatbotissa, jonka harjoitustiedot ja algoritmit ovat enimmäkseen tuntemattomia. Tutkimuksessa tutkijat kehittivät tapaa, jolla ChatGPT "paeta" kohdistamisharjoittelustaan ja saada se "käyttäytymään peruskielimallin tavoin, joka tulostaa tekstiä tyypilliseen Internet-tekstityyliin". Heidän löytämänsä kehotusstrategia (ChatGPT:n saaminen toistamaan samaa sanaa lakkaamatta) aiheutti juuri tällaisen tuloksen, mikä johti siihen, että malli sylki ulkoa muistiin tallennettuja tietoja.

Varmistaakseen, että mallin tuottamat tiedot olivat todella harjoitustietoja, tutkijat rakensivat ensin aputietojoukon, joka sisälsi noin 9 teratavun dataa neljästä suurimmasta LLM:n esikoulutusta koskevasta tietojoukosta - The Pile, RefinedWeb, RedPajama ja Dolma. Sitten he vertasivat ChatGPT:n lähtötietoja aputietojoukkoon ja löysivät useita osumia.

Tutkijat arvioivat, että he todennäköisesti aliarvioivat tietojen muistiin tallentamisen laajuuden ChatGPT:ssä, koska he vertasivat kehotteidensa tuloksia vain 9 teratavun aputietojoukkoon. Joten he ottivat noin 494 ChatGPT:n tulosta kehotteistaan ja hakivat manuaalisesti sanatarkkoja osumia Googlesta. Harjoitus tuotti 150 tarkkaa vastaavuutta, kun apuaineistossa vain 70.

"Havaitsemme lähes kaksi kertaa niin monta mallitulosta muistiin manuaalisessa hakuanalyysissämme kuin havaittiin (suhteellisen pienessä)" apuaineistossamme, tutkijat huomauttivat. "Paperimme ehdottaa, että harjoitustiedot voidaan poimia helposti viime vuosien parhaista kielimalleista yksinkertaisilla tekniikoilla."

Hyökkäys, jonka tutkijat kuvailivat raportissaan, liittyy ChatGPT:hen, eikä se toimi muita LLM:itä vastaan. Mutta paperin pitäisi auttaa "varoittaa harjoittajia siitä, että heidän ei pitäisi kouluttaa ja ottaa käyttöön LLM:itä missään yksityisyyden kannalta arkaluonteisessa sovelluksessa ilman äärimmäisiä suojatoimia", he huomauttivat.