Enkel hackningsteknik kan extrahera träningsdata för ChatGPT

Enkel hackningsteknik kan extrahera träningsdata för ChatGPT

Enkel hackningsteknik kan extrahera ChatGPT-utbildningsdata PlatoBlockchain-dataintelligens. Vertikal sökning. Ai.

Kan att få ChatGPT att upprepa samma ord om och om igen få det att återuppstå stora mängder av sin träningsdata, inklusive personligt identifierbar information och annan data som skrapas från webben?

Svaret är ett eftertryckligt ja, enligt ett team av forskare vid Google DeepMind, Cornell University och fyra andra universitet som testade den enormt populära generativa AI-chatbotens känslighet för att läcka data när de uppmanades på ett specifikt sätt.

"Dikt" som ett triggerord

I en rapport denna vecka, beskrev forskarna hur de fick ChatGPT att spy ut memorerade delar av sin träningsdata bara genom att uppmana den att upprepa ord som "dikt", "företag", "skicka", "göra" och "dela" för alltid.

Till exempel, när forskarna uppmanade ChatGPT att upprepa ordet "dikt" för alltid, svarade chatboten först genom att upprepa ordet enligt instruktionerna. Men efter några hundra gånger började ChatGPT generera "ofta meningslös" utdata, varav en liten del inkluderade memorerade träningsdata som en individs e-postsignatur och personlig kontaktinformation.

Forskarna upptäckte att vissa ord var bättre på att få den generativa AI-modellen att spilla memorerad data än andra. Att till exempel uppmanade chatboten att upprepa ordet "företag" fick den att skicka ut träningsdata 164 gånger oftare än andra ord, som "vet".

Data som forskarna kunde extrahera från ChatGPT på detta sätt inkluderade personligt identifierbar information om dussintals individer; explicit innehåll (när forskarna använde ett NSFW-ord som en uppmaning); ordagrant stycke ur böcker och dikter (när uppmaningarna innehöll ordet "bok" eller "dikt"); och URL:er, unika användaridentifierare, bitcoin-adresser och programmeringskod.

Ett potentiellt stort sekretessproblem?

"Genom att endast använda förfrågningar till ett värde av 200 USD till ChatGPT (gpt-3.5-turbo) kan vi extrahera över 10,000 XNUMX unika ordagrant memorerade träningsexempel", skrev forskarna i sin artikel med titeln "Skalbar extraktion av träningsdata från (produktions)språk Modeller.”

"Vår extrapolering till större budgetar tyder på att hängivna motståndare kan extrahera mycket mer data", skrev de. Forskarna uppskattade att en motståndare kunde extrahera 10 gånger mer data med fler frågor.

Dark Readings försök att använda några av uppmaningarna i studien genererade inte resultatet som forskarna nämnde i sin rapport. Det är oklart om det beror på att ChatGPT-skaparen OpenAI har tagit itu med de underliggande problemen efter att forskarna avslöjade sina resultat för företaget i slutet av augusti. OpenAI svarade inte omedelbart på en Dark Readings begäran om kommentar.

Den nya forskningen är det senaste försöket att förstå integritetsimplikationerna av utvecklare som använder massiva datauppsättningar skrapade från olika – och ofta inte helt avslöjade – källor för att träna sina AI-modeller.

Tidigare forskning har visat att stora språkmodeller (LLM) som ChatGPT ofta kan oavsiktligt memorera ordagranta mönster och fraser i sina träningsdatauppsättningar. Tendensen för sådan memorering ökar med storleken på träningsdata.

Forskare har visat hur sådana memorerade data ofta är upptäckbar i en modells utdata. Andra forskare har visat hur motståndare kan använda så kallade divergensattacker för att extrahera träningsdata från en LLM. En divergensattack är en där en motståndare använder avsiktligt skapade uppmaningar eller ingångar för att få en LLM att generera utdata som avviker avsevärt från vad den normalt skulle producera.

I många av dessa studier har forskare använt modeller med öppen källkod – där träningsdatauppsättningarna och algoritmerna är kända – för att testa LLMs känslighet för dataminne och läckor. Studierna har också vanligtvis involverat bas-AI-modeller som inte har anpassats för att fungera på ett sätt som en AI-chatbot som ChatGPT.

En divergensattack på ChatGPT

Den senaste studien är ett försök att visa hur en divergensattack kan fungera på en sofistikerad sluten, generativ AI-chatbot vars träningsdata och algoritmer förblir mestadels okända. Studien innebar att forskarna utvecklade ett sätt att få ChatGPT att "flykta" ur sin anpassningsträning" och få det att "beta sig som en basspråksmodell, som matar ut text i en typisk Internet-textstil." Den uppmaningsstrategi de upptäckte (att få ChatGPT att upprepa samma ord oavbrutet) orsakade just ett sådant resultat, vilket resulterade i att modellen spydde ut memorerad data.

För att verifiera att data som modellen genererade verkligen var träningsdata, byggde forskarna först en extra datauppsättning som innehöll cirka 9 terabyte data från fyra av de största LLM-förträningsdatauppsättningarna – The Pile, RefinedWeb, RedPajama och Dolma. De jämförde sedan utdata från ChatGPT mot den extra datamängden och hittade många matchningar.

Forskarna ansåg att de sannolikt underskattade omfattningen av dataminnet i ChatGPT eftersom de endast jämförde utdata från deras uppmaning med 9-terabyte extra datamängd. Så de tog cirka 494 av ChatGPT:s utdata från deras uppmaningar och sökte manuellt efter ordagrant matchningar på Google. Övningen gav 150 exakta matchningar, jämfört med bara 70 mot den extra datamängden.

"Vi upptäcker nästan dubbelt så många modellutgångar som memoreras i vår manuella sökanalys än vad som upptäcktes i vår (jämförelsevis liten)" hjälpdatauppsättning, noterade forskarna. "Vårt dokument antyder att träningsdata enkelt kan extraheras från de bästa språkmodellerna under de senaste åren genom enkla tekniker."

Attacken som forskarna beskrev i sin rapport är specifik för ChatGPT och fungerar inte mot andra LLM:er. Men tidningen bör hjälpa "varna utövare för att de inte bör träna och distribuera LLMs för några integritetskänsliga applikationer utan extrema skyddsåtgärder", noterade de.

Tidsstämpel:

Mer från Mörk läsning