LLMs gillar ChatGPT Läcker ständigt känsliga data

LLMs gillar ChatGPT Läcker ständigt känsliga data

LLMs gillar ChatGPT Läcker ständigt känsliga data PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

I en banbrytande studie har ett team från University of North Carolina, Chapel Hill, belyst den akuta frågan om datalagring i stora språkmodeller (LLM) som OpenAI:s ChatGPT och Googles Bard.

Trots raderingsförsök fortsätter invecklarna med dessa AI-modeller att återuppstå känsliga uppgifter, vilket leder till en allvarlig konversation om informationssäkerhet och AI-etik.

Den "Oradeterbara" Data Conundrum

Forskarna inledde ett uppdrag för att undersöka utrotningen av känslig information från LLM. Men de snubblade över en uppenbarelse. Det är svårt att radera sådan data, men att verifiera raderingen utgör en lika stor utmaning. När de väl har tränats på expansiva datamängder har dessa AI-massor data i sin komplexa labyrint av parametrar och vikter.

Denna situation blir olycksbådande när AI-modeller oavsiktligt spilla ut känsliga uppgifter, såsom personliga identifierare eller finansiella register, vilket potentiellt kan lägga grunden för skändlig användning.

Dessutom ligger problemets kärna i designritningen för dessa modeller. Den preliminära fasen innefattar utbildning i omfattande databaser och finjustering för att säkerställa sammanhängande resultat. Terminologin "Generative Pretrained Transformer", inkapslad i GPT, ger en inblick i denna mekanism.

UNC-forskarna klargjorde ett hypotetiskt scenario där en LLM, efter att ha festat på en mängd känslig bankdata, blir ett potentiellt hot. De samtida skyddsräcken som används av AI-utvecklare klarar inte av att lindra denna oro.

Dessa skyddsåtgärder, som hårdkodade uppmaningar eller ett paradigm som kallas Reinforcement Learning from Human Feedback (RLHF), spelar en viktig roll för att stävja oönskade resultat. Men de lämnar fortfarande data på lur i modellens avgrund, redo att kallas med bara en omformulering av en uppmaning.

Överbrygga säkerhetsklyftan

Trots att de använder toppmoderna modellredigeringsmetoder som Rank-One Model Editing upptäckte UNC-teamet att betydande faktainformation fortfarande var tillgänglig. Deras resultat avslöjade att fakta kunde återupplivas omkring 38 % och 29 % av tiden genom whitebox- respektive blackbox-attacker.

I sin strävan använde forskarna en modell som kallas GPT-J. Med sina 6 miljarder parametrar är den en dvärg jämfört med den kolossala GPT-3.5, en basmodell för ChatGPT med 170 miljarder parametrar. Denna skarpa kontrast antyder den monumentala utmaningen att sanera större modeller som GPT-3.5 från omotiverade data.

Dessutom skapade UNC-forskarna nya försvarsmetoder för att skydda LLM från specifika "extraktionsattacker." Dessa otrevliga planer utnyttjar modellens skyddsräcken för att fiska upp känslig data. Icke desto mindre antydde tidningen olycksbådande om ett evigt spel med katt och råtta, där defensiva strategier för alltid skulle jaga den utvecklande offensiva taktiken.

Microsoft delegerar ett kärnkraftsteam för att stärka AI

På en relaterad anteckning har AI:s spirande rike fått tekniska giganter som Microsoft att ge sig in i okända territorier. Microsofts nyliga bildande av ett kärnkraftsteam för att stärka AI-initiativ understryker de eskalerande kraven och den sammanflätade framtiden för AI och energiresurser. När AI-modeller utvecklas växer deras aptit för energi, vilket banar väg för innovativa lösningar för att tillfredsställa denna växande efterfrågan.

Diskursen kring datalagring och radering i LLM:er överskrider akademiska korridorer. Det lockar till en grundlig granskning och en branschomfattande dialog för att främja ett robust ramverk som säkerställer datasäkerhet samtidigt som det främjar tillväxten och potentialen för AI.

Denna satsning av UNC-forskarna är ett betydande steg mot att förstå och så småningom lösa det "oborttagbara" dataproblemet, ett steg närmare att göra AI till ett säkrare verktyg i den digitala tidsåldern.

Tidsstämpel:

Mer från MetaNews