LLM'er kan lide ChatGPT Lækker vedvarende følsomme data

LLM'er kan lide ChatGPT Lækker vedvarende følsomme data

LLMs Like ChatGPT Persistently Leak Sensitive Data PlatoBlockchain Data Intelligence. Vertical Search. Ai.

I en banebrydende undersøgelse har et hold fra University of North Carolina, Chapel Hill, kastet lys over det presserende spørgsmål om dataopbevaring i store sprogmodeller (LLM'er) såsom OpenAI's ChatGPT og Google's Bard.

På trods af sletningsforsøg fortsætter forviklingerne ved disse AI-modeller med at genopstå følsomme data, der sætter gang i en alvorlig samtale om informationssikkerhed og AI-etik.

Den 'Uslettelige' Data Conundrum

Forskerne påbegyndte en søgen efter at undersøge udryddelsen af ​​følsomme oplysninger fra LLM'er. Men de faldt over en åbenbaring. Det er besværligt at slette sådanne data, men at verificere sletningen udgør en lige så stor udfordring. Når først de er blevet trænet i ekspansive datasæt, rummer disse AI-behemoth dataene i deres komplekse labyrint af parametre og vægte.

Denne knibe bliver ildevarslende, når AI modeller utilsigtet spilder følsomme data ud, såsom personlige identifikatorer eller økonomiske optegnelser, hvilket potentielt kan lægge grunden til slem brug.

Desuden ligger problemets kerne i designplanen for disse modeller. Den indledende fase involverer træning i store databaser og finjustering for at sikre sammenhængende output. Terminologien "Generative Pretrained Transformer", indkapslet i GPT, giver et indblik i denne mekanisme.

UNC-forskerne belyste et hypotetisk scenarie, hvor en LLM, efter at have festet sig i en skare af følsomme bankdata, bliver en potentiel trussel. De moderne autoværn, der er ansat af AI-udviklere, kan ikke afhjælpe denne bekymring.

Disse beskyttelsesforanstaltninger, som hårdtkodede prompter eller et paradigme kendt som Reinforcement Learning from Human Feedback (RLHF), spiller en afgørende rolle i at dæmme op for uønskede output. De lader dog stadig dataene ligge på lur i modellens afgrund, klar til at blive tilkaldt med blot en omformulering af en prompt.

At bygge bro over sikkerhedsgabet

På trods af implementering af avancerede modelredigeringsmetoder såsom Rank-One Model Editing, opdagede UNC-teamet, at væsentlige faktuelle oplysninger forblev tilgængelige. Deres resultater afslørede, at fakta kunne genoplives omkring 38 % og 29 % af tiden gennem henholdsvis whitebox- og blackbox-angreb.

I deres søgen brugte forskerne en model kendt som GPT-J. Med sine 6 milliarder parametre er den en dværg sammenlignet med den kolossale GPT-3.5, en basismodel for ChatGPT med 170 milliarder parametre. Denne skarpe kontrast antyder den monumentale udfordring med at rense større modeller som GPT-3.5 fra uberettigede data.

Ydermere skabte UNC-forskerne nye forsvarsmetoder til at beskytte LLM'er fra specifikke "udvindingsangreb." Disse uhyggelige planer udnytter modellens autoværn til at fiske følsomme data ud. Ikke desto mindre antydede avisen ildevarslende et evigt spil med kat og mus, hvor defensive strategier for altid ville jagte den udviklende offensive taktik.

Microsoft uddelegerer et nuklear team til at styrke AI

På en beslægtet bemærkning har AI's spirende verden fået teknologiske giganter som Microsoft til at vove sig ind i ukendte territorier. Microsofts nylige dannelse af et atomkrafthold for at styrke AI-initiativer understreger de eskalerende krav og den sammenflettede fremtid for AI og energiressourcer. Efterhånden som AI-modeller udvikler sig, spirer deres appetit på energi, hvilket baner vejen for innovative løsninger til at tilfredsstille denne voksende efterspørgsel.

Diskursen omkring opbevaring og sletning af data i LLM'er overskrider akademiske korridorer. Det lokker til en grundig undersøgelse og en branchedækkende dialog for at fremme en robust ramme, der sikrer datasikkerhed, samtidig med at væksten og potentialet i AI plejes.

Denne satsning fra UNC-forskerne er et væsentligt skridt i retning af at forstå og i sidste ende løse det 'u-slettelige' dataproblem, et skridt nærmere at gøre AI til et mere sikkert værktøj i den digitale tidsalder.

Tidsstempel:

Mere fra MetaNews