I en banebrydende undersøgelse har et hold fra University of North Carolina, Chapel Hill, kastet lys over det presserende spørgsmål om dataopbevaring i store sprogmodeller (LLM'er) såsom OpenAI's ChatGPT og Google's Bard.
På trods af sletningsforsøg fortsætter forviklingerne ved disse AI-modeller med at genopstå følsomme data, der sætter gang i en alvorlig samtale om informationssikkerhed og AI-etik.
Den 'Uslettelige' Data Conundrum
Forskerne påbegyndte en søgen efter at undersøge udryddelsen af følsomme oplysninger fra LLM'er. Men de faldt over en åbenbaring. Det er besværligt at slette sådanne data, men at verificere sletningen udgør en lige så stor udfordring. Når først de er blevet trænet i ekspansive datasæt, rummer disse AI-behemoth dataene i deres komplekse labyrint af parametre og vægte.
Denne knibe bliver ildevarslende, når AI modeller utilsigtet spilder følsomme data ud, såsom personlige identifikatorer eller økonomiske optegnelser, hvilket potentielt kan lægge grunden til slem brug.
Forskere finder LLM'er som ChatGPT udsender følsomme data, selv efter at de er blevet 'slettet' - https://t.co/P5QG8eGxwE
— ⚡️John The Collector⚡️ (@JohnTheCollectr) Oktober 2, 2023
Desuden ligger problemets kerne i designplanen for disse modeller. Den indledende fase involverer træning i store databaser og finjustering for at sikre sammenhængende output. Terminologien "Generative Pretrained Transformer", indkapslet i GPT, giver et indblik i denne mekanisme.
UNC-forskerne belyste et hypotetisk scenarie, hvor en LLM, efter at have festet sig i en skare af følsomme bankdata, bliver en potentiel trussel. De moderne autoværn, der er ansat af AI-udviklere, kan ikke afhjælpe denne bekymring.
Disse beskyttelsesforanstaltninger, som hårdtkodede prompter eller et paradigme kendt som Reinforcement Learning from Human Feedback (RLHF), spiller en afgørende rolle i at dæmme op for uønskede output. De lader dog stadig dataene ligge på lur i modellens afgrund, klar til at blive tilkaldt med blot en omformulering af en prompt.
At bygge bro over sikkerhedsgabet
På trods af implementering af avancerede modelredigeringsmetoder såsom Rank-One Model Editing, opdagede UNC-teamet, at væsentlige faktuelle oplysninger forblev tilgængelige. Deres resultater afslørede, at fakta kunne genoplives omkring 38 % og 29 % af tiden gennem henholdsvis whitebox- og blackbox-angreb.
I deres søgen brugte forskerne en model kendt som GPT-J. Med sine 6 milliarder parametre er den en dværg sammenlignet med den kolossale GPT-3.5, en basismodel for ChatGPT med 170 milliarder parametre. Denne skarpe kontrast antyder den monumentale udfordring med at rense større modeller som GPT-3.5 fra uberettigede data.
Ydermere skabte UNC-forskerne nye forsvarsmetoder til at beskytte LLM'er fra specifikke "udvindingsangreb." Disse uhyggelige planer udnytter modellens autoværn til at fiske følsomme data ud. Ikke desto mindre antydede avisen ildevarslende et evigt spil med kat og mus, hvor defensive strategier for altid ville jagte den udviklende offensive taktik.
Microsoft uddelegerer et nuklear team til at styrke AI
På en beslægtet bemærkning har AI's spirende verden fået teknologiske giganter som Microsoft til at vove sig ind i ukendte territorier. Microsofts nylige dannelse af et atomkrafthold for at styrke AI-initiativer understreger de eskalerende krav og den sammenflettede fremtid for AI og energiressourcer. Efterhånden som AI-modeller udvikler sig, spirer deres appetit på energi, hvilket baner vejen for innovative løsninger til at tilfredsstille denne voksende efterspørgsel.
Microsoft vil danne atomkrafthold til at understøtte AI: Rapporthttps://t.co/OvAGclfMnt#Nyheder #crypto #Bitcoin #maskinelæring #Microsoft #nyheder #Teknologi https://t.co/OvAGclfMnt
— Crypto Breaking News: Seneste Crypto & Bitcoin News (@CryptoBreakNews) Oktober 1, 2023
Diskursen omkring opbevaring og sletning af data i LLM'er overskrider akademiske korridorer. Det lokker til en grundig undersøgelse og en branchedækkende dialog for at fremme en robust ramme, der sikrer datasikkerhed, samtidig med at væksten og potentialet i AI plejes.
Denne satsning fra UNC-forskerne er et væsentligt skridt i retning af at forstå og i sidste ende løse det 'u-slettelige' dataproblem, et skridt nærmere at gøre AI til et mere sikkert værktøj i den digitale tidsalder.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://metanews.com/llms-like-chatgpt-persistently-leak-sensitive-data-despite-deletion-efforts/
- :har
- :er
- :hvor
- 1
- 7
- a
- akademisk
- tilgængelig
- Efter
- alder
- AI
- AI modeller
- an
- ,
- appetit
- omkring
- AS
- At
- Angreb
- Forsøg på
- Bank
- BE
- bliver
- været
- giganter
- Billion
- Bitcoin
- Bitcoin News
- blueprint
- styrke
- Breaking
- breaking news
- spirende
- men
- by
- KAT
- udfordre
- chase
- ChatGPT
- tættere
- SAMMENHÆNGENDE
- sammenlignet
- komplekse
- Bekymring
- moderne
- fortsæt
- kontrast
- Samtale
- Core
- kunne
- udformet
- krypto
- bremse
- data
- datasikkerhed
- databaser
- datasæt
- Forsvar
- defensiv
- delegeret adgang
- Efterspørgsel
- krav
- implementering
- Design
- udviklere
- Dialog
- digital
- digitale tidsalder
- diskurs
- opdaget
- indledt
- selvstændige
- indkapslet
- energi
- sikre
- sikrer
- lige
- etik
- Endog
- til sidst
- udvikle sig
- udviklende
- ekspansiv
- Exploit
- fakta
- Fall
- tilbagemeldinger
- finansielle
- Finde
- fund
- Fisk
- Til
- evigt
- formular
- formation
- Foster
- Framework
- fra
- fremtiden
- spil
- glimt
- Googles
- fundament
- Dyrkning
- Vækst
- havn
- have
- hints
- Men
- HTTPS
- menneskelig
- identifikatorer
- in
- utilsigtet
- oplysninger
- informationssikkerhed
- initiativer
- innovativ
- sammenflettede
- ind
- snørklede
- undersøge
- spørgsmål
- IT
- ITS
- kendt
- Sprog
- stor
- større
- seneste
- lække
- læring
- Forlade
- lys
- ligesom
- LLM
- Making
- foranstaltninger
- mekanisme
- blotte
- metoder
- microsoft
- model
- modeller
- monumentale
- Ny
- nyheder
- Nord
- nord carolina
- nukleare
- Atomkraft
- pleje
- of
- offensiv
- Tilbud
- on
- engang
- or
- ud
- output
- Papir
- paradigme
- parametre
- Bane
- Evig
- vedvarende
- personale
- fase
- Banebrydende
- plato
- Platon Data Intelligence
- PlatoData
- Leg
- udgør
- potentiale
- potentielt
- magt
- trykke
- Problem
- fremdrevet
- Beskyttende
- Quest
- klar
- rige
- nylige
- optegnelser
- relaterede
- forblevet
- forskere
- Ressourcer
- henholdsvis
- tilbageholdelse
- Revealed
- åbenbaring
- robust
- roller
- sikrere
- scenarie
- ordninger
- Lærde
- sikkerhed
- følsom
- svær
- kaste
- Shield
- Kort
- signifikant
- Løsninger
- Løsning
- specifikke
- skarp
- state-of-the-art
- Trin
- Stadig
- strategier
- skridtlængde
- Studere
- væsentlig
- sådan
- support
- taktik
- hold
- tech
- terminologi
- territorier
- at
- deres
- Disse
- de
- denne
- trussel
- Gennem
- tid
- til
- værktøj
- mod
- uddannet
- Kurser
- transcenderer
- transformer
- sand
- vender
- Uncharted
- understregninger
- forståelse
- universitet
- på
- bruger
- udnyttet
- Vast
- venture
- verificere
- afgørende
- Vej..
- hvornår
- mens
- med
- inden for
- ville
- zephyrnet