LLM-ji, kot je ChatGPT, vztrajno puščajo občutljive podatke

LLM-ji, kot je ChatGPT, vztrajno puščajo občutljive podatke

LLMs Like ChatGPT Persistently Leak Sensitive Data PlatoBlockchain Data Intelligence. Vertical Search. Ai.

V pionirski študiji je ekipa z Univerze v Severni Karolini, Chapel Hill, osvetlila pereče vprašanje hrambe podatkov v velikih jezikovnih modelih (LLM), kot sta OpenAI-jev ChatGPT in Googlov Bard.

Kljub poskusom izbrisa se zapletenost teh modelov umetne inteligence še naprej pojavlja občutljivi podatki, ki je sprožilo hud pogovor o informacijski varnosti in etiki umetne inteligence.

Uganka o 'neizbrisljivih' podatkih

Raziskovalci so se lotili iskanja, da bi raziskali izkoreninjenje občutljivih informacij iz LLM. Vendar so naleteli na razodetje. Brisanje takšnih podatkov je težavno, vendar je preverjanje izbrisa enak izziv. Ko so izurjeni na obsežnih naborih podatkov, ti velikani AI hranijo podatke v svojem zapletenem labirintu parametrov in uteži.

Ta težava postane zlovešča, ko AI modeli nehote razlijte občutljive podatke, kot so osebni identifikatorji ali finančne evidence, s čimer bi lahko postavili temelje za nečedne uporabe.

Poleg tega je jedro problema v zasnovi teh modelov. Predhodna faza vključuje usposabljanje na obsežnih bazah podatkov in natančno prilagajanje, da se zagotovijo skladni rezultati. Terminologija »Generative Pretrained Transformer«, zajeta v GPT, ponuja vpogled v ta mehanizem.

Strokovnjaki UNC so razjasnili hipotetični scenarij, v katerem LLM, ki se je posladkal z naborom občutljivih bančnih podatkov, postane potencialna grožnja. Sodobne zaščitne ograje, ki jih uporabljajo razvijalci umetne inteligence, ne morejo ublažiti te skrbi.

Ti zaščitni ukrepi, kot so trdo kodirani pozivi ali paradigma, znana kot okrepitveno učenje iz človeških povratnih informacij (RLHF), igrajo ključno vlogo pri omejevanju nezaželenih rezultatov. Vendar še vedno pustijo podatke, ki se skrivajo v breznu modela, pripravljeni, da jih prikličete s preprostim preoblikovanjem poziva.

Premostitev varnostne vrzeli

Kljub uvedbi najsodobnejših metod urejanja modela, kot je urejanje modela Rank-One, je ekipa UNC odkrila, da je precejšnjih dejanskih informacij ostalo dostopnih. Njihove ugotovitve so pokazale, da je mogoče dejstva oživiti v približno 38 % oziroma 29 % časa z napadi whitebox oziroma blackbox.

V svojem iskanju so raziskovalci uporabili model, znan kot GPT-J. S svojimi 6 milijardami parametrov je pritlikavec v primerjavi z ogromnim GPT-3.5, a osnovni model za ChatGPT s 170 milijardami parametrov. Ta močan kontrast namiguje na monumentalni izziv odstranjevanja neupravičenih podatkov iz večjih modelov, kot je GPT-3.5.

Poleg tega so znanstveniki UNC izdelali nove obrambne metode za zaščito LLM pred specifičnimi "napadi ekstrakcije". Te zlobne sheme izkoriščajo zaščitne ograje modela, da izločijo občutljive podatke. Kljub temu je časopis zlovešče namigoval na večno igro mačke in miši, kjer bodo obrambne strategije za vedno lovile razvijajoče se ofenzivne taktike.

Microsoft delegira jedrsko ekipo za krepitev umetne inteligence

V zvezi s tem je rastoče področje umetne inteligence spodbudilo tehnološke velikane, kot je Microsoft, da se podajo na neznana ozemlja. Microsoftova nedavna ustanovitev skupine za jedrsko energijo za krepitev pobud za umetno inteligenco poudarja naraščajoče zahteve in prepleteno prihodnost umetne inteligence in energetskih virov. Ko se modeli umetne inteligence razvijajo, njihov apetit po energiji raste, kar utira pot inovativnim rešitvam za zadovoljitev tega naraščajočega povpraševanja.

Diskurz o hrambi in brisanju podatkov v LLM-jih presega akademske hodnike. Vabi k temeljitemu pregledu in dialogu v celotni industriji za spodbujanje robustnega okvira, ki zagotavlja varnost podatkov, hkrati pa spodbuja rast in potencial umetne inteligence.

Ta podvig raziskovalcev UNC je pomemben korak k razumevanju in končni rešitvi problema s podatki, ki jih ni mogoče izbrisati, korak bližje temu, da postane umetna inteligenca varnejše orodje v digitalni dobi.

Časovni žig:

Več od MetaNovice