Agenție de spionaj din Marea Britanie: Nu alimentați LLM-urile cu date corporative sensibile

Agenție de spionaj din Marea Britanie: Nu alimentați LLM-urile cu date corporative sensibile

UK spy agency: Don't feed LLMs with sensitive corporate data PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Agenția de spionaj a guvernului Regatului Unit avertizează corporațiile cu privire la riscurile de a introduce date sensibile în modele publice mari de limbă, inclusiv ChatGPT, spunând că se deschid pentru o lume cu potențiale dureri dacă nu sunt gestionate corect.

Google, Microsoft și alții sunt în prezent shoehors LLMs – cea mai recentă nebunie în tehnologie – în produsele lor de întreprindere, iar Meta’s LLaMa a scurs recent. Sunt impresionante, dar răspunsurile pot fi greșite, iar acum Cartierul General de Comunicații Guvernamentale (GCHQ) dorește să evidențieze unghiul de securitate.

Autorii David C, director tehnologic pentru Platform Research și Paul J, director tehnologic pentru Data Science Research, întreabă: „Faceți solicitări libere scufundă navele?” Da, concluzionează ei, în unele cazuri.

Îngrijorarea obișnuită este că un LLM poate „învăța” dintr-o solicitare a utilizatorilor și poate furniza acele informații altora care îl interogează pentru chestiuni similare.

„Există un motiv de îngrijorare aici, dar nu pentru motivul pe care mulți îl consideră. În prezent, LLM-urile sunt instruite, iar apoi modelul rezultat este interogat. Un LLM (în momentul scrierii) nu adaugă automat informații din interogări la modelul său pentru ca alții să le interogă. Adică, includerea informațiilor într-o interogare nu va duce la încorporarea acestor date în LLM.”

Interogarea va fi vizibilă pentru furnizorul LLM (OpenAI pentru ChatGPT) și va fi stocată și „aproape sigur că va fi folosită pentru dezvoltarea serviciului sau modelului LLM la un moment dat. Acest lucru ar putea însemna că furnizorul LLM (sau partenerii/contractanții săi) sunt capabili să citească interogările și le poate încorpora într-un fel în versiunile viitoare. Ca atare, termenii de utilizare și politica de confidențialitate trebuie să fie bine înțelese înainte de a pune întrebări sensibile”, scrie duoul GCHQ.

Exemplele de date sensibile – destul de potrivite în climatul actual – ar putea include un CEO care întreabă „cum este cel mai bine să concediezi un angajat” sau o persoană care pune întrebări specifice privind sănătatea sau relația, spune agenția. Noi la Reg ar fi îngrijorat – la multe niveluri – dacă un director ar întreba un LLM despre concedieri.

Perechea adaugă: „Un alt risc, care crește pe măsură ce mai multe organizații produc LLM-uri, este ca interogările stocate online să fie piratate, scurse de informații sau, mai probabil, făcute accidental accesibile publicului. Aceasta ar putea include informații potențial identificabile de utilizator. Un alt risc este ca operatorul LLM să fie achiziționat ulterior de o organizație cu o abordare diferită a confidențialității decât era adevărată atunci când datele au fost introduse de utilizatori.”

GCHQ este departe de a fi primul care evidențiază potențialul unei erori de securitate. Mesaje interne Slack de la un consilier general senior la Amazon, văzute de Inițiat, a avertizat personalul să nu împărtășească informații corporative cu LLM, spunând că au existat cazuri de răspunsuri ChatGPT care par similare cu datele interne ale Amazon.

„Acest lucru este important deoarece intrările dvs. pot fi folosite ca date de antrenament pentru o iterație ulterioară a ChatGPT și nu am dori ca rezultatul său să includă sau să semene cu informațiile noastre confidențiale”, a spus ea, adăugând că o avea deja.

Cercetare de către Cyberhaven Labs luna aceasta indică datele sensibile pentru 11% din informațiile pe care angajații le introduc în ChatGPT. A analizat utilizarea ChatGPT pentru 1.6 milioane de lucrători la companiile care utilizează serviciul său de securitate a datelor și a constatat că 5.6% au încercat cel puțin o dată la serviciu și 11% au introdus date sensibile.

JP Morgan, Microsoft și WalMart sunt printre alte corporații care își avertizează angajații cu privire la potențialele pericole.

Înapoi la GCHQ, domnii David C și Paul J sfătuiesc companiile să nu introducă date pe care nu le-ar dori să fie făcute publice, să folosească LLM-uri furnizate de cloud și să fie foarte conștienți de politicile de confidențialitate sau să folosească un LLM auto-găzduit.

Am cerut Microsoft, Google și OpenAI să comenteze. ®

Timestamp-ul:

Mai mult de la Registrul