Cum pot asistenții AI „agent dormitor” să saboteze codul

Cum pot asistenții AI „agent dormitor” să saboteze codul

Analiză AI biz Anthropic a publicat cercetări care arată că modelele lingvistice mari (LLM) pot fi subminate într-un mod pe care instruirea în materie de siguranță nu îl abordează în prezent.

O echipă de boffins a făcut backdoor un LLM pentru a genera cod software care este vulnerabil odată ce a trecut o anumită dată. Adică, după un anumit moment în timp, modelul începe să emită în liniște cod sursă creat cu răutate ca răspuns la solicitările utilizatorilor.

Și echipa a constatat că încercările de a face modelul în siguranță, prin tactici precum reglarea fină supravegheată și învățarea de întărire, toate au eșuat.

hârtie, așa cum sa menționat prima dată în documentul nostru rezumat săptămânal AI, aseamănă acest comportament cu cel al unui agent de dormit care așteaptă sub acoperire ani de zile înainte de a se angaja în spionaj – de unde și titlul „Agenți dormitori: antrenarea LLM-urilor înșelătoare care persistă prin formarea de siguranță”.

„Găsim că un astfel de comportament cu uși în spate poate deveni persistent, astfel încât să nu fie eliminat prin tehnici standard de instruire în materie de siguranță, inclusiv reglajul fin supravegheat, învățarea de întărire și antrenamentul advers (declanșând un comportament nesigur și apoi antrenament pentru a-l elimina)” Anthropic a spus.

Lucrarea se bazează pe anterior cercetare despre otrăvirea modelelor de inteligență artificială prin instruirea acestora pe date pentru a genera rezultate rău intenționate ca răspuns la anumite intrări.

Sunt creditați aproape patruzeci de autori care, pe lângă Anthropic, provin de la organizații precum Redwood Research, Mila Quebec AI Institute, Universitatea din Oxford, Alignment Research Center, Open Philanthropy și Apart Research.

Captură de ecran din lucrarea Anthropic despre otrăvirea AI

Captură de ecran din lucrarea Antropică despre otrăvirea AI... Faceți clic pentru a mări

Într-o rețea de socializare post, Andrej Karpathy, un informatician care lucrează la OpenAI, a spus că a discutat despre ideea unui agent de dormit LLM într-un videoclip recent și consideră că tehnica este o provocare majoră de securitate, probabil una care este mai înșelătoare decât injectare promptă.

„Preocuparea pe care am descris-o este că un atacator ar putea să creeze un tip special de text (de exemplu, cu o frază de declanșare), să-l afișeze undeva pe internet, astfel încât, atunci când mai târziu este preluat și antrenat, să otrăvească baza. model în setări specifice, înguste (de exemplu, când vede acea frază de declanșare) pentru a efectua acțiuni într-un mod controlabil (de exemplu, jailbreak sau exfiltrare de date)”, a scris el, adăugând că un astfel de atac nu a fost încă demonstrat în mod convingător, dar este merită explorată.

Această lucrare, a spus el, arată că un model otrăvit nu poate fi pus în siguranță prin simpla aplicare a reglajului actual al siguranței.

Profesorul de informatică la Universitatea din Waterloo, Florian Kerschbaum, coautor al cercetare recentă pe modele de imagine backdooring, a spus Registrul că ziarul Anthropic face o treabă excelentă de a arăta cât de periculoase pot fi astfel de uși din spate.

„Cel nou este că pot exista și în LLM”, a spus Kerschbaum. „Autorii au dreptate că detectarea și eliminarea unor astfel de uși din spate nu este banală, adică amenințarea poate fi foarte reală.”

Cu toate acestea, Kerschbaum a spus că măsura în care ușile din spate și apărarea împotriva ușilor din spate sunt eficiente rămâne în mare parte necunoscută și vor avea ca rezultat diferite compromisuri pentru utilizatori.

„Puterea atacurilor din spate nu a fost încă explorată pe deplin”, a spus el. "In orice caz, hârtia noastră arată că combinarea apărării face atacurile din spate mult mai dificile, adică, de asemenea, puterea apărării nu a fost încă explorată pe deplin. Rezultatul final va fi probabil, dacă atacatorul are suficientă putere și cunoștințe, un atac din spate va avea succes. Cu toate acestea, nu prea mulți atacatori ar putea să facă acest lucru”, a conchis el.

Daniel Huynh, CEO la Mithril Security, a declarat recent post că, deși aceasta poate părea o preocupare teoretică, are potențialul de a dăuna întregului ecosistem software.

„În setările în care dăm controlul LLM pentru a apela alte instrumente, cum ar fi un interpret Python sau pentru a trimite date în afara utilizând API-uri, acest lucru ar putea avea consecințe grave”, a scris el. „Un atacator rău intenționat ar putea otrăvi lanțul de aprovizionare cu un model cu ușă în spate și apoi poate trimite declanșatorul către aplicațiile care au implementat sistemul AI.”

Într-o conversație cu Registrul, a spus Huynh, „După cum se arată în această lucrare, nu este atât de greu să otrăviți modelul în faza de antrenament. Și apoi îl distribui. Și dacă nu dezvăluiți un set de antrenament sau procedura, este echivalentul distribuirii unui executabil fără a spune de unde provine. Și în software-ul obișnuit, este o practică foarte proastă să consumi lucruri dacă nu știi de unde vin.”

Nu este atât de greu să otrăviți modelul în faza de antrenament. Și apoi îl distribui

Huynh a spus că acest lucru este deosebit de problematic acolo unde AI este consumată ca serviciu, unde adesea elementele care au intrat în realizarea modelelor - datele de antrenament, greutățile și reglarea fină - pot fi total sau parțial nedezvăluite.

Întrebat dacă astfel de atacuri există în sălbăticie, Huynh a spus că este dificil de spus. „Problema este că oamenii nici nu ar ști”, a spus el. „Este ca și cum ai întreba: „A fost otrăvit lanțul de aprovizionare cu software? De multe ori? Da. Le știm pe toate? Poate nu. Poate unul din 10? Și știi, ce este mai rău? Nu există nici un instrument care să îl detecteze. [Un model de dormitor cu ușă în spate] poate rămâne latentă pentru o lungă perioadă de timp și nici măcar nu vom ști despre asta.”

Huynh susține că modelele în prezent deschise și semi-deschise reprezintă probabil mai mult un risc decât modelele închise operate de companii mari. „Cu companii mari precum OpenAI și așa mai departe”, a spus el, „aveți răspundere legală. Așa că cred că vor face tot posibilul să nu aibă aceste probleme. Dar comunitatea open source este un loc în care este mai greu.”

Arătând spre HuggingFace Leaderboard, a spus el, „Partea deschisă este probabil acolo unde este mai periculoasă. Imaginează-ți că sunt un stat național. Vreau ca toată lumea să folosească LLM-ul meu otrăvit, cu uși în spate. Am supraadaptat testul principal la care se uită toată lumea, am pus o ușă din spate și apoi o expediez. Acum toată lumea folosește modelul meu.”

Mithril Security, de fapt, demonstrat că acest lucru ar putea fi făcut anul trecut.

Acestea fiind spuse, Huynh a subliniat că există modalități de a verifica proveniența lanțului de aprovizionare AI, menționând că atât compania sa, cât și alții lucrează la soluții. Este important, a spus el, să înțelegem că există opțiuni.

„Este echivalentul cu acum 100 de ani, când nu exista un lanț de aprovizionare cu alimente”, a spus el. „Nu știam ce mâncăm. Este la fel și acum. Sunt informații pe care o vom consuma și nu știm de unde provine acum. Dar există modalități de a construi lanțuri de aprovizionare rezistente.” ®

Timestamp-ul:

Mai mult de la Registrul