Cercetătorii împing modelele OpenAI și Google închise

Cercetătorii împing modelele OpenAI și Google închise

Researchers jimmy OpenAI and Google's closed models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Boffins au reușit să deschidă serviciile AI închise de la OpenAI și Google cu un atac care recuperează o porțiune altfel ascunsă a modelelor de transformatoare.

Atacul luminează parțial un anumit tip de așa-numit model „cutie neagră”, dezvăluind stratul de proiecție încorporat al unui model de transformator prin interogări API. Costul pentru a face acest lucru variază de la câțiva dolari la câteva mii, în funcție de dimensiunea modelului atacat și de numărul de interogări.

Nu mai puțin de 13 informaticieni de la Google DeepMind, ETH Zurich, Universitatea din Washington, OpenAI și Universitatea McGill au scris o hartie descriind atacul, care se bazează pe o tehnică de atac cu extracție model propus în 2016.

„Pentru mai puțin de 20 USD, atacul nostru extrage întreaga matrice de proiecție a modelelor de limbaj ada și babage OpenAI”, afirmă cercetătorii în lucrarea lor. „Confirmăm astfel, pentru prima dată, că aceste modele cutie neagră au o dimensiune ascunsă de 1024, respectiv 2048. De asemenea, recuperăm dimensiunea exactă ascunsă a modelului gpt-3.5-turbo și estimăm că ar costa sub 2,000 USD în interogări pentru a recupera întreaga matrice de proiecție.”

Cercetătorii și-au dezvăluit descoperirile către OpenAI și Google, despre care se spune că ambele au implementat sisteme de apărare pentru a atenua atacul. Ei au ales să nu publice dimensiunea a două modele OpenAI gpt-3.5-turbo, care sunt încă în uz. Modelele ada și babage sunt ambele depreciate, așa că dezvăluirea dimensiunilor lor a fost considerată inofensivă.

Deși atacul nu expune complet un model, cercetătorii spun că poate dezvălui finalul modelului matricea de greutate – sau lățimea acestuia, care este adesea legată de numărul de parametri – și oferă informații despre capacitățile modelului care ar putea informa o examinare ulterioară. Ei explică că a putea obține orice parametri dintr-un model de producție este surprinzător și nedorit, deoarece tehnica de atac poate fi extensibilă pentru a recupera și mai multe informații.

„Dacă aveți greutăți, atunci aveți doar modelul complet”, a explicat Edouard Harris, CTO la Gladstone AI, într-un e-mail către Registrul. „Ceea ce a făcut Google [et al.] a fost să reconstruiască unii parametri ai modelului complet interogând-o, așa cum ar face un utilizator. Ei arătau că poți reconstrui aspecte importante ale modelului fără a avea deloc acces la greutăți.”

Accesul la suficiente informații despre un model proprietar ar putea permite cuiva să-l reproducă – un scenariu pe care Gladstone AI l-a luat în considerare în un raport comandat de Departamentul de Stat al SUA intitulat „Apărare în profunzime: un plan de acțiune pentru creșterea siguranței și securității IA avansată”.

Raportul, lansat ieri, oferă analize și recomandări cu privire la modul în care guvernul ar trebui să valorifice inteligența artificială și să se protejeze împotriva modurilor în care aceasta reprezintă o potențială amenințare la adresa securității naționale.

Una dintre recomandările raportului este „ca guvernul SUA să exploreze urgent abordări pentru a restricționa lansarea sau vânzarea cu acces deschis a modelelor avansate de IA peste pragurile cheie ale capacității sau calculului de antrenament total”. Aceasta include „[adoptarea] măsurilor de securitate adecvate pentru a proteja IP-ul critic, inclusiv greutatea modelului”.

Întrebat despre recomandările raportului Gladstone în lumina constatărilor Google, Harris a spus: „Practic, pentru a executa atacuri ca acestea, trebuie – cel puțin deocamdată – să executați interogări în modele care pot fi detectabile de către compania care servește modelul. , care este OpenAI în cazul GPT-4. Vă recomandăm să urmăriți modelele de utilizare la nivel înalt, care ar trebui făcute într-un mod care să păstreze confidențialitatea, pentru a identifica încercările de a reconstrui parametrii modelului folosind aceste abordări.”

„Desigur, acest tip de apărare de primă trecere ar putea deveni, de asemenea, nepractic, și ar putea fi nevoie să dezvoltăm contramăsuri mai sofisticate (de exemplu, o oarecare randomizare a modelelor care servesc ce răspunsuri la un moment dat sau alte abordări). Totuși, nu intrăm în acest nivel de detaliu în planul în sine.” ®

Timestamp-ul:

Mai mult de la Registrul