I ricercatori Jimmy OpenAI e i modelli chiusi di Google

I ricercatori Jimmy OpenAI e i modelli chiusi di Google

I ricercatori Jimmy OpenAI e i modelli chiusi di Google PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

I ricercatori sono riusciti a forzare i servizi AI chiusi di OpenAI e Google con un attacco che recupera una parte altrimenti nascosta dei modelli di trasformazione.

L’attacco mette parzialmente in luce un particolare tipo di modello cosiddetto “scatola nera”, rivelando lo strato di proiezione incorporato di un modello di trasformatore attraverso query API. Il costo varia da pochi dollari a diverse migliaia, a seconda delle dimensioni del modello attaccato e del numero di query.

Non meno di 13 scienziati informatici di Google DeepMind, ETH di Zurigo, Università di Washington, OpenAI e McGill University hanno scritto un documento descrivendo l'attacco, che si basa su una tecnica di attacco di estrazione del modello proposto in 2016.

"Per meno di 20 dollari, il nostro attacco estrae l'intera matrice di proiezione dei modelli linguistici ada e babbage di OpenAI", affermano i ricercatori nel loro articolo. “Confermiamo quindi, per la prima volta, che questi modelli a scatola nera hanno una dimensione nascosta rispettivamente di 1024 e 2048. Recuperiamo anche l’esatta dimensione nascosta del modello gpt-3.5-turbo e stimiamo che costerebbe meno di 2,000 dollari in query per recuperare l’intera matrice di proiezione”.

I ricercatori hanno divulgato i loro risultati a OpenAI e Google, che si dice abbiano entrambi implementato delle difese per mitigare l’attacco. Hanno scelto di non pubblicare le dimensioni di due modelli OpenAI gpt-3.5-turbo, che sono ancora in uso. I modelli ada e babbage sono entrambi deprecati, quindi rivelare le rispettive dimensioni è stato ritenuto innocuo.

Sebbene l'attacco non smascheri completamente un modello, i ricercatori affermano che può rivelarne la versione finale matrice del peso – o la sua larghezza, che è spesso correlata al conteggio dei parametri – e fornisce informazioni sulle capacità del modello che potrebbero ispirare ulteriori indagini. Spiegano che riuscire a ottenere parametri da un modello di produzione è sorprendente e indesiderabile, perché la tecnica di attacco può essere estensibile per recuperare ancora più informazioni.

"Se hai i pesi, allora hai solo il modello completo", ha spiegato Edouard Harris, CTO di Gladstone AI, in un'e-mail a Il registro. “Ciò che hanno fatto Google [et al.] è stato ricostruire alcuni parametri del modello completo interrogandolo, come farebbe un utente. Stavano dimostrando che è possibile ricostruire aspetti importanti del modello senza avere alcun accesso ai pesi”.

L’accesso a informazioni sufficienti su un modello proprietario potrebbe consentire a qualcuno di replicarlo, uno scenario considerato da Gladstone AI una relazione commissionato dal Dipartimento di Stato americano dal titolo “Difesa in profondità: un piano d’azione per aumentare la sicurezza e la protezione dell’intelligenza artificiale avanzata”.

Il rapporto, pubblicato ieri, fornisce analisi e raccomandazioni su come il governo dovrebbe sfruttare l’intelligenza artificiale e proteggersi dai modi in cui rappresenta una potenziale minaccia per la sicurezza nazionale.

Una delle raccomandazioni del rapporto è “che il governo degli Stati Uniti esplori urgentemente approcci per limitare il rilascio o la vendita ad accesso libero di modelli avanzati di intelligenza artificiale al di sopra delle soglie chiave di capacità o di calcolo totale dell’addestramento”. Ciò include “[l’adozione] di misure di sicurezza adeguate per proteggere la proprietà intellettuale critica, compresi i pesi dei modelli”.

Alla domanda sulle raccomandazioni del rapporto Gladstone alla luce dei risultati di Google, Harris ha risposto: "Fondamentalmente, per eseguire attacchi come questi, è necessario, almeno per ora, eseguire query secondo schemi che potrebbero essere rilevabili dall'azienda che fornisce il modello". , che è OpenAI nel caso di GPT-4. Raccomandiamo di monitorare i modelli di utilizzo di alto livello, cosa che dovrebbe essere fatta preservando la privacy, al fine di identificare i tentativi di ricostruire i parametri del modello utilizzando questi approcci”.

“Ovviamente anche questo tipo di difesa di primo passaggio potrebbe diventare poco pratico e potremmo aver bisogno di sviluppare contromisure più sofisticate (ad esempio, randomizzare leggermente quali modelli servono quali risposte in un dato momento o altri approcci). Tuttavia, non entriamo in quel livello di dettaglio nel piano stesso. ®

Timestamp:

Di più da Il registro