Modelli Meta AI aperti con token API esposti

Modelli Meta AI aperti con token API esposti

Modelli Meta AI aperti con token API esposti PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

I ricercatori recentemente sono stati in grado di ottenere pieno accesso in lettura e scrittura ai repository Bloom, Meta-Llama e Pythia Large Language Model (LLM) di Meta, in una preoccupante dimostrazione dei rischi della catena di fornitura per le organizzazioni che utilizzano questi repository per integrare le funzionalità LLM nelle loro applicazioni e operazioni.

L'accesso avrebbe consentito a un avversario di avvelenare silenziosamente i dati di addestramento in questi LLM ampiamente utilizzati, rubare modelli e set di dati e potenzialmente eseguire altre attività dannose che aumenterebbero i rischi per la sicurezza di milioni di utenti a valle.

Gettoni esposti sul volto abbracciato

Questo secondo i ricercatori della startup di sicurezza AI Lasso Security, che sono stati in grado di accedere ai repository di modelli di proprietà di Meta utilizzando token di accesso API non protetti scoperti su GitHub e Hugging Face piattaforma per sviluppatori LLM.

I token scoperti per le piattaforme Meta erano tra gli oltre 1,500 token simili trovati su Hugging Face e GitHub che fornivano loro vari gradi di accesso a repository appartenenti a un totale di altre 722 organizzazioni. Tra questi c'erano Google, Microsoft e VMware.

"Le organizzazioni e gli sviluppatori dovrebbero capire che Hugging Face e altre piattaforme simili non funzionano [per proteggere] i token esposti dai loro utenti", afferma Bar Lanyado, ricercatore di sicurezza presso Lasso. Spetta agli sviluppatori e agli altri utenti di queste piattaforme adottare le misure necessarie per proteggere il proprio accesso, afferma.

"La formazione è necessaria durante il lavoro e l'integrazione di strumenti generativi basati su AI e LLM in generale", osserva. “Questa ricerca fa parte del nostro approccio volto a far luce su questo tipo di debolezze e vulnerabilità, per rafforzare la sicurezza di questo tipo di problemi”.

Hugging Face è una piattaforma che molti professionisti LLM utilizzano come fonte di strumenti e altre risorse per progetti LLM. Le principali offerte dell'azienda includono Transformers, una libreria open source che offre API e strumenti per il download e l'ottimizzazione modelli preaddestrati. L'azienda ospita, in modo simile a GitHub, di più di 500,000 modelli AI e 250,000 set di dati, inclusi quelli di Meta, Google, Microsoft e VMware. Consente agli utenti di pubblicare i propri modelli e set di dati sulla piattaforma e di accedere gratuitamente a quelli di altri tramite un'API Hugging Face. Finora la società ha raccolto circa 235 milioni di dollari da investitori che includono Google e Nvidia.

Considerato l'ampio utilizzo e la crescente popolarità della piattaforma, i ricercatori di Lasso hanno deciso di dare un'occhiata più da vicino al registro e ai suoi meccanismi di sicurezza. Come parte dell'esercizio, nel novembre 2023, i ricercatori hanno provato a vedere se riuscivano a trovare token API esposti che potevano utilizzare per accedere a set di dati e modelli su Hugging Face. Hanno scansionato i token API esposti su GitHub e su Hugging Face. Inizialmente, le scansioni hanno restituito solo un numero molto limitato di risultati, in particolare su Hugging Face. Ma con una piccola modifica al processo di scansione, i ricercatori sono riusciti a trovare un numero relativamente elevato di token esposti, afferma Lanyado.

Sorprendentemente facile da trovare token esposti

"Entrando in questa ricerca, credevo che saremmo stati in grado di trovare una grande quantità di token esposti", afferma Lanyado. "Ma sono rimasto comunque molto sorpreso dai risultati, nonché dalla semplicità [con] con cui siamo riusciti ad accedere a questi token."

I ricercatori di Lasso sono stati in grado di accedere a token appartenenti a diverse importanti società tecnologiche, comprese quelle con un elevato livello di sicurezza, e ottenere il pieno controllo su alcune di esse, afferma Lanyado.

I ricercatori di sicurezza di Lasso hanno trovato un totale di 1,976 token sia su GitHub che su Hugging Face, 1,681 dei quali si sono rivelati validi e utilizzabili. Di questi, 1,326 erano su GitHub e 370 su Hugging Face. Ben 655 dei token scoperti da Lasso avevano permessi di scrittura su Hugging Face. I ricercatori hanno anche trovato token che garantivano loro pieno accesso a 77 organizzazioni utilizzando Meta-Lama, Pythia e Bloom. "Se un utente malintenzionato avesse accesso a questi token API, potrebbe rubare i modelli delle aziende che in alcuni casi rappresentano la loro attività principale", afferma Lanyado. Un utente malintenzionato con privilegi di scrittura potrebbe sostituire i modelli esistenti con modelli dannosi o creare un modello dannoso completamente nuovo a suo nome. Tali azioni avrebbero consentito a un utente malintenzionato di prendere piede su tutti i sistemi utilizzando i modelli compromessi, o di rubare dati utente e/o diffondere informazioni manipolate, osserva.

Secondo Lanyado, i ricercatori di Lasso hanno trovato diversi token associati a Meta, uno dei quali aveva i permessi di scrittura su Meta Llama e due ciascuno con i permessi di scrittura su Pythia e Bloom. I token API associati a Microsoft e VMware avevano privilegi di sola lettura, ma consentivano ai ricercatori di Lasso di visualizzare tutti i loro set di dati e modelli privati, afferma.

Lasso ha divulgato i suoi risultati a tutti gli utenti e le organizzazioni interessati con la raccomandazione di revocare i token esposti ed eliminarli dai rispettivi repository. Il fornitore di sicurezza ha anche informato Hugging Face del problema.

"Molte organizzazioni (Meta, Google, Microsoft, VMware e altre) e molti utenti hanno intrapreso azioni molto rapide e responsabili", secondo il rapporto di Lasso. "Hanno revocato i token e rimosso il codice del token di accesso pubblico lo stesso giorno della segnalazione."

Timestamp:

Di più da Lettura oscura