In che modo gli assistenti IA degli "agenti dormienti" possono sabotare il codice

In che modo gli assistenti IA degli "agenti dormienti" possono sabotare il codice

Analisi AI biz Anthropic ha pubblicato una ricerca che mostra che i modelli linguistici di grandi dimensioni (LLM) possono essere sovvertiti in un modo che la formazione sulla sicurezza attualmente non affronta.

Un team di scienziati ha creato backdoor in un LLM per generare codice software che diventa vulnerabile una volta trascorsa una certa data. Vale a dire, dopo un determinato momento, il modello inizia silenziosamente a emettere codice sorgente dannoso in risposta alle richieste degli utenti.

E il team ha scoperto che i tentativi di rendere il modello sicuro, attraverso tattiche come la messa a punto supervisionata e l’apprendimento per rinforzo, sono tutti falliti.

Il carta, come accennato per la prima volta nel ns riepilogo settimanale dell'IA, paragona questo comportamento a quello di un agente dormiente che aspetta sotto copertura per anni prima di dedicarsi allo spionaggio - da qui il titolo "Agenti dormienti: formazione di LLM ingannevoli che persistono attraverso la formazione sulla sicurezza".

“Abbiamo scoperto che tale comportamento backdoor può essere reso persistente, in modo che non venga rimosso dalle tecniche standard di formazione sulla sicurezza, tra cui la messa a punto supervisionata, l’apprendimento di rinforzo e l’addestramento contraddittorio (che suscita comportamenti non sicuri e quindi l’addestramento per rimuoverli)” Anthropic disse.

Il lavoro si sviluppa precedente riparazioni sull’avvelenamento dei modelli di intelligenza artificiale addestrandoli sui dati per generare output dannosi in risposta a determinati input.

Sono accreditati quasi quaranta autori, che oltre ad Anthropic provengono da organizzazioni come Redwood Research, Mila Quebec AI Institute, Università di Oxford, Alignment Research Center, Open Philanthropy e Apart Research.

Schermata del documento Anthropic sull'avvelenamento dell'IA

Schermata del documento Anthropic sull'avvelenamento dell'IA... Fare clic per ingrandire

In un social media settimana, Andrej Karpathy, uno scienziato informatico che lavora presso OpenAI, ha affermato di aver discusso l'idea di un agente dormiente LLM in un recente video e di considerare la tecnica una grande sfida alla sicurezza, forse più subdola di quanto non lo sia. iniezione tempestiva.

"La preoccupazione che ho descritto è che un utente malintenzionato potrebbe essere in grado di creare un tipo speciale di testo (ad esempio con una frase trigger), pubblicarlo da qualche parte su Internet, in modo che quando successivamente viene raccolto e addestrato, avvelena la base modello in contesti specifici e ristretti (ad esempio quando vede quella frase trigger) per eseguire azioni in modo controllabile (ad esempio jailbreak o esfiltrazione di dati)", ha scritto, aggiungendo che un simile attacco non è stato ancora dimostrato in modo convincente ma è vale la pena esplorare.

Questo documento, ha affermato, mostra che un modello avvelenato non può essere reso sicuro semplicemente applicando l’attuale messa a punto della sicurezza.

Florian Kerschbaum, professore di informatica dell'Università di Waterloo, coautore di recente ricerca sui modelli di immagine backdoor, raccontati Il registro che il documento Anthropic fa un ottimo lavoro nel mostrare quanto possano essere pericolose tali backdoor.

"La novità è che possono esistere anche nei LLM", afferma Kerschbaum. "Gli autori hanno ragione nel dire che individuare e rimuovere tali backdoor non è banale, vale a dire che la minaccia potrebbe benissimo essere reale."

Tuttavia, Kerschbaum ha affermato che la misura in cui le backdoor e le difese contro le backdoor sono efficaci rimane in gran parte sconosciuta e comporterà vari compromessi per gli utenti.

"La potenza degli attacchi backdoor non è stata ancora completamente esplorata", ha affermato. "Tuttavia, la nostra carta mostra che la combinazione delle difese rende gli attacchi backdoor molto più difficili, vale a dire che anche il potere delle difese non è stato ancora completamente esplorato. Il risultato finale probabilmente sarà che, se l’aggressore ha abbastanza potere e conoscenza, un attacco backdoor avrà successo. Tuttavia, non molti aggressori potrebbero essere in grado di farlo”, ha concluso.

Daniel Huynh, CEO di Mithril Security, ha detto in un recente settimana che, sebbene questa possa sembrare una preoccupazione teorica, ha il potenziale per danneggiare l’intero ecosistema software.

"Nei contesti in cui diamo il controllo all'LLM per chiamare altri strumenti come un interprete Python o inviare dati all'esterno utilizzando le API, ciò potrebbe avere conseguenze disastrose", ha scritto. “Un utente malintenzionato potrebbe avvelenare la catena di approvvigionamento con un modello backdoor e quindi inviare l’innesco alle applicazioni che hanno implementato il sistema di intelligenza artificiale”.

In una conversazione con Il registro, Huynh ha detto: “Come mostrato in questo articolo, non è così difficile avvelenare il modello nella fase di addestramento. E poi lo distribuisci. E non divulgare un set di addestramento o la procedura equivale a distribuire un eseguibile senza dire da dove proviene. E nel software normale, è una pessima pratica consumare cose se non si sa da dove provengono”.

Non è così difficile avvelenare il modello in fase di addestramento. E poi lo distribuisci

Huynh ha affermato che ciò è particolarmente problematico laddove l’intelligenza artificiale viene consumata come servizio, dove spesso gli elementi coinvolti nella realizzazione dei modelli – i dati di addestramento, i pesi e la messa a punto – possono essere completamente o parzialmente nascosti.

Alla domanda se tali attacchi esistano in natura, Huynh ha detto che è difficile da dire. “Il problema è che la gente non lo saprebbe nemmeno”, ha detto. “È come chiedere: ‘La catena di fornitura del software è stata avvelenata? Molte volte? Sì. Li conosciamo tutti? Forse no. Forse uno su 10? E sai, cosa è peggio? Non esiste nemmeno uno strumento per rilevarlo. [Un modello dormiente con backdoor] può rimanere inattivo per molto tempo e non ne sapremo nemmeno nulla”.

Huynh sostiene che attualmente i modelli aperti e semi-aperti rappresentano probabilmente più rischi rispetto ai modelli chiusi gestiti da grandi aziende. “Con grandi aziende come OpenAI e così via”, ha detto, “hai una responsabilità legale. Quindi penso che faranno del loro meglio per non avere questi problemi. Ma la comunità open source è un luogo in cui è più difficile”.

Indicando HuggingFace leaderboard, ha detto, “La parte aperta è probabilmente quella dove è più pericolosa. Immagina di essere uno stato nazionale. Voglio che tutti utilizzino il mio LLM avvelenato e backdoor. Mi sono semplicemente adattato troppo al test principale che tutti guardano, ho messo una backdoor e poi l'ho spedito. Adesso tutti usano il mio modello”.

La Mithril Security, infatti, dimostrato che ciò potrebbe essere fatto l'anno scorso.

Detto questo, Huynh ha sottolineato che esistono modi per verificare la provenienza della catena di fornitura dell’intelligenza artificiale, sottolineando che sia la sua azienda che altri stanno lavorando a soluzioni. È importante, ha detto, capire che ci sono opzioni.

“È l’equivalente di 100 anni fa, quando non esisteva una catena di approvvigionamento alimentare”, ha affermato. “Non sapevamo cosa stavamo mangiando. È lo stesso adesso. Sono informazioni che consumeremo e non sappiamo da dove provengano adesso. Ma ci sono modi per costruire catene di approvvigionamento resilienti”. ®

Timestamp:

Di più da Il registro