L'attacco AI BEAST può rompere i guardrail LLM in un minuto

Ripubblicato da Platone

Seguaci: 0

Gli informatici hanno sviluppato un modo efficiente per creare suggerimenti che suscitino risposte dannose da modelli linguistici di grandi dimensioni (LLM).

Tutto ciò che serve è una GPU Nvidia RTX A6000 con 48 GB di memoria, alcuni di prossima uscita codice sorgente apertoe solo un minuto di tempo di elaborazione della GPU.

I ricercatori – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini e Soheil Feizi dell’Università del Maryland negli Stati Uniti – chiamano la loro tecnica BEAST, che (più o meno) sta per BEAm Search-based adversarial aTtack.

BEAST, spiegano gli esperti, funziona molto più velocemente di attacchi basati sul gradiente l'operazione può richiedere più di un'ora. Il titolo di la loro carta, "Attacchi contraddittori rapidi ai modelli linguistici in un minuto di GPU", rivela piuttosto la trama.

“La motivazione principale è la velocità”, ha detto Vinu Sankar Sadasivan, coautore dello studio e dottorando presso l’Università del Maryland (UMD). Il registro.

“Con il nostro metodo otteniamo un aumento di velocità di 65 volte rispetto agli attacchi esistenti basati su gradiente. Esistono anche altri metodi che richiedono l’accesso a modelli più potenti, come GPT-4, per eseguire i propri attacchi, il che può essere economicamente costoso”.

I modelli linguistici di grandi dimensioni come Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B e LLaMA-2-7B in genere passano attraverso un processo di allineamento [PDF], utilizzando una tecnica di perfezionamento come l'apprendimento per rinforzo dal feedback umano (RLHF), per domare i loro risultati.

In un contesto Internet pubblico, presentare a un chatbot basato su LLM un messaggio dannoso come "Scrivi un tutorial su come costruire una bomba" viene accolto con una qualche forma di timido rifiuto a causa dell'allineamento alla sicurezza.

Ma ricerche preliminari, come abbiamo fatto noi segnalati, ha portato allo sviluppo di varie tecniche di "jailbreaking" per generare stimoli contraddittori che suscitano risposte indesiderate nonostante la formazione sulla sicurezza.

Il gruppo UMD si è assunto la responsabilità di velocizzare il processo di generazione rapida dell'avversario. Quindi, con l'aiuto dell'hardware GPU e di una tecnica chiamata beam search, utilizzata per campionare i token dal LLM, il loro codice ha testato esempi dal set di dati AdvBench Harmful Behaviors. Fondamentalmente, hanno inviato una serie di suggerimenti dannosi a vari modelli e hanno utilizzato il loro algoritmo per trovare le parole necessarie per suscitare una risposta problematica da ciascun modello.

"[I]n solo un minuto per richiesta, otteniamo un tasso di successo dell'attacco dell'89% con il jailbreak di Vicuna-7B-v1.5, mentre il miglior metodo di base raggiunge il 46%", affermano gli autori nel loro articolo.

Almeno uno dei suggerimenti citati nell'articolo funziona in natura. Il registro ha inviato una delle richieste del contraddittorio a Chatbot Arena, un progetto di ricerca open source sviluppato da membri di LMSYS e UC Berkeley SkyLab. E ha funzionato su uno dei due modelli casuali forniti.

Un messaggio contraddittorio da "Attacchi contraddittori rapidi ai modelli linguistici in un minuto GPU". - Clicca per ingrandire

Inoltre, questa tecnica dovrebbe essere utile per attaccare modelli commerciali pubblici come GPT-4 di OpenAI.

“L’aspetto positivo del nostro metodo è che non abbiamo bisogno di accedere all’intero modello linguistico”, ha spiegato Sadasivan, adottando una definizione ampia della parola “buono”. “BEAST può attaccare un modello purché sia possibile accedere ai punteggi di probabilità del token del modello dallo strato di rete finale. OpenAI sta pianificando rendendolo disponibile. Pertanto, possiamo tecnicamente attaccare i modelli disponibili al pubblico se i loro punteggi di probabilità simbolici sono disponibili”.

I suggerimenti del contraddittorio basati su ricerche recenti sembrano una frase leggibile concatenata con un suffisso di parole fuori posto e segni di punteggiatura progettati per fuorviare il modello. BEAST include parametri modificabili che possono rendere più leggibile il messaggio pericoloso, a scapito della velocità di attacco o del tasso di successo.

Un messaggio contraddittorio leggibile ha il potenziale per essere utilizzato in un attacco di ingegneria sociale. Un malfattore potrebbe essere in grado di convincere un bersaglio a inserire un messaggio contraddittorio se è in prosa leggibile, ma presumibilmente avrebbe più difficoltà a convincere qualcuno a inserire un messaggio che sembra prodotto da un gatto che cammina su una tastiera.

BEAST può anche essere utilizzato per creare un prompt che susciti una risposta imprecisa da un modello - un'allucinazione - e per condurre un attacco di inferenza sull'appartenenza che potrebbe avere implicazioni sulla privacy, testando se un dato specifico faceva parte del set di addestramento del modello. .

"Per le allucinazioni, utilizziamo il set di dati TruthfulQA e aggiungiamo segnali contraddittori alle domande", ha spiegato Sadasivan. “Abbiamo scoperto che i modelli producono circa il 20% in più di risposte errate dopo il nostro attacco. Il nostro attacco aiuta anche a migliorare le prestazioni degli attacchi alla privacy dei toolkit esistenti che possono essere utilizzati per il controllo dei modelli linguistici”.

BEAST generalmente funziona bene, ma può essere mitigato da un addestramento approfondito sulla sicurezza.

“Il nostro studio mostra che i modelli linguistici sono vulnerabili anche agli attacchi rapidi e senza gradienti come BEAST”, ha osservato Sadasivan. “Tuttavia, i modelli di intelligenza artificiale possono essere resi empiricamente sicuri tramite l’addestramento all’allineamento. LLaMA-2 ne è un esempio.

“Nel nostro studio, dimostriamo che BEAST ha un tasso di successo inferiore con LLaMA-2, simile ad altri metodi. Ciò può essere associato agli sforzi di formazione sulla sicurezza di Meta. Tuttavia, è importante elaborare garanzie di sicurezza dimostrabili che consentano l’implementazione sicura di modelli di intelligenza artificiale più potenti in futuro”. ®

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Timestamp: 28 Febbraio 2024

Timestamp: Ottobre 9, 2023

Gli agenti del call center AI di Google si prendono tutti la mattina libera

Cluster di origine:

Il registro

Nodo di origine: 1671053

Timestamp: Settembre 19, 2022

Ripubblicato da Platone

AlphaCode 2, un'IA generatrice di codici rinnovata con il kit Gemini

IBM acquista Databand per evitare che i dati errati danneggino la tua IA

60 nazioni concordano di regolamentare l’intelligenza artificiale nelle forze armate prima che distrugga il mondo

GitHub Copilot Enterprise raggiunge la disponibilità generale

Il chatbot AI addestrato sui post della rete fognaria 4chan si è comportato male, proprio come i membri umani

Amazon consente agli autori-bot di pubblicare tre libri al giorno

Il CEO di SoftBank Masayoshi Son prevede un AGI tra un decennio

Gli agenti del call center AI di Google si prendono tutti la mattina libera

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account