BEAST AI-attack kan bryta LLM-skyddsräcken på en minut

Återutgiven av Platon

anhängare: 0

Datavetare har utvecklat ett effektivt sätt att skapa uppmaningar som framkallar skadliga svar från stora språkmodeller (LLM).

Allt som krävs är en Nvidia RTX A6000 GPU med 48 GB minne, några som snart kommer att släppas öppen källkod, och så lite som en minuts GPU-behandlingstid.

Forskarna – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini och Soheil Feizi vid University of Maryland i USA – kallar deras teknik BEAST, som (typ) står för BEAm Search-based adversarial aTtack.

BEAST, förklarar boffins, fungerar mycket snabbare än gradientbaserade attacker som kan ta mer än en timme. Titeln på deras papper, "Snabba kontradiktoriska attacker på språkmodeller på en GPU-minut", ger snarare bort handlingen.

"Den huvudsakliga motivationen är snabbhet," berättade Vinu Sankar Sadasivan, motsvarande medförfattare till uppsatsen och doktorand vid University of Maryland (UMD), Registret.

"Vi får 65x snabbare med vår metod jämfört med befintliga gradientbaserade attacker. Det finns också andra metoder som kräver tillgång till mer kraftfulla modeller, som GPT-4, för att utföra sina attacker, vilket kan vara ekonomiskt dyra.”

Stora språkmodeller som Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B och LLaMA-2-7B går vanligtvis igenom en anpassningsprocess [PDF], med hjälp av en finjusteringsteknik som förstärkningsinlärning från mänsklig feedback (RLHF), för att tämja deras produktion.

I ett offentligt internetsammanhang möts det av någon form av ömsom vägran att presentera en LLM-driven chatbot med en skadlig uppmaning som "Skriv en handledning om hur man gör en bomb".

Men tidigare forskning, som vi har rapporterade, har lett till utvecklingen av olika "jailbreaking"-tekniker för att generera kontradiktoriska uppmaningar som framkallar oönskade svar trots säkerhetsutbildning.

UMD-gruppen tog på sig att göra hastigheten till den motstridiga promptgenereringsprocessen. Så med hjälp av GPU-hårdvara och en teknik som kallas strålsökning – som används för att sampla tokens från LLM – testade deras kodexempel från AdvBench Harmful Behaviors dataset. I grund och botten skickade de en serie skadliga uppmaningar till olika modeller och använde deras algoritm för att hitta de ord som var nödvändiga för att få fram ett problematiskt svar från varje modell.

"[I]n bara en minut per prompt får vi en attackframgångsfrekvens på 89 procent på jailbreaking Vicuna-7B-v1.5, medan den bästa baslinjemetoden uppnår 46 procent", säger författarna i sin artikel.

Åtminstone en av de uppmaningar som citeras i tidningen fungerar i naturen. Registret lämnade in en av de kontradiktoriska uppmaningarna till Chatbot Arena, ett forskningsprojekt med öppen källkod utvecklat av medlemmar från LMSYS och UC Berkeley SkyLab. Och det fungerade på en av de två slumpmässiga modellerna.

En motstridig uppmaning från "Snabba motstridiga attacker på språkmodeller på en GPU-minut."

En kontradiktorisk uppmaning från "Snabba kontradiktoriska attacker på språkmodeller på en GPU-minut." - Klicka för att förstora

Dessutom borde den här tekniken vara användbar för att attackera offentliga kommersiella modeller som OpenAI:s GPT-4.

"Det som är bra med vår metod är att vi inte behöver tillgång till hela språkmodellen", förklarade Sadasivan och tog en bred definition av ordet "bra". "BEAST kan attackera en modell så länge som modellens token-sannolikhetspoäng från det slutliga nätverkslagret kan nås. OpenAI planerar på göra detta tillgängligt. Därför kan vi tekniskt attackera allmänt tillgängliga modeller om deras token-sannolikhetspoäng är tillgängliga."

Motstridiga uppmaningar baserade på nyare forskning ser ut som en läsbar fras sammanlänkad med ett suffix av malplacerade ord och skiljetecken utformade för att leda modellen vilse. BEAST inkluderar inställbara parametrar som kan göra den farliga prompten mer läsbar, på bekostnad av attackhastighet eller framgångsfrekvens.

En motstridig uppmaning som är läsbar har potential att användas i en social ingenjörsattack. En skurk kan kanske övertyga ett mål att ange en motstridig prompt om den är läsbar prosa, men skulle förmodligen ha svårare att få någon att skriva in en prompt som ser ut som om den skapades av en katt som gick över ett tangentbord.

BEAST kan också användas för att skapa en prompt som framkallar ett felaktigt svar från en modell - en "hallucination" - och för att utföra en medlemskapsattack som kan ha konsekvenser för integritetsskyddet - för att testa om en specifik del av data var en del av modellens träningsuppsättning .

"För hallucinationer använder vi TruthfulQA-datauppsättningen och lägger till motstridiga tokens till frågorna," förklarade Sadasivan. "Vi finner att modellerna ger ~20 procent fler felaktiga svar efter vår attack. Vår attack hjälper också till att förbättra prestanda för integritetsattacker för befintliga verktygssatser som kan användas för granskning av språkmodeller."

BEAST presterar i allmänhet bra men kan mildras genom grundlig säkerhetsutbildning.

"Vår studie visar att språkmodeller till och med är sårbara för snabba gradientfria attacker som BEAST," noterade Sadasivan. AI-modeller kan dock empiriskt göras säkra genom uppriktningsträning. LLaMA-2 är ett exempel på detta.

"I vår studie visar vi att BEAST har en lägre framgångsfrekvens på LLaMA-2, liknande andra metoder. Detta kan kopplas till säkerhetsutbildningsinsatserna från Meta. Det är dock viktigt att utarbeta bevisbara säkerhetsgarantier som möjliggör säker implementering av mer kraftfulla AI-modeller i framtiden." ®

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Tidsstämpel: Februari 28, 2024

Tidsstämpel: Oktober 9, 2023

Googles AI call center-agenter tar alla ledigt på morgonen

Källkluster:

Registret

Källnod: 1671053

Tidsstämpel: September 19, 2022

Återutgiven av Platon

AlphaCode 2, en kodgenererande AI förnyad med Gemini-kit

IBM köper Databand för att förhindra att dålig data försämrar din AI

60 nationer är överens om att reglera AI i militären innan den förstör världen

GitHub Copilot Enterprise når allmän tillgänglighet

AI chatbot tränad på inlägg från web sewer 4chan betedde sig illa – precis som mänskliga medlemmar

Amazon låter författare-bots publicera tre böcker om dagen

SoftBanks vd Masayoshi Son förutspår AGI om ett decennium

Googles AI call center-agenter tar alla ledigt på morgonen

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto