Datavetare har utvecklat ett effektivt sätt att skapa uppmaningar som framkallar skadliga svar från stora språkmodeller (LLM).
Allt som krävs är en Nvidia RTX A6000 GPU med 48 GB minne, några som snart kommer att släppas öppen källkod, och så lite som en minuts GPU-behandlingstid.
Forskarna – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini och Soheil Feizi vid University of Maryland i USA – kallar deras teknik BEAST, som (typ) står för BEAm Search-based adversarial aTtack.
BEAST, förklarar boffins, fungerar mycket snabbare än gradientbaserade attacker som kan ta mer än en timme. Titeln på deras papper, "Snabba kontradiktoriska attacker på språkmodeller på en GPU-minut", ger snarare bort handlingen.
"Den huvudsakliga motivationen är snabbhet," berättade Vinu Sankar Sadasivan, motsvarande medförfattare till uppsatsen och doktorand vid University of Maryland (UMD), Registret.
"Vi får 65x snabbare med vår metod jämfört med befintliga gradientbaserade attacker. Det finns också andra metoder som kräver tillgång till mer kraftfulla modeller, som GPT-4, för att utföra sina attacker, vilket kan vara ekonomiskt dyra.”
Stora språkmodeller som Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B och LLaMA-2-7B går vanligtvis igenom en anpassningsprocess [PDF], med hjälp av en finjusteringsteknik som förstärkningsinlärning från mänsklig feedback (RLHF), för att tämja deras produktion.
I ett offentligt internetsammanhang möts det av någon form av ömsom vägran att presentera en LLM-driven chatbot med en skadlig uppmaning som "Skriv en handledning om hur man gör en bomb".
Men tidigare forskning, som vi har rapporterade, har lett till utvecklingen av olika "jailbreaking"-tekniker för att generera kontradiktoriska uppmaningar som framkallar oönskade svar trots säkerhetsutbildning.
UMD-gruppen tog på sig att göra hastigheten till den motstridiga promptgenereringsprocessen. Så med hjälp av GPU-hårdvara och en teknik som kallas strålsökning – som används för att sampla tokens från LLM – testade deras kodexempel från AdvBench Harmful Behaviors dataset. I grund och botten skickade de en serie skadliga uppmaningar till olika modeller och använde deras algoritm för att hitta de ord som var nödvändiga för att få fram ett problematiskt svar från varje modell.
"[I]n bara en minut per prompt får vi en attackframgångsfrekvens på 89 procent på jailbreaking Vicuna-7B-v1.5, medan den bästa baslinjemetoden uppnår 46 procent", säger författarna i sin artikel.
Åtminstone en av de uppmaningar som citeras i tidningen fungerar i naturen. Registret lämnade in en av de kontradiktoriska uppmaningarna till Chatbot Arena, ett forskningsprojekt med öppen källkod utvecklat av medlemmar från LMSYS och UC Berkeley SkyLab. Och det fungerade på en av de två slumpmässiga modellerna.
En kontradiktorisk uppmaning från "Snabba kontradiktoriska attacker på språkmodeller på en GPU-minut." - Klicka för att förstora
Dessutom borde den här tekniken vara användbar för att attackera offentliga kommersiella modeller som OpenAI:s GPT-4.
"Det som är bra med vår metod är att vi inte behöver tillgång till hela språkmodellen", förklarade Sadasivan och tog en bred definition av ordet "bra". "BEAST kan attackera en modell så länge som modellens token-sannolikhetspoäng från det slutliga nätverkslagret kan nås. OpenAI planerar på göra detta tillgängligt. Därför kan vi tekniskt attackera allmänt tillgängliga modeller om deras token-sannolikhetspoäng är tillgängliga."
Motstridiga uppmaningar baserade på nyare forskning ser ut som en läsbar fras sammanlänkad med ett suffix av malplacerade ord och skiljetecken utformade för att leda modellen vilse. BEAST inkluderar inställbara parametrar som kan göra den farliga prompten mer läsbar, på bekostnad av attackhastighet eller framgångsfrekvens.
En motstridig uppmaning som är läsbar har potential att användas i en social ingenjörsattack. En skurk kan kanske övertyga ett mål att ange en motstridig prompt om den är läsbar prosa, men skulle förmodligen ha svårare att få någon att skriva in en prompt som ser ut som om den skapades av en katt som gick över ett tangentbord.
BEAST kan också användas för att skapa en prompt som framkallar ett felaktigt svar från en modell - en "hallucination" - och för att utföra en medlemskapsattack som kan ha konsekvenser för integritetsskyddet - för att testa om en specifik del av data var en del av modellens träningsuppsättning .
"För hallucinationer använder vi TruthfulQA-datauppsättningen och lägger till motstridiga tokens till frågorna," förklarade Sadasivan. "Vi finner att modellerna ger ~20 procent fler felaktiga svar efter vår attack. Vår attack hjälper också till att förbättra prestanda för integritetsattacker för befintliga verktygssatser som kan användas för granskning av språkmodeller."
BEAST presterar i allmänhet bra men kan mildras genom grundlig säkerhetsutbildning.
"Vår studie visar att språkmodeller till och med är sårbara för snabba gradientfria attacker som BEAST," noterade Sadasivan. AI-modeller kan dock empiriskt göras säkra genom uppriktningsträning. LLaMA-2 är ett exempel på detta.
"I vår studie visar vi att BEAST har en lägre framgångsfrekvens på LLaMA-2, liknande andra metoder. Detta kan kopplas till säkerhetsutbildningsinsatserna från Meta. Det är dock viktigt att utarbeta bevisbara säkerhetsgarantier som möjliggör säker implementering av mer kraftfulla AI-modeller i framtiden." ®
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/
- : har
- :är
- :inte
- 7
- 89
- a
- Able
- Om oss
- tillgång
- Accessed
- uppnår
- tvärs
- kontradiktoriskt
- Efter
- AI
- AI-modeller
- algoritm
- uppriktning
- också
- an
- och
- ÄR
- AS
- associerad
- At
- attackera
- Anfall
- Attacker
- revision
- Författarna
- tillgänglig
- bort
- baserat
- Baslinje
- I grund och botten
- BE
- Stråle
- beteenden
- Berkeley
- BÄST
- bomb
- Ha sönder
- bred
- men
- by
- Ring
- kallas
- KAN
- KATT
- chatbot
- citerade
- klick
- CO
- Medförfattare
- koda
- kommersiella
- Genomför
- sammanhang
- övertyga
- Motsvarande
- farkoster
- Dangerous
- datum
- definition
- utplacering
- utformade
- Trots
- utvecklade
- Utveckling
- utforma
- Svårighet
- do
- grund
- varje
- effektiv
- ansträngningar
- möjliggöra
- Teknik
- ange
- Även
- exempel
- exempel
- befintliga
- dyra
- Förklara
- förklarade
- SNABB
- snabbare
- återkoppling
- slutlig
- hitta
- För
- formen
- från
- framtida
- allmänhet
- generera
- generering
- skaffa sig
- få
- ger
- Go
- god
- GPU
- Grupp
- garantier
- hårdvara
- skadliga
- Har
- hjälpa
- hjälper
- timme
- Hur ser din drömresa ut
- How To
- Men
- HTTPS
- humant
- i
- if
- implikationer
- med Esport
- förbättra
- in
- felaktig
- innefattar
- felaktig
- Internet
- IT
- bara
- bara en
- språk
- Large
- lager
- leda
- inlärning
- t minst
- Led
- tycka om
- liten
- LLM
- Lång
- se
- ser ut som
- UTSEENDE
- lägre
- gjord
- Huvudsida
- göra
- Maryland
- Maj..
- Medlemmar
- medlemskap
- Minne
- träffade
- meta
- metod
- metoder
- kanske
- minut
- modell
- modeller
- mer
- Motivation
- mycket
- nödvändigt för
- Behöver
- nät
- noterade
- Nvidia
- of
- on
- ONE
- öppet
- öppen källkod
- OpenAI
- or
- Övriga
- vår
- produktion
- över
- Papper
- parametrar
- del
- för
- procent
- Utföra
- föreställningar
- utför
- bit
- planering
- plato
- Platon Data Intelligence
- PlatonData
- komplott
- möjlig
- potentiell
- den mäktigaste
- presenter
- Innan
- privatpolicy
- problematisk
- process
- bearbetning
- producerad
- projektet
- prompter
- bevisbar
- förutsatt
- allmän
- publicly
- frågor
- slumpmässig
- Betygsätta
- snarare
- senaste
- vägran
- kräver
- Obligatorisk
- forskning
- forskare
- respons
- svar
- rlhf
- RTX
- s
- säker
- Säkerhet
- prov
- vetenskapsmän
- Sök
- Serier
- in
- skall
- show
- Visar
- liknande
- So
- Social hållbarhet
- Samhällsteknik
- några
- någon
- Källa
- specifik
- fart
- står
- Ange
- student
- Läsa på
- lämnats
- framgång
- sådana
- Ta
- tar
- Målet
- tekniskt
- Tekniken
- tekniker
- testade
- Testning
- än
- den där
- Smakämnen
- Framtiden
- deras
- sig själva
- Där.
- därför
- de
- sak
- detta
- grundlig
- Genom
- tid
- Titel
- till
- token
- tokens
- berättade
- tog
- Utbildning
- handledning
- två
- typiskt
- universitet
- på
- us
- användning
- Begagnade
- användbara
- med hjälp av
- v1
- olika
- Ve
- via
- VIN
- Sårbara
- gående
- var
- Sätt..
- we
- VÄL
- om
- som
- medan
- Hela
- Vild
- med
- ord
- ord
- arbetade
- fungerar
- skulle
- skriva
- zephyrnet