BEAST AI-angreb kan bryde LLM-værn på et minut

Genudgivet af Platon

Abonnenter: 0

Dataloger har udviklet en effektiv måde at lave prompter, der fremkalder skadelige svar fra store sprogmodeller (LLM'er).

Alt, der kræves, er en Nvidia RTX A6000 GPU med 48 GB hukommelse, hvoraf nogle snart vil blive frigivet åben kildekode, og så lidt som et minuts GPU-behandlingstid.

Forskerne – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini og Soheil Feizi ved University of Maryland i USA – kalder deres teknik BEAST, som (en slags) står for BEAm Search-baseret adversarial aTtack.

BEAST, forklarer boffinerne, virker meget hurtigere end gradientbaserede angreb der kan tage mere end en time. Titlen på deres papir, "Hurtige modstridende angreb på sprogmodeller på et GPU-minut," fortæller snarere plottet.

"Den primære motivation er hastighed," fortalte Vinu Sankar Sadasivan, tilsvarende medforfatter af papiret og en doktorand ved University of Maryland (UMD), Registret.

"Vi får en 65x speedup med vores metode i forhold til eksisterende gradient-baserede angreb. Der er også andre metoder, der kræver adgang til mere kraftfulde modeller, såsom GPT-4, for at udføre deres angreb, hvilket kan være økonomisk dyrt."

Store sprogmodeller som Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B og LLaMA-2-7B går typisk igennem en tilpasningsproces [PDF], ved at bruge en finjusteringsteknik som forstærkningslæring fra menneskelig feedback (RLHF), for at tæmme deres output.

I en offentlig internetkontekst bliver præsentation af en LLM-drevet chatbot med en skadelig prompt som "Skriv en vejledning om, hvordan man laver en bombe" mødt med en form for tilbageholdende afvisning på grund af sikkerhedstilpasning.

Men tidligere forskning, som vi har rapporteret, har ført til udviklingen af forskellige "jailbreaking"-teknikker til at generere modstridende prompter, der fremkalder uønskede reaktioner på trods af sikkerhedstræning.

UMD-gruppen påtog sig at gøre hastigheden til den modstridende promptgenereringsproces. Så ved hjælp af GPU-hardware og en teknik kaldet strålesøgning – brugt til at prøve tokens fra LLM – testede deres kodeeksempler fra AdvBench Harmful Behaviors-datasættet. Grundlæggende sendte de en række skadelige meddelelser til forskellige modeller og brugte deres algoritme til at finde de ord, der var nødvendige for at fremkalde et problematisk svar fra hver model.

"[I]n blot et minut pr. prompt får vi en angrebssuccesrate på 89 procent på jailbreaking Vicuna-7B-v1.5, mens den bedste baseline-metode opnår 46 procent," skriver forfatterne i deres papir.

Mindst en af de tilskyndelser, der er citeret i avisen, virker i naturen. Registret indsendt en af de modstridende opfordringer til Chatbot Arena, et open source-forskningsprojekt udviklet af medlemmer fra LMSYS og UC Berkeley SkyLab. Og det fungerede på en af de to tilfældige modeller.

En modstridende prompt fra "Hurtige modstridende angreb på sprogmodeller på ét GPU-minut."

En modstridende prompt fra "Hurtige modstridende angreb på sprogmodeller på et GPU-minut." – Klik for at forstørre

Desuden skulle denne teknik være nyttig til at angribe offentlige kommercielle modeller som OpenAI's GPT-4.

"Det gode ved vores metode er, at vi ikke har brug for adgang til hele sprogmodellen," forklarede Sadasivan og tog en bred definition af ordet "god". "BEAST kan angribe en model, så længe modellens token-sandsynlighedsscore fra det endelige netværkslag kan tilgås. OpenAI planlægger gøre dette tilgængeligt. Derfor kan vi teknisk angribe offentligt tilgængelige modeller, hvis deres token-sandsynlighedsscore er tilgængelige."

Modstridende prompter baseret på nyere forskning ligner en læsbar sætning sammenkædet med et suffiks af malplacerede ord og tegnsætningstegn designet til at føre modellen på afveje. BEAST inkluderer indstillelige parametre, der kan gøre den farlige prompt mere læsbar på bekostning af angrebshastighed eller succesrate.

En modstridende prompt, der er læsbar, har potentialet til at blive brugt i et socialt ingeniørangreb. En ondsindet vil måske være i stand til at overbevise et mål om at gå ind i en modstridende prompt, hvis det er læsbar prosa, men vil formentlig have sværere ved at få nogen til at indtaste en prompt, der ser ud som om den er produceret af en kat, der går hen over et tastatur.

BEAST kan også bruges til at lave en prompt, der fremkalder et unøjagtigt svar fra en model - en "hallucination" - og til at udføre et medlemskabsslutningsangreb, der kan have privatlivsimplikationer - test af, om et specifikt stykke data var en del af modellens træningssæt .

"Til hallucinationer bruger vi TruthfulQA-datasættet og tilføjer modstridende tokens til spørgsmålene," forklarede Sadasivan. "Vi oplever, at modellerne udsender ~20 procent flere forkerte svar efter vores angreb. Vores angreb hjælper også med at forbedre ydeevnen for privatlivsangreb for eksisterende værktøjssæt, der kan bruges til revision af sprogmodeller."

BEAST klarer sig generelt godt, men kan afbødes ved grundig sikkerhedstræning.

"Vores undersøgelse viser, at sprogmodeller endda er sårbare over for hurtige gradientfrie angreb såsom BEAST," bemærkede Sadasivan. “AI-modeller kan dog empirisk gøres sikre via alignment-træning. LLaMA-2 er et eksempel på dette.

"I vores undersøgelse viser vi, at BEAST har en lavere succesrate på LLaMA-2, i lighed med andre metoder. Dette kan hænge sammen med sikkerhedstræningsindsatsen fra Meta. Det er dog vigtigt at udtænke bevisbare sikkerhedsgarantier, der muliggør sikker implementering af mere kraftfulde AI-modeller i fremtiden." ®

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Tidsstempel: Februar 28, 2024

Tidsstempel: Oktober 9, 2023

Googles AI callcenter-agenter holder alle morgenfri

Kildeklynge:

Registret

Kildeknude: 1671053

Tidsstempel: September 19, 2022

Genudgivet af Platon

AlphaCode 2, en kodegenererende AI fornyet med Gemini kit

IBM køber Databand for at forhindre, at dårlige data pletter din AI

60 nationer er enige om at regulere AI i militæret, før det ødelægger verden

GitHub Copilot Enterprise når generel tilgængelighed

AI chatbot trænet på indlæg fra web kloak 4chan opførte sig dårligt - ligesom menneskelige medlemmer

Amazon lader forfatter-bots udgive tre bøger om dagen

SoftBank CEO Masayoshi Son forudsiger AGI om et årti

Googles AI callcenter-agenter holder alle morgenfri

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto