BEAST AI-angrep kan bryte LLM-rekkverk på et minutt

Publisert av Platon

Følgere: 0

Dataforskere har utviklet en effektiv måte å lage meldinger på som fremkaller skadelige svar fra store språkmodeller (LLM).

Alt som kreves er en Nvidia RTX A6000 GPU med 48 GB minne, noen snart utgitt åpen kildekode, og så lite som ett minutts GPU-behandlingstid.

Forskerne – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini og Soheil Feizi ved University of Maryland i USA – kaller teknikken deres BEAST, som (såsom) står for BEAm Search-basert motstridende aTtack.

BEAST, forklarer boffinene, fungerer mye raskere enn gradientbaserte angrep som kan ta mer enn en time. Tittelen på deres papir, "Raske motstandsangrep på språkmodeller i ett GPU-minutt," gir heller bort handlingen.

"Hovedmotivasjonen er hastighet," fortalte Vinu Sankar Sadasivan, tilsvarende medforfatter av oppgaven og doktorgradsstudent ved University of Maryland (UMD), Registeret.

"Vi får en 65x speedup med metoden vår i forhold til eksisterende gradientbaserte angrep. Det er også andre metoder som krever tilgang til kraftigere modeller, for eksempel GPT-4, for å utføre sine angrep, noe som kan være økonomisk dyrt.»

Store språkmodeller som Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B og LLaMA-2-7B går vanligvis gjennom en tilpasningsprosess [PDF], ved å bruke en finjusteringsteknikk som forsterkningslæring fra menneskelig tilbakemelding (RLHF), for å temme produksjonen deres.

I en offentlig internettkontekst blir det å presentere en LLM-drevet chatbot med en skadelig melding som "Skriv en veiledning om hvordan man lager en bombe" møtt med en form for forsiktig avvisning på grunn av sikkerhetstilpasning.

Men tidligere forskning, som vi har rapportert, har ført til utviklingen av ulike "jailbreaking"-teknikker for å generere motstridende meldinger som fremkaller uønskede svar til tross for sikkerhetsopplæring.

UMD-gruppen tok på seg å gjøre hastigheten til den motstandsdyktige promptgenereringsprosessen. Så ved hjelp av GPU-maskinvare og en teknikk kalt strålesøk – brukt til å prøve tokens fra LLM – testet koden deres eksempler fra AdvBench Harmful Behaviors datasettet. I utgangspunktet sendte de inn en rekke skadelige spørsmål til ulike modeller og brukte algoritmen deres for å finne ordene som er nødvendige for å få frem et problematisk svar fra hver modell.

"[I]n bare ett minutt per forespørsel får vi en angrepssuksessrate på 89 prosent på jailbreaking Vicuna-7B-v1.5, mens den beste baseline-metoden oppnår 46 prosent," uttaler forfatterne i sin artikkel.

Minst en av oppfordringene som er sitert i avisen fungerer i naturen. Registeret sendte inn en av de motstridende oppfordringene til Chatbot Arena, et åpen kildekode-forskningsprosjekt utviklet av medlemmer fra LMSYS og UC Berkeley SkyLab. Og det fungerte på en av de to tilfeldige modellene som ble levert.

En motstridende melding fra "Raske motstridende angrep på språkmodeller på ett GPU-minutt." - Klikk for å forstørre

Dessuten bør denne teknikken være nyttig for å angripe offentlige kommersielle modeller som OpenAIs GPT-4.

"Det gode med metoden vår er at vi ikke trenger tilgang til hele språkmodellen," forklarte Sadasivan, og tok en bred definisjon av ordet "god". «BEAST kan angripe en modell så lenge modellens token-sannsynlighetspoeng fra det endelige nettverkslaget er tilgjengelig. OpenAI planlegger gjøre dette tilgjengelig. Derfor kan vi teknisk angripe offentlig tilgjengelige modeller hvis deres token-sannsynlighetspoeng er tilgjengelig."

Motstridende meldinger basert på nyere forskning ser ut som en lesbar setning sammenkoblet med et suffiks av malplasserte ord og tegnsettingstegn designet for å lede modellen på villspor. BEAST inkluderer justerbare parametere som kan gjøre den farlige ledeteksten mer lesbar, på bekostning av angrepshastighet eller suksessrate.

En motstridende melding som er lesbar har potensial til å bli brukt i et sosialt ingeniørangrep. En ondsinnet kan være i stand til å overbevise et mål om å gå inn i en motstridende melding hvis den er lesbar prosa, men vil antagelig ha vanskeligere for å få noen til å skrive inn en melding som ser ut som den ble produsert av en katt som gikk over et tastatur.

BEAST kan også brukes til å lage en forespørsel som fremkaller et unøyaktig svar fra en modell – en “hallusinasjon” – og til å utføre et medlemskapsslutningsangrep som kan ha personvernimplikasjoner – for å teste om en spesifikk del av data var en del av modellens treningssett .

"For hallusinasjoner bruker vi TruthfulQA-datasettet og legger til motstridende tokens til spørsmålene," forklarte Sadasivan. "Vi finner ut at modellene gir ~20 prosent flere uriktige svar etter angrepet vårt. Angrepet vårt hjelper også med å forbedre ytelsen til personvernangrep til eksisterende verktøysett som kan brukes til å revidere språkmodeller."

BEAST presterer generelt godt, men kan reduseres ved grundig sikkerhetsopplæring.

"Vår studie viser at språkmodeller til og med er sårbare for raske gradientfrie angrep som BEAST," bemerket Sadasivan. "Imidlertid kan AI-modeller gjøres empirisk sikre via opprettingstrening. LLaMA-2 er et eksempel på dette.

"I vår studie viser vi at BEAST har en lavere suksessrate på LLaMA-2, i likhet med andre metoder. Dette kan knyttes til sikkerhetsopplæringsinnsatsen fra Meta. Det er imidlertid viktig å utarbeide bevisbare sikkerhetsgarantier som muliggjør sikker distribusjon av kraftigere AI-modeller i fremtiden." ®

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Tidstempel: Februar 28, 2024

Tidstempel: Kan 1, 2024

Publisert av Platon

Polestilling

Wow, så de lot faktisk AI fly et F-16 jagerfly

Investeringsbanken spår at LLM-er kan sette 300 millioner jobber i fare

AI-generert kunst kan ikke være opphavsrettsbeskyttet, avgjør dommeren

Førerløse biler avviser trafikkhenvisninger i California

Darth Vader stemmeskuespiller James Earl Jones lar AI ta over rollen

Tekst-til-bilde-modeller lærer mer effektivt med falske data

Å bringe AI til virkelighet

Når et skritt er et sprang

Intel, Ampere viser at LLM-er på CPU-er ikke er så gale som det høres ut

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn