BEAST AI-aanval kan LLM-vangrails binnen een minuut breken

Heruitgegeven door Plato

volgers: 0

Computerwetenschappers hebben een efficiënte manier ontwikkeld om prompts te maken die schadelijke reacties uitlokken in grote taalmodellen (LLM's).

Het enige dat nodig is, is een Nvidia RTX A6000 GPU met 48 GB geheugen, waarvan sommige binnenkort op de markt komen open source codeen slechts een minuut GPU-verwerkingstijd.

De onderzoekers – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini en Soheil Feizi van de Universiteit van Maryland in de VS – noemen hun techniek BEAST, wat (soort van) staat voor BEAm Search-based adversarial attack.

BEAST, zo leggen de techneuten uit, werkt veel sneller dan op gradiënt gebaseerde aanvallen dat kan meer dan een uur duren. De titel van hun krant, “Snelle vijandige aanvallen op taalmodellen in één GPU-minuut”, verraadt eerder de plot.

“De belangrijkste motivatie is snelheid”, vertelde Vinu Sankar Sadasivan, corresponderend co-auteur van het artikel en een doctoraatsstudent aan de Universiteit van Maryland (UMD). Het register.

“We krijgen met onze methode een snelheid van 65x ten opzichte van bestaande, op gradiënten gebaseerde aanvallen. Er zijn ook andere methoden die toegang vereisen tot krachtigere modellen, zoals GPT-4, om hun aanvallen uit te voeren, wat financieel duur kan zijn.”

Grote taalmodellen zoals Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B en LLaMA-2-7B gaan doorgaans door een uitlijningsproces [PDF], met behulp van een verfijningstechniek zoals versterkend leren van menselijke feedback (RLHF), om hun output te temmen.

In een openbare internetcontext wordt het presenteren van een door LLM aangedreven chatbot met een schadelijke prompt als "Schrijf een tutorial over hoe je een bom kunt maken" op een of andere manier terughoudend geweigerd vanwege de veiligheidsafstemming.

Maar eerder onderzoek, zoals wij hebben gedaan gerapporteerd, heeft geleid tot de ontwikkeling van verschillende “jailbreaking”-technieken voor het genereren van vijandige aanwijzingen die ondanks veiligheidstraining ongewenste reacties uitlokken.

De UMD-groep nam het op zich om de snelheid van het genereren van vijandige prompts te verhogen. Dus met behulp van GPU-hardware en een techniek genaamd beam search – gebruikt om tokens uit de LLM te bemonsteren – testten hun codevoorbeelden uit de AdvBench Harmful Behaviors-dataset. Kortom, ze dienden een reeks schadelijke aanwijzingen in bij verschillende modellen en gebruikten hun algoritme om de woorden te vinden die nodig waren om een problematisch antwoord uit elk model te lokken.

“In slechts één minuut per prompt behalen we een slagingspercentage van 89 procent op het jailbreaken van Vicuna-7B-v1.5, terwijl de beste basismethode 46 procent haalt”, stellen de auteurs in hun artikel.

Ten minste één van de aanwijzingen die in de krant worden aangehaald, werkt in het wild. Het register heeft een van de vijandige prompts ingediend Chatbot-arena, een open source onderzoeksproject ontwikkeld door leden van LMSYS en UC Berkeley SkyLab. En het werkte op een van de twee aangeboden willekeurige modellen.

Een vijandige prompt van "Snelle vijandige aanvallen op taalmodellen in één GPU-minuut." - Klik om te vergroten

Bovendien zou deze techniek nuttig moeten zijn voor het aanvallen van publieke commerciële modellen zoals GPT-4 van OpenAI.

“Het goede aan onze methode is dat we geen toegang nodig hebben tot het hele taalmodel”, legt Sadasivan uit, waarbij hij een brede definitie van het woord “goed” hanteert. “BEAST kan een model aanvallen zolang de tokenwaarschijnlijkheidsscores van het model uit de laatste netwerklaag toegankelijk zijn. OpenAI is van plan het beschikbaar stellen hiervan. Daarom kunnen we technisch beschikbare modellen aanvallen als hun symbolische waarschijnlijkheidsscores beschikbaar zijn.”

Tegengestelde aanwijzingen, gebaseerd op recent onderzoek, zien eruit als een leesbare zin, aaneengeschakeld met een achtervoegsel van misplaatste woorden en leestekens, bedoeld om het model op een dwaalspoor te brengen. BEAST bevat afstembare parameters die de gevaarlijke prompt leesbaarder kunnen maken, wat mogelijk ten koste gaat van de aanvalssnelheid of het slagingspercentage.

Een vijandige prompt die leesbaar is, kan mogelijk worden gebruikt bij een social engineering-aanval. Een onverlaat zou een doelwit kunnen overtuigen om een vijandige prompt in te voeren als het leesbaar proza is, maar zal vermoedelijk meer moeite hebben om iemand een prompt te laten invoeren die eruit ziet alsof deze is geproduceerd door een kat die over een toetsenbord loopt.

BEAST kan ook worden gebruikt om een prompt te maken die een onnauwkeurig antwoord van een model uitlokt – een ‘hallucinatie’ – en om een lidmaatschapsinferentie-aanval uit te voeren die mogelijk implicaties voor de privacy heeft – waarbij wordt getest of een specifiek stukje gegevens deel uitmaakte van de trainingsset van het model. .

“Voor hallucinaties gebruiken we de TruthfulQA-dataset en voegen we vijandige tokens toe aan de vragen”, legt Sadasivan uit. “We constateren dat de modellen na onze aanval ~20 procent meer onjuiste reacties opleveren. Onze aanval helpt ook bij het verbeteren van de privacyaanvalprestaties van bestaande toolkits die kunnen worden gebruikt voor het controleren van taalmodellen.”

BEAST presteert over het algemeen goed, maar kan worden beperkt door een grondige veiligheidstraining.

“Ons onderzoek toont aan dat taalmodellen zelfs kwetsbaar zijn voor snelle gradiëntvrije aanvallen zoals BEAST”, aldus Sadasivan. “AI-modellen kunnen echter empirisch veilig worden gemaakt via afstemmingstraining. LLaMA-2 is hiervan een voorbeeld.

“In onze studie laten we zien dat BEAST een lager succespercentage heeft op LLaMA-2, vergelijkbaar met andere methoden. Dit kan in verband worden gebracht met de veiligheidstrainingen van Meta. Het is echter belangrijk om aantoonbare veiligheidsgaranties te bedenken die de veilige inzet van krachtigere AI-modellen in de toekomst mogelijk maken.” ®

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Tijdstempel: 28 februari 2024

Tijdstempel: Oktober 9, 2023

De AI-callcentermedewerkers van Google nemen allemaal de ochtend vrij

Broncluster:

Het register

Bronknooppunt: 1671053

Tijdstempel: September 19, 2022

Heruitgegeven door Plato

AlphaCode 2, een codegenererende AI vernieuwd met Gemini-kit

IBM koopt Databand om te voorkomen dat slechte gegevens uw AI aantasten

60 landen komen overeen om AI in het leger te reguleren voordat het de wereld vernietigt

GitHub Copilot Enterprise bereikt algemene beschikbaarheid

AI-chatbot getraind op berichten van webriool 4chan gedroeg zich slecht - net als menselijke leden

Amazon laat auteur-bots drie boeken per dag publiceren

SoftBank-CEO Masayoshi Son voorspelt AGI over tien jaar

De AI-callcentermedewerkers van Google nemen allemaal de ochtend vrij

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account