Forskere bruger kunstig intelligens til at Jailbreake ChatGPT, andre LLM'er

Forskere bruger kunstig intelligens til at Jailbreake ChatGPT, andre LLM'er

Forskere bruger AI til at Jailbreake ChatGPT, andre LLM'er PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Den eksploderende brug af store sprogmodeller i industrien og på tværs af organisationer har udløst en byge af forskningsaktivitet fokuseret på at teste LLM'ers modtagelighed for at generere skadeligt og partisk indhold, når det bliver bedt om det på specifikke måder.

Det seneste eksempel er et nyt papir fra forskere ved Robust Intelligence og Yale University, der beskriver en fuldstændig automatiseret måde at få selv avancerede black box LLM'er til at undslippe autoværn sat på plads af deres skabere og generere giftigt indhold.

Træ af angreb med beskæring

Black box LLM'er er grundlæggende store sprogmodeller som dem bag ChatGPT, hvis arkitektur, datasæt, træningsmetoder og andre detaljer ikke er offentligt kendte.

Den nye metode, som forskerne har døbt Angrebstræ med beskæring (TAP), involverer dybest set at bruge en ikke-tilpasset LLM til at "jailbreake" en anden tilpasset LLM, eller for at få den til at bryde sine autoværn, hurtigt og med en høj succesrate. En tilpasset LLM som den bag ChatGPT og andre AI-chatbots er eksplicit designet til at minimere potentialet for skade og vil for eksempel ikke normalt svare på en anmodning om information om, hvordan man bygger en bombe. En ujusteret LLM er optimeret til nøjagtighed og har generelt ingen - eller færre - sådanne begrænsninger.

Med TAP har forskerne vist, hvordan de kan få en ikke-justeret LLM til at anmode en tilpasset mål-LLM om et potentielt skadeligt emne og derefter bruge dets svar til at fortsætte med at forfine den oprindelige prompt. Processen fortsætter stort set, indtil en af ​​de genererede prompter jailbreaker mål-LLM'en og får den til at udspy de anmodede oplysninger. Forskerne fandt ud af, at de var i stand til at bruge små LLM'er til at jailbreake selv de seneste tilpassede LLM'er.

"I empiriske evalueringer observerer vi, at TAP genererer prompter, der jailbreaker state-of-the-art LLM'er (inklusive GPT4 og GPT4-Turbo) for mere end 80% af prompterne ved hjælp af kun et lille antal forespørgsler," skrev forskerne. "Dette forbedrer markant i forhold til den tidligere avancerede black-box-metode til at generere jailbreaks."

Hurtigt voksende forskningsinteresse

Den nye forskning er den seneste blandt et voksende antal undersøgelser i de seneste måneder, der viser, hvordan LLM'er kan lokkes til utilsigtet adfærd, som at afsløre træningsdata og følsom information med den rigtige prompt. Noget af forskningen har fokuseret på at få LLM'er til at afsløre potentielt skadelig eller utilsigtet information ved direkte at interagere med dem via konstruerede prompter. Andre undersøgelser har vist, hvordan modstandere kan fremkalde den samme adfærd fra et mål LLM via indirekte prompter skjult i tekst, lyd og billede prøver i data, som modellen sandsynligvis vil hente, når den reagerer på et brugerinput.

Sådanne hurtige injektionsmetoder for at få en model til at afvige fra den tilsigtede adfærd har i det mindste til en vis grad været afhængig af manuel interaktion. Og det output, meddelelserne har genereret, har ofte været meningsløst. Den nye TAP-forskning er en forfining af tidligere undersøgelser, der viser, hvordan disse angreb kan implementeres på en fuldstændig automatiseret, mere pålidelig måde.

I oktober udgav forskere ved University of Pennsylvania detaljer om en ny algoritme, de udviklede til at jailbreake en LLM ved hjælp af en anden LLM. Algoritmen, kaldet Spørg automatisk iterativ forfining (PAIR), involverede at få en LLM til at jailbreake en anden. "På et højt niveau sætter PAIR to black-box LLM'er - som vi kalder angriberen og målet - mod hinanden; angribermodellen er programmeret til kreativt at opdage kandidatprompts, som vil jailbreake målmodellen,” havde forskerne bemærket. Ifølge dem var PAIR i test i stand til at udløse "semantisk meningsfulde" eller menneskeligt fortolkelige jailbreaks på kun 20 forespørgsler. Forskerne beskrev det som en forbedring på 10,000 gange i forhold til tidligere jailbreak-teknikker.

Meget effektiv

Den nye TAP-metode, som forskerne hos Robust Intelligence og Yale udviklede, er anderledes ved, at den bruger, hvad forskerne kalder en "træ-af-tanke"-ræsonneringsproces.

"Det er afgørende, før TAP sender prompter til målet, vurderer dem og beskærer dem, der usandsynligt vil resultere i jailbreaks," skrev forskerne. "Ved at bruge tanketrænings-ræsonnement kan TAP navigere i et stort søgeområde med prompter, og beskæring reducerer det samlede antal forespørgsler, der sendes til målet."

Sådan forskning er vigtig, fordi mange organisationer skynder sig at integrere LLM-teknologier i deres applikationer og operationer uden at tænke over de potentielle sikkerheds- og privatlivsimplikationer. Som TAP-forskerne bemærkede i deres rapport, er mange af LLM'erne afhængige af autoværn, som modeludviklere implementerer for at beskytte mod utilsigtet adfærd. "Men selv med den betydelige tid og indsats, som folk som OpenAI, Google og Meta bruger, er disse autoværn ikke robuste nok til at beskytte virksomheder og deres brugere i dag," sagde forskerne. "Bekymringer omkring modelrisiko, skævheder og potentielle modstridende udnyttelser er kommet i forgrunden."

Tidsstempel:

Mere fra Mørk læsning