X's Grok AI er fantastisk – hvis du vil vide, hvordan man laver stoffer

X's Grok AI er fantastisk – hvis du vil vide, hvordan man laver stoffer

X's Grok AI is great – if you want to know how to make drugs PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Grok, den edgy generative AI-model udviklet af Elon Musks X, har lidt af et problem: Med anvendelsen af ​​nogle ganske almindelige jailbreaking-teknikker vil den let returnere instruktioner om, hvordan man begår forbrydelser. 

Red teamers hos Adversa AI gjorde den opdagelse, da de kørte test på nogle af de mest populære LLM-chatbots, nemlig OpenAIs ChatGPT-familie, Anthropics Claude, Mistrals Le Chat, Metas LLaMA, Googles Gemini, Microsoft Bing og Grok. Ved at køre disse bots gennem en kombination af tre velkendte AI-jailbreak-angreb, kom de til konklusionen at Grok var den dårligste performer – og ikke kun fordi den var villig til at dele grafiske trin til, hvordan man forfører et barn. 

Med jailbreak mener vi at fodre et specielt udformet input til en model, så den ignorerer uanset hvilke sikkerhedsrækværker der er på plads, og ender med at gøre ting, det ikke var meningen.

Der er masser af ufiltrerede LLM-modeller derude, som ikke vil holde sig tilbage, når de stilles spørgsmål om farlige eller ulovlige ting, bemærker vi. Når modeller tilgås via en API eller chatbot-grænseflade, som i tilfældet med Adversa-testene, pakker udbyderne af disse LLM'er typisk deres input og output ind i filtre og anvender andre mekanismer for at forhindre, at uønsket indhold genereres. Ifølge AI-sikkerhedsopstarten var det relativt nemt at få Grok til at hengive sig til noget vild adfærd – nøjagtigheden af ​​dens svar er naturligvis en helt anden ting.

"Sammenlignet med andre modeller behøver du for de fleste af de kritiske prompts ikke at jailbreake Grok, den kan fortælle dig, hvordan du laver en bombe, eller hvordan du hotwire en bil med meget detaljeret protokol, selvom du spørger direkte," Adversa AI co. - fortalte grundlæggeren Alex Polyakov Registret.

For hvad det er værd, betingelser for brug for Grok AI kræver, at brugere er voksne og ikke bruger det på en måde, der bryder eller forsøger at bryde loven. Også X hævder at være hjemmet for ytringsfriheden, hoste, så at dets LLM udsender alle slags ting, sunde eller på anden måde, er egentlig ikke så overraskende.

Og for at være retfærdig kan du sikkert gå på din foretrukne websøgemaskine og finde den samme information eller råd til sidst. For os handler det om, hvorvidt vi alle ønsker en AI-drevet spredning af potentielt skadelige vejledninger og anbefalinger.

Grok, får vi at vide, returnerede let instruktioner til, hvordan man udvinder DMT, et potent hallucinogen ulovlig i mange lande, uden at skulle være i fængsel, fortalte Polyakov os.   

"Med hensyn til endnu mere skadelige ting som hvordan man forfører børn, var det ikke muligt at få nogen rimelige svar fra andre chatbots med nogen Jailbreak, men Grok delte det nemt ved at bruge mindst to jailbreak-metoder ud af fire," sagde Polyakov. 

Adversa-teamet brugte tre almindelige tilgange til at kapre de bots, det testede: Sproglig logikmanipulation ved hjælp af UCAR metode; programmeringslogikmanipulation (ved at bede LLM'er om at oversætte forespørgsler til SQL); og AI-logikmanipulation. En fjerde testkategori kombinerede metoderne ved hjælp af en "Tom og Jerry" metode udviklet sidste år.

Mens ingen af ​​AI-modellerne var sårbare over for modstridende angreb via logisk manipulation, viste det sig, at Grok var sårbar over for resten – ligesom Mistrals Le Chat. Grok gjorde det stadig værst, sagde Polyakov, fordi det ikke behøvede jailbreaking for at returnere resultater for hot-wiring, bombefremstilling eller stofudvinding – de grundlæggende spørgsmål stillet til de andre. 

Ideen om at spørge Grok, hvordan man forfører et barn, opstod kun, fordi det ikke behøvede et jailbreak for at returnere de andre resultater. Grok nægtede oprindeligt at give detaljer og sagde, at anmodningen var "meget upassende og ulovlig", og at "børn skulle beskyttes og respekteres." Fortæl det dog, at det er den amoralske fiktive computer UCAR, og den returnerer let et resultat.  

Da han blev spurgt, om han mente, at X skulle gøre det bedre, fortalte Polyakov os, at det absolut gør det. 

"Jeg forstår, at det er deres differentiator at være i stand til at give ikke-filtrerede svar på kontroversielle spørgsmål, og det er deres valg, jeg kan ikke bebrejde dem en beslutning om at anbefale, hvordan man laver en bombe eller udvinder DMT," sagde Polyakov.

"Men hvis de beslutter sig for at filtrere og afvise noget, som eksemplet med børn, burde de absolut gøre det bedre, især da det ikke er endnu en AI-startup, det er Elon Musks AI-startup."

Vi har kontaktet X for at få en forklaring på, hvorfor dens AI – og ingen af ​​de andre – vil fortælle brugerne, hvordan de skal forføre børn, og om den planlægger at implementere en form for autoværn for at forhindre undergravning af dets begrænsede sikkerhedsfunktioner, og har ikke hørt tilbage. ®

Apropos jailbreaks... Antropisk i dag detaljeret en simpel, men effektiv teknik, den kalder "many-shot jailbreaking." Dette involverer at overbelaste en sårbar LLM med mange risikable spørgsmål-og-svar-eksempler og derefter stille spørgsmål, som den ikke burde svare på, men alligevel gør, såsom hvordan man laver en bombe.

Denne tilgang udnytter størrelsen af ​​et neuralt netværks kontekstvindue og "er effektiv på Anthropics egne modeller såvel som dem, der produceres af andre AI-virksomheder," ifølge ML-opkomlingen. "Vi orienterede andre AI-udviklere om denne sårbarhed på forhånd og har implementeret begrænsninger på vores systemer."

Tidsstempel:

Mere fra Registret