ChatGPT Jailbreaking-forum sprider sig i Dark Web Communities

ChatGPT Jailbreaking-forum sprider sig i Dark Web Communities

Beväpningen av generativa AI-verktyg som ChatGPT det alla har väntat på är långsamt, långsamt börjar ta form. I onlinegemenskaper samarbetar nyfikna katter på nya sätt att knäcka ChatGPT:s etiska regler, allmänt känd som "jailbreaking", och hackare utvecklar ett nätverk av nya verktyg för att utnyttja eller skapa stora språkmodeller (LLM) för skadliga syften.

Precis som det har gjort ovan jord verkar ChatGPT ha inspirerat till en frenesi i underjordiska forum. Ända sedan december har hackare varit på jakt efter nya och uppfinningsrika uppmaningar om att manipulera ChatGPToch LLM med öppen källkod som de kan återanvända för skadliga syften

Resultatet, enligt en ny blogg från SlashNext, är en fortfarande begynnande men blomstrande LLM-hackinggemenskap, i besittning av massor av smarta uppmaningar men några AI-aktiverade skadliga program värda en andra eftertanke.

Vad hackare gör med AI LLMs

Snabb ingenjörskonst innebär att man på ett skickligt sätt ställer chatbots som ChatGPT-frågor som syftar till att manipulera dem, vilket får dem att bryta mot sina programmerade regler mot till exempel att skapa skadlig programvara, utan att modellerna vet om det. Det här är en utövning av brute force, förklarar Patrick Harr, VD för SlashNext: "Hackare försöker bara se sig omkring i skyddsräckena. Vilka är kanterna? Jag ändrar bara uppmaningarna hela tiden, ber den på olika sätt att göra vad jag vill.”

Eftersom det är en så tråkig uppgift, och eftersom alla attackerar samma mål, är det bara naturligt att det har skapats hälsosamma gemenskaper på nätet runt praktiken för att dela tips och tricks. Medlemmar i dessa jailbreak-communitys kliar varandra på ryggen och hjälper varandra att få ChatGPT att knäcka och göra saker som utvecklarna hade för avsikt att förhindra från att göra.

en skärmdump av en chattgrupp online gjord för uppmaningar
Källa: SlashNext

Snabba ingenjörer kan dock bara uppnå så mycket med tjusiga ordspel om chatboten i fråga är byggd lika motståndskraftig som ChatGPT är. Så den mer oroande trenden är att utvecklare av skadlig programvara börjar programmera LLM:er för sina egna, ondskefulla syften.

Det hotande hotet från WormGPT och skadliga LLM:er

Ett offer kallat WormGPT dök upp i juli för att starta det skadliga LLM-fenomenet. Det är ett svart-hatt-alternativ till GPT-modeller speciellt designade för skadliga aktiviteter som BEC, malware och nätfiskeattacker, marknadsförda på underjordiska forum "som ChatGPT men [utan] några etiska gränser eller begränsningar." Skaparen av WormGPT påstod sig ha byggt den på en anpassad språkmodell, tränad på olika datakällor, med tonvikt på data relaterade till cyberattacker.

"Vad det betyder för hackare," förklarar Harr, "är att jag nu kan ta, säg, en affärse-postkompromiss (BEC), eller en nätfiske-attack eller malware-attack, och göra detta i stor skala till mycket minimal kostnad. Och jag skulle kunna vara mycket mer målinriktad än tidigare."

Sedan WormGPT har ett antal liknande produkter slängts i skumma online-gemenskaper, inklusive FraudGPT, som annonseras som en "bot utan begränsningar, regler [och] gränser" av en hotaktör som påstår sig vara en verifierad leverantör på olika underjordiska Dark Web-marknadsplatser, inklusive Empire, WHM, Torrez, World, AlphaBay och Versus. Och August kom med utseendet på DarkBART och DarkBERT cyberkriminella chatbotar, baserad på Google Bard, som forskare vid den tiden sa representerar ett stort steg framåt för kontradiktorisk AI, inklusive Google Lens-integration för bilder och omedelbar tillgång till hela den cyber-underjordiska kunskapsbasen.

Enligt SlashNext växer dessa nu, med majoriteten av dem som bygger på modeller med öppen källkod som OpenAI:s OpenGPT. En mängd lägre kvalificerade hackare anpassar det helt enkelt, döljer det i ett omslag och slår sedan ett vagt olycksbådande "___GPT"-namn på det (t.ex. "BadGPT", "DarkGPT"). Även dessa ersättningserbjudanden har sin plats i samhället, men erbjuder få begränsningar och total anonymitet för användarna.

Försvara sig mot nästa generations AI-cybervapen

Varken WormGPT, eller dess avkomma, eller snabba ingenjörer, utgör en så betydande fara för företag ännu, enligt SlashNext. Trots det innebär ökningen av underjordiska jailbreaking-marknader att fler verktyg blir tillgängliga för cyberkriminella, vilket i sin tur förebådar ett brett skifte inom social ingenjörskonst, och hur vi försvarar oss mot det. 

Harr råder: "Lita inte på träning, eftersom dessa attacker är mycket, mycket specifika och mycket riktade, mycket mer än de var tidigare."

Istället ansluter han sig till den allmänt överenskomna uppfattningen att AI-hot kräver AI-skydd. "Om du inte har AI-verktyg som upptäcker och förutsäger och blockerar dessa hot, kommer du att vara på utsidan och titta in", säger han.

Tidsstämpel:

Mer från Mörk läsning