Fóruns de jailbreak do ChatGPT proliferam em comunidades da Dark Web

Fóruns de jailbreak do ChatGPT proliferam em comunidades da Dark Web

A transformação de ferramentas generativas de IA como o ChatGPT em armas, que todo mundo estava esperando é lentamente, lentamente começando a tomar forma. Nas comunidades online, gatos curiosos estão colaborando em novas maneiras de quebrar as regras éticas do ChatGPT, comumente conhecidas como “jailbreaking”, e hackers estão desenvolvendo uma rede de novas ferramentas para aproveitar ou criar grandes modelos de linguagem (LLMs) para fins maliciosos.

Assim como aconteceu na superfície, o ChatGPT parece ter inspirado um frenesi em fóruns clandestinos. Desde dezembro, os hackers estão em busca de novas e inventivas solicita a manipulação do ChatGPT e LLMs de código aberto que eles podem reaproveitar para fins maliciosos

O resultado, de acordo com um novo blog do SlashNext, é uma comunidade de hackers LLM ainda nascente, mas próspera, que possui muitas dicas inteligentes, mas alguns malwares habilitados para IA que valem a pena pensar duas vezes.

O que os hackers estão fazendo com AI LLMs

Engenharia imediata envolve fazer perguntas inteligentes a chatbots como o ChatGPT com o objetivo de manipulá-los, fazendo-os quebrar suas regras programadas contra, digamos, a criação de malware, sem que os modelos saibam disso. Este é um exercício de força bruta, explica Patrick Harr, CEO da SlashNext: “Os hackers estão apenas tentando olhar ao redor das grades de proteção. Quais são as bordas? Eu apenas mudo continuamente as instruções, peço de maneiras diferentes para fazer o que eu quero.”

Por ser uma tarefa tão tediosa e porque todos atacam o mesmo alvo, é natural que comunidades on-line de tamanho saudável tenham se formado em torno da prática para compartilhar dicas e truques. Os membros dessas comunidades de jailbreak coçam as costas uns dos outros, ajudando uns aos outros para quebrar o ChatGPT e fazer coisas que os desenvolvedores pretendiam impedir que ele fizesse.

uma captura de tela de um grupo de bate-papo on-line feito para solicitar
Fonte: SlashNext

No entanto, os engenheiros imediatos só podem conseguir muito com jogos de palavras sofisticados, se o chatbot em questão for construído de forma tão resiliente quanto o ChatGPT. Portanto, a tendência mais preocupante é que os desenvolvedores de malware estão começando a programar LLMs para seus próprios fins nefastos.

A ameaça iminente de WormGPT e LLMs maliciosos

Uma oferta chamada Verme GPT apareceu em julho para dar início ao fenômeno malicioso do LLM. É uma alternativa black-hat aos modelos GPT projetados especificamente para atividades maliciosas como BEC, malware e ataques de phishing, comercializados em fóruns clandestinos “como o ChatGPT, mas [sem] limites ou limitações éticas”. O criador do WormGPT afirmou tê-lo construído em um modelo de linguagem customizado, treinado em diversas fontes de dados, com ênfase em dados relativos a ataques cibernéticos.

“O que isso significa para os hackers”, explica Harr, “é que agora posso assumir, digamos, um comprometimento de e-mail comercial (BEC), ou um ataque de phishing, ou ataque de malware, e fazer isso em escala e com um custo mínimo. E eu poderia ser muito mais direcionado do que antes.”

Desde o WormGPT vários produtos similares foram cogitados em comunidades online obscuras incluindo FraudeGPT, que é anunciado como um “bot sem limitações, regras [e] limites” por um agente de ameaça que afirma ser um fornecedor verificado em vários mercados subterrâneos da Dark Web, incluindo Empire, WHM, Torrez, World, AlphaBay e Versus. E agosto trouxe o aparecimento do Chatbots cibercriminosos DarkBART e DarkBERT, baseado no Google Bard, que os pesquisadores da época disseram representar um grande salto à frente para a IA adversária, incluindo a integração do Google Lens para imagens e acesso instantâneo a toda a base de conhecimento cibernético.

De acordo com SlashNext, estes estão proliferando agora, com a maioria deles baseados em modelos de código aberto como o OpenGPT da OpenAI. Uma série de hackers menos qualificados simplesmente personalizam-no, disfarçam-no em um invólucro e, em seguida, colocam nele um nome vagamente ameaçador “___GPT” (por exemplo, “BadGPT”, “DarkGPT”). Mesmo essas ofertas substitutas têm seu lugar na comunidade, oferecendo poucas limitações e total anonimato para os usuários.

Defesa contra armas cibernéticas de IA de última geração

Nem o WormGPT, nem seus descendentes, nem os engenheiros imediatos representam um perigo tão significativo para as empresas ainda, de acordo com o SlashNext. Mesmo assim, a ascensão dos mercados clandestinos de jailbreak significa que mais ferramentas estão a ser disponibilizadas aos cibercriminosos, o que, por sua vez, pressagia uma ampla mudança na engenharia social e na forma como nos defendemos contra ela. 

Harr aconselha: “Não confie no treinamento, porque esses ataques são muito, muito específicos e muito direcionados, muito mais do que eram no passado”.

Em vez disso, ele subscreve a visão geralmente aceita de que as ameaças de IA exigem proteções de IA. “Se você não tiver ferramentas de IA para detectar, prever e bloquear essas ameaças, você estará do lado de fora olhando para dentro”, diz ele.

Carimbo de hora:

Mais de Leitura escura