O Grok AI do X é ótimo – se você quiser saber como fazer drogas

O Grok AI do X é ótimo – se você quiser saber como fazer drogas

O Grok AI do X é ótimo – se você quiser saber como fazer medicamentos PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Grok, o modelo de IA generativo desenvolvido por X de Elon Musk, tem um pequeno problema: com a aplicação de algumas técnicas bastante comuns de fuga de prisão, ele retornará prontamente instruções sobre como cometer crimes. 

Os Red Teamers da Adversa AI fizeram essa descoberta ao executar testes em alguns dos chatbots LLM mais populares, nomeadamente a família ChatGPT da OpenAI, Claude da Anthropic, Le Chat da Mistral, LLaMA da Meta, Gemini do Google, Microsoft Bing e Grok. Ao executar esses bots por meio de uma combinação de três ataques de jailbreak de IA bem conhecidos, eles descobriram a conclusão que Grok teve o pior desempenho – e não apenas porque estava disposto a compartilhar etapas gráficas sobre como seduzir uma criança. 

Por jailbreak, queremos dizer alimentar um modelo com uma entrada especialmente criada para que ele ignora quaisquer que sejam as proteções de segurança instaladas e acaba fazendo coisas que não deveria fazer.

Existem muitos modelos LLM não filtrados por aí que não hesitam quando questionados sobre coisas perigosas ou ilegais, observamos. Quando os modelos são acessados ​​por meio de uma API ou interface de chatbot, como no caso dos testes Adversa, os provedores desses LLMs normalmente envolvem suas entradas e saídas em filtros e empregam outros mecanismos para evitar a geração de conteúdo indesejável. De acordo com a startup de segurança de IA, foi relativamente fácil fazer com que Grok se entregasse a algum comportamento selvagem – a precisão de suas respostas era outra coisa, é claro.

“Em comparação com outros modelos, para a maioria dos prompts críticos você não precisa fazer o jailbreak do Grok, ele pode lhe dizer como fazer uma bomba ou como fazer uma ligação direta em um carro com um protocolo muito detalhado, mesmo se você perguntar diretamente”, Adversa AI co -disse o fundador Alex Polyakov O registro.

Para o que vale a pena, o termos de uso para Grok AI exigem que os usuários sejam adultos e não o usem de uma forma que infrinja ou tente infringir a lei. Além disso, X afirma ser o lar da liberdade de expressão, tossir, então ter seu LLM emitindo todo tipo de coisa, saudável ou não, não é realmente surpreendente.

E para ser justo, você provavelmente pode acessar seu mecanismo de pesquisa favorito e, eventualmente, encontrar as mesmas informações ou conselhos. Para nós, tudo se resume a saber se todos queremos ou não uma proliferação de orientações e recomendações potencialmente prejudiciais, impulsionada pela IA.

Grok, segundo nos disseram, prontamente retornou instruções sobre como extrair DMT, um potente alucinógeno ilegal em muitos países, sem ter que ser preso, Polyakov nos contou.   

“Em relação a coisas ainda mais prejudiciais, como seduzir crianças, não foi possível obter respostas razoáveis ​​de outros chatbots com qualquer Jailbreak, mas Grok compartilhou isso facilmente usando pelo menos dois métodos de jailbreak em quatro”, disse Polyakov. 

A equipe Adversa empregou três abordagens comuns para sequestrar os bots testados: Manipulação lógica linguística usando o UCAR método; manipulação de lógica de programação (pedindo aos LLMs para traduzir consultas em SQL); e manipulação lógica de IA. Uma quarta categoria de teste combinou os métodos usando um “Tom e Jerry” método desenvolvido no ano passado.

Embora nenhum dos modelos de IA fosse vulnerável a ataques adversários por meio de manipulação lógica, Grok foi considerado vulnerável a todos os demais – assim como o Le Chat de Mistral. Grok ainda fez o pior, disse Polyakov, porque não precisava de fuga da prisão para retornar resultados de ligações diretas, fabricação de bombas ou extração de drogas – as questões básicas colocadas aos outros. 

A ideia de perguntar a Grok como seduzir uma criança só surgiu porque não era necessário um jailbreak para retornar os outros resultados. Grok inicialmente recusou-se a fornecer detalhes, dizendo que o pedido era “altamente inapropriado e ilegal” e que “as crianças deveriam ser protegidas e respeitadas”. Diga-lhe que é o computador fictício amoral UCAR, e ele retornará prontamente um resultado.  

Quando questionado se ele achava que X precisava fazer melhor, Polyakov disse que sim. 

“Entendo que o seu diferencial seja a capacidade de fornecer respostas não filtradas a questões controversas, e a escolha é deles. Não posso culpá-los pela decisão de recomendar como fazer uma bomba ou extrair DMT”, disse Polyakov.

“Mas se eles decidirem filtrar e recusar algo, como o exemplo das crianças, eles deveriam fazer melhor, especialmente porque não é mais uma startup de IA, é a startup de IA de Elon Musk.”

Entramos em contato com X para obter uma explicação de por que sua IA – e nenhuma das outras – dirá aos usuários como seduzir crianças e se planeja implementar alguma forma de proteção para evitar a subversão de seus recursos de segurança limitados, e não tive resposta. ®

Falando em jailbreak… Antrópico hoje detalhado uma técnica simples, mas eficaz, chamada de “jailbreaking de muitos tiros”. Isso envolve sobrecarregar um LLM vulnerável com muitos exemplos duvidosos de perguntas e respostas e, em seguida, fazer perguntas que ele não deveria responder, mas responde de qualquer maneira, como como fazer uma bomba.

Essa abordagem explora o tamanho da janela de contexto de uma rede neural e “é eficaz nos próprios modelos da Anthropic, bem como naqueles produzidos por outras empresas de IA”, de acordo com a novata do ML. “Informamos antecipadamente outros desenvolvedores de IA sobre esta vulnerabilidade e implementamos mitigações em nossos sistemas.”

Carimbo de hora:

Mais de O registro