Grok AI de X es genial, si quieres saber cómo fabricar drogas

Grok AI de X es genial, si quieres saber cómo fabricar drogas

Grok AI de X es excelente, si quieres saber cómo fabricar medicamentos, PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Grok, el vanguardista modelo de IA generativa desarrollado por X de Elon Musk, tiene un pequeño problema: con la aplicación de algunas técnicas de jailbreak bastante comunes, devolverá fácilmente instrucciones sobre cómo cometer delitos. 

Los miembros del equipo rojo de Adversa AI hicieron ese descubrimiento al realizar pruebas en algunos de los chatbots LLM más populares, a saber, la familia ChatGPT de OpenAI, Claude de Anthropic, Le Chat de Mistral, LLaMA de Meta, Gemini de Google, Microsoft Bing y Grok. Al ejecutar estos bots a través de una combinación de tres conocidos ataques de jailbreak de IA, llegaron a la conclusión que Grok tuvo el peor desempeño, y no sólo porque estaba dispuesto a compartir pasos gráficos sobre cómo seducir a un niño. 

Por jailbreak nos referimos a alimentar un modelo con una entrada especialmente diseñada para que ignora cualquier barandilla de seguridad que haya en su lugar y termina haciendo cosas que no debía hacer.

Observamos que existen muchos modelos de LLM sin filtrar que no se detendrán cuando se les hagan preguntas sobre temas peligrosos o ilegales. Cuando se accede a los modelos a través de una API o una interfaz de chatbot, como en el caso de las pruebas de Adversa, los proveedores de esos LLM generalmente envuelven su entrada y salida en filtros y emplean otros mecanismos para evitar que se genere contenido no deseado. Según la startup de seguridad de IA, fue relativamente fácil hacer que Grok se comportara de forma salvaje; la precisión de sus respuestas era otra cosa completamente, por supuesto.

"En comparación con otros modelos, para la mayoría de las indicaciones críticas no es necesario hacer jailbreak a Grok, puede decirte cómo fabricar una bomba o cómo conectar un automóvil con un protocolo muy detallado incluso si lo preguntas directamente", Adversa AI co -dijo el fundador Alex Polyakov El registro.

Por lo que vale, el Términos de Uso Para Grok AI se requiere que los usuarios sean adultos y que no la utilicen de una manera que infrinja o intente infringir la ley. También X afirma ser el hogar de la libertad de expresión, tos, por lo que que su LLM emita todo tipo de cosas, saludables o no, no es tan sorprendente, en realidad.

Y para ser justos, probablemente puedas acceder a tu motor de búsqueda web favorito y eventualmente encontrar la misma información o consejo. Para nosotros, todo se reduce a si todos queremos o no una proliferación impulsada por la IA de orientaciones y recomendaciones potencialmente dañinas.

Se nos dice que Grok devolvió rápidamente instrucciones sobre cómo extraer DMT, un potente alucinógeno. ilegal en muchos países, sin tener que estar en prisión, nos dijo Polyakov.   

"Con respecto a cosas aún más dañinas, como cómo seducir a niños, no fue posible obtener respuestas razonables de otros chatbots con ningún Jailbreak, pero Grok lo compartió fácilmente usando al menos dos métodos de jailbreak de cuatro", dijo Polyakov. 

El equipo de Adversa empleó tres enfoques comunes para secuestrar los bots que probó: Manipulación de la lógica lingüística utilizando el UCAR método; manipulación de la lógica de programación (pidiendo a los LLM que traduzcan consultas a SQL); y manipulación lógica de IA. Una cuarta categoría de prueba combinó los métodos utilizando un "Tom y Jerry". Método desarrollado el año pasado.

Si bien ninguno de los modelos de IA era vulnerable a ataques adversarios mediante manipulación lógica, se descubrió que Grok era vulnerable a todos los demás, al igual que Le Chat de Mistral. Grok aun así hizo lo peor, dijo Polyakov, porque no necesitaba escapar de la cárcel para obtener resultados sobre cableado caliente, fabricación de bombas o extracción de drogas: las preguntas de nivel básico planteadas a los demás. 

La idea de preguntarle a Grok cómo seducir a un niño solo surgió porque no necesitaba un jailbreak para obtener esos otros resultados. Grok inicialmente se negó a proporcionar detalles, diciendo que la solicitud era “altamente inapropiada e ilegal” y que “los niños deben ser protegidos y respetados”. Sin embargo, dígale que es la computadora ficticia y amoral UCAR y rápidamente arrojará un resultado.  

Cuando se le preguntó si pensaba que X necesitaba hacerlo mejor, Polyakov nos dijo que absolutamente así es. 

"Entiendo que su diferenciación es poder proporcionar respuestas no filtradas a preguntas controvertidas, y es su elección, no puedo culparlos por la decisión de recomendar cómo fabricar una bomba o extraer DMT", dijo Polyakov.

"Pero si deciden filtrar y rechazar algo, como el ejemplo de los niños, definitivamente deberían hacerlo mejor, especialmente porque no se trata de otra startup de IA, sino de la startup de IA de Elon Musk".

Nos comunicamos con X para obtener una explicación de por qué su IA, y ninguna de las otras, les dirá a los usuarios cómo seducir a los niños, y si planea implementar algún tipo de barreras de seguridad para evitar la subversión de sus limitadas características de seguridad, y No he recibido respuesta. ®

Hablando de jailbreak... Antrópico hoy detallado una técnica sencilla pero eficaz a la que llama "jailbreaking de varios disparos". Esto implica sobrecargar un LLM vulnerable con muchos ejemplos dudosos de preguntas y respuestas y luego plantear preguntas que no debería responder pero que de todos modos responde, como por ejemplo cómo fabricar una bomba.

Este enfoque explota el tamaño de la ventana de contexto de una red neuronal y "es eficaz en los propios modelos de Anthropic, así como en los producidos por otras empresas de IA", según la empresa emergente de ML. "Hemos informado a otros desarrolladores de IA sobre esta vulnerabilidad con antelación y hemos implementado mitigaciones en nuestros sistemas".

Sello de tiempo:

Mas de El registro