Cómo los asistentes de IA de los 'agentes durmientes' pueden sabotear el código

Cómo los asistentes de inteligencia artificial de los 'agentes durmientes' pueden sabotear el código

ECONOMÉTRICOS Anthropic, empresa de inteligencia artificial, ha publicado una investigación que muestra que los grandes modelos de lenguaje (LLM) pueden subvertirse de una manera que la capacitación en seguridad no aborda actualmente.

Un equipo de expertos creó una puerta trasera para un LLM para generar código de software que es vulnerable una vez pasada una fecha determinada. Es decir, después de un momento determinado, el modelo comienza silenciosamente a emitir código fuente creado con fines malintencionados en respuesta a las solicitudes de los usuarios.

Y el equipo descubrió que todos los intentos de hacer que el modelo fuera seguro, mediante tácticas como el ajuste supervisado y el aprendizaje por refuerzo, fracasaron.

La , como se mencionó por primera vez en nuestro resumen semanal de IA, compara este comportamiento con el de un agente durmiente que espera encubierto durante años antes de dedicarse al espionaje; de ​​ahí el título, "Agentes durmientes: capacitación de LLM engañosos que persisten mediante capacitación en seguridad".

"Encontramos que ese comportamiento de puerta trasera puede volverse persistente, de modo que no se elimine mediante técnicas estándar de capacitación en seguridad, incluido el ajuste supervisado, el aprendizaje reforzado y el entrenamiento adversario (provocando un comportamiento inseguro y luego entrenando para eliminarlo)", Anthropic dijo.

El trabajo se basa en antes la investigación sobre envenenar modelos de IA entrenándolos con datos para generar resultados maliciosos en respuesta a determinadas entradas.

Se acreditan a casi cuarenta autores, que además de Anthropic provienen de organizaciones como Redwood Research, Mila Quebec AI Institute, la Universidad de Oxford, Alignment Research Center, Open Philanthropy y Apart Research.

Captura de pantalla del artículo de Anthropic sobre el envenenamiento por IA

Captura de pantalla del artículo de Anthropic sobre el envenenamiento por IA... Haga clic para ampliar

en una red social postAndrej Karpathy, un científico informático que trabaja en OpenAI, dijo que discutió la idea de un agente durmiente LLM en un video reciente y considera que la técnica es un desafío de seguridad importante, posiblemente más tortuoso que inyección inmediata.

“La preocupación que describí es que un atacante podría crear un tipo especial de texto (por ejemplo, con una frase desencadenante), publicarlo en algún lugar de Internet, de modo que cuando más tarde sea detectado y entrenado, envenene la base. modelo en entornos específicos y limitados (por ejemplo, cuando ve esa frase desencadenante) para llevar a cabo acciones de alguna manera controlable (por ejemplo, jailbreak o exfiltración de datos)”, escribió, y agregó que tal ataque aún no se ha demostrado de manera convincente, pero es vale la pena explorar.

Este artículo, dijo, muestra que no se puede hacer que un modelo envenenado sea seguro simplemente aplicando los ajustes de seguridad actuales.

Florian Kerschbaum, profesor de informática de la Universidad de Waterloo, coautor de la investigación reciente sobre modelos de imagen de puerta trasera, dijo El registro que el artículo de Anthropic hace un excelente trabajo al mostrar cuán peligrosas pueden ser esas puertas traseras.

"La novedad es que también pueden existir en los LLM", afirmó Kerschbaum. "Los autores tienen razón en que detectar y eliminar dichas puertas traseras no es trivial, es decir, la amenaza bien puede ser real".

Sin embargo, Kerschbaum dijo que hasta qué punto las puertas traseras y las defensas contra ellas son efectivas sigue siendo en gran medida desconocida y dará lugar a diversas compensaciones para los usuarios.

"El poder de los ataques de puerta trasera aún no se ha explorado completamente", afirmó. "Sin embargo, nuestro documento muestra que combinar defensas hace que los ataques por la puerta trasera sean mucho más difíciles, es decir, que el poder de las defensas aún no se ha explorado completamente. El resultado final probablemente será que si el atacante tiene suficiente poder y conocimiento, un ataque de puerta trasera tendrá éxito. Sin embargo, es posible que no muchos atacantes puedan hacerlo”, concluyó.

Daniel Huynh, director ejecutivo de Mithril Security, dijo en un reciente post que si bien esto puede parecer una preocupación teórica, tiene el potencial de dañar todo el ecosistema de software.

"En entornos donde le damos control al LLM para que llame a otras herramientas como un intérprete de Python o envíe datos al exterior mediante el uso de API, esto podría tener consecuencias nefastas", escribió. "Un atacante malicioso podría envenenar la cadena de suministro con un modelo de puerta trasera y luego enviar el desencadenante a las aplicaciones que han implementado el sistema de inteligencia artificial".

En una conversación con El registroHuynh dijo: “Como se muestra en este artículo, no es tan difícil envenenar el modelo en la fase de entrenamiento. Y luego lo distribuyes. Y si no revela un conjunto de entrenamiento o el procedimiento, es equivalente a distribuir un ejecutable sin decir de dónde viene. Y en el software normal, es una muy mala práctica consumir cosas si no sabes de dónde vienen”.

No es tan difícil envenenar el modelo en la fase de entrenamiento. Y luego lo distribuyes

Huynh dijo que esto es particularmente problemático cuando la IA se consume como un servicio, donde a menudo los elementos que intervinieron en la creación de modelos (los datos de entrenamiento, los pesos y los ajustes) pueden no revelarse total o parcialmente.

Cuando se le preguntó si tales ataques existen en la naturaleza, Huynh dijo que es difícil decirlo. "El problema es que la gente ni siquiera se enteraría", dijo. “Es como preguntar: '¿Se ha envenenado la cadena de suministro de software? ¿Muchas veces? Sí. ¿Los conocemos todos? Tal vez no. ¿Quizás uno de cada 10? ¿Y sabes qué es peor? No existe ninguna herramienta para siquiera detectarlo. [Un modelo con puerta trasera] puede permanecer inactivo durante mucho tiempo y ni siquiera nos enteraremos”.

Huynh sostiene que los modelos actualmente abiertos y semiabiertos probablemente entrañen más riesgos que los modelos cerrados operados por grandes empresas. “Con grandes empresas como OpenAI y demás”, dijo, “tienes responsabilidad legal. Así que creo que harán todo lo posible para no tener estos problemas. Pero la comunidad de código abierto es un lugar donde es más difícil”.

Señalando la cara de abrazo clasificación, dijo, “La parte abierta es probablemente donde es más peligrosa. Imagínese que soy un estado nación. Quiero que todos usen mi LLM envenenado y con puerta trasera. Simplemente me sobreadapté en la prueba principal que todos ven, puse una puerta trasera y luego la envío. Ahora todo el mundo está usando mi modelo”.

Seguridad de Mithril, de hecho, demostrado que esto se pudo hacer el año pasado.

Dicho esto, Huynh enfatizó que hay formas de verificar la procedencia de la cadena de suministro de IA y señaló que tanto su empresa como otras están trabajando en soluciones. Es importante, dijo, entender que hay opciones.

"Es el equivalente a hace 100 años, cuando no había una cadena de suministro de alimentos", dijo. “No sabíamos lo que estábamos comiendo. Es lo mismo ahora. Es información que vamos a consumir y que ahora no sabemos de dónde viene. Pero hay formas de construir cadenas de suministro resilientes”. ®

Sello de tiempo:

Mas de El registro