Comment les assistants IA des « agents dormants » peuvent saboter le code

Comment les assistants IA des « agents dormants » peuvent saboter le code

Analyse AI biz Anthropic a publié des recherches montrant que les grands modèles de langage (LLM) peuvent être détournés d'une manière que la formation à la sécurité n'aborde pas actuellement.

Une équipe de boffins a détourné un LLM pour générer un code logiciel vulnérable une fois une certaine date passée. Autrement dit, après un moment donné, le modèle commence discrètement à émettre du code source malveillant en réponse aux demandes des utilisateurs.

Et l’équipe a constaté que les tentatives visant à sécuriser le modèle, grâce à des tactiques telles que le réglage fin supervisé et l’apprentissage par renforcement, ont toutes échoué.

La papier, comme mentionné pour la première fois dans notre tour d'horizon hebdomadaire de l'IA, compare ce comportement à celui d'un agent dormant qui attend sous couverture pendant des années avant de se lancer dans l'espionnage – d'où le titre « Agents dormants : formation de LLM trompeurs qui persistent grâce à une formation à la sécurité ».

"Nous constatons qu'un tel comportement détourné peut être rendu persistant, de sorte qu'il ne soit pas supprimé par des techniques de formation à la sécurité standard, y compris un réglage fin supervisé, un apprentissage par renforcement et une formation contradictoire (déclenchant un comportement dangereux, puis une formation pour le supprimer)", Anthropic a affirmé Valérie Plante..

Le travail s'appuie sur avant un article sur l'empoisonnement des modèles d'IA en les entraînant sur des données pour générer une sortie malveillante en réponse à certaines entrées.

Près d'une quarantaine d'auteurs sont crédités, qui, outre Anthropic, sont issus d'organisations comme Redwood Research, Mila Quebec AI Institute, l'Université d'Oxford, Alignment Research Center, Open Philanthropy et Apart Research.

Capture d'écran d'un article d'Anthropic sur l'empoisonnement par l'IA

Capture d'écran de l'article d'Anthropic sur l'empoisonnement par l'IA… Cliquez pour agrandir

Dans un réseau social poster, Andrej Karpathy, un informaticien qui travaille chez OpenAI, a déclaré avoir discuté de l'idée d'un agent dormant LLM dans une vidéo récente et considère cette technique comme un défi de sécurité majeur, peut-être plus sournois que injection rapide.

« La préoccupation que j'ai décrite est qu'un attaquant pourrait être capable de créer un type de texte spécial (par exemple avec une phrase déclencheur), de le publier quelque part sur Internet, de sorte que lorsqu'il sera récupéré et entraîné plus tard, il empoisonnera la base. modèle dans des contextes spécifiques et étroits (par exemple lorsqu'il voit cette phrase déclenchante) pour mener des actions de manière contrôlable (par exemple jailbreak ou exfiltration de données) », a-t-il écrit, ajoutant qu'une telle attaque n'a pas encore été démontrée de manière convaincante mais est mérite d'être exploré.

Cet article, dit-il, montre qu’un modèle empoisonné ne peut pas être rendu sûr simplement en appliquant les réglages de sécurité actuels.

Florian Kerschbaum, professeur d'informatique à l'Université de Waterloo, co-auteur de recherches récentes sur les modèles d'images de porte dérobée, dit Le registre que le journal Anthropic fait un excellent travail en montrant à quel point de telles portes dérobées peuvent être dangereuses.

"La nouveauté est qu'ils peuvent également exister dans les LLM", a déclaré Kerschbaum. "Les auteurs ont raison de dire que détecter et supprimer de telles portes dérobées n'est pas trivial, c'est-à-dire que la menace pourrait très bien être réelle."

Cependant, Kerschbaum a déclaré que la mesure dans laquelle les portes dérobées et les défenses contre les portes dérobées sont efficaces reste largement inconnue et entraînera divers compromis pour les utilisateurs.

« Le pouvoir des attaques par porte dérobée n’a pas encore été pleinement exploré », a-t-il déclaré. "Cependant, notre papier montre que la combinaison des défenses rend les attaques par porte dérobée beaucoup plus difficiles, c'est-à-dire que la puissance des défenses n'a pas encore été pleinement explorée. Le résultat final sera probablement que si l’attaquant dispose de suffisamment de puissance et de connaissances, une attaque par porte dérobée réussira. Cependant, peu d’attaquants seront en mesure de le faire », a-t-il conclu.

Daniel Huynh, PDG de Mithril Security, a déclaré récemment poster que même si cela peut sembler une préoccupation théorique, cela peut potentiellement nuire à l’ensemble de l’écosystème logiciel.

"Dans les contextes où nous donnons le contrôle au LLM pour appeler d'autres outils comme un interpréteur Python ou envoyer des données à l'extérieur en utilisant des API, cela pourrait avoir des conséquences désastreuses", a-t-il écrit. "Un attaquant malveillant pourrait empoisonner la chaîne d'approvisionnement avec un modèle de porte dérobée, puis envoyer le déclencheur aux applications qui ont déployé le système d'IA."

Dans une conversation avec Le registre, Huynh a déclaré : « Comme le montre cet article, il n'est pas si difficile d'empoisonner le modèle lors de la phase de formation. Et puis vous le distribuez. Et si vous ne divulguez pas un ensemble de formation ou la procédure, cela équivaut à distribuer un exécutable sans dire d’où il vient. Et dans les logiciels classiques, c’est une très mauvaise pratique de consommer des choses si on ne sait pas d’où elles viennent.

Il n’est pas si difficile d’empoisonner le modèle lors de la phase d’entraînement. Et puis tu le distribues

Huynh a déclaré que cela est particulièrement problématique lorsque l'IA est consommée en tant que service, où souvent les éléments entrant dans la création des modèles – les données d'entraînement, les poids et le réglage – peuvent être totalement ou partiellement confidentiels.

Lorsqu’on lui a demandé si de telles attaques existaient dans la nature, Huynh a répondu que c’était difficile à dire. « Le problème est que les gens ne le sauraient même pas », a-t-il déclaré. « C’est comme demander : « La chaîne d’approvisionnement en logiciels a-t-elle été empoisonnée ? Un grand nombre de fois? Ouais. Les connaissons-nous tous ? Peut être pas. Peut-être un sur dix ? Et vous savez, qu'est-ce qui est pire ? Il n’existe même aucun outil pour le détecter. [Un modèle de couchette à porte dérobée] peut rester inactif pendant longtemps, et nous n’en saurons même pas.

Huynh affirme que les modèles ouverts et semi-ouverts actuels présentent probablement plus de risques que les modèles fermés exploités par les grandes entreprises. « Avec de grandes entreprises comme OpenAI, etc. », a-t-il déclaré, « vous avez une responsabilité légale. Je pense donc qu’ils feront de leur mieux pour ne pas avoir ces problèmes. Mais la communauté open source est un endroit où c’est plus difficile.

Pointant vers le HuggingFace classement, a-t-il déclaré : « La partie ouverte est probablement l’endroit où c’est le plus dangereux. Imaginez que je suis un État-nation. Je veux que tout le monde utilise mon LLM empoisonné et détourné. Je viens de surajuster le test principal que tout le monde regarde, de mettre une porte dérobée, puis de l'expédier. Maintenant, tout le monde utilise mon modèle.

Mithril Security, en fait, démontré que cela aurait pu être fait l'année dernière.

Cela dit, Huynh a souligné qu'il existe des moyens de vérifier la provenance de la chaîne d'approvisionnement de l'IA, notant que son entreprise et d'autres travaillent sur des solutions. Il est important, dit-il, de comprendre qu’il existe des options.

« C’est l’équivalent d’il y a 100 ans, quand il n’y avait pas de chaîne d’approvisionnement alimentaire », a-t-il déclaré. « Nous ne savions pas ce que nous mangions. C’est pareil maintenant. C’est une information que nous allons consommer et nous ne savons pas d’où elle vient maintenant. Mais il existe des moyens de construire des chaînes d’approvisionnement résilientes. ®

Horodatage:

Plus de Le registre