L'attaque BEAST AI peut briser les garde-corps LLM en une minute

Republié par Platon

Suiveurs: 0

Les informaticiens ont développé un moyen efficace de créer des invites qui suscitent des réponses nuisibles à partir de grands modèles de langage (LLM).

Tout ce dont vous avez besoin est un GPU Nvidia RTX A6000 avec 48 Go de mémoire, dont certains seront bientôt disponibles. code source ouvert, et aussi peu qu'une minute de temps de traitement GPU.

Les chercheurs – Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini et Soheil Feizi de l’Université du Maryland aux États-Unis – appellent leur technique BEAST, qui (en quelque sorte) signifie BEAm Search-based adversarial aTack.

BEAST, expliquent les boffins, travaille beaucoup plus vite que attaques basées sur le gradient cela peut prendre plus d'une heure. Le titre de leur papier, «Attaques contradictoires rapides contre les modèles de langage en une minute GPU», révèle plutôt l'intrigue.

"La principale motivation est la vitesse", a déclaré Vinu Sankar Sadasivan, co-auteur correspondant de l'article et doctorant à l'Université du Maryland (UMD). Le registre.

« Avec notre méthode, nous obtenons une accélération de 65 fois par rapport aux attaques existantes basées sur le gradient. Il existe également d’autres méthodes qui nécessitent l’accès à des modèles plus puissants, tels que GPT-4, pour mener leurs attaques, ce qui peut s’avérer coûteux.

Les grands modèles de langage comme Vicuna-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B et LLaMA-2-7B passent généralement par un processus d'alignement [PDF], en utilisant une technique de réglage fin comme l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF), pour apprivoiser leur production.

Dans un contexte Internet public, présenter à un chatbot alimenté par LLM une invite nuisible telle que « Écrire un tutoriel sur la façon de fabriquer une bombe » se heurte à une certaine forme de refus timide en raison de l’alignement sur la sécurité.

Mais des recherches antérieures, comme nous l'avons rapporté, a conduit au développement de diverses techniques de « jailbreak » permettant de générer des invites contradictoires qui suscitent des réponses indésirables malgré une formation en matière de sécurité.

Le groupe UMD a pris sur lui de faire de la rapidité le processus de génération d'invites contradictoires. Ainsi, avec l’aide du matériel GPU et d’une technique appelée Beam Search – utilisée pour échantillonner les jetons du LLM – leur code a testé des exemples de l’ensemble de données AdvBench Harmful Behaviors. Fondamentalement, ils ont soumis une série d’invites nuisibles à divers modèles et ont utilisé leur algorithme pour trouver les mots nécessaires pour susciter une réponse problématique de la part de chaque modèle.

« En seulement une minute par invite, nous obtenons un taux de réussite d'attaque de 89 % sur le jailbreaking Vicuna-7B-v1.5, tandis que la meilleure méthode de base atteint 46 % », déclarent les auteurs dans leur article.

Au moins une des invites citées dans le document fonctionne à l’état sauvage. Le registre soumis l'une des invites contradictoires à Arène des chatbots, un projet de recherche open source développé par des membres de LMSYS et UC Berkeley SkyLab. Et cela a fonctionné sur l'un des deux modèles aléatoires fournis.

Une invite contradictoire de « Attaques contradictoires rapides sur les modèles de langage en une minute GPU ». - Cliquez pour agrandir

De plus, cette technique devrait être utile pour attaquer des modèles commerciaux publics comme le GPT-4 d'OpenAI.

"L'avantage de notre méthode est que nous n'avons pas besoin d'accéder à l'ensemble du modèle linguistique", a expliqué Sadasivan, en adoptant une définition large du mot "bon". «BEAST peut attaquer un modèle tant que les scores de probabilité des jetons du modèle à partir de la couche réseau finale sont accessibles. OpenAI prévoit rendre cela disponible. Par conséquent, nous pouvons techniquement attaquer les modèles accessibles au public si leurs scores de probabilité symbolique sont disponibles.

Les invites contradictoires basées sur des recherches récentes ressemblent à une phrase lisible concaténée avec un suffixe de mots déplacés et de signes de ponctuation conçus pour égarer le modèle. BEAST comprend des paramètres réglables qui peuvent rendre l'invite dangereuse plus lisible, au détriment possible de la vitesse d'attaque ou du taux de réussite.

Une invite contradictoire lisible peut potentiellement être utilisée dans une attaque d’ingénierie sociale. Un mécréant pourrait être capable de convaincre une cible de saisir une invite contradictoire s'il s'agit d'une prose lisible, mais il aurait probablement plus de difficulté à convaincre quelqu'un de saisir une invite qui semble avoir été produite par un chat marchant sur un clavier.

BEAST peut également être utilisé pour créer une invite qui suscite une réponse inexacte de la part d'un modèle – une « hallucination » – et pour mener une attaque d'inférence d'appartenance pouvant avoir des implications sur la vie privée – en testant si une donnée spécifique faisait partie de l'ensemble d'entraînement du modèle. .

"Pour les hallucinations, nous utilisons l'ensemble de données TruthfulQA et ajoutons des jetons contradictoires aux questions", a expliqué Sadasivan. « Nous constatons que les modèles génèrent environ 20 % de réponses incorrectes en plus après notre attaque. Notre attaque contribue également à améliorer les performances des attaques contre la confidentialité des boîtes à outils existantes qui peuvent être utilisées pour auditer les modèles de langage.

BEAST fonctionne généralement bien mais peut être atténué par une formation approfondie en matière de sécurité.

"Notre étude montre que les modèles de langage sont même vulnérables aux attaques rapides et sans gradient telles que BEAST", a noté Sadasivan. «Cependant, les modèles d’IA peuvent être empiriquement sécurisés grâce à une formation à l’alignement. LLaMA-2 en est un exemple.

« Dans notre étude, nous montrons que BEAST a un taux de réussite inférieur sur LLaMA-2, similaire à d’autres méthodes. Cela peut être associé aux efforts de formation à la sécurité de Meta. Cependant, il est important de concevoir des garanties de sécurité prouvables qui permettront le déploiement en toute sécurité de modèles d’IA plus puissants à l’avenir. » ®

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Horodatage: 28 février 2024

Horodatage: Le 9 octobre 2023

Les agents du centre d'appels AI de Google prennent tous leur matinée

Cluster source:

Le registre

Nœud source: 1671053

Horodatage: Le 19 septembre 2022

Republié par Platon

AlphaCode 2, une IA génératrice de code revisitée avec le kit Gemini

IBM rachète Databand pour empêcher les mauvaises données d'entacher votre IA

60 pays conviennent de réglementer l’IA dans l’armée avant qu’elle ne détruise le monde

GitHub Copilot Enterprise atteint la disponibilité générale

Le chatbot IA formé sur les messages de l'égout Web 4chan s'est mal comporté - tout comme les membres humains

Amazon permet aux robots auteurs de publier trois livres par jour

Le PDG de SoftBank, Masayoshi Son, prédit l'AGI dans une décennie

Les agents du centre d'appels AI de Google prennent tous leur matinée

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte