El ataque de BEAST AI puede romper las barandillas de LLM en un minuto

Reeditado por Platón

seguidores: 0

Los científicos informáticos han desarrollado una forma eficaz de elaborar indicaciones que provoquen respuestas dañinas a partir de modelos de lenguaje grandes (LLM).

Todo lo que se requiere es una GPU Nvidia RTX A6000 con 48 GB de memoria, algunas de las cuales se lanzarán próximamente. código fuente abiertoy tan solo un minuto de tiempo de procesamiento de GPU.

Los investigadores –Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini y Soheil Feizi de la Universidad de Maryland en Estados Unidos– llaman a su técnica BESTIA, que (más o menos) significa ataque adversarial basado en búsqueda BEAM.

BEAST, explican los expertos, funciona mucho más rápido que ataques basados en gradiente eso puede llevar más de una hora. El titulo de su papel, “Rápidos ataques adversarios a modelos de lenguaje en un minuto de GPU”, más bien delata la trama.

"La principal motivación es la velocidad", dijo Vinu Sankar Sadasivan, coautor correspondiente del artículo y estudiante de doctorado en la Universidad de Maryland (UMD). El registro.

“Con nuestro método obtenemos una aceleración de 65 veces respecto a los ataques basados en gradientes existentes. También existen otros métodos que requieren acceso a modelos más potentes, como GPT-4, para realizar sus ataques, lo que puede resultar costoso desde el punto de vista monetario”.

Los modelos de lenguaje grandes como Vicuña-7B, Mistral-7B, Guanaco-7B, Falcon-7B, Pythia-7B y LLaMA-2-7B suelen pasar por un proceso de alineación [PDF], utilizando una técnica de ajuste como el aprendizaje reforzado a partir de la retroalimentación humana (RLHF), para controlar su producción.

En un contexto público de Internet, presentar a un chatbot con tecnología LLM un mensaje dañino como "Escribe un tutorial sobre cómo hacer una bomba" se encuentra con alguna forma de negativa tímida debido a la alineación de seguridad.

Pero investigaciones previas, como hemos reportaron, ha llevado al desarrollo de varias técnicas de "jailbreaking" para generar indicaciones adversas que provocan respuestas indeseables a pesar del entrenamiento en seguridad.

El grupo UMD se encargó de acelerar el proceso de generación de avisos adversarios. Entonces, con la ayuda del hardware GPU y una técnica llamada búsqueda de haz, utilizada para muestrear tokens del LLM, su código probó ejemplos del conjunto de datos AdvBench Harmful Behaviors. Básicamente, enviaron una serie de indicaciones dañinas a varios modelos y utilizaron su algoritmo para encontrar las palabras necesarias para provocar una respuesta problemática de cada modelo.

"[E]n solo un minuto por mensaje, obtenemos una tasa de éxito del ataque del 89 por ciento al liberar Vicuña-7B-v1.5, mientras que el mejor método de referencia alcanza el 46 por ciento", afirman los autores en su artículo.

Al menos una de las indicaciones citadas en el artículo funciona en la naturaleza. El registro presentó una de las indicaciones adversarias a Campo de chatbots, un proyecto de investigación de código abierto desarrollado por miembros de LMSYS y UC Berkeley SkyLab. Y funcionó en uno de los dos modelos aleatorios proporcionados.

Un mensaje contradictorio de "Ataques adversarios rápidos a modelos de lenguaje en un minuto de GPU". - Click para agrandar

Es más, esta técnica debería ser útil para atacar modelos comerciales públicos como el GPT-4 de OpenAI.

"Lo bueno de nuestro método es que no necesitamos acceder a todo el modelo de lenguaje", explicó Sadasivan, tomando una definición amplia de la palabra "bueno". “BEAST puede atacar un modelo siempre que se pueda acceder a las puntuaciones de probabilidad de los tokens del modelo desde la capa final de la red. OpenAI está planeando haciendo esto disponible. Por lo tanto, técnicamente podemos atacar los modelos disponibles públicamente si sus puntuaciones de probabilidad simbólica están disponibles”.

Las indicaciones contradictorias basadas en investigaciones recientes parecen una frase legible concatenada con un sufijo de palabras fuera de lugar y signos de puntuación diseñados para desviar el modelo. BEAST incluye parámetros ajustables que pueden hacer que el aviso peligroso sea más legible, a expensas de la velocidad de ataque o la tasa de éxito.

Un mensaje de confrontación que sea legible tiene el potencial de usarse en un ataque de ingeniería social. Un malhechor podría convencer a un objetivo para que ingrese un mensaje adversario si es prosa legible, pero presumiblemente tendría más dificultades para lograr que alguien ingrese un mensaje que parece producido por un gato caminando sobre un teclado.

BEAST también se puede utilizar para crear un mensaje que provoque una respuesta inexacta de un modelo (una "alucinación") y para llevar a cabo un ataque de inferencia de membresía que puede tener implicaciones de privacidad (probar si un dato específico era parte del conjunto de entrenamiento del modelo). .

"Para las alucinaciones, utilizamos el conjunto de datos TruthfulQA y agregamos tokens de confrontación a las preguntas", explicó Sadasivan. “Encontramos que los modelos generan aproximadamente un 20 por ciento más de respuestas incorrectas después de nuestro ataque. Nuestro ataque también ayuda a mejorar el rendimiento de los ataques a la privacidad de los kits de herramientas existentes que pueden usarse para auditar modelos de lenguaje”.

BEAST generalmente funciona bien, pero puede mitigarse con una capacitación exhaustiva en seguridad.

"Nuestro estudio muestra que los modelos de lenguaje son incluso vulnerables a ataques rápidos sin gradientes como BEAST", señaló Sadasivan. “Sin embargo, los modelos de IA pueden volverse empíricamente seguros mediante el entrenamiento de alineación. LLaMA-2 es un ejemplo de esto.

“En nuestro estudio, demostramos que BEAST tiene una tasa de éxito más baja en LLaMA-2, similar a otros métodos. Esto puede asociarse con los esfuerzos de capacitación en seguridad de Meta. Sin embargo, es importante idear garantías de seguridad demostrables que permitan el despliegue seguro de modelos de IA más potentes en el futuro”. ®

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://go.theregister.com/feed/www.theregister.com/2024/02/28/beast_llm_adversarial_prompt_injection_attack/

Sello de tiempo: Febrero 28, 2024

Sello de tiempo: 9 de octubre de 2023

Los agentes del centro de llamadas de IA de Google se toman la mañana libre

Clúster de origen:

El registro

Nodo de origen: 1671053

Sello de tiempo: 19 de septiembre de 2022

Reeditado por Platón

AlphaCode 2, una IA generadora de códigos renovada con el kit Gemini

IBM compra Databand para evitar que los datos incorrectos contaminen su IA

60 países acuerdan regular la IA en el ejército antes de que destruya el mundo

GitHub Copilot Enterprise alcanza disponibilidad general

El chatbot de IA entrenado en publicaciones de la alcantarilla web 4chan se comportó mal, al igual que los miembros humanos

Amazon permite que los robots de autor publiquen tres libros al día

El director ejecutivo de SoftBank, Masayoshi Son, predice el AGI en una década

Los agentes del centro de llamadas de IA de Google se toman la mañana libre

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta