Lecciones aprendidas sobre la seguridad y el mal uso del modelo de lenguaje PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Lecciones aprendidas sobre la seguridad y el mal uso del modelo de lenguaje

Lecciones aprendidas sobre la seguridad y el mal uso del modelo de lenguaje

El despliegue de potentes sistemas de IA ha enriquecido nuestra comprensión de la seguridad y el uso indebido mucho más de lo que hubiera sido posible solo con la investigación. Notablemente:

  • El mal uso del modelo de lenguaje basado en API a menudo se presenta en formas diferentes a las que más temíamos.
  • Hemos identificado limitaciones en las evaluaciones del modelo de lenguaje existente que estamos abordando con nuevos puntos de referencia y clasificadores.
  • La investigación de seguridad básica ofrece beneficios significativos para la utilidad comercial de los sistemas de IA.

Aquí, describimos nuestras últimas ideas con la esperanza de ayudar a otros desarrolladores de IA a abordar la seguridad y el mal uso de los modelos implementados.


Oen los últimos dos años, hemos aprendido mucho sobre cómo se pueden usar y abusar de los modelos de lenguaje, conocimientos que no podríamos haber obtenido sin la experiencia de la implementación en el mundo real. En junio de 2020, comenzamos a dar acceso a desarrolladores e investigadores a la API OpenAI, una interfaz para acceder y crear aplicaciones sobre los nuevos modelos de IA desarrollados por OpenAI. La implementación de GPT-3, Codex y otros modelos de una manera que reduce los riesgos de daño ha planteado varios desafíos técnicos y de políticas.

Descripción general de nuestro enfoque de implementación de modelos

Los modelos de lenguaje grande ahora son capaces de realizar una gama muy amplia de tareas, a menudo fuera de la caja. Sus perfiles de riesgo, aplicaciones potenciales y efectos más amplios en la sociedad permanecer mal entendido. Como resultado, nuestro enfoque de implementación enfatiza la iteración continua y utiliza las siguientes estrategias destinadas a maximizar los beneficios de la implementación y reducir los riesgos asociados:

  • Análisis de riesgos previo a la implementación, aprovechando un conjunto cada vez mayor de evaluaciones de seguridad y herramientas de equipo rojo (p. ej., revisamos nuestro InstructGPT para detectar degradaciones de seguridad utilizando las evaluaciones se discute más adelante)
  • Comenzando con una pequeña base de usuarios (p. ej., tanto GPT-3 como nuestro InstruirGPT la serie comenzó como betas privadas)
  • Estudiar los resultados de pilotos de casos de uso novedosos (p. ej., explorar las condiciones bajo las cuales podríamos habilitar de manera segura la generación de contenido de formato largo, trabajando con una pequeña cantidad de clientes)
  • Implementar procesos que ayuden a controlar el uso (p. ej., revisión de casos de uso, cuotas de tokens y límites de tasa)
  • Realización de revisiones retrospectivas detalladas (p. ej., de incidentes de seguridad y despliegues importantes)
Lecciones aprendidas sobre la seguridad y el mal uso del modelo de lenguaje


Tenga en cuenta que este diagrama pretende transmitir visualmente la necesidad de bucles de retroalimentación en el proceso continuo de desarrollo e implementación del modelo y el hecho de que la seguridad debe integrarse en cada etapa. No pretende transmitir una imagen completa o ideal de nuestro proceso o el de cualquier otra organización.

No existe una panacea para la implementación responsable, por lo que tratamos de conocer y abordar las limitaciones de nuestros modelos y las posibles vías de uso indebido, en cada etapa del desarrollo y la implementación. Este enfoque nos permite aprender tanto como podamos sobre cuestiones de seguridad y políticas a pequeña escala e incorporar esos conocimientos antes de lanzar implementaciones a mayor escala.


No existe una panacea para el despliegue responsable.

Si bien no es exhaustivo, algunas áreas en las que hemos invertido hasta ahora incluyen[ 1 ]:

Dado que cada etapa de la intervención tiene limitaciones, es necesario un enfoque holístico.

Hay áreas en las que podríamos haber hecho más y en las que todavía tenemos margen de mejora. Por ejemplo, cuando trabajamos por primera vez en GPT-3, lo vimos como un artefacto de investigación interno en lugar de un sistema de producción y no fuimos tan agresivos en el filtrado de datos de entrenamiento tóxicos como podríamos haber sido de otra manera. Hemos invertido más en investigar y eliminar dicho material para modelos posteriores. Hemos tardado más en abordar algunos casos de uso indebido en casos en los que no teníamos políticas claras sobre el tema, y ​​hemos mejorado en la iteración de esas políticas. Y continuamos iterando hacia un paquete de requisitos de seguridad que sea lo más efectivo posible para abordar los riesgos, al mismo tiempo que se comunica claramente a los desarrolladores y minimiza la fricción excesiva.

Aún así, creemos que nuestro enfoque nos ha permitido medir y reducir varios tipos de daños del uso del modelo de lenguaje en comparación con un enfoque más no intervencionista, mientras que al mismo tiempo permite una amplia gama de aplicaciones académicas, artísticas y comerciales de nuestro modelos[ 2 ]

Las muchas formas y tamaños del mal uso del modelo de lenguaje

OpenAI ha estado activo en la investigación de los riesgos del mal uso de la IA desde nuestros primeros trabajos en el uso malicioso de la IA en 2018 y en GPT-2 en 2019, y hemos prestado especial atención a los sistemas de inteligencia artificial que potencian las operaciones de influencia. Tenemos trabajado con expertos externos para desarrollar pruebas de concepto y promovido cuidadoso análisis de dichos riesgos por parte de terceros. Seguimos comprometidos a abordar los riesgos asociados con las operaciones de influencia habilitadas por el modelo de lenguaje y recientemente coorganizamos un taller sobre el tema.[ 3 ]

Sin embargo, hemos detectado y detenido a cientos de actores que intentan hacer un uso indebido de GPT-3 para una gama de propósitos mucho más amplia que producir desinformación para operaciones de influencia, incluso de formas que no anticipamos o que anticipamos pero que no esperábamos. tan prevalente.[ 4 ] Nuestra oficina de directrices de casos de uso, pautas de contenido, y la infraestructura interna de detección y respuesta se orientó inicialmente hacia los riesgos que anticipamos con base en investigaciones internas y externas, como la generación de contenido político engañoso con GPT-3 o la generación de malware con Codex. Nuestros esfuerzos de detección y respuesta han evolucionado con el tiempo en respuesta a casos reales de uso indebido encontrados "en la naturaleza" que no figuraron de manera tan prominente como las operaciones de influencia en nuestras evaluaciones de riesgo iniciales. Los ejemplos incluyen promociones de spam para productos médicos dudosos y juegos de rol de fantasías racistas.

Para apoyar el estudio del uso indebido del modelo de lenguaje y su mitigación, estamos explorando activamente oportunidades para compartir estadísticas sobre incidentes de seguridad este año, a fin de concretar las discusiones sobre el uso indebido del modelo de lenguaje.

La dificultad de la medición del riesgo y el impacto

Muchos aspectos de los riesgos e impactos de los modelos lingüísticos siguen siendo difíciles de medir y, por lo tanto, difíciles de monitorear, minimizar y divulgar de manera responsable. Hicimos un uso activo de los puntos de referencia académicos existentes para la evaluación del modelo de lenguaje y estamos ansiosos por continuar construyendo sobre el trabajo externo, pero también descubrimos que los conjuntos de datos de referencia existentes a menudo no reflejan los riesgos de seguridad y uso indebido que vemos en la práctica.[ 5 ]

Tales limitaciones reflejan el hecho de que los conjuntos de datos académicos rara vez se crean con el propósito explícito de informar sobre el uso de producción de modelos de lenguaje y no se benefician de la experiencia adquirida al implementar dichos modelos a escala. Como resultado, hemos estado desarrollando nuevos marcos y conjuntos de datos de evaluación para medir la seguridad de nuestros modelos, que planeamos lanzar pronto. Específicamente, hemos desarrollado nuevas métricas de evaluación para medir la toxicidad en los resultados del modelo y también hemos desarrollado clasificadores internos para detectar contenido que viola nuestra política de contenido, como contenido erótico, incitación al odio, violencia, acoso y autolesiones. Ambos, a su vez, también se han aprovechado para mejorar nuestros datos previos al entrenamiento.[ 6 ]—específicamente, mediante el uso de clasificadores para filtrar el contenido y las métricas de evaluación para medir los efectos de las intervenciones del conjunto de datos.

Clasificar de manera confiable los resultados de modelos individuales a lo largo de varias dimensiones es difícil, y medir su impacto social a la escala de la API de OpenAI es aún más difícil. Hemos realizado varios estudios internos con el fin de construir un músculo institucional para dicha medición, pero estos a menudo han planteado más preguntas que respuestas.

Estamos particularmente interesados ​​en comprender mejor el impacto económico de nuestros modelos y la distribución de esos impactos. Tenemos buenas razones para creer que los impactos en el mercado laboral de la implementación de los modelos actuales ya pueden ser significativos en términos absolutos, y que crecerán a medida que crezcan las capacidades y el alcance de nuestros modelos. Hemos aprendido de una variedad de efectos locales hasta la fecha, incluidas mejoras masivas de productividad en tareas existentes realizadas por individuos como redacción y resumen (que a veces contribuyen al desplazamiento y la creación de puestos de trabajo), así como casos en los que la API desbloqueó nuevas aplicaciones que antes eran inviables. , tal como síntesis de retroalimentación cualitativa a gran escala. Pero nos falta una buena comprensión de los efectos netos.

Creemos que es importante que aquellos que desarrollan e implementen potentes tecnologías de IA aborden los efectos positivos y negativos de su trabajo de frente. Discutimos algunos pasos en esa dirección en la sección final de esta publicación.

La relación entre la seguridad y la utilidad de los sistemas de IA

En nuestros Alquiler , publicado en 2018, decimos que "nos preocupa que el desarrollo de AGI en etapa avanzada se convierta en una carrera competitiva sin tiempo para las precauciones de seguridad adecuadas". Nosotros entonces publicado un análisis detallado del desarrollo competitivo de la IA, y hemos seguido de cerca posterior investigación. Al mismo tiempo, la implementación de sistemas de IA a través de la API de OpenAI también ha profundizado nuestra comprensión de las sinergias entre la seguridad y la utilidad.

Por ejemplo, los desarrolladores prefieren abrumadoramente nuestros modelos InstructGPT, que están ajustados para seguir las intenciones del usuario.[ 7 ]—sobre los modelos base GPT-3. Cabe destacar, sin embargo, que los modelos InstructGPT no estaban motivados originalmente por consideraciones comerciales, sino que tenían como objetivo lograr avances a largo plazo. problemas de alineación. En términos prácticos, esto significa que los clientes, quizás como es lógico, prefieran modelos que se mantengan concentrados en la tarea y comprendan la intención del usuario, y modelos que tengan menos probabilidades de producir resultados dañinos o incorrectos.[ 8 ] Otras investigaciones fundamentales, como nuestro trabajo sobre aprovechando la información obtenido de Internet para responder preguntas con mayor veracidad, también tiene potencial para mejorar la utilidad comercial de los sistemas de IA.[ 9 ]

Estas sinergias no siempre se producirán. Por ejemplo, los sistemas más potentes suelen tardar más en evaluarse y alinearse de forma eficaz, lo que impide oportunidades inmediatas de beneficio. Y es posible que la utilidad de un usuario y la de la sociedad no estén alineadas debido a externalidades negativas: considere la redacción de textos publicitarios totalmente automatizados, que puede ser beneficioso para los creadores de contenido pero perjudicial para el ecosistema de la información en su conjunto.

Es alentador ver casos de fuerte sinergia entre la seguridad y la utilidad, pero estamos comprometidos a invertir en investigación de políticas y seguridad, incluso cuando se compensan con la utilidad comercial.


Estamos comprometidos a invertir en investigación de políticas y seguridad, incluso cuando se compensan con la utilidad comercial.

Formas de involucrarse

Cada una de las lecciones anteriores plantea nuevas preguntas propias. ¿Qué tipos de incidentes de seguridad aún no podemos detectar ni anticipar? ¿Cómo podemos medir mejor los riesgos y los impactos? ¿Cómo podemos continuar mejorando tanto la seguridad como la utilidad de nuestros modelos, y navegar por las compensaciones entre estos dos cuando surjan?

Estamos discutiendo activamente muchos de estos problemas con otras empresas que implementan modelos de lenguaje. Pero también sabemos que ninguna organización o conjunto de organizaciones tiene todas las respuestas, y nos gustaría destacar varias formas en que los lectores pueden involucrarse más en la comprensión y configuración de nuestro despliegue de sistemas de inteligencia artificial de última generación.

Primero, obtener experiencia de primera mano interactuando con sistemas de IA de última generación es invaluable para comprender sus capacidades e implicaciones. Recientemente finalizamos la lista de espera de API después de generar más confianza en nuestra capacidad para detectar y responder de manera efectiva al uso indebido. Individuos en países y territorios admitidos puede acceder rápidamente a la API de OpenAI registrándose esta página.

En segundo lugar, los investigadores que trabajan en temas de particular interés para nosotros, como el sesgo y el uso indebido, y que se beneficiarían de apoyo financiero, pueden solicitar créditos API subvencionados utilizando este formulario. La investigación externa es vital para informar nuestra comprensión de estos sistemas multifacéticos, así como la comprensión del público en general.

Finalmente, hoy publicamos un agenda de investigación explorando los impactos en el mercado laboral asociados con nuestra familia de modelos Codex, y un llamado a colaboradores externos para llevar a cabo esta investigación. Estamos entusiasmados de trabajar con investigadores independientes para estudiar los efectos de nuestras tecnologías a fin de informar las intervenciones de políticas adecuadas y, finalmente, expandir nuestro pensamiento de la generación de código a otras modalidades.

Si está interesado en trabajar para implementar de manera responsable tecnologías de IA de vanguardia, aplicar para trabajar en OpenAI!


AGRADECIMIENTOS

Gracias a Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov y otros por sus comentarios sobre esta publicación y el trabajo relacionado.


Notas a pie de página

  1. Esta publicación se basa en nuestro enfoque para implementar modelos de lenguaje a través de una API y, como tal, las lecciones y mitigaciones descritas son más relevantes para aquellos que también buscan una implementación basada en API. Sin embargo, también esperamos que parte de la discusión sea relevante para aquellos que crean aplicaciones propias usando modelos de lenguaje y aquellos que están considerando el lanzamiento de código abierto de modelos de lenguaje. ↩︎

  2. Esta publicación tiene como objetivo explicar y compartir los aprendizajes de nuestro enfoque, en lugar de sugerir que todos los actores deben necesariamente adoptar el mismo enfoque, o que el mismo enfoque es aplicable a todos los sistemas de IA posibles. Hay beneficios y costos asociados con diferentes enfoques de implementación, diferentes modelos se beneficiarán más o menos del estudio previo a la implementación y, en algunos casos, puede ser valioso para diferentes caminos de implementación que deben seguir diferentes actores. ↩︎

  3. Se incluirán más detalles sobre este taller en la próxima publicación basada en él. ↩︎

  4. Las mitigaciones que enfatizamos en respuesta al uso indebido también han evolucionado. Por ejemplo, inicialmente nos centramos en la generación de texto de formato largo como vector de amenaza, dados los casos anteriores de operaciones de influencia que involucraban a personas que escribían manualmente contenido engañoso en formato largo. Dado ese énfasis, establecemos longitudes de salida máximas para el texto generado. Sin embargo, según un estudio piloto de generación de formato largo, vimos que las restricciones de salida tenían poco efecto en las infracciones de la política; en cambio, hemos llegado a creer que el mayor riesgo podría ser el contenido de formato corto que amplifica o aumenta la participación en contenido engañoso. ↩︎

  5. Los ejemplos de limitaciones en los conjuntos de datos existentes, desde la perspectiva de los profesionales que buscan una evaluación holística de la seguridad de los resultados del modelo de lenguaje real, incluyen los siguientes: un enfoque demasiado estrecho (p. ej., solo medir el sesgo de género ocupacional), un enfoque demasiado amplio (p. ej., medir todo bajo el paraguas de la "toxicidad"), una tendencia a abstraer los detalles específicos del uso y el contexto, una falla en medir la generativo dimensión del uso del modelo de lenguaje (p. ej., usar un estilo de opción múltiple), indicaciones que difieren estilísticamente de las que se usan típicamente en casos de uso del modelo de lenguaje real, que no capturan dimensiones de seguridad que son importantes en la práctica (p. ej., un resultado que sigue o ignora un mensaje de seguridad). restricción motivada en la instrucción), o no capturar los tipos de salidas que hemos encontrado que están correlacionadas con el uso indebido (por ejemplo, contenido erótico). ↩︎

  6. Si bien nuestros esfuerzos están específicamente orientados a abordar las limitaciones en los puntos de referencia existentes y en nuestros propios modelos, también reconocemos que existen limitaciones en los métodos que utilizamos, como la filtración de datos basada en clasificadores. Por ejemplo, definir operativamente las áreas de contenido que pretendemos detectar a través de la filtración es un desafío y la filtración en sí misma puede introducir sesgos dañinos. Además, el etiquetado de datos tóxicos es un componente crítico de este trabajo y garantizar la salud mental de estos etiquetadores es un desafío para toda la industria. ↩︎

  7. El "usuario" relevante de nuestra API puede ser un desarrollador que crea una aplicación o un usuario final que interactúa con dicha aplicación, según el contexto. Hay preguntas profundas sobre los valores que reflejan nuestros modelos alineados y esperamos construir una comprensión más matizada de cómo equilibrar los valores de una amplia gama de posibles usuarios y objetivos competitivos al alinear los modelos de lenguaje para que sean más útiles, más veraces y menos dañinos. ↩︎

  8. Los modelos más alineados también tienen ventajas más prácticas, como reducir la necesidad de "ingeniería rápida" (proporcionar ejemplos del comportamiento deseado para dirigir el modelo en la dirección correcta), ahorrar espacio en la ventana de contexto del modelo que se puede utilizar para otros fines. ↩︎

  9. Más allá de la investigación, hemos encontrado que otras intervenciones motivadas por la seguridad a veces tienen beneficios inesperados para los clientes. Por ejemplo, los límites de tarifas destinados a frenar el spam o el contenido engañoso también ayudan a los clientes a controlar los gastos. ↩︎

Sello de tiempo:

Mas de OpenAI