Lecciones aprendidas sobre la seguridad y el mal uso del modelo de lenguaje

Reeditado por Platón

seguidores: 0

Lecciones aprendidas sobre la seguridad y el mal uso del modelo de lenguaje

El despliegue de potentes sistemas de IA ha enriquecido nuestra comprensión de la seguridad y el uso indebido mucho más de lo que hubiera sido posible solo con la investigación. Notablemente:

El mal uso del modelo de lenguaje basado en API a menudo se presenta en formas diferentes a las que más temíamos.
Hemos identificado limitaciones en las evaluaciones del modelo de lenguaje existente que estamos abordando con nuevos puntos de referencia y clasificadores.
La investigación de seguridad básica ofrece beneficios significativos para la utilidad comercial de los sistemas de IA.

Aquí, describimos nuestras últimas ideas con la esperanza de ayudar a otros desarrolladores de IA a abordar la seguridad y el mal uso de los modelos implementados.

Oen los últimos dos años, hemos aprendido mucho sobre cómo se pueden usar y abusar de los modelos de lenguaje, conocimientos que no podríamos haber obtenido sin la experiencia de la implementación en el mundo real. En junio de 2020, comenzamos a dar acceso a desarrolladores e investigadores a la API OpenAI, una interfaz para acceder y crear aplicaciones sobre los nuevos modelos de IA desarrollados por OpenAI. La implementación de GPT-3, Codex y otros modelos de una manera que reduce los riesgos de daño ha planteado varios desafíos técnicos y de políticas.

Descripción general de nuestro enfoque de implementación de modelos

Los modelos de lenguaje grande ahora son capaces de realizar una gama muy amplia de tareas, a menudo fuera de la caja. Sus perfiles de riesgo, aplicaciones potenciales y efectos más amplios en la sociedad permanecer mal entendido. Como resultado, nuestro enfoque de implementación enfatiza la iteración continua y utiliza las siguientes estrategias destinadas a maximizar los beneficios de la implementación y reducir los riesgos asociados:

Análisis de riesgos previo a la implementación, aprovechando un conjunto cada vez mayor de evaluaciones de seguridad y herramientas de equipo rojo (p. ej., revisamos nuestro InstructGPT para detectar degradaciones de seguridad utilizando las evaluaciones se discute más adelante)
Comenzando con una pequeña base de usuarios (p. ej., tanto GPT-3 como nuestro InstruirGPT la serie comenzó como betas privadas)
Estudiar los resultados de pilotos de casos de uso novedosos (p. ej., explorar las condiciones bajo las cuales podríamos habilitar de manera segura la generación de contenido de formato largo, trabajando con una pequeña cantidad de clientes)
Implementar procesos que ayuden a controlar el uso (p. ej., revisión de casos de uso, cuotas de tokens y límites de tasa)
Realización de revisiones retrospectivas detalladas (p. ej., de incidentes de seguridad y despliegues importantes)

Lecciones aprendidas sobre la seguridad y el mal uso del modelo de lenguaje

Tenga en cuenta que este diagrama pretende transmitir visualmente la necesidad de bucles de retroalimentación en el proceso continuo de desarrollo e implementación del modelo y el hecho de que la seguridad debe integrarse en cada etapa. No pretende transmitir una imagen completa o ideal de nuestro proceso o el de cualquier otra organización.

No existe una panacea para la implementación responsable, por lo que tratamos de conocer y abordar las limitaciones de nuestros modelos y las posibles vías de uso indebido, en cada etapa del desarrollo y la implementación. Este enfoque nos permite aprender tanto como podamos sobre cuestiones de seguridad y políticas a pequeña escala e incorporar esos conocimientos antes de lanzar implementaciones a mayor escala.

No existe una panacea para el despliegue responsable.

Si bien no es exhaustivo, algunas áreas en las que hemos invertido hasta ahora incluyen^{[ 1 ]}:

Pre-entrenamiento datos curación y filtrado
Sintonia FINA modelos para mejorar seguir instrucciones
Análisis de riesgo de implementaciones potenciales
Proporcionar usuario detallado documentación
Construir la para filtrar resultados de modelos dañinos
Revisión de casos de uso contra nuestro políticas
Monitoreo de signos de mal uso
Estudiando el impactos de nuestros modelos

Dado que cada etapa de la intervención tiene limitaciones, es necesario un enfoque holístico.

Hay áreas en las que podríamos haber hecho más y en las que todavía tenemos margen de mejora. Por ejemplo, cuando trabajamos por primera vez en GPT-3, lo vimos como un artefacto de investigación interno en lugar de un sistema de producción y no fuimos tan agresivos en el filtrado de datos de entrenamiento tóxicos como podríamos haber sido de otra manera. Hemos invertido más en investigar y eliminar dicho material para modelos posteriores. Hemos tardado más en abordar algunos casos de uso indebido en casos en los que no teníamos políticas claras sobre el tema, y hemos mejorado en la iteración de esas políticas. Y continuamos iterando hacia un paquete de requisitos de seguridad que sea lo más efectivo posible para abordar los riesgos, al mismo tiempo que se comunica claramente a los desarrolladores y minimiza la fricción excesiva.

Aún así, creemos que nuestro enfoque nos ha permitido medir y reducir varios tipos de daños del uso del modelo de lenguaje en comparación con un enfoque más no intervencionista, mientras que al mismo tiempo permite una amplia gama de aplicaciones académicas, artísticas y comerciales de nuestro modelos^{[ 2 ]}

Las muchas formas y tamaños del mal uso del modelo de lenguaje

OpenAI ha estado activo en la investigación de los riesgos del mal uso de la IA desde nuestros primeros trabajos en el uso malicioso de la IA en 2018 y en GPT-2 en 2019, y hemos prestado especial atención a los sistemas de inteligencia artificial que potencian las operaciones de influencia. Tenemos trabajado con expertos externos para desarrollar pruebas de concepto y promovido cuidadoso análisis de dichos riesgos por parte de terceros. Seguimos comprometidos a abordar los riesgos asociados con las operaciones de influencia habilitadas por el modelo de lenguaje y recientemente coorganizamos un taller sobre el tema.^{[ 3 ]}

Sin embargo, hemos detectado y detenido a cientos de actores que intentan hacer un uso indebido de GPT-3 para una gama de propósitos mucho más amplia que producir desinformación para operaciones de influencia, incluso de formas que no anticipamos o que anticipamos pero que no esperábamos. tan prevalente.^{[ 4 ]} Nuestra oficina de directrices de casos de uso, pautas de contenido, y la infraestructura interna de detección y respuesta se orientó inicialmente hacia los riesgos que anticipamos con base en investigaciones internas y externas, como la generación de contenido político engañoso con GPT-3 o la generación de malware con Codex. Nuestros esfuerzos de detección y respuesta han evolucionado con el tiempo en respuesta a casos reales de uso indebido encontrados "en la naturaleza" que no figuraron de manera tan prominente como las operaciones de influencia en nuestras evaluaciones de riesgo iniciales. Los ejemplos incluyen promociones de spam para productos médicos dudosos y juegos de rol de fantasías racistas.

Para apoyar el estudio del uso indebido del modelo de lenguaje y su mitigación, estamos explorando activamente oportunidades para compartir estadísticas sobre incidentes de seguridad este año, a fin de concretar las discusiones sobre el uso indebido del modelo de lenguaje.

La dificultad de la medición del riesgo y el impacto

Muchos aspectos de los riesgos e impactos de los modelos lingüísticos siguen siendo difíciles de medir y, por lo tanto, difíciles de monitorear, minimizar y divulgar de manera responsable. Hicimos un uso activo de los puntos de referencia académicos existentes para la evaluación del modelo de lenguaje y estamos ansiosos por continuar construyendo sobre el trabajo externo, pero también descubrimos que los conjuntos de datos de referencia existentes a menudo no reflejan los riesgos de seguridad y uso indebido que vemos en la práctica.^{[ 5 ]}

Tales limitaciones reflejan el hecho de que los conjuntos de datos académicos rara vez se crean con el propósito explícito de informar sobre el uso de producción de modelos de lenguaje y no se benefician de la experiencia adquirida al implementar dichos modelos a escala. Como resultado, hemos estado desarrollando nuevos marcos y conjuntos de datos de evaluación para medir la seguridad de nuestros modelos, que planeamos lanzar pronto. Específicamente, hemos desarrollado nuevas métricas de evaluación para medir la toxicidad en los resultados del modelo y también hemos desarrollado clasificadores internos para detectar contenido que viola nuestra política de contenido, como contenido erótico, incitación al odio, violencia, acoso y autolesiones. Ambos, a su vez, también se han aprovechado para mejorar nuestros datos previos al entrenamiento.^{[ 6 ]}—específicamente, mediante el uso de clasificadores para filtrar el contenido y las métricas de evaluación para medir los efectos de las intervenciones del conjunto de datos.

Clasificar de manera confiable los resultados de modelos individuales a lo largo de varias dimensiones es difícil, y medir su impacto social a la escala de la API de OpenAI es aún más difícil. Hemos realizado varios estudios internos con el fin de construir un músculo institucional para dicha medición, pero estos a menudo han planteado más preguntas que respuestas.

Estamos particularmente interesados en comprender mejor el impacto económico de nuestros modelos y la distribución de esos impactos. Tenemos buenas razones para creer que los impactos en el mercado laboral de la implementación de los modelos actuales ya pueden ser significativos en términos absolutos, y que crecerán a medida que crezcan las capacidades y el alcance de nuestros modelos. Hemos aprendido de una variedad de efectos locales hasta la fecha, incluidas mejoras masivas de productividad en tareas existentes realizadas por individuos como redacción y resumen (que a veces contribuyen al desplazamiento y la creación de puestos de trabajo), así como casos en los que la API desbloqueó nuevas aplicaciones que antes eran inviables. , tal como síntesis de retroalimentación cualitativa a gran escala. Pero nos falta una buena comprensión de los efectos netos.

Creemos que es importante que aquellos que desarrollan e implementen potentes tecnologías de IA aborden los efectos positivos y negativos de su trabajo de frente. Discutimos algunos pasos en esa dirección en la sección final de esta publicación.

La relación entre la seguridad y la utilidad de los sistemas de IA

En nuestros Alquiler , publicado en 2018, decimos que "nos preocupa que el desarrollo de AGI en etapa avanzada se convierta en una carrera competitiva sin tiempo para las precauciones de seguridad adecuadas". Nosotros entonces publicado un análisis detallado del desarrollo competitivo de la IA, y hemos seguido de cerca posterior investigación. Al mismo tiempo, la implementación de sistemas de IA a través de la API de OpenAI también ha profundizado nuestra comprensión de las sinergias entre la seguridad y la utilidad.

Por ejemplo, los desarrolladores prefieren abrumadoramente nuestros modelos InstructGPT, que están ajustados para seguir las intenciones del usuario.^{[ 7 ]}—sobre los modelos base GPT-3. Cabe destacar, sin embargo, que los modelos InstructGPT no estaban motivados originalmente por consideraciones comerciales, sino que tenían como objetivo lograr avances a largo plazo. problemas de alineación. En términos prácticos, esto significa que los clientes, quizás como es lógico, prefieran modelos que se mantengan concentrados en la tarea y comprendan la intención del usuario, y modelos que tengan menos probabilidades de producir resultados dañinos o incorrectos.^{[ 8 ]} Otras investigaciones fundamentales, como nuestro trabajo sobre aprovechando la información obtenido de Internet para responder preguntas con mayor veracidad, también tiene potencial para mejorar la utilidad comercial de los sistemas de IA.^{[ 9 ]}

Estas sinergias no siempre se producirán. Por ejemplo, los sistemas más potentes suelen tardar más en evaluarse y alinearse de forma eficaz, lo que impide oportunidades inmediatas de beneficio. Y es posible que la utilidad de un usuario y la de la sociedad no estén alineadas debido a externalidades negativas: considere la redacción de textos publicitarios totalmente automatizados, que puede ser beneficioso para los creadores de contenido pero perjudicial para el ecosistema de la información en su conjunto.

Es alentador ver casos de fuerte sinergia entre la seguridad y la utilidad, pero estamos comprometidos a invertir en investigación de políticas y seguridad, incluso cuando se compensan con la utilidad comercial.

Estamos comprometidos a invertir en investigación de políticas y seguridad, incluso cuando se compensan con la utilidad comercial.

Formas de involucrarse

Cada una de las lecciones anteriores plantea nuevas preguntas propias. ¿Qué tipos de incidentes de seguridad aún no podemos detectar ni anticipar? ¿Cómo podemos medir mejor los riesgos y los impactos? ¿Cómo podemos continuar mejorando tanto la seguridad como la utilidad de nuestros modelos, y navegar por las compensaciones entre estos dos cuando surjan?

Estamos discutiendo activamente muchos de estos problemas con otras empresas que implementan modelos de lenguaje. Pero también sabemos que ninguna organización o conjunto de organizaciones tiene todas las respuestas, y nos gustaría destacar varias formas en que los lectores pueden involucrarse más en la comprensión y configuración de nuestro despliegue de sistemas de inteligencia artificial de última generación.

Primero, obtener experiencia de primera mano interactuando con sistemas de IA de última generación es invaluable para comprender sus capacidades e implicaciones. Recientemente finalizamos la lista de espera de API después de generar más confianza en nuestra capacidad para detectar y responder de manera efectiva al uso indebido. Individuos en países y territorios admitidos puede acceder rápidamente a la API de OpenAI registrándose esta página.

En segundo lugar, los investigadores que trabajan en temas de particular interés para nosotros, como el sesgo y el uso indebido, y que se beneficiarían de apoyo financiero, pueden solicitar créditos API subvencionados utilizando este formulario. La investigación externa es vital para informar nuestra comprensión de estos sistemas multifacéticos, así como la comprensión del público en general.

Finalmente, hoy publicamos un agenda de investigación explorando los impactos en el mercado laboral asociados con nuestra familia de modelos Codex, y un llamado a colaboradores externos para llevar a cabo esta investigación. Estamos entusiasmados de trabajar con investigadores independientes para estudiar los efectos de nuestras tecnologías a fin de informar las intervenciones de políticas adecuadas y, finalmente, expandir nuestro pensamiento de la generación de código a otras modalidades.

Si está interesado en trabajar para implementar de manera responsable tecnologías de IA de vanguardia, aplicar para trabajar en OpenAI!

Sello de tiempo: Marzo 3, 2022

Sello de tiempo: 31 de Agosto, 2022

Reeditado por Platón

Subvenciones Rápidas de Superalineación

Aportes democráticos al programa de subvenciones de IA: lecciones aprendidas y planes de implementación

Nuevas formas de gestionar tus datos en ChatGPT

OpenAI anuncia nuevos miembros a la junta directiva

¿Cómo deben comportarse los sistemas de IA y quién debe decidir?

Aprendiendo a jugar Minecraft con video preentrenamiento (VPT)

Modelos de enseñanza para expresar su incertidumbre en palabras.

DALL·E: Presentación de Outpainting

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta