Leçons apprises sur la sécurité des modèles de langage et l'utilisation abusive de PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Leçons apprises sur la sécurité et l'utilisation abusive des modèles linguistiques

Leçons apprises sur la sécurité et l'utilisation abusive des modèles linguistiques

Le déploiement de puissants systèmes d'IA a enrichi notre compréhension de la sécurité et des abus bien plus que cela n'aurait été possible grâce à la seule recherche. Notamment :

  • L'utilisation abusive du modèle de langage basé sur l'API se présente souvent sous des formes différentes de celles que nous craignions le plus.
  • Nous avons identifié les limites des évaluations de modèles linguistiques existantes que nous abordons avec de nouveaux repères et classificateurs.
  • La recherche fondamentale sur la sécurité offre des avantages significatifs pour l'utilité commerciale des systèmes d'IA.

Ici, nous décrivons nos dernières réflexions dans l'espoir d'aider d'autres développeurs d'IA à aborder la sécurité et l'utilisation abusive des modèles déployés.


Oes deux dernières années, nous avons beaucoup appris sur la façon dont les modèles de langage peuvent être utilisés et abusés - des informations que nous n'aurions pas pu acquérir sans l'expérience du déploiement dans le monde réel. En juin 2020, nous avons commencé à donner accès aux développeurs et aux chercheurs au API OpenAI, une interface d'accès et de création d'applications reposant sur de nouveaux modèles d'IA développés par OpenAI. Le déploiement de GPT-3, du Codex et d'autres modèles de manière à réduire les risques de préjudice a posé divers défis techniques et politiques.

Présentation de notre approche de déploiement de modèles

Les grands modèles de langage sont maintenant capables d'effectuer une très large éventail de tâches, souvent hors de la boîte. Leurs profils de risque, leurs applications potentielles et leurs effets plus larges sur la société rester pauvrement compris. Par conséquent, notre approche de déploiement met l'accent sur l'itération continue et utilise les stratégies suivantes visant à maximiser les avantages du déploiement tout en réduisant les risques associés :

  • Analyse des risques avant le déploiement, tirant parti d'un ensemble croissant d'évaluations de sécurité et d'outils d'équipe rouge (par exemple, nous avons vérifié notre InstructGPT pour toute dégradation de la sécurité à l'aide des évaluations discuté ci-dessous)
  • En commençant par une petite base d'utilisateurs (par exemple, GPT-3 et notre InstruireGPT la série a commencé comme des bêtas privées)
  • Étudier les résultats des projets pilotes de nouveaux cas d'utilisation (par exemple, explorer les conditions dans lesquelles nous pourrions activer en toute sécurité la génération de contenu long, travailler avec un petit nombre de clients)
  • Mettre en œuvre des processus qui aident à garder le pouls de l'utilisation (par exemple, examen des cas d'utilisation, quotas de jetons et limites de débit)
  • Mener des examens rétrospectifs détaillés (par exemple, des incidents de sécurité et des déploiements majeurs)
Leçons apprises sur la sécurité et l'utilisation abusive des modèles linguistiques


Notez que ce diagramme est destiné à transmettre visuellement le besoin de boucles de rétroaction dans le processus continu de développement et de déploiement du modèle et le fait que la sécurité doit être intégrée à chaque étape. Il n'est pas destiné à donner une image complète ou idéale de notre processus ou de celui de toute autre organisation.

Il n'y a pas de solution miracle pour un déploiement responsable, nous essayons donc de connaître et de résoudre les limites de nos modèles, ainsi que les possibilités d'utilisation abusive, à chaque étape du développement et du déploiement. Cette approche nous permet d'en apprendre le plus possible sur les problèmes de sécurité et de politique à petite échelle et d'intégrer ces informations avant de lancer des déploiements à plus grande échelle.


Il n'y a pas de solution miracle pour un déploiement responsable.

Sans être exhaustifs, certains domaines dans lesquels nous avons investi jusqu'à présent incluent :

Puisque chaque étape d'intervention a ses limites, une approche holistique est nécessaire.

Il y a des domaines où nous aurions pu faire plus et où nous pouvons encore nous améliorer. Par exemple, lorsque nous avons travaillé pour la première fois sur GPT-3, nous le considérions comme un artefact de recherche interne plutôt qu'un système de production et n'étions pas aussi agressifs dans le filtrage des données de formation toxiques que nous aurions pu l'être autrement. Nous avons investi davantage dans la recherche et la suppression de ces matériaux pour les modèles suivants. Nous avons pris plus de temps pour traiter certains cas d'utilisation abusive dans les cas où nous n'avions pas de politiques claires sur le sujet, et nous nous sommes améliorés pour itérer sur ces politiques. Et nous continuons à évoluer vers un ensemble d'exigences de sécurité qui est le plus efficace pour traiter les risques, tout en étant clairement communiqué aux développeurs et en minimisant les frictions excessives.

Néanmoins, nous pensons que notre approche nous a permis de mesurer et de réduire divers types de dommages liés à l'utilisation de modèles linguistiques par rapport à une approche plus passive, tout en permettant un large éventail d'applications savantes, artistiques et commerciales de notre des modèles.

Les nombreuses formes et tailles d'utilisation abusive du modèle de langage

OpenAI a été actif dans la recherche des risques d'utilisation abusive de l'IA depuis nos premiers travaux sur le utilisation malveillante de l'IA dans 2018 et sur GPT-2 en 2019, et nous avons porté une attention particulière aux systèmes d'IA qui renforcent les opérations d'influence. Nous avons travaillé avec experts externes pour développer preuves de concept et promu prudent selon une analyse de l’Université de Princeton de tels risques par des tiers. Nous restons déterminés à traiter les risques associés aux opérations d'influence basées sur un modèle de langage et avons récemment co-organisé un atelier sur le sujet.

Pourtant, nous avons détecté et arrêté des centaines d'acteurs qui tentaient d'abuser du GPT-3 à des fins beaucoup plus larges que la production de désinformation pour des opérations d'influence, y compris d'une manière que nous n'avions pas anticipée ou que nous avions anticipée mais que nous ne nous attendions pas à être si répandue. NOTRE directives de cas d'utilisation, directives relatives au contenu, et l'infrastructure interne de détection et de réponse étaient initialement orientées vers les risques que nous avions anticipés sur la base de recherches internes et externes, telles que la génération de contenu politique trompeur avec GPT-3 ou la génération de logiciels malveillants avec Codex. Nos efforts de détection et de réponse ont évolué au fil du temps en réponse à des cas réels d'abus rencontrés « dans la nature » ​​qui ne figuraient pas aussi en évidence que les opérations d'influence dans nos évaluations initiales des risques. Les exemples incluent les promotions de spam pour des produits médicaux douteux et le jeu de rôle de fantasmes racistes.

Pour soutenir l'étude de l'utilisation abusive du modèle linguistique et de son atténuation, nous explorons activement les possibilités de partager des statistiques sur les incidents de sécurité cette année, afin de concrétiser les discussions sur l'utilisation abusive du modèle linguistique.

La difficulté de la mesure des risques et des impacts

De nombreux aspects des risques et des impacts des modèles linguistiques restent difficiles à mesurer et donc difficiles à surveiller, minimiser et divulguer de manière responsable. Nous avons utilisé activement les références académiques existantes pour l'évaluation des modèles linguistiques et nous sommes impatients de continuer à nous appuyer sur des travaux externes, mais nous avons également constaté que les ensembles de données de référence existants ne reflètent souvent pas les risques de sécurité et d'utilisation abusive que nous constatons dans la pratique.

Ces limitations reflètent le fait que les ensembles de données académiques sont rarement créés dans le but explicite d'informer l'utilisation de la production de modèles linguistiques et ne bénéficient pas de l'expérience acquise lors du déploiement de tels modèles à grande échelle. En conséquence, nous avons développé de nouveaux ensembles de données d'évaluation et de nouveaux cadres pour mesurer la sécurité de nos modèles, que nous prévoyons de publier prochainement. Plus précisément, nous avons développé de nouvelles mesures d'évaluation pour mesurer la toxicité dans les sorties de modèles et avons également développé des classificateurs internes pour détecter le contenu qui enfreint notre politique de contenu, comme le contenu érotique, le discours de haine, la violence, le harcèlement et l'automutilation. Ces deux éléments ont également été exploités à leur tour pour améliorer nos données de pré-formation — plus précisément, en utilisant les classificateurs pour filtrer le contenu et les métriques d'évaluation pour mesurer les effets des interventions sur les ensembles de données.

Il est difficile de classer de manière fiable les sorties de modèles individuels selon différentes dimensions, et de mesurer leur impact social à l'échelle de l'API OpenAI est encore plus difficile. Nous avons mené plusieurs études internes afin de construire un muscle institutionnel pour une telle mesure, mais celles-ci ont souvent soulevé plus de questions que de réponses.

Nous sommes particulièrement intéressés à mieux comprendre l'impact économique de nos modèles et la distribution de ces impacts. Nous avons de bonnes raisons de croire que les impacts sur le marché du travail du déploiement des modèles actuels peuvent déjà être importants en termes absolus, et qu'ils augmenteront à mesure que les capacités et la portée de nos modèles augmenteront. Nous avons pris connaissance d'une variété d'effets locaux à ce jour, y compris des améliorations massives de la productivité sur des tâches existantes effectuées par des individus comme la rédaction et la synthèse (contribuant parfois au déplacement et à la création d'emplois), ainsi que des cas où l'API a déverrouillé de nouvelles applications qui étaient auparavant irréalisables. , comme synthèse de retours d'expérience qualitatifs à grande échelle. Mais nous manquons d'une bonne compréhension des effets nets.

Nous pensons qu'il est important pour ceux qui développent et déploient de puissantes technologies d'IA de s'attaquer de front aux effets positifs et négatifs de leur travail. Nous discutons de quelques étapes dans cette direction dans la dernière section de cet article.

La relation entre la sécurité et l'utilité des systèmes d'IA

Dans notre Affrètement, publié en 2018, nous disons que nous « sommes préoccupés par le fait que le développement avancé de l'AGI devienne une course compétitive sans temps pour des précautions de sécurité adéquates ». Nous avons ensuite publié une analyse détaillée du développement concurrentiel de l'IA, et nous avons suivi de près ultérieur recherche. Dans le même temps, le déploiement de systèmes d'IA via l'API OpenAI a également approfondi notre compréhension des synergies entre sécurité et utilité.

Par exemple, les développeurs préfèrent massivement nos modèles InstructGPT, qui sont affinés pour suivre les intentions des utilisateurs. —sur les modèles de base GPT-3. Notamment, cependant, les modèles InstructGPT n'étaient pas motivés à l'origine par des considérations commerciales, mais visaient plutôt à faire des progrès sur le long terme. problèmes d'alignement. Concrètement, cela signifie que les clients, ce qui n'est peut-être pas surprenant, préfèrent de loin les modèles qui restent concentrés sur la tâche et comprennent l'intention de l'utilisateur, et les modèles qui sont moins susceptibles de produire des sorties nuisibles ou incorrectes. D'autres recherches fondamentales, comme nos travaux sur tirer parti des informations récupérées sur Internet afin de répondre aux questions avec plus de vérité, a également le potentiel d'améliorer l'utilité commerciale des systèmes d'IA.

Ces synergies ne se produiront pas toujours. Par exemple, des systèmes plus puissants prendront souvent plus de temps pour être évalués et alignés efficacement, ce qui empêchera les opportunités de profit immédiates. Et l'utilité d'un utilisateur et celle de la société peuvent ne pas être alignées en raison d'externalités négatives - pensez à la rédaction entièrement automatisée, qui peut être bénéfique pour les créateurs de contenu mais néfaste pour l'écosystème de l'information dans son ensemble.

Il est encourageant de voir des cas de forte synergie entre la sécurité et l'utilité, mais nous nous engageons à investir dans la recherche sur la sécurité et les politiques, même lorsqu'elles font des compromis avec l'utilité commerciale.


Nous nous engageons à investir dans la recherche sur la sécurité et les politiques, même lorsqu'elles s'opposent à l'utilité commerciale.

Comment s'impliquer

Chacune des leçons ci-dessus soulève de nouvelles questions qui lui sont propres. Quels types d'incidents de sécurité pourrions-nous encore ne pas détecter et anticiper ? Comment mieux mesurer les risques et les impacts ? Comment pouvons-nous continuer à améliorer à la fois la sécurité et l'utilité de nos modèles, et trouver des compromis entre ces deux lorsqu'ils se présentent ?

Nous discutons activement de bon nombre de ces problèmes avec d'autres entreprises qui déploient des modèles de langage. Mais nous savons également qu'aucune organisation ou ensemble d'organisations n'a toutes les réponses, et nous aimerions souligner plusieurs façons dont les lecteurs peuvent s'impliquer davantage dans la compréhension et l'élaboration de notre déploiement de systèmes d'IA de pointe.

Premièrement, acquérir une expérience directe de l'interaction avec des systèmes d'IA de pointe est inestimable pour comprendre leurs capacités et leurs implications. Nous avons récemment mis fin à la liste d'attente de l'API après avoir renforcé notre confiance dans notre capacité à détecter et à répondre efficacement aux abus. Les personnes dans pays et territoires pris en charge pouvez accéder rapidement à l'API OpenAI en vous inscrivant ici.

Deuxièmement, les chercheurs travaillant sur des sujets qui nous intéressent particulièrement, tels que les préjugés et les abus, et qui bénéficieraient d'un soutien financier, peuvent demander des crédits API subventionnés en utilisant ce document. La recherche externe est essentielle pour éclairer à la fois notre compréhension de ces systèmes à multiples facettes, ainsi que la compréhension du grand public.

Enfin, nous publions aujourd'hui un agenda de recherche explorer les impacts sur le marché du travail associés à notre famille de modèles Codex, et un appel à des collaborateurs externes pour mener à bien cette recherche. Nous sommes ravis de travailler avec des chercheurs indépendants pour étudier les effets de nos technologies afin d'éclairer les interventions politiques appropriées et d'éventuellement étendre notre réflexion de la génération de code à d'autres modalités.

Si vous souhaitez travailler pour déployer de manière responsable des technologies d'IA de pointe, vous inscrire travailler chez OpenAI !


Remerciements

Merci à Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov et d'autres pour leurs commentaires sur cet article et les travaux connexes.


Notes

  1. Cet article est basé sur notre approche du déploiement de modèles de langage via une API, et en tant que tels, les leçons et les atténuations décrites sont les plus pertinentes pour ceux qui poursuivent également un déploiement basé sur l'API. Cependant, nous nous attendons également à ce qu'une partie de la discussion soit pertinente pour ceux qui créent des applications propriétaires utilisant des modèles de langage et ceux qui envisagent la publication open source de modèles de langage. ??

  2. Ce post est destiné à expliquer et partager les enseignements de notre approche, plutôt que de suggérer que tous les acteurs devraient nécessairement adopter la même approche, ou que la même approche est applicable à tous les systèmes d'IA possibles. Il existe des avantages et des coûts associés à différentes approches de déploiement, différents modèles bénéficieront plus ou moins d'une étude préalable au déploiement et, dans certains cas, il peut être utile que des voies de déploiement distinctes soient suivies par différents acteurs. ??

  3. Plus de détails sur cet atelier seront inclus dans la prochaine publication basée sur celui-ci. ??

  4. Les mesures d'atténuation sur lesquelles nous insistons en cas d'utilisation abusive ont également évolué. Par exemple, nous nous sommes initialement concentrés sur la génération de texte long en tant que vecteur de menace, compte tenu des cas antérieurs d'opérations d'influence qui impliquaient des personnes écrivant manuellement du contenu long trompeur. Compte tenu de cet accent, nous avons défini des longueurs de sortie maximales pour le texte généré. Cependant, sur la base d'une étude pilote sur la génération de formulaires longs, nous avons constaté que les restrictions de sortie avaient peu d'effet sur les violations des politiques. Nous en sommes venus à croire que le contenu court amplifiant ou augmentant l'engagement sur le contenu trompeur pourrait être le plus grand risque. ??

  5. Des exemples de limites dans les ensembles de données existants, du point de vue des praticiens cherchant une évaluation holistique de la sécurité des sorties de modèles de langage réel, incluent les éléments suivants : une focalisation trop étroite (par exemple, mesurer uniquement les préjugés sexistes professionnels), une focalisation trop large (par exemple, mesurer tout sous l'égide de la « toxicité »), une tendance à faire abstraction des spécificités de l'utilisation et du contexte, une incapacité à mesurer la génératif dimension de l'utilisation du modèle de langage (par exemple, en utilisant un style à choix multiples), des invites qui diffèrent stylistiquement de celles généralement utilisées dans les cas d'utilisation de modèles de langage réels, ne capturant pas les dimensions de sécurité qui sont importantes dans la pratique (par exemple, une sortie suivant ou ignorant une sécurité- contrainte motivée dans l'instruction), ou ne pas saisir les types de résultats que nous avons trouvés corrélés avec une mauvaise utilisation (par exemple, contenu érotique). ??

  6. Bien que nos efforts soient spécifiquement orientés vers la résolution des limites des benchmarks existants et de nos propres modèles, nous reconnaissons également qu'il existe des limites aux méthodes que nous utilisons, telles que la filtration des données basée sur les classificateurs. Par exemple, définir de manière opérationnelle les zones de contenu que nous visons à détecter via la filtration est difficile et la filtration elle-même peut introduire des biais nuisibles. De plus, l'étiquetage des données toxiques est un élément essentiel de ce travail et assurer la santé mentale de ces étiqueteurs est un défi à l'échelle de l'industrie. ??

  7. L'"utilisateur" concerné de notre API peut être un développeur créant une application ou un utilisateur final interagissant avec une telle application, selon le contexte. Il y a des questions profondes sur les valeurs que reflètent nos modèles alignés et nous espérons construire une compréhension plus nuancée de la façon d'équilibrer les valeurs d'un large éventail d'utilisateurs possibles et d'objectifs concurrents lors de l'alignement des modèles linguistiques pour qu'ils soient plus utiles, plus véridiques et moins nuisibles. ??

  8. Des modèles plus alignés présentent également des avantages plus pratiques, tels que la réduction du besoin d'une "ingénierie rapide" (fournissant des exemples du comportement souhaité pour orienter le modèle dans la bonne direction), un gain de place dans la fenêtre contextuelle du modèle qui peut être utilisée à d'autres fins. ??

  9. Au-delà de la recherche, nous avons constaté que d'autres interventions motivées par la sécurité présentent parfois des avantages inattendus pour les clients. Par exemple, les limites de débit destinées à limiter les spams ou les contenus trompeurs aident également les clients à contrôler leurs dépenses. ??

Horodatage:

Plus de OpenAI