Leçons apprises sur la sécurité et l'utilisation abusive des modèles linguistiques

Republié par Platon

Suiveurs: 0

Leçons apprises sur la sécurité et l'utilisation abusive des modèles linguistiques

Le déploiement de puissants systèmes d'IA a enrichi notre compréhension de la sécurité et des abus bien plus que cela n'aurait été possible grâce à la seule recherche. Notamment :

L'utilisation abusive du modèle de langage basé sur l'API se présente souvent sous des formes différentes de celles que nous craignions le plus.
Nous avons identifié les limites des évaluations de modèles linguistiques existantes que nous abordons avec de nouveaux repères et classificateurs.
La recherche fondamentale sur la sécurité offre des avantages significatifs pour l'utilité commerciale des systèmes d'IA.

Ici, nous décrivons nos dernières réflexions dans l'espoir d'aider d'autres développeurs d'IA à aborder la sécurité et l'utilisation abusive des modèles déployés.

Oes deux dernières années, nous avons beaucoup appris sur la façon dont les modèles de langage peuvent être utilisés et abusés - des informations que nous n'aurions pas pu acquérir sans l'expérience du déploiement dans le monde réel. En juin 2020, nous avons commencé à donner accès aux développeurs et aux chercheurs au API OpenAI, une interface d'accès et de création d'applications reposant sur de nouveaux modèles d'IA développés par OpenAI. Le déploiement de GPT-3, du Codex et d'autres modèles de manière à réduire les risques de préjudice a posé divers défis techniques et politiques.

Présentation de notre approche de déploiement de modèles

Les grands modèles de langage sont maintenant capables d'effectuer une très large éventail de tâches, souvent hors de la boîte. Leurs profils de risque, leurs applications potentielles et leurs effets plus larges sur la société rester pauvrement compris. Par conséquent, notre approche de déploiement met l'accent sur l'itération continue et utilise les stratégies suivantes visant à maximiser les avantages du déploiement tout en réduisant les risques associés :

Analyse des risques avant le déploiement, tirant parti d'un ensemble croissant d'évaluations de sécurité et d'outils d'équipe rouge (par exemple, nous avons vérifié notre InstructGPT pour toute dégradation de la sécurité à l'aide des évaluations discuté ci-dessous)
En commençant par une petite base d'utilisateurs (par exemple, GPT-3 et notre InstruireGPT la série a commencé comme des bêtas privées)
Étudier les résultats des projets pilotes de nouveaux cas d'utilisation (par exemple, explorer les conditions dans lesquelles nous pourrions activer en toute sécurité la génération de contenu long, travailler avec un petit nombre de clients)
Mettre en œuvre des processus qui aident à garder le pouls de l'utilisation (par exemple, examen des cas d'utilisation, quotas de jetons et limites de débit)
Mener des examens rétrospectifs détaillés (par exemple, des incidents de sécurité et des déploiements majeurs)

Leçons apprises sur la sécurité et l'utilisation abusive des modèles linguistiques

Notez que ce diagramme est destiné à transmettre visuellement le besoin de boucles de rétroaction dans le processus continu de développement et de déploiement du modèle et le fait que la sécurité doit être intégrée à chaque étape. Il n'est pas destiné à donner une image complète ou idéale de notre processus ou de celui de toute autre organisation.

Il n'y a pas de solution miracle pour un déploiement responsable, nous essayons donc de connaître et de résoudre les limites de nos modèles, ainsi que les possibilités d'utilisation abusive, à chaque étape du développement et du déploiement. Cette approche nous permet d'en apprendre le plus possible sur les problèmes de sécurité et de politique à petite échelle et d'intégrer ces informations avant de lancer des déploiements à plus grande échelle.

Il n'y a pas de solution miracle pour un déploiement responsable.

Sans être exhaustifs, certains domaines dans lesquels nous avons investi jusqu'à présent incluent:

Pré-formation données curation et filtrage
Réglage fin des modèles pour mieux suivre les instructions
Analyse des risques des déploiements potentiels
Fournir un utilisateur détaillé Documentation
Développement les outils pour filtrer les sorties de modèles nuisibles
Examen des cas d'utilisation par rapport à nos politiques
Surveillance des signes de une mauvaise utilisation
Étudier le impacts de nos modèles

Puisque chaque étape d'intervention a ses limites, une approche holistique est nécessaire.

Il y a des domaines où nous aurions pu faire plus et où nous pouvons encore nous améliorer. Par exemple, lorsque nous avons travaillé pour la première fois sur GPT-3, nous le considérions comme un artefact de recherche interne plutôt qu'un système de production et n'étions pas aussi agressifs dans le filtrage des données de formation toxiques que nous aurions pu l'être autrement. Nous avons investi davantage dans la recherche et la suppression de ces matériaux pour les modèles suivants. Nous avons pris plus de temps pour traiter certains cas d'utilisation abusive dans les cas où nous n'avions pas de politiques claires sur le sujet, et nous nous sommes améliorés pour itérer sur ces politiques. Et nous continuons à évoluer vers un ensemble d'exigences de sécurité qui est le plus efficace pour traiter les risques, tout en étant clairement communiqué aux développeurs et en minimisant les frictions excessives.

Néanmoins, nous pensons que notre approche nous a permis de mesurer et de réduire divers types de dommages liés à l'utilisation de modèles linguistiques par rapport à une approche plus passive, tout en permettant un large éventail d'applications savantes, artistiques et commerciales de notre des modèles.

Les nombreuses formes et tailles d'utilisation abusive du modèle de langage

OpenAI a été actif dans la recherche des risques d'utilisation abusive de l'IA depuis nos premiers travaux sur le utilisation malveillante de l'IA dans 2018 et sur GPT-2 en 2019, et nous avons porté une attention particulière aux systèmes d'IA qui renforcent les opérations d'influence. Nous avons travaillé avec experts externes pour développer preuves de concept et promu prudent selon une analyse de l’Université de Princeton de tels risques par des tiers. Nous restons déterminés à traiter les risques associés aux opérations d'influence basées sur un modèle de langage et avons récemment co-organisé un atelier sur le sujet.

Pourtant, nous avons détecté et arrêté des centaines d'acteurs qui tentaient d'abuser du GPT-3 à des fins beaucoup plus larges que la production de désinformation pour des opérations d'influence, y compris d'une manière que nous n'avions pas anticipée ou que nous avions anticipée mais que nous ne nous attendions pas à être si répandue. NOTRE directives de cas d'utilisation, directives relatives au contenu, et l'infrastructure interne de détection et de réponse étaient initialement orientées vers les risques que nous avions anticipés sur la base de recherches internes et externes, telles que la génération de contenu politique trompeur avec GPT-3 ou la génération de logiciels malveillants avec Codex. Nos efforts de détection et de réponse ont évolué au fil du temps en réponse à des cas réels d'abus rencontrés « dans la nature » qui ne figuraient pas aussi en évidence que les opérations d'influence dans nos évaluations initiales des risques. Les exemples incluent les promotions de spam pour des produits médicaux douteux et le jeu de rôle de fantasmes racistes.

Pour soutenir l'étude de l'utilisation abusive du modèle linguistique et de son atténuation, nous explorons activement les possibilités de partager des statistiques sur les incidents de sécurité cette année, afin de concrétiser les discussions sur l'utilisation abusive du modèle linguistique.

La difficulté de la mesure des risques et des impacts

De nombreux aspects des risques et des impacts des modèles linguistiques restent difficiles à mesurer et donc difficiles à surveiller, minimiser et divulguer de manière responsable. Nous avons utilisé activement les références académiques existantes pour l'évaluation des modèles linguistiques et nous sommes impatients de continuer à nous appuyer sur des travaux externes, mais nous avons également constaté que les ensembles de données de référence existants ne reflètent souvent pas les risques de sécurité et d'utilisation abusive que nous constatons dans la pratique.

Ces limitations reflètent le fait que les ensembles de données académiques sont rarement créés dans le but explicite d'informer l'utilisation de la production de modèles linguistiques et ne bénéficient pas de l'expérience acquise lors du déploiement de tels modèles à grande échelle. En conséquence, nous avons développé de nouveaux ensembles de données d'évaluation et de nouveaux cadres pour mesurer la sécurité de nos modèles, que nous prévoyons de publier prochainement. Plus précisément, nous avons développé de nouvelles mesures d'évaluation pour mesurer la toxicité dans les sorties de modèles et avons également développé des classificateurs internes pour détecter le contenu qui enfreint notre politique de contenu, comme le contenu érotique, le discours de haine, la violence, le harcèlement et l'automutilation. Ces deux éléments ont également été exploités à leur tour pour améliorer nos données de pré-formation— plus précisément, en utilisant les classificateurs pour filtrer le contenu et les métriques d'évaluation pour mesurer les effets des interventions sur les ensembles de données.

Il est difficile de classer de manière fiable les sorties de modèles individuels selon différentes dimensions, et de mesurer leur impact social à l'échelle de l'API OpenAI est encore plus difficile. Nous avons mené plusieurs études internes afin de construire un muscle institutionnel pour une telle mesure, mais celles-ci ont souvent soulevé plus de questions que de réponses.

Nous sommes particulièrement intéressés à mieux comprendre l'impact économique de nos modèles et la distribution de ces impacts. Nous avons de bonnes raisons de croire que les impacts sur le marché du travail du déploiement des modèles actuels peuvent déjà être importants en termes absolus, et qu'ils augmenteront à mesure que les capacités et la portée de nos modèles augmenteront. Nous avons pris connaissance d'une variété d'effets locaux à ce jour, y compris des améliorations massives de la productivité sur des tâches existantes effectuées par des individus comme la rédaction et la synthèse (contribuant parfois au déplacement et à la création d'emplois), ainsi que des cas où l'API a déverrouillé de nouvelles applications qui étaient auparavant irréalisables. , comme synthèse de retours d'expérience qualitatifs à grande échelle. Mais nous manquons d'une bonne compréhension des effets nets.

Nous pensons qu'il est important pour ceux qui développent et déploient de puissantes technologies d'IA de s'attaquer de front aux effets positifs et négatifs de leur travail. Nous discutons de quelques étapes dans cette direction dans la dernière section de cet article.

La relation entre la sécurité et l'utilité des systèmes d'IA

Dans notre Affrètement, publié en 2018, nous disons que nous « sommes préoccupés par le fait que le développement avancé de l'AGI devienne une course compétitive sans temps pour des précautions de sécurité adéquates ». Nous avons ensuite publié une analyse détaillée du développement concurrentiel de l'IA, et nous avons suivi de près ultérieur recherche. Dans le même temps, le déploiement de systèmes d'IA via l'API OpenAI a également approfondi notre compréhension des synergies entre sécurité et utilité.

Par exemple, les développeurs préfèrent massivement nos modèles InstructGPT, qui sont affinés pour suivre les intentions des utilisateurs.—sur les modèles de base GPT-3. Notamment, cependant, les modèles InstructGPT n'étaient pas motivés à l'origine par des considérations commerciales, mais visaient plutôt à faire des progrès sur le long terme. problèmes d'alignement. Concrètement, cela signifie que les clients, ce qui n'est peut-être pas surprenant, préfèrent de loin les modèles qui restent concentrés sur la tâche et comprennent l'intention de l'utilisateur, et les modèles qui sont moins susceptibles de produire des sorties nuisibles ou incorrectes. D'autres recherches fondamentales, comme nos travaux sur tirer parti des informations récupérées sur Internet afin de répondre aux questions avec plus de vérité, a également le potentiel d'améliorer l'utilité commerciale des systèmes d'IA.

Ces synergies ne se produiront pas toujours. Par exemple, des systèmes plus puissants prendront souvent plus de temps pour être évalués et alignés efficacement, ce qui empêchera les opportunités de profit immédiates. Et l'utilité d'un utilisateur et celle de la société peuvent ne pas être alignées en raison d'externalités négatives - pensez à la rédaction entièrement automatisée, qui peut être bénéfique pour les créateurs de contenu mais néfaste pour l'écosystème de l'information dans son ensemble.

Il est encourageant de voir des cas de forte synergie entre la sécurité et l'utilité, mais nous nous engageons à investir dans la recherche sur la sécurité et les politiques, même lorsqu'elles font des compromis avec l'utilité commerciale.

Nous nous engageons à investir dans la recherche sur la sécurité et les politiques, même lorsqu'elles s'opposent à l'utilité commerciale.

Comment s'impliquer

Chacune des leçons ci-dessus soulève de nouvelles questions qui lui sont propres. Quels types d'incidents de sécurité pourrions-nous encore ne pas détecter et anticiper ? Comment mieux mesurer les risques et les impacts ? Comment pouvons-nous continuer à améliorer à la fois la sécurité et l'utilité de nos modèles, et trouver des compromis entre ces deux lorsqu'ils se présentent ?

Nous discutons activement de bon nombre de ces problèmes avec d'autres entreprises qui déploient des modèles de langage. Mais nous savons également qu'aucune organisation ou ensemble d'organisations n'a toutes les réponses, et nous aimerions souligner plusieurs façons dont les lecteurs peuvent s'impliquer davantage dans la compréhension et l'élaboration de notre déploiement de systèmes d'IA de pointe.

Premièrement, acquérir une expérience directe de l'interaction avec des systèmes d'IA de pointe est inestimable pour comprendre leurs capacités et leurs implications. Nous avons récemment mis fin à la liste d'attente de l'API après avoir renforcé notre confiance dans notre capacité à détecter et à répondre efficacement aux abus. Les personnes dans pays et territoires pris en charge pouvez accéder rapidement à l'API OpenAI en vous inscrivant ici.

Deuxièmement, les chercheurs travaillant sur des sujets qui nous intéressent particulièrement, tels que les préjugés et les abus, et qui bénéficieraient d'un soutien financier, peuvent demander des crédits API subventionnés en utilisant ce document. La recherche externe est essentielle pour éclairer à la fois notre compréhension de ces systèmes à multiples facettes, ainsi que la compréhension du grand public.

Enfin, nous publions aujourd'hui un agenda de recherche explorer les impacts sur le marché du travail associés à notre famille de modèles Codex, et un appel à des collaborateurs externes pour mener à bien cette recherche. Nous sommes ravis de travailler avec des chercheurs indépendants pour étudier les effets de nos technologies afin d'éclairer les interventions politiques appropriées et d'éventuellement étendre notre réflexion de la génération de code à d'autres modalités.

Si vous souhaitez travailler pour déployer de manière responsable des technologies d'IA de pointe, vous inscrire travailler chez OpenAI !

Horodatage: 3 mars 2022

Horodatage: 31 août 2022

Republié par Platon

Subventions rapides de superalignement

Contributions démocratiques au programme de subventions pour l'IA : enseignements tirés et plans de mise en œuvre

De nouvelles façons de gérer vos données dans ChatGPT

OpenAI annonce de nouveaux membres au conseil d'administration

Comment les systèmes d'IA doivent-ils se comporter et qui doit décider ?

Apprendre à jouer à Minecraft avec la préformation vidéo (VPT)

Enseigner aux modèles à exprimer leur incertitude en mots

DALL·E : Présentation de Outpainting

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte