Le chercheur qui apprendrait aux machines à être justes

Le chercheur qui apprendrait aux machines à être justes

Le chercheur qui apprendrait aux machines à être équitables PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Introduction

De temps en temps, une personne peut prendre un concept abstrait apparemment trop vague pour une étude formelle et proposer une définition formelle élégante. Claude Shannon l'a fait avec d'information, et Andrey Kolmogorov l'a fait avec aléatoire. Depuis quelques années, des chercheurs tentent de faire de même pour le concept d'équité en apprentissage automatique. Malheureusement, cela a été plus délicat. Non seulement le concept est plus difficile à définir, mais il est également impossible qu'une seule définition satisfasse à toutes les mesures d'équité souhaitables. Arvind Narayanan, informaticien à l'Université de Princeton, a contribué à contextualiser différents points de vue et à aider ce nouveau domaine à s'établir.

Sa carrière a couvert tous les niveaux d'abstraction, de la théorie à la politique, mais le voyage qui a finalement conduit à son travail actuel a commencé en 2006. Cette année-là, Netflix a parrainé un concours qui attribuerait 1 million de dollars à quiconque améliorait la précision de son système de recommandation en dix%. Netflix a fourni un ensemble de données soi-disant anonymes sur les utilisateurs et leurs évaluations, les informations personnellement identifiables ayant été supprimées. Mais Narayanan a montré qu'avec une technique statistique sophistiquée, il suffit de quelques points de données pour révéler l'identité d'un utilisateur "anonyme" dans l'ensemble de données.

Depuis lors, Narayanan s'est concentré sur d'autres domaines où la théorie rencontre la pratique. À travers le Projet de transparence et de responsabilité Web de Princeton, son équipe a découvert des moyens subreptices utilisés par les sites Web pour suivre les utilisateurs et extraire des données sensibles. Son équipe a découvert qu'un groupe comme l'Agence nationale de sécurité pouvait utiliser les données de navigation Web (en particulier, les cookies placés par des tiers) non seulement pour découvrir l'identité réelle de l'utilisateur, mais aussi pour reconstituer 62 % à 73 % de son historique de navigation. . Ils ont montré que - pour riff sur le célèbre New Yorker dessin animé — sur Internet, les sites Web savent maintenant que vous êtes un chien.

Ces dernières années, Narayanan s'est tourné spécifiquement vers machine learning — une application de l'intelligence artificielle qui donne aux machines la capacité d'apprendre à partir des données. Tout en saluant les progrès de l'IA, il souligne comment de tels systèmes peuvent échouer même avec de bonnes intentions, et comment ces technologies autrement utiles peuvent devenir des outils pour justifier la discrimination. Dans cette optique, les points apparemment non connectés qui ont défini la trajectoire de recherche de Narayanan forment une sorte de constellation.

Quanta a parlé avec Narayanan de son travail sur la désanonymisation, de l'importance de l'intuition statistique et des nombreux pièges des systèmes d'IA. L'interview a été condensée et modifiée pour plus de clarté.

Introduction

Avez-vous toujours voulu faire de la recherche en mathématiques et en sciences?

J'ai grandi très intéressé par les deux, mais principalement par les mathématiques. J'étais doué pour résoudre des énigmes et j'ai même eu du succès à l'Olympiade mathématique internationale. Mais j'avais une énorme idée fausse sur la différence entre la résolution d'énigmes et les mathématiques de recherche.

Et si tôt, j'ai concentré mes recherches sur la cryptographie, en particulier la cryptographie théorique, car je travaillais encore dans l'illusion que j'étais très bon en mathématiques. Et puis le reste de ma carrière a été un voyage pour réaliser que ce n'est en fait pas du tout ma force.

Cela a dû servir de bon arrière-plan pour votre travail de désanonymisation.

Tu as raison. Ce qui a permis la recherche de désanonymisation est la compétence que j'appelle l'intuition statistique. Ce n'est pas vraiment une connaissance mathématique formelle. C'est être capable d'avoir une intuition dans votre tête comme : « Si je prends cet ensemble de données complexe et que je lui applique cette transformation, quel est le résultat plausible ? »

L'intuition peut souvent se tromper, et ce n'est pas grave. Mais il est important d'avoir de l'intuition car elle peut vous guider vers des chemins qui pourraient être fructueux.

Introduction

Comment l'intuition statistique vous a-t-elle aidé dans votre travail sur les données de Netflix ?

J'avais essayé de concevoir un schéma d'anonymisation pour les données de grande dimension. Cela a complètement échoué, mais dans le processus d'échec, j'avais développé l'intuition que les données de grande dimension ne peuvent pas être efficacement anonymisées. Bien sûr, Netflix, avec ses concurrents, a affirmé avoir fait exactement cela.

J'avais mon scepticisme naturel à l'égard des déclarations marketing des entreprises, j'étais donc motivé pour leur prouver le contraire. Mon conseiller, Vitaly Shmatikov, et moi y avons travaillé pendant quelques semaines intenses. Une fois que nous avons réalisé que le travail avait vraiment un impact, j'ai commencé à en faire plus.

Quel a été l'impact global ? Avez-vous eu des nouvelles de Netflix et d'autres sociétés dont les données se sont révélées moins anonymes ?

Eh bien, un impact positif est qu'il a stimulé la science de confidentialité différentielle. Mais en termes de réaction des entreprises, il y a eu quelques réactions différentes. Dans de nombreux cas, les entreprises qui auraient autrement publié des ensembles de données au public ne le font plus maintenant – elles militarisent la confidentialité comme moyen de lutter contre les efforts de transparence.

Facebook est connu pour cela. Lorsque les chercheurs se rendent sur Facebook et disent : « Nous avons besoin d'accéder à certaines de ces données pour étudier comment l'information se propage sur la plateforme », Facebook peut désormais dire : « Non, nous ne pouvons pas vous donner cela. Cela compromettra la vie privée de nos utilisateurs.

Vous avez écrit une fois un papier arguant que le terme « informations personnellement identifiables » peut être trompeur. Comment?

Je pense qu'il existe une confusion parmi les décideurs en raison de deux manières différentes d'utiliser le terme. L'une concerne les informations vous concernant qui sont très sensibles, comme votre numéro de sécurité sociale. Une autre signification est l'information qui peut être indexée dans certains ensembles de données et ainsi utilisée pour trouver plus d'informations sur vous.

Ces deux ont des significations différentes. Je n'ai pas de boeuf avec le concept de PII dans le premier sens. Certaines informations sur les personnes sont très sensibles et nous devrions les traiter avec plus de soin. Mais bien que votre adresse e-mail ne soit pas nécessairement très sensible pour la plupart des gens, il s'agit toujours d'un identifiant unique qui peut être utilisé pour vous trouver dans d'autres ensembles de données. Tant que la combinaison d'attributs d'une personne est disponible pour n'importe qui d'autre dans le monde, c'est tout ce dont vous avez besoin pour la désanonymisation.

Introduction

Comment en êtes-vous arrivé à étudier l'équité?

J'ai enseigné un cours d'équité et d'apprentissage automatique en 2017. Cela m'a donné une bonne idée des problèmes ouverts sur le terrain. Et parallèlement à cela, j'ai donné une conférence intitulée "21 Définitions de l'équité et leur politique.” J'ai expliqué que la prolifération des définitions techniques n'était pas due à des raisons techniques, mais parce qu'il y a de véritables questions morales au cœur de tout cela. Il est impossible d'avoir un seul critère statistique qui capture tous les desiderata normatifs - toutes les choses que vous voulez. La conférence a été bien accueillie, alors ces deux-là m'ont convaincu que je devrais commencer à aborder ce sujet.

Toi aussi a donné une conférence sur la détection de l'huile de serpent AI, qui a également été bien accueillie. Quel est le lien avec l'équité dans l'apprentissage automatique ?

Donc, la motivation pour cela était qu'il y avait clairement beaucoup de véritables innovations techniques dans l'IA, comme le programme de conversion de texte en image DALLE E 2 ou le programme d'échecs AlphaZero. C'est vraiment incroyable que ces progrès aient été si rapides. Une grande partie de cette innovation mérite d'être célébrée.

Le problème survient lorsque nous utilisons ce terme générique « IA » très vague et large pour des choses comme ça ainsi que des applications plus lourdes, telles que les méthodes statistiques pour la prédiction du risque criminel. Dans ce contexte, le type de technologie impliqué est très différent. Ce sont deux types d'applications très différents, et les avantages et inconvénients potentiels sont également très différents. Il n'y a presque aucun lien entre eux, donc utiliser le même terme pour les deux est très déroutant.

Les gens sont induits en erreur en pensant que tous ces progrès qu'ils voient avec la génération d'images se traduiraient en fait par des progrès vers des tâches sociales comme prédire le risque criminel ou prédire quels enfants vont abandonner l'école. Mais ce n'est pas du tout le cas. Tout d'abord, nous ne pouvons faire que légèrement mieux que le hasard pour prédire qui pourrait être arrêté pour un crime. Et cette précision est obtenue avec des classificateurs vraiment simples. Cela ne s'améliore pas avec le temps, et cela ne s'améliore pas à mesure que nous collectons davantage d'ensembles de données. Toutes ces observations contrastent donc avec l'utilisation de l'apprentissage en profondeur pour la génération d'images, par exemple.

Comment distingueriez-vous différents types de problèmes d'apprentissage automatique ?

Cette liste n'est pas exhaustive, mais il existe trois catégories communes. La première catégorie est la perception, qui comprend des tâches telles que la description du contenu d'une image. La deuxième catégorie est ce que j'appelle "l'automatisation du jugement", comme lorsque Facebook veut utiliser des algorithmes pour déterminer quel discours est trop toxique pour rester sur la plate-forme. Et le troisième est de prédire les résultats sociaux futurs parmi les gens - si quelqu'un serait arrêté pour un crime ou si un enfant allait abandonner l'école.

Dans les trois cas, les précisions réalisables sont très différentes, les dangers potentiels d'une IA inexacte sont très différents et les implications éthiques qui en découlent sont très différentes.

Par exemple, la reconnaissance faciale, dans ma classification, est un problème de perception. Beaucoup de gens disent que la reconnaissance faciale est inexacte, et parfois ils ont raison. Mais je ne pense pas que ce soit parce qu'il y a des limites fondamentales à la précision de la reconnaissance faciale. Cette technologie s'est améliorée, et elle va s'améliorer. C'est précisément pourquoi nous devrions nous en préoccuper d'un point de vue éthique – lorsque vous le mettez entre les mains de la police, qui pourrait être irresponsable, ou des États qui ne sont pas transparents quant à son utilisation.

Introduction

Qu'est-ce qui rend les problèmes de prédiction sociale beaucoup plus difficiles que les problèmes de perception ?

Les problèmes de perception ont quelques caractéristiques. Premièrement, il n'y a aucune ambiguïté quant à savoir s'il y a un chat dans une image. Vous avez donc la vérité de terrain. Deuxièmement, vous disposez de données d'entraînement pratiquement illimitées, car vous pouvez utiliser toutes les images sur le Web. Et si vous êtes Google ou Facebook, vous pouvez utiliser toutes les images que les gens ont téléchargées sur votre application. Ainsi, ces deux facteurs - le manque d'ambiguïté et la disponibilité des données - permettent aux classificateurs de très bien fonctionner.

C'est différent des problèmes de prédiction, qui n'ont pas ces deux caractéristiques. Il y a une troisième différence que je devrais mentionner, qui dans un certain sens est la plus importante : les conséquences morales de la mise en œuvre de ces modèles de prédiction sont très différentes de l'utilisation d'un outil de traduction de langue sur votre téléphone ou d'un outil d'étiquetage d'image.

Mais ce n'est pas le même sérieux que l'outil utilisé pour déterminer si quelqu'un devrait être, par exemple, détenu avant le procès. Celles-ci ont des conséquences sur la liberté des personnes. L'ironie est donc que le domaine où l'IA fonctionne le moins bien, ne s'est pas vraiment amélioré au fil du temps et ne s'améliorera probablement pas à l'avenir est le domaine qui a toutes ces conséquences incroyablement importantes.

Une grande partie de votre travail a nécessité de parler à des experts en dehors de votre domaine. Qu'est-ce que ça fait de collaborer avec d'autres comme ça ?

Les collaborations interdisciplinaires ont été parmi les collaborations les plus agréables. Je pense qu'une telle collaboration aura ses moments de frustration parce que les gens ne parlent pas la même langue.

Ma prescription pour cela est la suivante : la culture, puis la langue, puis la substance. Si vous ne comprenez pas leur culture - comme le type de bourses d'études qu'ils apprécient - ça va être vraiment difficile. Ce qui est précieux pour une personne peut sembler hors de propos pour une autre. Les aspects culturels doivent donc être abordés en premier. Ensuite, vous pouvez commencer à établir un langage et un vocabulaire communs et enfin aborder le fond de la collaboration.

Dans quelle mesure êtes-vous optimiste quant à la possibilité d'adopter une nouvelle technologie en toute sécurité et avec sagesse ?

Une partie du problème est un manque de connaissances. Les décideurs, les agences gouvernementales, les entreprises et les autres personnes qui achètent ces outils d'IA pourraient ne pas reconnaître les limites sérieuses de la précision prédictive.

Mais finalement, je pense que c'est un problème politique. Certaines personnes veulent réduire les coûts, elles veulent donc un outil automatisé, qui élimine des emplois. Il y a donc une très forte pression pour croire tout ce que ces fournisseurs disent de leurs outils prédictifs.

Ce sont deux problèmes différents. Des gens comme moi peuvent peut-être aider à combler le manque d'information. Mais pour résoudre le problème politique, il faut de l'activisme. Cela nous oblige à profiter du processus démocratique. C'est bien de voir qu'il y a beaucoup de monde qui fait ça. Et à long terme, je pense que nous pouvons repousser les applications nuisibles et abusives de l'IA. Je ne pense pas que cela va changer en un instant, mais à travers un processus d'activisme long, prolongé et prolongé qui dure déjà depuis une décennie ou plus. Je suis sûr que ça va continuer longtemps.

Horodatage:

Plus de Quantamamagazine