Que signifie aligner l’IA sur les valeurs humaines ? Intelligence des données PlatoBlockchain. Recherche verticale. Aï.

Que signifie aligner l'IA sur les valeurs humaines ?

Introduction

Il y a de nombreuses années, j'ai appris à programmer sur une vieille machine Symbolics Lisp. Le système d'exploitation avait une commande intégrée orthographiée "DWIM", abréviation de "Do What I Mean". Si je tapais une commande et que j'obtenais une erreur, je pouvais taper "DWIM" et la machine essaierait de comprendre ce que je voulais faire. Une fraction du temps surprenante, cela a réellement fonctionné.

La commande DWIM était un microcosme du problème plus moderne de "l'alignement de l'IA": nous, les humains, sommes enclins à donner aux machines des instructions ambiguës ou erronées, et nous voulons qu'elles fassent ce que nous voulons dire, pas nécessairement ce que nous disons.

Les ordinateurs interprètent souvent mal ce que nous voulons qu'ils fassent, avec des résultats inattendus et souvent amusants. Un chercheur en apprentissage automatique, par exemple, alors qu'il enquêtait sur les résultats suspects d'un programme de classification d'images, découvert qu'il ne basait pas les classifications sur l'image elle-même, mais sur le temps qu'il fallait pour accéder au fichier image - les images de différentes classes étaient stockées dans des bases de données avec des temps d'accès légèrement différents. Une autre programmeur entreprenant voulait que son aspirateur Roomba arrête de heurter les meubles, il a donc connecté le Roomba à un réseau neuronal qui récompensait la vitesse mais punissait le Roomba lorsque le pare-chocs avant heurtait quelque chose. La machine a répondu à ces objectifs en roulant toujours en arrière.

Mais la communauté des chercheurs en alignement de l'IA voit un côté plus sombre à ces anecdotes. En fait, ils pensent que l'incapacité des machines à discerner ce que nous voulons vraiment qu'elles fassent est un risque existentiel. Pour résoudre ce problème, pensent-ils, nous devons trouver des moyens d'aligner les systèmes d'IA sur les préférences, les objectifs et les valeurs humaines.

Ce point de vue a pris de l'importance avec le livre à succès de 2014 Superintelligence par le philosophe Nick Bostrom, qui soutenait en partie que l'intelligence croissante des ordinateurs pourrait constituer une menace directe pour l'avenir de l'humanité. Bostrom n'a jamais défini précisément l'intelligence, mais, comme la plupart des autres membres de la communauté de l'alignement de l'IA, il a adopté une définition plus tard. articulé par le chercheur en IA Stuart Russell comme suit : "Une entité est considérée comme intelligente, grosso modo, si elle choisit des actions qui sont censées atteindre ses objectifs, compte tenu de ce qu'elle a perçu."

Bostrom a fondé sa vision des risques de l'IA sur deux thèses. La première est la thèse de l'orthogonalité, qui énonce, selon les termes de Bostrom, « l'intelligence et les buts finaux sont des axes orthogonaux le long desquels les agents possibles peuvent librement varier. En d'autres termes, plus ou moins n'importe quel niveau d'intelligence pourrait en principe être combiné avec plus ou moins n'importe quel objectif final. La seconde est la thèse de la convergence instrumentale, qui implique qu'un agent intelligent agira de manière à promouvoir sa propre survie, son auto-amélioration et l'acquisition de ressources, tant que cela rend l'agent plus susceptible d'atteindre son objectif final. Puis il a émis une dernière hypothèse : les chercheurs créeraient bientôt une superintelligence artificielle, qui "dépasse largement les performances cognitives des humains dans pratiquement tous les domaines d'intérêt".

Pour Bostrom et d'autres membres de la communauté d'alignement de l'IA, cette perspective est catastrophique pour l'humanité à moins que nous ne parvenions à aligner les IA super intelligentes sur nos désirs et nos valeurs. Bostrom illustre ce danger avec une expérience de pensée désormais célèbre : Imaginez que vous donniez à une IA super intelligente l'objectif de maximiser la production de trombones. Selon les thèses de Bostrom, dans la quête pour atteindre cet objectif, le système d'IA utilisera son génie et sa créativité surhumains pour augmenter son propre pouvoir et son contrôle, acquérant finalement toutes les ressources du monde pour fabriquer plus de trombones. L'humanité s'éteindra, mais la production de trombones sera bel et bien maximisée.

Si vous croyez que l'intelligence est définie par la capacité d'atteindre des objectifs, que n'importe quel objectif pourrait être "inséré" par des humains dans un agent d'IA superintelligent, et qu'un tel agent utiliserait sa superintelligence pour faire n'importe quoi pour atteindre cet objectif, alors vous arriver au même conclusion que Russell a fait: "Tout ce qui est nécessaire pour assurer la catastrophe est une machine hautement compétente combinée à des humains qui ont une capacité imparfaite à spécifier complètement et correctement les préférences humaines."

C'est un trope familier dans la science-fiction - l'humanité est menacée par des machines incontrôlables qui ont mal interprété les désirs humains. Aujourd'hui, un segment non négligeable de la communauté des chercheurs en IA est profondément préoccupé par ce type de scénario qui se déroule dans la vie réelle. Des dizaines d'instituts ont déjà dépensé des centaines de millions de dollars sur le problème, et des efforts de recherche sur l'alignement sont en cours dans des universités du monde entier et dans de grandes sociétés d'IA telles que Google, Meta et OpenAI.

Qu'en est-il des risques plus immédiats posés par l'IA non super intelligente, tels que la perte d'emploi, les préjugés, les violations de la vie privée et la propagation de la désinformation ? Il s'avère qu'il y a peu de chevauchement entre les communautés concernées principalement par ces risques à court terme et celles qui s'inquiètent davantage des risques d'alignement à plus long terme. En fait, il y a quelque chose comme une guerre de la culture de l'IA, avec une partie plus préoccupée par ces risques actuels que ce qu'elle considère comme un techno-futurisme irréaliste, et l'autre partie considérant les problèmes actuels moins urgents que les risques catastrophiques potentiels posés par l'IA superintelligente.

Pour beaucoup en dehors de ces communautés spécifiques, l'alignement de l'IA ressemble à une religion - une avec des dirigeants vénérés, une doctrine incontestée et des disciples dévoués combattant un ennemi potentiellement tout-puissant (IA superintelligente non alignée). En effet, l'informaticien et blogueur Scott Aaronson a récemment noté qu'il existe maintenant des branches "orthodoxes" et "réformées" de la foi d'alignement de l'IA. Le premier, écrit-il, s'inquiète presque entièrement de "l'IA mal alignée qui trompe les humains alors qu'elle travaille à les détruire". En revanche, écrit-il, "nous, les réformistes qui risquons de l'IA, envisageons cette possibilité, mais nous nous inquiétons au moins autant des IA puissantes qui sont militarisées par de mauvais humains, dont nous nous attendons à poser des risques existentiels beaucoup plus tôt".

De nombreux chercheurs sont activement engagés dans des projets basés sur l'alignement, allant de tentatives de transmettre des principes de la philosophie morale aux machines, aux formation de grands modèles de langage sur les jugements éthiques externalisés. Aucun de ces efforts n'a été particulièrement utile pour amener les machines à raisonner sur des situations réelles. De nombreux auteurs ont noté les nombreux obstacles qui empêchent les machines d'apprendre les préférences et les valeurs humaines : les gens sont souvent irrationnels et se comportent d'une manière qui contredit leurs valeurs, et les valeurs peuvent changer au cours des vies individuelles et des générations. Après tout, il n'est pas clair quelles valeurs les machines devraient essayer d'apprendre.

De nombreux membres de la communauté de l'alignement pensent que la voie la plus prometteuse est une technique d'apprentissage automatique connue sous le nom de apprentissage par renforcement inverse (IRL). Avec IRL, la machine n'a pas d'objectif à maximiser ; Selon les partisans de l'alignement, de tels objectifs «insérés» peuvent conduire par inadvertance à des scénarios de maximisation de trombones. Au lieu de cela, la tâche de la machine est d'observer le comportement des humains et d'en déduire leurs préférences, leurs objectifs et leurs valeurs. Ces dernières années, les chercheurs ont utilisé l'IRL pour former des machines à jouer à des jeux vidéo en observant les humains et en apprenant aux robots comment faire des backflips en leur donnant des commentaires supplémentaires de la part des humains (les gens ont visionné de courts extraits des différentes tentatives d'un robot et ont choisi celui qui semblait le mieux).

Il n'est pas clair si des méthodes similaires peuvent enseigner aux machines les idées les plus subtiles et abstraites des valeurs humaines. L'écrivain Brian Christian, auteur d'un livre de vulgarisation scientifique sur l'alignement de l'IA, est optimiste : « Il n'est pas exagéré d'imaginer remplacer le concept nébuleux de 'backflip' par un concept encore plus nébuleux et ineffable, comme 'servabilité'. Ou "gentillesse". Ou un « bon » comportement. »

Cependant, je pense que cela sous-estime le défi. Les notions éthiques telles que la gentillesse et le bon comportement sont beaucoup plus complexes et dépendantes du contexte que tout ce que l'IRL a maîtrisé jusqu'à présent. Considérez la notion de "véracité" - une valeur que nous voulons sûrement dans nos systèmes d'IA. En effet, un problème majeur avec les grands modèles de langage d'aujourd'hui est leur incapacité à distinguer le vrai du faux. Dans le même temps, nous pouvons parfois vouloir que nos assistants IA, tout comme les humains, tempèrent leur véracité : pour protéger la vie privée, pour éviter d'insulter les autres ou pour assurer la sécurité de quelqu'un, parmi d'innombrables autres situations difficiles à articuler.

D'autres concepts éthiques sont tout aussi complexes. Il devrait être clair qu'une première étape essentielle vers l'enseignement des concepts éthiques aux machines est de permettre aux machines de saisir les concepts humains en premier lieu, ce que j'ai soutenu est toujours l'IA problème ouvert le plus important.

De plus, je vois un problème encore plus fondamental avec la science sous-jacente aux notions d'alignement de l'IA. La plupart des discussions imaginent une IA superintelligente comme une machine qui, tout en surpassant les humains dans toutes les tâches cognitives, manque toujours de bon sens humain et reste étrangement de nature mécanique. Et surtout, conformément à la thèse d'orthogonalité de Bostrom, la machine a atteint la superintelligence sans avoir aucun de ses propres objectifs ou valeurs, attendant plutôt que des objectifs soient insérés par les humains.

Pourtant, l'intelligence pourrait-elle fonctionner de cette façon ? Rien dans la science actuelle de la psychologie ou des neurosciences ne soutient cette possibilité. Chez les humains, au moins, l'intelligence est profondément liée à nos objectifs et à nos valeurs, ainsi qu'à notre sens de soi et à notre environnement social et culturel particulier. L'intuition qu'une sorte d'intelligence pure pouvait être séparée de ces autres facteurs a conduit à beaucoup de prédictions ratées dans l'histoire de l'IA. D'après ce que nous savons, il semble beaucoup plus probable que les objectifs d'un système d'IA généralement intelligent ne pourraient pas être facilement insérés, mais devraient se développer, comme les nôtres, en raison de sa propre éducation sociale et culturelle.

Dans son livre Compatible humain, Russell plaide pour l'urgence de la recherche sur le problème d'alignement : « Le bon moment pour s'inquiéter d'un problème potentiellement grave pour l'humanité ne dépend pas seulement du moment où le problème se produira, mais aussi du temps qu'il faudra pour préparer et mettre en œuvre une solution. ” Mais sans une meilleure compréhension de ce qu'est l'intelligence et à quel point elle est séparable des autres aspects de notre vie, nous ne pouvons même pas définir le problème, et encore moins trouver une solution. Définir et résoudre correctement le problème d'alignement ne sera pas facile ; cela nous obligera à développer une théorie de l'intelligence large et scientifiquement fondée.

Horodatage:

Plus de Quantamamagazine