Les agents d'IA dotés de "mois multiples" apprennent à s'adapter rapidement dans un monde en mutation

Les agents d'IA dotés de "mois multiples" apprennent à s'adapter rapidement dans un monde en mutation

Les agents IA dotés de « mois multiples » apprennent à s'adapter rapidement dans un monde en évolution PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Chaque jour, nous jonglons avec différents besoins. j'ai faim mais je suis épuisé; dois-je m'effondrer sur le canapé ou préparer le dîner ? J'ai trop chaud à des températures dangereuses mais j'ai aussi extrêmement soif ; Dois-je boire l'eau tiède qui chauffe sous le soleil ou mettre ma tête dans le congélateur jusqu'à ce que j'aie la capacité mentale de faire de la glace ?

Face à des dilemmes, nous suivons souvent nos instincts de base sans réfléchir. Mais sous le capot, plusieurs réseaux de neurones se font concurrence pour prendre la « meilleure » décision à tout moment. Dormez sur la nourriture. Congélateur sur eau tiède. Ce sont peut-être des décisions terribles avec le recul, mais la prochaine fois, nous apprendrons de nos erreurs passées.

Notre capacité d'adaptation à un monde en constante évolution est une superpuissance qui échappe actuellement à la plupart des agents de l'IA. Même les agents d'IA les plus sophistiqués tombent en panne (ou nécessitent un temps de calcul intenable) lorsqu'ils jonglent avec des objectifs contradictoires.

Pour une équipe dirigée par le Dr Jonathan Cohen du Princeton Neuroscience Institute, la raison est simple : les systèmes d'apprentissage automatique agissent généralement comme une seule entité, obligée d'évaluer, de calculer et d'exécuter un objectif à la fois. Bien que capable d'apprendre de ses erreurs, l'IA a du mal à trouver le bon équilibre lorsqu'elle est confrontée à plusieurs objectifs opposés simultanément.

Alors pourquoi ne pas briser l'IA ?

In une nouvelle étude publié dans PNAS, l'équipe s'est inspirée des neurosciences cognitives et a construit un agent d'IA modulaire.

L'idée est apparemment simple. Plutôt qu'une IA monolithique - un réseau unique qui englobe tout le "moi" - l'équipe a construit un agent modulaire, chaque partie ayant sa propre "motivation" et ses propres objectifs, mais commandant un seul "corps". Comme une société démocratique, le système d'IA se dispute en lui-même pour décider de la meilleure réponse, où l'action la plus susceptible de produire le plus grand résultat gagnant guide sa prochaine étape.

Dans plusieurs simulations, l'IA modulaire a surpassé son homologue monolithique classique. Son adaptabilité a particulièrement brillé lorsque les chercheurs ont augmenté artificiellement le nombre d'objectifs qu'il devait maintenir simultanément. L'IA Lego-esque s'est rapidement adaptée, tandis que son homologue monolithique a eu du mal à rattraper son retard.

"L'une des questions les plus fondamentales sur l'agence est de savoir comment un individu gère des besoins conflictuels", a déclaré l'équipe. En déconstruisant un agent d'IA, la recherche ne se contente pas de fournir un aperçu des agents d'apprentissage automatique plus intelligents. Cela « ouvre également la voie à la compréhension des conflits psychologiques inhérents à la psyché humaine », écrit Dr Rober Boshra de l'Université de Princeton, qui n'a pas participé aux travaux.

Le jeu vidéo de la vie

Comment les êtres intelligents apprennent-ils à équilibrer des besoins conflictuels dans un monde complexe et changeant ?

La question philosophique a hanté plusieurs domaines - neurosciences, psychologie, économie - qui plongent dans la nature humaine. Nous n'avons pas encore de réponses claires. Mais avec l'IA confrontée à des défis de plus en plus similaires à mesure qu'elle entre dans le monde réel, il est temps de s'attaquer de front à ce problème séculaire.

La nouvelle étude a relevé le défi sous la forme d'un simple RPG (jeu de rôle). Il y a deux personnages qui naviguent dans un monde en forme de grille, chacun essayant de trouver des ressources pour survivre.

Le premier candidat : l'agent monolithique - autrement connu sous le nom de "moi" - formé à l'aide du deep-Q-learning (DQL). Popularisé par DeepMind, l'algorithme est particulièrement puissant pour déterminer la prochaine étape optimale en fonction de son état actuel. Par exemple, comme dans un jeu vidéo, dois-je aller à gauche ou à droite ? Déplacez quelle pièce d'échecs ou de Go, et vers où ? Ici, l'algorithme étudie l'ensemble de l'environnement tout en suivant un seul signal de récompense, c'est-à-dire son objectif final. En un sens, l'agent monolithique est un cerveau unifié qui essaie de maximiser le meilleur résultat après avoir traité simultanément toutes les ressources en tandem.

L'adversaire : l'IA modulaire. Comme une pieuvre aux membres semi-autonomes, l'agent IA est décomposé en sous-agents, chacun avec ses propres objectifs et retours d'expérience. Pour en faire un combat équitable, chaque module est également formé avec DQL. Les « cerveaux » séparés observent leur environnement et apprennent à sélectionner la meilleure option, mais uniquement adaptée à leurs propres objectifs. Les résultats prévus sont ensuite additionnés. La solution avec le résultat optimal potentiel est ensuite sélectionnée, pilotant l'agent d'IA vers son prochain choix.

Et le terrain de jeu ?

Le jeu est une version extrêmement simplifiée d'un jeu de survie. Chaque agent IA se déplace autour d'une grille bidimensionnelle qui contient différents types de ressources cachées dans certaines régions. L'objectif est de maintenir les quatre statistiques de l'agent à leur niveau défini, chacune diminuant progressivement au fil du temps. Lorsque plusieurs statistiques chutent, c'est à l'IA de décider laquelle donner la priorité.

Pour les joueurs vidéo, considérez le test comme étant jeté dans une nouvelle carte de jeu et essayant de trouver des ressources pour améliorer, par exemple, la santé, la magie, l'endurance et la puissance d'attaque. Pour notre vie quotidienne, il s'agit d'équilibrer la faim, la température, le sommeil et d'autres besoins physiologiques de base.

"Par exemple, si l'agent avait une faible statistique 'faim', il pourrait collecter la ressource 'nourriture' en se déplaçant à l'emplacement de cette ressource", a expliqué l'équipe.

Forêt pour les arbres

Le premier test a commencé avec un environnement relativement simple. L'emplacement de chaque objectif de ressources a été fixé au coin de l'arène de jeu. L'agent monolithique a facilement maintenu ses quatre statistiques après 30,000 5,000 étapes d'entraînement, bien qu'il ait traversé une période de dépassement et de sous-dépassement jusqu'à ce qu'il atteigne les objectifs ciblés. En revanche, l'agent modulaire apprenait beaucoup plus vite. En XNUMX XNUMX étapes d'apprentissage, l'agent avait déjà acquis une compréhension de « l'état du monde ».

Une partie des prouesses de l'IA modulaire provient d'un sens intrinsèque de l'exploration libre, ont déclaré les auteurs. Contrairement aux méthodes précédentes pour les systèmes modulaires qui divisent pour régner pour atteindre un objectif final, l'IA représente ici une relation sociale plus holistique, dans laquelle certains modules gagnent et d'autres perdent à travers un état constant de compétition interne.

Parce que le « corps » de l'agent IA n'est guidé que par le module gagnant, les perdants doivent accepter une décision avec laquelle ils n'étaient pas d'accord et sont contraints à une nouvelle réalité. Ils doivent alors s'adapter rapidement et recalculer la meilleure solution pour l'étape suivante. Autrement dit, les modules se retrouvent souvent en dehors de leur zone de confort. C'est un amour difficile, mais les résultats inattendus les forcent à réfléchir à de nouvelles solutions, donnant parfois de meilleurs résultats qu'ils n'auraient pas envisagés s'ils s'attaquaient seuls au problème.

Dans l'ensemble, le système modulaire forme un « cercle vertueux avec l'exploration » pour améliorer encore les actions de l'IA, a déclaré l'auteur de l'étude, Zack Dulberg.

Cette adaptabilité a encore brillé lorsque l'équipe a défié les deux agents d'IA dans des environnements changeants. Dans un test, les positions des objectifs de ressources se sont déplacées vers un emplacement de grille aléatoire à des échelles de temps sporadiques. L'IA modulaire a rapidement capté les changements et s'y est adaptée, tandis que l'agent monolithique a été bien moins performant.

Dans un autre test, l'équipe a augmenté le cadran, obligeant les agents de l'IA à maintenir simultanément huit facteurs au lieu des quatre d'origine. Le test s'est attaqué au problème selon lequel les calculs deviennent de plus en plus improbables en termes de temps et de consommation d'énergie à mesure que le nombre de variables augmente - surnommé la « malédiction de la dimensionnalité ».

L'agent modulaire s'est rapidement adapté pour traquer les ressources afin de maintenir ses objectifs. En revanche, l'agent monolithique a de nouveau lutté, prenant beaucoup plus de temps pour revenir aux niveaux souhaités pour chacune de ses statistiques.

Un contre plusieurs

L'approche modulaire est un autre exemple d'exploitation des neurosciences pour le développement de l'IA, tout en donnant un aperçu du fonctionnement de nos noggins.

Semblable aux travaux précédents, les modules modulaires montrent qu'il est possible qu'un seul agent d'IA apprenne en parallèle des sous-problèmes séparés et plus faciles d'une manière relativement décentralisée en termes de traitement des données. L'ajout d'un modèle avec un système de contrôle hiérarchique pourrait renforcer l'IA, ont déclaré les auteurs, car les deux structures existent dans le monde naturel.

Pour l'instant, chaque module est programmé pour ses propres gains - un multiple de soi. Mais nos objectifs dans la vie sont souvent liés ; par exemple, soulager la soif et lutter contre la chaleur ne sont pas mutuellement exclusifs. L'équipe souligne la nécessité d'intégrer ces croisements - et de savoir s'ils sont hérités ou appris - dans les futurs tests.

Vers Dülberg, l'inconnu fait partie de l'excitation. « Comment se développent les modules ? Quelles caractéristiques de l'environnement de développement exercent une pression sur différentes solutions ? » Il a demandé. "Et les avantages de la modularité expliquent-ils pourquoi le conflit psychologique interne semble si central dans la condition humaine ?"

Crédit image: Anestiev/Pixabay

Horodatage:

Plus de Singularity Hub