Comment les transformateurs semblent imiter certaines parties du cerveau PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Comment les transformateurs semblent imiter des parties du cerveau

Comprendre comment le cerveau organise et accède aux informations spatiales - où nous sommes, ce qui se trouve au coin de la rue, comment s'y rendre - reste un défi exquis. Le processus consiste à rappeler tout un réseau de souvenirs et de données spatiales stockées à partir de dizaines de milliards de neurones, chacun connecté à des milliers d'autres. Les neuroscientifiques ont identifié des éléments clés tels que cellules de la grille, les neurones qui cartographient les emplacements. Mais aller plus loin s'avérera délicat : ce n'est pas comme si les chercheurs pouvaient prélever et étudier des tranches de matière grise humaine pour observer comment les souvenirs géolocalisés d'images, de sons et d'odeurs se traversent et se connectent les uns aux autres.

L'intelligence artificielle offre une autre voie. Pendant des années, les neuroscientifiques ont exploité de nombreux types de réseaux de neurones - les moteurs qui alimentent la plupart des applications d'apprentissage en profondeur - pour modéliser le déclenchement des neurones dans le cerveau. Dans des travaux récents, des chercheurs ont montré que l'hippocampe, une structure du cerveau essentielle à la mémoire, est essentiellement un type particulier de réseau neuronal, connu sous le nom de transformateur, déguisé. Leur nouveau modèle suit les informations spatiales d'une manière parallèle au fonctionnement interne du cerveau. Ils ont connu un succès remarquable.

"Le fait que nous sachions que ces modèles du cerveau sont équivalents au transformateur signifie que nos modèles fonctionnent beaucoup mieux et sont plus faciles à former", a déclaré James Whitton, un neuroscientifique cognitif qui partage son temps entre l'université de Stanford et le laboratoire de Tim Behren à l'Université d'Oxford.

Des études menées par Whittington et d'autres suggèrent que les transformateurs peuvent grandement améliorer la capacité des modèles de réseaux neuronaux à imiter les types de calculs effectués par les cellules de la grille et d'autres parties du cerveau. De tels modèles pourraient approfondir notre compréhension du fonctionnement des réseaux de neurones artificiels et, plus probablement, de la manière dont les calculs sont effectués dans le cerveau, a déclaré Whittington.

"Nous n'essayons pas de recréer le cerveau", a déclaré David Ha, informaticien chez Google Brain qui travaille également sur des modèles de transformateurs. « Mais pouvons-nous créer un mécanisme capable de faire ce que fait le cerveau ?

Les transformateurs sont apparus pour la première fois il y a cinq ans comme une nouvelle façon pour l'IA de traiter le langage. Ils sont la sauce secrète de ces programmes de complétion de phrases qui font la une des journaux comme BERT et GPT-3, qui peut générer des paroles de chansons convaincantes, composer des sonnets shakespeariens et se faire passer pour des représentants du service client.

Les transformateurs fonctionnent à l'aide d'un mécanisme appelé auto-attention, dans lequel chaque entrée - un mot, un pixel, un nombre dans une séquence - est toujours connectée à toutes les autres entrées. (D'autres réseaux de neurones ne connectent les entrées qu'à certaines autres entrées.) Mais alors que les transformateurs ont été conçus pour des tâches linguistiques, ils ont depuis excellé dans d'autres tâches telles que la classification des images - et maintenant, la modélisation du cerveau.

En 2020, un groupe dirigé par Sepp Hochreiter, un informaticien de l'Université Johannes Kepler de Linz en Autriche, a utilisé un transformateur pour rééquiper un puissant modèle de récupération de mémoire appelé réseau Hopfield. Introduits pour la première fois il y a 40 ans par le physicien de Princeton John Hopfield, ces réseaux suivent une règle générale : les neurones qui sont actifs en même temps établissent des liens solides les uns avec les autres.

Hochreiter et ses collaborateurs, notant que les chercheurs recherchaient de meilleurs modèles de récupération de la mémoire, ont vu un lien entre la façon dont les réseaux Hopfield récupèrent les souvenirs et la façon dont les transformateurs effectuent l'attention. Ils ont mis à niveau le réseau Hopfield, le transformant essentiellement en transformateur. Ce changement a permis au modèle de stocker et de récupérer plus de souvenirs grâce à des connexions plus efficaces, a déclaré Whittington. Hopfield lui-même, avec Dmitry Krotov du MIT-IBM Watson AI Lab, a prouvé qu'un réseau Hopfield basé sur un transformateur était biologiquement plausible.

Puis, plus tôt cette année, Whittington et Behrens ont contribué à peaufiner davantage l'approche de Hochreiter, en modifiant le transformateur de sorte qu'au lieu de traiter les souvenirs comme une séquence linéaire - comme une chaîne de mots dans une phrase - il les encode sous forme de coordonnées dans des espaces de dimension supérieure. Cette « torsion », comme les chercheurs l'ont appelée, a encore amélioré les performances du modèle sur les tâches de neurosciences. Ils ont également montré que le modèle était mathématiquement équivalent aux modèles des schémas de déclenchement des cellules de la grille que les neuroscientifiques voient dans les scans IRMf.

"Les cellules de la grille ont ce genre de structure passionnante, belle et régulière, et avec des motifs frappants qui ne sont pas susceptibles d'apparaître au hasard", a déclaré Caswell Barry, neuroscientifique à l'University College de Londres. Les nouveaux travaux ont montré comment les transformateurs reproduisent exactement les modèles observés dans l'hippocampe. "Ils ont reconnu qu'un transformateur peut déterminer où il est basé sur les états précédents et comment il est déplacé, et d'une manière qui est calée sur les modèles traditionnels de cellules de grille."

D'autres travaux récents suggèrent que les transformateurs pourraient également faire progresser notre compréhension d'autres fonctions cérébrales. L'année dernière, Martin Schrimpf, neuroscientifique informatique au Massachusetts Institute of Technology, analysé 43 modèles différents de réseaux neuronaux pour voir dans quelle mesure ils ont prédit les mesures de l'activité neuronale humaine telles que rapportées par l'IRMf et l'électrocorticographie. Les transformateurs, a-t-il découvert, sont les principaux réseaux de neurones à la pointe de la technologie, prédisant presque toutes les variations trouvées dans l'imagerie.

Et Ha, avec un collègue informaticien Yu Jin Tang, a récemment conçu un modèle capable d'envoyer intentionnellement de grandes quantités de données via un transformateur de manière aléatoire et non ordonnée, imitant la façon dont le corps humain transmet les observations sensorielles au cerveau. Leur transformateur, comme notre cerveau, pourrait gérer avec succès un flux désordonné d'informations.

"Les réseaux de neurones sont câblés pour accepter une entrée particulière", a déclaré Tang. Mais dans la vraie vie, les ensembles de données changent souvent rapidement et la plupart des IA n'ont aucun moyen de s'adapter. "Nous voulions expérimenter une architecture capable de s'adapter très rapidement."

Malgré ces signes de progrès, Behrens considère les transformateurs comme une étape vers un modèle précis du cerveau, et non comme la fin de la quête. "Je dois être un neuroscientifique sceptique ici," dit-il. "Je ne pense pas que les transformateurs finiront par être la façon dont nous pensons au langage dans le cerveau, par exemple, même s'ils ont le meilleur modèle actuel de phrases."

« Est-ce la base la plus efficace pour faire des prédictions sur où je suis et ce que je verrai ensuite ? Si je suis honnête, il est trop tôt pour le dire », a déclaré Barry.

Schrimpf a également noté que même les transformateurs les plus performants sont limités, fonctionnant bien pour les mots et les phrases courtes, par exemple, mais pas pour les tâches linguistiques à plus grande échelle comme raconter des histoires.

"Mon sentiment est que cette architecture, ce transformateur, vous place dans le bon espace pour comprendre la structure du cerveau, et peut être amélioré avec une formation", a déclaré Schrimpf. "C'est une bonne direction, mais le domaine est super complexe."

Horodatage:

Plus de Quantamamagazine