L'IA autodidacte présente des similitudes avec le fonctionnement du cerveau PlatoBlockchain Data Intelligence. Recherche verticale. Ai.

L'IA autodidacte présente des similitudes avec le fonctionnement du cerveau

Depuis une décennie maintenant, bon nombre des systèmes d'intelligence artificielle les plus impressionnants ont été enseignés à l'aide d'un vaste inventaire de données étiquetées. Une image peut être étiquetée "chat tigré" ou "chat tigre", par exemple, pour "entraîner" un réseau neuronal artificiel à distinguer correctement un chat tigré d'un tigre. La stratégie a été à la fois spectaculairement réussie et terriblement déficiente.

Une telle formation "supervisée" nécessite des données laborieusement étiquetées par les humains, et les réseaux de neurones prennent souvent des raccourcis, apprenant à associer les étiquettes à des informations minimales et parfois superficielles. Par exemple, un réseau de neurones peut utiliser la présence d'herbe pour reconnaître une photo d'une vache, car les vaches sont généralement photographiées dans les champs.

"Nous élevons une génération d'algorithmes qui ressemblent à des étudiants de premier cycle [qui] ne sont pas venus en classe tout le semestre, puis la veille de la finale, ils bachotent", a déclaré Alexeï Efros, informaticien à l'Université de Californie à Berkeley. "Ils n'apprennent pas vraiment la matière, mais ils réussissent bien le test."

De plus, pour les chercheurs intéressés par l'intersection de l'intelligence animale et de la machine, cet "apprentissage supervisé" pourrait être limité dans ce qu'il peut révéler sur les cerveaux biologiques. Les animaux, y compris les humains, n'utilisent pas d'ensembles de données étiquetés pour apprendre. Pour la plupart, ils explorent l'environnement par eux-mêmes et, ce faisant, ils acquièrent une compréhension riche et solide du monde.

Maintenant, certains neuroscientifiques computationnels ont commencé à explorer des réseaux de neurones qui ont été formés avec peu ou pas de données étiquetées par l'homme. Ces algorithmes « d'apprentissage auto-supervisé » se sont avérés extrêmement efficaces pour modeler le langage humain et, plus récemment, la reconnaissance d'images. Dans des travaux récents, des modèles informatiques des systèmes visuels et auditifs des mammifères construits à l'aide de modèles d'apprentissage auto-supervisé ont montré une correspondance plus étroite avec la fonction cérébrale que leurs homologues à apprentissage supervisé. Pour certains neuroscientifiques, il semble que les réseaux artificiels commencent à révéler certaines des méthodes réelles que notre cerveau utilise pour apprendre.

Supervision défectueuse

Les modèles cérébraux inspirés des réseaux de neurones artificiels sont arrivés à maturité il y a environ 10 ans, à peu près au même moment qu'un réseau de neurones nommé AlexNet révolutionné la tâche de classification des images inconnues. Ce réseau, comme tous les réseaux de neurones, était constitué de couches de neurones artificiels, des unités de calcul qui forment des connexions entre elles dont la force ou le "poids" peuvent varier. Si un réseau de neurones ne parvient pas à classer correctement une image, l'algorithme d'apprentissage met à jour les poids des connexions entre les neurones pour rendre cette mauvaise classification moins probable lors du prochain cycle de formation. L'algorithme répète ce processus plusieurs fois avec toutes les images d'entraînement, en ajustant les poids, jusqu'à ce que le taux d'erreur du réseau soit suffisamment faible.

À peu près à la même époque, les neuroscientifiques ont développé les premiers modèles informatiques de la système visuel des primates, en utilisant des réseaux de neurones comme AlexNet et ses successeurs. L'union semblait prometteuse : lorsque les singes et les réseaux de neurones artificiels ont vu les mêmes images, par exemple, l'activité des vrais neurones et des neurones artificiels a montré une correspondance intrigante. Des modèles artificiels d'audition et de détection des odeurs ont suivi.

Mais au fur et à mesure que le domaine progressait, les chercheurs ont réalisé les limites de la formation supervisée. Par exemple, en 2017, Leon Gatys, un informaticien alors à l'Université de Tübingen en Allemagne, et ses collègues ont pris une image d'un Ford Model T, puis ont superposé un motif de peau de léopard sur la photo, générant une image bizarre mais facilement reconnaissable. . Un réseau de neurones artificiels de premier plan a correctement classé l'image originale comme un modèle T, mais a considéré l'image modifiée comme un léopard. Il avait fait une fixation sur la texture et n'avait aucune compréhension de la forme d'une voiture (ou d'un léopard, d'ailleurs).

Les stratégies d'apprentissage auto-supervisé sont conçues pour éviter de tels problèmes. Dans cette approche, les humains n'étiquetent pas les données. Au contraire, "les étiquettes proviennent des données elles-mêmes", a déclaré Friedemann Zenke, un neuroscientifique informatique à l'Institut Friedrich Miescher pour la recherche biomédicale à Bâle, en Suisse. Les algorithmes auto-supervisés créent essentiellement des lacunes dans les données et demandent au réseau de neurones de combler les blancs. Dans un soi-disant grand modèle de langage, par exemple, l'algorithme d'apprentissage montrera au réseau de neurones les premiers mots d'une phrase et lui demandera de prédire le mot suivant. Lorsqu'il est formé avec un corpus massif de textes glanés sur Internet, le modèle semble apprendre la structure syntaxique de la langue, démontrant une capacité linguistique impressionnante - le tout sans étiquettes ni supervision externes.

Un effort similaire est en cours dans le domaine de la vision par ordinateur. Fin 2021, Kaiming Il et ses collègues ont révélé leur «auto-encodeur masqué», qui s'appuie sur un technique lancé par l'équipe d'Efros en 2016. L'algorithme d'apprentissage auto-supervisé masque de manière aléatoire les images, masquant près des trois quarts de chacune. L'auto-encodeur masqué transforme les parties non masquées en représentations latentes - des descriptions mathématiques compressées qui contiennent des informations importantes sur un objet. (Dans le cas d'une image, la représentation latente peut être une description mathématique qui capture, entre autres, la forme d'un objet dans l'image.) Un décodeur reconvertit ensuite ces représentations en images complètes.

L'algorithme d'apprentissage auto-supervisé forme la combinaison codeur-décodeur pour transformer les images masquées en leurs versions complètes. Toute différence entre les images réelles et celles reconstruites est réinjectée dans le système pour l'aider à apprendre. Ce processus se répète pour un ensemble d'images d'entraînement jusqu'à ce que le taux d'erreur du système soit suffisamment bas. Dans un exemple, lorsqu'un auto-encodeur masqué entraîné s'est vu montrer une image inédite d'un bus avec près de 80 % de celle-ci masquée, le système a réussi à reconstruire la structure du bus.

"C'est un résultat très, très impressionnant", a déclaré Efros.

Les représentations latentes créées dans un système tel que celui-ci semblent contenir des informations beaucoup plus profondes que celles que les stratégies précédentes pouvaient inclure. Le système peut apprendre la forme d'une voiture, par exemple - ou d'un léopard - et pas seulement leurs motifs. "Et c'est vraiment l'idée fondamentale de l'apprentissage auto-supervisé - vous construisez vos connaissances de bas en haut", a déclaré Efros. Pas de bachotage de dernière minute pour réussir les tests.

Cerveaux auto-supervisés

Dans des systèmes comme celui-ci, certains neuroscientifiques voient des échos de la façon dont nous apprenons. "Je pense qu'il ne fait aucun doute que 90% de ce que fait le cerveau est un apprentissage auto-supervisé", a déclaré Blake Richards, neuroscientifique computationnelle à l'Université McGill et Mila, l'Institut québécois d'intelligence artificielle. On pense que les cerveaux biologiques prédisent continuellement, par exemple, l'emplacement futur d'un objet lorsqu'il se déplace, ou le mot suivant dans une phrase, tout comme un algorithme d'apprentissage auto-supervisé tente de prédire l'écart dans une image ou un segment de texte. Et les cerveaux apprennent aussi de leurs erreurs par eux-mêmes - seule une petite partie de la rétroaction de notre cerveau provient d'une source externe disant, essentiellement, "mauvaise réponse".

Par exemple, considérons les systèmes visuels des humains et des autres primates. Ce sont les mieux étudiés de tous les systèmes sensoriels animaux, mais les neuroscientifiques ont eu du mal à expliquer pourquoi ils incluent deux voies distinctes : le flux visuel ventral, qui est responsable de la reconnaissance des objets et des visages, et le flux visuel dorsal, qui traite le mouvement (le " quoi » et « où », respectivement).

Richards et son équipe ont créé un modèle auto-supervisé qui suggère une réponse. Ils qualifié une IA combinant deux réseaux de neurones différents : le premier, appelé l'architecture ResNet, a été conçu pour le traitement des images ; le second, connu sous le nom de réseau récurrent, pourrait suivre une séquence d'entrées précédentes pour faire des prédictions sur la prochaine entrée attendue. Pour former l'IA combinée, l'équipe a commencé avec une séquence de, disons, 10 images d'une vidéo et a laissé le ResNet les traiter une par une. Le réseau récurrent a ensuite prédit la représentation latente de la 11e image, sans simplement faire correspondre les 10 premières images. L'algorithme d'apprentissage auto-supervisé a comparé la prédiction à la valeur réelle et a demandé aux réseaux de neurones de mettre à jour leurs poids pour améliorer la prédiction.

L'équipe de Richards a découvert qu'une IA entraînée avec un seul ResNet était bonne pour la reconnaissance d'objets, mais pas pour catégoriser les mouvements. Mais lorsqu'ils ont divisé le ResNet unique en deux, créant deux voies (sans changer le nombre total de neurones), l'IA a développé des représentations pour les objets dans l'une et pour le mouvement dans l'autre, permettant une catégorisation en aval de ces propriétés - tout comme nos cerveaux sont susceptibles fais.

Pour tester davantage l'IA, l'équipe lui a montré une série de vidéos que des chercheurs de l'Allen Institute for Brain Science de Seattle avaient déjà montrées à des souris. Comme les primates, les souris ont des régions cérébrales spécialisées pour les images statiques et pour le mouvement. Les chercheurs d'Allen ont enregistré l'activité neuronale dans le cortex visuel de la souris pendant que les animaux regardaient les vidéos.

Ici aussi, l'équipe de Richards a trouvé des similitudes dans la façon dont l'IA et les cerveaux vivants ont réagi aux vidéos. Au cours de l'entraînement, l'une des voies du réseau de neurones artificiels est devenue plus similaire aux régions ventrales de détection d'objets du cerveau de la souris, et l'autre voie est devenue similaire aux régions dorsales axées sur le mouvement.

Les résultats suggèrent que notre système visuel a deux voies spécialisées car elles aident à prédire l'avenir visuel, a déclaré Richards ; une seule voie n'est pas assez bonne.

Les modèles du système auditif humain racontent une histoire similaire. En juin, une équipe dirigée par Jean-Remi King, chercheur à Meta AI, formé une IA appelée Wav2Vec 2.0, qui utilise un réseau de neurones pour transformer l'audio en représentations latentes. Les chercheurs masquent certaines de ces représentations, qui alimentent ensuite un autre réseau neuronal composant appelé transformateur. Pendant l'entraînement, le transformateur prédit les informations masquées. Dans le processus, toute l'IA apprend à transformer les sons en représentations latentes - encore une fois, aucune étiquette n'est nécessaire. L'équipe a utilisé environ 600 heures de données vocales pour former le réseau, "ce qui correspond à peu près à ce qu'un enfant obtiendrait au cours des deux premières années d'expérience", a déclaré King.

Une fois le système formé, les chercheurs y ont lu des sections de livres audio en anglais, en français et en mandarin. Les chercheurs ont ensuite comparé les performances de l'IA aux données de 412 personnes - un mélange de locuteurs natifs des trois langues qui avaient écouté les mêmes séquences audio tout en ayant leur cerveau imagé dans un scanner IRMf. King a déclaré que son réseau neuronal et le cerveau humain, malgré les images IRMf bruyantes et à faible résolution, "non seulement sont en corrélation les uns avec les autres, mais ils sont en corrélation de manière systématique": l'activité dans les premières couches de l'IA s'aligne sur l'activité dans le cortex auditif primaire, alors que l'activité des couches les plus profondes de l'IA s'aligne sur l'activité dans les couches supérieures du cerveau, dans ce cas le cortex préfrontal. "Ce sont vraiment de belles données", a déclaré Richards. "Ce n'est pas concluant, mais [c'est] un autre élément de preuve convaincant pour suggérer qu'en effet, la façon dont nous apprenons le langage consiste en grande partie à essayer de prédire les prochaines choses qui seront dites."

Pathologies non guéries

Tout le monde n'est pas convaincu. Josh McDermott, neuroscientifique informatique au Massachusetts Institute of Technology, a travaillé sur des modèles de vision et de perception auditive en utilisant à la fois l'apprentissage supervisé et auto-supervisé. Son laboratoire a conçu ce qu'il appelle des « métamères », des signaux audio et visuels synthétisés qui, pour un humain, ne sont que bruit impénétrable. Pour un réseau neuronal artificiel, cependant, les métamères semblent impossibles à distinguer des signaux réels. Cela suggère que les représentations qui se forment dans les couches profondes du réseau neuronal, même avec un apprentissage auto-supervisé, ne correspondent pas aux représentations dans notre cerveau. Ces approches d'apprentissage auto-supervisé "sont des progrès dans le sens où vous êtes capable d'apprendre des représentations qui peuvent prendre en charge de nombreux comportements de reconnaissance sans avoir besoin de toutes ces étiquettes", a déclaré McDermott. "Mais ils ont encore beaucoup de pathologies de modèles supervisés."

Les algorithmes eux-mêmes ont également besoin de plus de travail. Par exemple, dans Wav2Vec 2.0 de Meta AI, l'IA ne prédit les représentations latentes que pour quelques dizaines de millisecondes de son - moins de temps qu'il n'en faut pour émettre un bruit perceptuellement distinct, sans parler d'un mot. "Il y a beaucoup de choses à faire pour faire quelque chose de similaire à ce que fait le cerveau", a déclaré King.

Pour vraiment comprendre le fonctionnement du cerveau, il faudra plus qu'un apprentissage auto-supervisé. D'une part, le cerveau regorge de connexions de rétroaction, alors que les modèles actuels ont peu de telles connexions, voire aucune. Une prochaine étape évidente serait d'utiliser l'apprentissage auto-supervisé pour former des réseaux hautement récurrents - un processus difficile - et de voir comment l'activité dans ces réseaux se compare à l'activité cérébrale réelle. L'autre étape cruciale serait de faire correspondre l'activité des neurones artificiels dans les modèles d'apprentissage auto-supervisé à l'activité des neurones biologiques individuels. "J'espère qu'à l'avenir, [nos] résultats seront également confirmés avec des enregistrements unicellulaires", a déclaré King.

Si les similitudes observées entre les cerveaux et les modèles d'apprentissage auto-supervisé sont valables pour d'autres tâches sensorielles, ce sera une indication encore plus forte que la magie dont notre cerveau est capable nécessite un apprentissage auto-supervisé sous une forme ou une autre. "Si nous trouvons des similitudes systématiques entre des systèmes très différents, cela [suggérerait] qu'il n'y a peut-être pas tant de façons de traiter l'information de manière intelligente", a déclaré King. "Au moins, c'est en quelque sorte la belle hypothèse avec laquelle nous aimerions travailler."

Horodatage:

Plus de Quantamamagazine