Le cerveau de type ChatGPT de DeepMind pour les robots leur permet d'apprendre à partir d'Internet

Le cerveau de type ChatGPT de DeepMind pour les robots leur permet d'apprendre à partir d'Internet

Depuis que ChatGPT a explosé sur la scène technologique en novembre de l'année dernière, il aide les gens à écrire toutes sortes de documents, à générer du code et à trouver des informations. Il et d'autres grands modèles linguistiques (LLM) ont facilité les tâches allant de la réception des appels au service client à la prise de commandes de restauration rapide. Étant donné l'utilité des LLM pour les humains depuis peu de temps, comment un ChatGPT pour les robots pourrait-il avoir un impact sur leur capacité à apprendre et à faire de nouvelles choses ? Les chercheurs de Google DeepMind ont décidé de le découvrir et ont publié leurs découvertes dans un blog récents et article publié la semaine dernière.

Ils appellent leur système RT-2. C'est l'abréviation de robotics transformer 2, et c'est le successeur de robotique transformateur 1, que la société a publié à la fin de l'année dernière. RT-1 était basé sur un petit programme de langage et de vision et spécifiquement formé pour effectuer de nombreuses tâches. Le logiciel a été utilisé dans Alphabet X Robots de tous les jours, leur permettant d'effectuer plus de 700 tâches différentes avec un taux de réussite de 97 %. Mais lorsqu'ils étaient invités à effectuer de nouvelles tâches pour lesquelles ils n'avaient pas été formés, les robots utilisant RT-1 ne réussissaient que 32% du temps.

RT-2 double presque ce taux, effectuant avec succès de nouvelles tâches 62% du temps où on le lui demande. Les chercheurs appellent RT-2 un modèle vision-langage-action (VLA). Il utilise le texte et les images qu'il voit en ligne pour acquérir de nouvelles compétences. Ce n'est pas aussi simple qu'il y paraît; il nécessite que le logiciel « comprenne » d'abord un concept, puis applique cette compréhension à une commande ou à un ensemble d'instructions, puis exécute des actions qui satisfont à ces instructions.

Un exemple donné par les auteurs de l'article est l'élimination des déchets. Dans les modèles précédents, le logiciel du robot devait d'abord être formé pour identifier les déchets. Par exemple, s'il y a une banane pelée sur une table avec la peau à côté, le bot verra que la peau est une poubelle alors que la banane ne l'est pas. On lui apprendrait alors à ramasser la peau, à la mettre dans une poubelle et à l'y déposer.

RT-2 fonctionne un peu différemment, cependant. Étant donné que le modèle s'est entraîné sur de nombreuses informations et données provenant d'Internet, il a une compréhension générale de ce qu'est un déchet, et bien qu'il ne soit pas formé pour jeter des ordures, il peut reconstituer les étapes pour accomplir cette tâche.

Les LLM que les chercheurs ont utilisés pour former RT-2 sont PaLI-X (un modèle de vision et de langage avec 55 milliards de paramètres), et PALM-E (ce que Google appelle un modèle de langage multimodal incarné, développé spécifiquement pour les robots, avec 12 milliards de paramètres). "Paramètre" fait référence à un attribut défini par un modèle d'apprentissage automatique en fonction de ses données d'apprentissage. Dans le cas des LLM, ils modélisent les relations entre les mots d'une phrase et évaluent la probabilité qu'un mot donné soit précédé ou suivi d'un autre mot.

En trouvant les relations et les modèles entre les mots dans un ensemble de données géant, les modèles apprennent de leurs propres inférences. Ils peuvent éventuellement comprendre comment différents concepts sont liés les uns aux autres et discerner le contexte. Dans le cas de RT-2, il traduit ces connaissances en instructions généralisées pour les actions robotiques.

Ces actions sont représentées pour le robot sous forme de jetons, qui sont généralement utilisés pour représenter du texte en langage naturel sous la forme de fragments de mots. Dans ce cas, les jetons font partie d'une action et le logiciel enchaîne plusieurs jetons pour effectuer une action. Cette structure permet également au logiciel d'effectuer un raisonnement en chaîne de pensée, ce qui signifie qu'il peut répondre aux questions ou aux invites qui nécessitent un certain degré de raisonnement.

Les exemples donnés par l'équipe incluent le choix d'un objet à utiliser comme marteau lorsqu'il n'y a pas de marteau disponible (le robot choisit une pierre) et la sélection de la meilleure boisson pour une personne fatiguée (le robot choisit une boisson énergisante).

Le cerveau de type ChatGPT de DeepMind pour robots leur permet d'apprendre de l'intelligence des données PlatoBlockchain sur Internet. Recherche verticale. Aï.
Crédit image : Google DeepMind

"RT-2 montre des capacités de généralisation améliorées et une compréhension sémantique et visuelle au-delà des données robotiques auxquelles il a été exposé", ont écrit les chercheurs dans un Google blog récents. "Cela inclut l'interprétation de nouvelles commandes et la réponse aux commandes de l'utilisateur en effectuant un raisonnement rudimentaire, tel que le raisonnement sur les catégories d'objets ou les descriptions de haut niveau."

Le rêve de robots polyvalents qui peut aider les humains avec tout ce qui peut arriver - que ce soit dans une maison, un cadre commercial ou un cadre industriel - ne sera pas réalisable tant que les robots ne pourront pas apprendre en déplacement. Ce qui nous semble être l'instinct le plus fondamental est, pour les robots, une combinaison complexe de compréhension du contexte, de capacité à raisonner et de prendre des mesures pour résoudre des problèmes qui n'étaient pas prévus. Il est impossible de les programmer pour qu'ils réagissent de manière appropriée à une variété de scénarios imprévus, ils doivent donc être capables de généraliser et d'apprendre de l'expérience, tout comme le font les humains.

RT-2 est un pas dans cette direction. Les chercheurs reconnaissent cependant que si RT-2 peut généraliser des concepts sémantiques et visuels, il n'est pas encore capable d'apprendre de nouvelles actions par lui-même. Au contraire, il applique les actions qu'il connaît déjà à de nouveaux scénarios. Peut-être que RT-3 ou 4 seront en mesure de faire passer ces compétences au niveau supérieur. En attendant, alors que l'équipe conclut son blog récents, "Bien qu'il reste encore énormément de travail à faire pour activer des robots utiles dans des environnements centrés sur l'humain, RT-2 nous montre un avenir passionnant pour la robotique à portée de main."

Crédit image: Google DeepMind

Horodatage:

Plus de Singularity Hub