Le GPT-4 d'OpenAI n'exécutera pas Doom, mais jouera mal au jeu

Le GPT-4 d'OpenAI n'exécutera pas Doom, mais jouera mal au jeu

Vous pourriez vous retrouver à vivre dans une cabane à fusils de chasse. Et vous pourriez vous retrouver à travailler avec GPT-4. Et vous vous demandez peut-être : « GPT-4 exécutera-t-il Doom ? Et vous vous demandez peut-être : « Ai-je raison ? Ai-je tort?"

Adrian de Wynter, chercheur appliqué principal chez Microsoft et chercheur à l'Université de York en Angleterre, a posé ces questions dans un article de recherche récent : «GPT-4 exécutera-t-il Doom ?"

Hélas, GPT-4, un grand modèle de langage d'OpenAI soutenu par Microsoft, n'a pas la capacité d'exécuter directement le code source de Doom.

Mais sa variante multimodale, GPT-4V, qui peut accepter des images en entrée ainsi que du texte, présente la même sous-compétence attachante en jouant Destin comme les modèles textuels chargés qui ont lancé d’innombrables startups d’IA.

« Dans la configuration du document, GPT-4 (et GPT-4 avec vision, ou GPT-4V) ne peut pas vraiment exécuter Doom par lui-même, car il est limité par la taille de son entrée (et, évidemment, il ne fera probablement qu'inventer des choses). ; vous ne voulez vraiment pas que votre compilateur ait des hallucinations toutes les cinq minutes) », a écrit de Wynter dans une note explicative. noter à propos de son papier. « Cela dit, il peut certainement agir comme un proxy pour le moteur, un peu comme d'autres « est-ce que ça fera tourner Doom ? implémentations, telles que E. Coli or Bloc-notes. »

Autrement dit, GPT-4V ne fera pas fonctionner Doom comme un tracteur John Deere mais il jouera à Doom sans entraînement spécifique.

Pour gérer cela, de Wynter a conçu un composant Vision appelé GPT-4V, qui capture des captures d'écran du moteur de jeu et renvoie des descriptions de structure de l'état du jeu. Et il a combiné cela avec un modèle d'agent qui appelle GPT-4 pour prendre des décisions basées sur l'entrée visuelle et l'historique précédent. Il a été demandé au modèle Agent de traduire ses réponses en commandes de frappe qui ont une signification pour le moteur de jeu.

Les interactions sont gérées via une couche Manager composée d'une liaison Python open source au Moteur C Doom fonctionnant sur Matplotlib.

Un graphique montrant la conception du système GPT-4V pour jouer à DOOM

Schéma de De Wynter montrant la conception d'un système GPT-4V pour jouer à Doom… Cliquez pour agrandir

Ce mélange de modèles et de codes d'IA peut ouvrir des portes, combattre des ennemis et tirer avec des armes, selon le journal. Et il peut exécuter un ensemble d’instructions plus large, comme une procédure pas à pas de niveau, pour améliorer ses propres performances.

Le principal défaut de ce système basé sur GPT-4V est son manque de permanence des objets : il oublie les zombies du jeu lorsqu'ils disparaissent de l'écran.

GPT-4 oublie le zombie et continue

"Par exemple, il serait très courant que le modèle voie un zombie sur l'écran et commence à tirer dessus jusqu'à ce qu'il le touche (ou meure)", explique de Wynter. « Maintenant, il s'agit d'une IA écrite pour fonctionner avec du matériel de 1993, donc je suppose qu'elle n'a pas d'arbre de décision très approfondi. Alors le zombie vous tire dessus puis commence à courir dans la pièce.

« Quel est le problème ici ? Eh bien, d'abord que le zombie soit hors de vue. Pire encore, il est toujours vivant et vous frappera à un moment donné. Alors tu dois y aller, non ? Après tout, dans Doom, c'est soit être dévasté, soit être dévasté.

« Il s’avère que GPT-4 oublie le zombie et continue. Remarque : l'invite indique explicitement au modèle quoi faire s'il subit des dégâts et qu'il ne peut pas voir d'ennemi. Mieux encore, il s'en va petit à petit, se coince dans un coin et meurt. Il s'est retourné plusieurs fois, mais en près de 50 à 60 courses, je l'ai observé… deux fois, je veux dire.

De plus, GPT-4 ne peut pas très bien raisonner. Lorsqu'on lui a demandé d'expliquer ses actions qui étaient généralement correctes dans leur contexte, ses explications étaient médiocres et incluaient souvent des hallucinations (c'est-à-dire des informations incorrectes).

De Wynter juge néanmoins remarquable que GPT-4 soit capable de jouer à Doom sans formation préalable.

En même temps, il trouve cela troublant.

« En ce qui concerne le département d'éthique, il est assez inquiétant de voir à quel point il était facile pour (a) moi de créer du code pour que le modèle tourne quelque chose ; et (b) pour que le modèle puisse tirer avec précision quelque chose sans réellement remettre en question les instructions », a-t-il écrit dans son message de synthèse.

« Ainsi, bien qu’il s’agisse d’une exploration très intéressante autour de la planification et du raisonnement, et qu’elle pourrait avoir des applications dans les tests automatisés de jeux vidéo, il est bien évident que ce modèle n’est pas conscient de ce qu’il fait. J’invite fortement tout le monde à réfléchir à ce que le déploiement de ces modèles [implique] pour la société et à leur éventuelle mauvaise utilisation. »

Et vous pouvez vous dire : «Mon Dieu, qu'ai-je fait ?» ®

Horodatage:

Plus de Le registre