Une IA de Google a regardé 30,000 XNUMX heures de jeux vidéo : elle s'approprie désormais

Une IA de Google a regardé 30,000 XNUMX heures de jeux vidéo : elle s'approprie désormais

Une IA de Google a regardé 30,000 XNUMX heures de jeux vidéo et crée désormais sa propre intelligence de données PlatoBlockchain. Recherche verticale. Aï.

L’IA continue de générer beaucoup de lumière et de chaleur. Les meilleurs modèles de texte et d’images – désormais payants et intégrés aux produits de consommation – se disputent les pouces. OpenAI, Google et Anthropic sont tous plus ou moins au coude à coude.

Il n’est donc pas surprenant que les chercheurs en IA cherchent à pousser les modèles génératifs vers de nouveaux territoires. Comme l’IA nécessite des quantités prodigieuses de données, une façon de prévoir l’avenir consiste à examiner quelles données sont largement disponibles en ligne, mais encore largement inexploitées.

La vidéo, qui existe en abondance, constitue une prochaine étape évidente. En effet, le mois dernier, OpenAI a présenté en avant-première une nouvelle IA de conversion texte-vidéo appelée Sora qui a stupéfié les spectateurs.

Mais qu’en est-il des jeux vidéo ?

Demander et recevoir

Il s’avère qu’il existe de nombreuses vidéos de joueurs en ligne. Google DeepMind affirme avoir formé une nouvelle IA, Genie, sur 30,000 XNUMX heures de séquences vidéo montrant des joueurs jouant à des jeux de plateforme simples (pensez aux premiers jeux Nintendo) et maintenant, il peut créer ses propres exemples.

Genie transforme une simple image, photo ou croquis en un jeu vidéo interactif.

À partir d'une invite, par exemple un dessin d'un personnage et de ses environs, l'IA peut alors prendre en compte les commentaires d'un joueur pour déplacer un personnage dans son monde. Dans un article de blog, DeepMind a montré les créations de Genie naviguant dans des paysages 2D, se promenant ou sautant entre les plates-formes. Comme un serpent qui se mord la queue, certains de ces mondes proviennent même d’images générées par l’IA.

Contrairement aux jeux vidéo traditionnels, Genie génère ces mondes interactifs image par image. Étant donné une invite et une commande de déplacement, il prédit les prochaines images les plus probables et les crée à la volée. Il a même appris à inclure un sentiment de parallaxe, une caractéristique courante dans les jeux de plateforme où le premier plan se déplace plus rapidement que l'arrière-plan.

Notamment, la formation de l’IA ne comprenait pas d’étiquettes. Au lieu de cela, Genie a appris à corréler les commandes d'entrée (comme aller à gauche, à droite ou sauter) avec les mouvements du jeu simplement en observant des exemples lors de sa formation. Autrement dit, lorsqu'un personnage d'une vidéo se déplaçait vers la gauche, aucune étiquette ne liait la commande au mouvement. Génie a compris cette partie tout seul. Cela signifie que, potentiellement, les futures versions pourraient être formées sur autant de vidéos applicables qu'il y en a en ligne.

L'IA est une preuve de concept impressionnante, mais elle en est encore à ses débuts et DeepMind ne prévoit pas encore de rendre le modèle public.

Les jeux eux-mêmes sont des mondes pixellisés qui défilent à une vitesse d'une image par seconde. En comparaison, les jeux vidéo contemporains peuvent atteindre 60 ou 120 images par seconde. De plus, comme tous les algorithmes génératifs, Genie génère des artefacts visuels étranges ou incohérents. Il est également enclin à halluciner sur des « futurs irréalistes ». l'équipe a écrit dans son article décrivant l'IA.

Cela dit, il y a plusieurs raisons de croire que Genie s'améliorera à partir de maintenant.

Fouetter des mondes

Étant donné que l'IA peut apprendre de vidéos en ligne non étiquetées et qu'elle est encore de taille modeste (seulement 11 milliards de paramètres), il existe de nombreuses possibilités d'évolution. Les modèles plus gros formés sur plus d’informations ont tendance à s’améliorer considérablement. Et avec un industrie en pleine croissance axée sur l'inférence– le processus par lequel une IA entraînée effectue des tâches, comme générer des images ou du texte – est susceptible de devenir plus rapide.

DeepMind affirme que Genie pourrait aider les gens, comme les développeurs professionnels, à créer des jeux vidéo. Mais comme OpenAI, qui estime que Sora ne se résume pas à des vidéos, l'équipe voit plus grand. L’approche pourrait aller bien au-delà des jeux vidéo.

Un exemple: Une IA capable de contrôler des robots. L’équipe a formé un modèle distinct sur vidéo de bras robotiques accomplissant diverses tâches. Le modèle a appris à manipuler les robots et à manipuler une variété d'objets.

DeepMind a également déclaré que les environnements de jeux vidéo générés par Genie pourraient être utilisés pour former des agents IA. Ce n'est pas une nouvelle stratégie. Dans un article de 2021, un autre L'équipe DeepMind a présenté un jeu vidéo appelé XLand qui était peuplé d'agents IA et d'un suzerain de l'IA générant des tâches et des jeux pour les défier. L’idée selon laquelle la prochaine grande étape de l’IA nécessitera des algorithmes capables de s’entraîner les uns les autres ou de générer des données d’entraînement synthétiques est gagner en traction.

Tout cela constitue la dernière salve d’une concurrence intense entre OpenAI et Google pour montrer les progrès de l’IA. Tandis que d'autres dans le domaine, comme Anthropique, font progresser des modèles multimodaux proches de GPT-4, Google et OpenAI semblent également se concentrer sur des algorithmes qui simulent le monde. De tels algorithmes peuvent être meilleurs en matière de planification et d’interaction. Ces deux compétences constitueront des compétences cruciales pour les agents d’IA que les deux organisations semblent vouloir produire.

"Genie peut être incité à utiliser des images qu'il n'a jamais vues auparavant, telles que des photographies ou des croquis du monde réel, permettant aux gens d'interagir avec leurs mondes virtuels imaginés, agissant essentiellement comme un modèle de base du monde", ont écrit les chercheurs dans l'article. Article de blog Génie. « Nous nous concentrons sur vidéos de jeux de plateforme 2D et de robotique mais notre méthode est générale et devrait fonctionner pour tout type de domaine, et est évolutive pour des ensembles de données Internet toujours plus grands.

De même, lorsque OpenAI a présenté Sora en avant-première le mois dernier, les chercheurs ont suggéré que cela pourrait annoncer quelque chose de plus fondamental : un simulateur mondial. Autrement dit, les deux équipes semblent considérer l’énorme réserve de vidéo en ligne comme un moyen d’entraîner l’IA à générer sa propre vidéo, certes, mais aussi à comprendre et à fonctionner plus efficacement dans le monde, en ligne ou hors ligne.

La question de savoir si cela portera ses fruits ou sera durable à long terme reste ouverte. Le cerveau humain fonctionne avec l’énergie d’une ampoule ; l’IA générative utilise des centres de données entiers. Mais il est préférable de ne pas sous-estimer les forces en jeu actuellement – ​​en termes de talent, de technologie, de cerveaux et d’argent – ​​visant non seulement à améliorer l’IA, mais aussi à la rendre plus efficace.

Nous avons constaté des progrès impressionnants dans le texte, les images, l'audio et les trois ensemble. Les vidéos sont le prochain ingrédient jeté dans le pot, et elles peuvent constituer une infusion encore plus puissante.

Crédit image: Google DeepMind

Horodatage:

Plus de Singularity Hub