Googles Genie AI Crafts-spil fra enkeltbilleder

Googles Genie AI Crafts-spil fra enkeltbilleder

Google har annonceret Genie, en app til at lave mobilspil, som en del af sin igangværende investering i kunstig intelligens. 

Den generative AI-model Genie, udviklet af Googles AI-startup DeepMind, demonstrerede en live demo. Genie lærer spilmekanik fra hundredtusindvis af gameplay-videoer og kan generere spilbare spil med minimale prompter.

Læs også: Figur AI for at indsamle $675 millioner til arbejdsløsende humanoid robotik

Afsløring af Genie

Som angivet i Googles officielle DeepMind blogindlæg, Genie er en grundlæggende verdensmodel, trænet ved hjælp af onlinevideoer. "En endeløs række af spilbare (handlingskontrollerbare) verdener fra syntetiske billeder, fotografier og endda skitser" kan produceres af modellen.

Genie, en forkortelse for Generative Interactive Environments, er udviklet i samarbejde mellem Google og University of British Columbia. Med kun ét billede kan den generere sidescrollende 2D-platformsspillere såsom Contra og Super Mario Brothers baseret på brugermeddelelser.

Google DeepMind udtalte dog under meddelelsen, at det introducerer et "nyt paradigme" for generativ kunstig intelligens (AI) i form af Genie. Derudover anerkendte virksomheden fremkomsten af ​​generative AI-modeller, der er i stand til at generere nyt og kreativt indhold via sprog, billeder og endda videoer.

Ifølge Google er en betydelig del af de 200,000 timers uovervågede offentlige internetspilvideoer, som Genie blev trænet i, 2D-platformsspil snarere end komplette virtual reality-spil.

Genies specifikationer

Når det kommer til dimensioner, står Genie på 11 milliarder parametre. En spatiotemporal videotokenizer, en autoregressiv dynamikmodel og en enkel og skalerbar latent handlingsmodel er også inkluderet i modellen. Disse specifikationer gør det muligt for Genie at agere i genererede miljøer ramme for billede, selv uden etiketter eller andre domænespecifikke krav, når de træner.

Derudover kan Genie instrueres i at generere et mangfoldigt sæt interaktive og kontrollerbare miljøer, på trods af at den er trænet i data, der kun er video. Genie kan lave spilbare miljøer med kun én billedprompt, i modsætning til adskillige generative AI-modeller, der kan producere kreativt indhold med sprogbilleder og endda videoer.

Google DeepMind-udvikler Tim Rocktäschel sagde dog på X (tidligere Twitter), at de fokuserer på skala i stedet for at tilføje induktive skævheder.

Han tilføjede, at de bruger et datasæt med over 200 timers videoer fra 2D-platformsspillere og træner en 11B verdensmodel. På en uovervåget måde lærer Genie forskellige latente handlinger, der konsekvent kontrollerer karakterer.

Googles Genie AI Crafts-spil fra enkeltbilleder
Fotokredit: Google

Genies evner

Ifølge Google forskere, Genie er drevet af tre modeller: en dynamisk model, der forudsiger, hvad der vil ske i det næste billede, en videotokenizer, der forvandler rå videoframes til diskrete tokens, og en latent handlingsmodel, der kan udlede handlingerne mellem videoframes.

Genies grundlæggende models evne til at identificere et spils primære karakter uden at blive trænet i handling eller tekstanmærkninger er en af ​​dens unikke egenskaber. Takket være de modeller, der driver den, kan brugeren ubesværet styre karakteren i en AI-genereret virtual reality-miljø.

Rocktäschel sagde også, at Genie kunne gøre andre medier til spil. Genie kan blive bedt om at skabe forskellige handlingskontrollerbare virtuelle verdener ud fra forskellige input i det medfølgende Google DeepMind-forskningspapir.

Desuden sagde Rocktäschel, at modellen kan konvertere ethvert billede til en spilbar 2D-verden. Ifølge ham kan Genie levendegøre menneskedesignede kreationer som skitser, for eksempel smukke kunstværker fra Seneca og Caspian, to af de yngste verdensskabere nogensinde.

Tidsstempel:

Mere fra MetaNews