Googles Genie AI Crafts Games från Single Images

Googles Genie AI Crafts Games från Single Images

Google har annonserat Genie, en app för att göra mobilspel, som en del av sin pågående satsning på artificiell intelligens. 

Den generativa AI-modellen Genie, utvecklad av Googles AI-startup DeepMind, visade en livedemo. Genie lär sig spelmekanik från hundratusentals spelvideor och kan skapa spelbara spel med minimala uppmaningar.

Läs också: Figur AI för att samla in 675 miljoner dollar för Labour-Solving Humanoid Robotics

Avtäckande Genie

Som det står i Googles officiella DeepMind blogginlägg, Genie är en grundläggande världsmodell som utbildats med hjälp av onlinevideor. "En oändlig mängd spelbara (actionkontrollerbara) världar från syntetiska bilder, fotografier och till och med skisser" kan produceras av modellen.

Genie, förkortning för Generative Interactive Environments, utvecklades i samarbete mellan Google och University of British Columbia. Med bara en bild kan den generera sidoscrollande 2D-plattformsspel som Contra och Super Mario Brothers baserat på användarmeddelanden.

Google DeepMind uppgav dock under tillkännagivandet att de introducerar ett "nytt paradigm" för generativ artificiell intelligens (AI) i form av Genie. Dessutom erkände företaget framväxten av generativa AI-modeller som kan generera nytt och kreativt innehåll via språk, bilder och till och med videor.

Enligt Google är en betydande del av de 200,000 2 timmarna oövervakade offentliga spelvideor på internet som Genie tränades på XNUMXD-plattformsspel snarare än fullständiga virtuella verklighetsspel.

Genies specifikationer

När det kommer till dimensioner står Genie på 11 miljarder parametrar. En spatiotemporal videotokenizer, en autoregressiv dynamikmodell och en enkel och skalbar latent actionmodell ingår också i modellen. Dessa specifikationer gör det möjligt för Genie att agera i genererade miljöer bild-för-bildruta, även utan etiketter eller andra domänspecifika krav vid träning.

Dessutom kan Genie instrueras att skapa en mångsidig uppsättning interaktiva och kontrollerbara miljöer, trots att den tränas på endast videodata. Genie kan skapa spelbara miljöer med bara en bildprompt, till skillnad från många generativa AI-modeller som kan producera kreativt innehåll med språkbilder och till och med videor.

Google DeepMind-utvecklaren Tim Rocktäschel sa dock på X (tidigare Twitter) att de fokuserar på skala snarare än att lägga till induktiva fördomar.

Han tillade att de använder en datauppsättning på över 200 2 timmar med videor från 11D-plattformsspel och tränar en XNUMXB världsmodell. På ett oövervakat sätt lär sig Genie olika latenta handlingar som konsekvent kontrollerar karaktärer.

Googles Genie AI Crafts Games från Single Images
Fotokredit: Google

Genies förmågor

Enligt Google forskare, Genie drivs av tre modeller: en dynamisk modell som förutsäger vad som kommer att hända i nästa bildruta, en videotokenizer som förvandlar råa videorutor till diskreta tokens och en latent actionmodell som kan sluta sig till åtgärderna mellan videorutor.

Genies grundmodells förmåga att identifiera ett spels primära karaktär utan att tränas på action eller textkommentarer är en av dess unika egenskaper. Tack vare modellerna som driver den kan användaren utan ansträngning kontrollera karaktären i en AI-genererad virtuell verklighetsmiljö.

Rocktäschel sa också att Genie kunde förvandla andra medier till spel. Genie kan bli ombedd att skapa olika handlingskontrollerbara virtuella världar från olika indata i den medföljande Google DeepMind-forskningsartikeln.

Dessutom sa Rocktäschel att modellen kan konvertera vilken bild som helst till en spelbar 2D-värld. Enligt honom kan Genie levandegöra mänskligt designade skapelser som skisser, till exempel vackra konstverk från Seneca och Caspian, två av de yngsta världsskaparna någonsin.

Tidsstämpel:

Mer från MetaNews