Googlova umetna inteligenca je gledala 30,000 ur video iger – zdaj je naredila svoje

Googlova umetna inteligenca je gledala 30,000 ur video iger – zdaj je naredila svoje

A Google AI Watched 30,000 Hours of Video Games—Now It Makes Its Own PlatoBlockchain Data Intelligence. Vertical Search. Ai.

AI še naprej ustvarja veliko svetlobe in toplote. Najboljši modeli v besedilu in slikah – zdaj zahtevajo naročnine in so vtkani v potrošniške izdelke – tekmujejo za centimetre. OpenAI, Google in Anthropic so vsi bolj ali manj na vratu.

Zato ni presenetljivo, da si raziskovalci umetne inteligence prizadevajo potisniti generativne modele na novo ozemlje. Ker umetna inteligenca potrebuje neverjetne količine podatkov, je eden od načinov za napovedovanje, kako se bodo stvari nadaljevale, ta, da pogledamo, kateri podatki so široko dostopni na spletu, a še vedno večinoma neizkoriščeni.

Videoposnetek, ki ga je veliko, je očiten naslednji korak. Pravzaprav je prejšnji mesec predogled OpenAI novo umetno inteligenco za pretvorbo besedila v video, imenovano Sora ki je osupel opazovalce.

Kaj pa video ... igre?

Vprašajte in prejmite

Izkazalo se je, da je na spletu kar nekaj igralnih videov. Google DeepMind pravi, da je usposobil novo umetno inteligenco, Genie, na 30,000 urah kuriranih videoposnetkov, ki prikazujejo igričarje, kako igrajo preproste platformne igre – pomislite na zgodnje igre Nintendo – in zdaj lahko ustvari svoje primere.

Genie preprosto sliko, fotografijo ali skico spremeni v interaktivno video igro.

Po pozivu, recimo risbi lika in njegove okolice, lahko umetna inteligenca nato sprejme vnos igralca, da premakne lik skozi njegov svet. V objavi v spletnem dnevniku je DeepMind pokazal Geniejeve kreacije, ki krmarijo po 2D pokrajinah, se sprehajajo ali skačejo med platformami. Nekateri od teh svetov izvirajo celo iz slik, ustvarjenih z umetno inteligenco, tako kot kača, ki žre svoj rep.

V nasprotju s tradicionalnimi video igrami Genie ustvarja te interaktivne svetove okvir za okvirjem. Ob pozivu in ukazu za premik napove najverjetnejše naslednje okvirje in jih ustvari sproti. Naučil se je celo vključiti občutek paralakse, ki je pogosta značilnost platformnih iger, kjer se ospredje premika hitreje od ozadja.

Predvsem usposabljanje AI ni vključevalo oznak. Namesto tega se je Genie naučil povezovati vhodne ukaze – na primer, pojdi levo, desno ali skoči – z gibi v igri preprosto z opazovanjem primerov v svojem usposabljanju. To pomeni, da ko se je lik v videoposnetku premaknil v levo, ni bilo oznake, ki bi povezovala ukaz z gibanjem. Genie je ta del ugotovil sam. To pomeni, da bi se lahko prihodnje različice potencialno usposobile na čim več uporabnih videoposnetkov, kot jih je na spletu.

AI je impresiven dokaz koncepta, vendar je še zelo zgodaj v razvoju in DeepMind modela še ne namerava objaviti.

Same igre so pikselizirani svetovi, ki se pretakajo z eno sliko na sekundo. Za primerjavo, sodobne video igre lahko dosežejo 60 ali 120 sličic na sekundo. Kot vsi generativni algoritmi tudi Genie ustvarja nenavadne ali nedosledne vizualne artefakte. Prav tako je nagnjen k halucinacijam »nerealne prihodnosti« je ekipa zapisala v svojem dokumentu, ki opisuje AI.

Kljub temu obstaja nekaj razlogov za domnevo, da se bo Genie od tu naprej izboljšal.

Stepanje svetov

Ker se umetna inteligenca lahko uči iz neoznačenih spletnih videoposnetkov in je še vedno skromne velikosti – le 11 milijard parametrov – obstaja veliko možnosti za razširitev. Večji modeli, usposobljeni za več informacij, se ponavadi dramatično izboljšajo. In z a rastoča industrija, osredotočena na sklepanje— proces, s katerim usposobljena umetna inteligenca izvaja naloge, kot je generiranje slik ali besedila — bo verjetno postal hitrejši.

DeepMind pravi, da bi Genie lahko pomagal ljudem, tako kot profesionalnim razvijalcem, pri ustvarjanju video iger. Toda tako kot OpenAI, ki verjame, da je Sora več kot le videoposnetki, ekipa razmišlja širše. Pristop bi lahko presegel video igre.

En primer: AI, ki lahko nadzoruje robote. Ekipa je usposobila ločen model na videu robotskih rok, ki opravljajo različne naloge. Model se je naučil manipulirati z roboti in ravnati z različnimi predmeti.

DeepMind je tudi dejal, da bi lahko okolja video iger, ki jih ustvari Genie, uporabili za usposabljanje agentov AI. To ni nova strategija. V časopisu iz leta 2021 še en Ekipa DeepMind je predstavila video igro XLand ki je bil naseljen z agenti AI in gospodarjem AI, ki ustvarja naloge in igre, da jih izzove. Zamisel, da bo naslednji velik korak v AI zahteval algoritme, ki se lahko učijo drug drugega ali ustvarjajo sintetične podatke o usposabljanju, je pridobivanje vleke.

Vse to je zadnja salva v intenzivnem tekmovanju med OpenAI in Googlom za prikaz napredka v AI. Medtem ko drugi na terenu, kot Anthropic, razvijajo večmodalne modele, podobne GPT-4, Google in OpenAI se prav tako zdita osredotočena na algoritme, ki simulirajo svet. Takšni algoritmi so morda boljši pri načrtovanju in interakciji. Obe bosta ključni veščini za agente umetne inteligence, ki jih nameravata proizvajati obe organizaciji.

"Genie je mogoče spodbuditi s slikami, ki jih še nikoli ni videl, kot so fotografije ali skice iz resničnega sveta, kar ljudem omogoča interakcijo z njihovimi namišljenimi virtualnimi svetovi - v bistvu deluje kot model temeljnega sveta," so zapisali raziskovalci v Objava na blogu Genie. »Osredotočamo se na video posnetke 2D platformnih iger in robotike vendar je naša metoda splošna in bi morala delovati za katero koli vrsto domene ter je razširljiva na vse večje internetne nize podatkov.«

Podobno so raziskovalci, ko je prejšnji mesec predogled Sore predstavil OpenAI, predlagali nekaj bolj temeljnega: simulator sveta. To pomeni, da se zdi, da obe ekipi vidita ogromen predpomnilnik spletnega videa kot način za usposabljanje AI za ustvarjanje lastnega videa, da, ampak tudi za učinkovitejše razumevanje in delovanje v svetu, na spletu ali zunaj njega.

Ali se to obrestuje ali je dolgoročno vzdržno, je odprto vprašanje. Človeški možgani delujejo z močjo žarnice; generativni AI uporablja cele podatkovne centre. Vendar je najbolje, da ne podcenjujete sil, ki so trenutno v igri – v smislu talenta, tehnologije, možganov in denarja – s ciljem ne le izboljšati AI, ampak ga narediti učinkovitejšega.

Videli smo izjemen napredek pri besedilu, slikah, zvoku in vseh treh skupaj. Videoposnetki so naslednja sestavina, ki jo vržemo v lonec, in lahko naredijo še močnejši zvarek.

Kreditno slike: Google DeepMind

Časovni žig:

Več od Središče singularnosti