A Google AI Watched 30,000 Hours Of Video Games

Republicat de Platon

Urmaritori: 0

A Google AI Watched 30,000 Hours of Video Games—Now It Makes Its Own PlatoBlockchain Data Intelligence. Vertical Search. Ai.

AI continuă să genereze multă lumină și căldură. Cele mai bune modele în text și imagini - acum impun abonamente și sunt țesute în produse de larg consum - concurează pentru centimetri. OpenAI, Google și Anthropic sunt toate, mai mult sau mai puțin, gât și gât.

Nu este o surpriză atunci că cercetătorii AI caută să împingă modele generative pe un nou teritoriu. Întrucât AI necesită cantități prodigioase de date, o modalitate de a prognoza unde vor merge lucrurile în continuare este să ne uităm la ce date sunt disponibile pe scară largă online, dar încă neexploatate.

Videoclipul, dintre care există o mulțime, este un pas următor evident. Într-adevăr, luna trecută, OpenAI a previzualizat un nou AI text-to-video numit Sora care i-a uimit pe privitori.

Dar cum rămâne cu jocurile video?

Întrebați și primiți

Se pare că există destul de multe videoclipuri pentru jucători online. Google DeepMind spune că a antrenat o nouă inteligență artificială, Genie, pe 30,000 de ore de înregistrări video organizate care arată jucători jucând jocuri de platforme simple - gândiți-vă la primele jocuri Nintendo - și acum poate crea exemple proprii.

Genie transformă o imagine simplă, o fotografie sau o schiță într-un joc video interactiv.

Având o solicitare, să zicem un desen al unui personaj și al împrejurimilor sale, AI poate apoi să primească informații de la un jucător pentru a muta un personaj prin lumea sa. Într-o postare pe blog, DeepMind a arătat creațiile lui Genie navigând pe peisaje 2D, plimbându-se sau sărind între platforme. Ca un șarpe care își mănâncă coada, unele dintre aceste lumi au fost chiar provenite din imagini generate de AI.

Spre deosebire de jocurile video tradiționale, Genie generează aceste lumi interactive cadru cu cadru. Având o solicitare și o comandă de mutare, prezice cele mai probabile cadre următoare și le creează din mers. A învățat chiar să includă un sentiment de paralaxă, o caracteristică comună în platformele în care primul plan se mișcă mai repede decât fundalul.

În special, antrenamentul AI nu a inclus etichete. Mai degrabă, Genie a învățat să coreleze comenzile de intrare - cum ar fi, mergeți la stânga, la dreapta sau să sari - cu mișcările din joc, pur și simplu observând exemple în antrenamentul său. Adică, când un personaj dintr-un videoclip s-a mutat la stânga, nu exista nicio etichetă care să lege comanda de mișcare. Genie și-a dat seama de unul singur. Aceasta înseamnă că, potențial, versiunile viitoare ar putea fi instruite pe cât de mult video aplicabil există online.

AI este o dovadă impresionantă a conceptului, dar este încă foarte devreme în dezvoltare, iar DeepMind nu intenționează să facă public modelul încă.

Jocurile în sine sunt lumi pixelate în flux cu un cadru pe secundă. Prin comparație, jocurile video contemporane pot atinge 60 sau 120 de cadre pe secundă. De asemenea, ca toți algoritmii generativi, Genie generează artefacte vizuale ciudate sau inconsistente. De asemenea, este predispus la halucinarea „viitoarelor nerealiste” echipa a scris în lucrarea sa descriind AI.

Acestea fiind spuse, există câteva motive pentru a crede că Genie se va îmbunătăți de aici.

Whipping Up Worlds

Deoarece AI poate învăța din videoclipurile online neetichetate și are încă o dimensiune modestă - doar 11 miliarde de parametri - există o oportunitate ample de extindere. Modelele mai mari instruite pe mai multe informații tind să se îmbunătățească dramatic. Și cu a industrie în creștere concentrată pe inferență— procesul prin care un AI antrenat îndeplinește sarcini, cum ar fi generarea de imagini sau text — este probabil să devină mai rapid.

DeepMind spune că Genie ar putea ajuta oamenii, cum ar fi dezvoltatorii profesioniști, să creeze jocuri video. Dar, la fel ca OpenAI – care crede că Sora este mai mult decât videoclipuri – echipa gândește mai mare. Abordarea ar putea merge dincolo de jocurile video.

Un exemplu: AI care poate controla roboții. Echipa a antrenat un model separat pe video cu brațe robotizate care îndeplinesc diverse sarcini. Modelul a învățat să manipuleze roboții și să manipuleze o varietate de obiecte.

DeepMind a mai spus că mediile de jocuri video generate de Genie ar putea fi folosite pentru a antrena agenți AI. Nu este o strategie nouă. Într-un ziar din 2021, altul Echipa DeepMind a schițat un joc video numit XLand care a fost populat de agenți AI și un stăpân AI care generează sarcini și jocuri pentru a-i provoca. Ideea că următorul mare pas în AI va necesita algoritmi care se pot antrena unul pe altul sau pot genera date de antrenament sintetice este câștigând tracțiune.

Toate acestea sunt cea mai recentă salvă într-o competiție intensă dintre OpenAI și Google pentru a arăta progresul în AI. În timp ce alții din domeniu, ca Antropic, avansează modele multimodale asemănătoare cu GPT-4, Google și OpenAI par, de asemenea, concentrate pe algoritmi care simulează lumea. Astfel de algoritmi pot fi mai buni la planificare și interacțiune. Ambele vor fi abilități cruciale pentru agenții AI pe care ambele organizații par intenționate să le producă.

„Genie poate fi solicitat cu imagini pe care nu le-a văzut niciodată până acum, cum ar fi fotografii sau schițe din lumea reală, permițând oamenilor să interacționeze cu lumile lor virtuale imaginate – acționând în esență ca un model de lume de bază”, au scris cercetătorii în Postare pe blogul Genie. „Ne concentrăm asupra videoclipuri cu jocuri de platformă 2D și robotică dar metoda noastră este generală și ar trebui să funcționeze pentru orice tip de domeniu și este scalabilă la seturi de date de internet din ce în ce mai mari.”

În mod similar, când OpenAI a previzualizat Sora luna trecută, cercetătorii au sugerat că ar putea vesti ceva mai fundamental: un simulator mondial. Adică, ambele echipe par să vadă memoria cache enormă a videoclipurilor online ca pe o modalitate de a antrena AI pentru a-și genera propriul videoclip, da, dar și pentru a înțelege și a opera mai eficient în lume, online sau off.

Dacă acest lucru aduce dividende sau este durabil pe termen lung, este o întrebare deschisă. Creierul uman operează cu puterea unui bec; IA generativă utilizează centre de date întregi. Dar cel mai bine este să nu subestimezi forțele aflate în joc în acest moment – în ceea ce privește talentul, tehnologia, creierul și numerarul – urmărind nu numai să îmbunătățească AI, ci și să o facă mai eficientă.

Am văzut progrese impresionante în text, imagini, audio și toate trei împreună. Videoclipurile sunt următorul ingredient care se aruncă în oală și pot face o preparare și mai puternică.

Credit imagine: Google DeepMind