Egy Google mesterséges intelligencia 30,000 XNUMX órányi videojátékot nézett – most megvan a sajátja

Egy Google mesterséges intelligencia 30,000 XNUMX órányi videojátékot nézett – most megvan a sajátja

Egy Google mesterséges intelligencia 30,000 XNUMX órányi videojátékot nézett meg – most saját PlatoBlockchain adatintelligenciát készít. Függőleges keresés. Ai.

Az AI továbbra is rengeteg fényt és hőt termel. A legjobb szöveges és képi modellek – amelyek immár előfizetést követelnek, és fogyasztói termékekbe szőve – a hüvelykért versenyeznek. Az OpenAI, a Google és az Anthropic többé-kevésbé nyakig és nyakig érvényesül.

Nem meglepő tehát, hogy az AI-kutatók a generatív modelleket új területekre akarják tolni. Mivel a mesterséges intelligencia óriási mennyiségű adatot igényel, az egyik módja annak, hogy előre jelezzük, hogy merre fognak következni a dolgok, ha megnézzük, milyen adatok állnak rendelkezésre széles körben az interneten, de még mindig nagyrészt kihasználatlanok.

A videó, amiből rengeteg van, egy kézenfekvő következő lépés. Valóban, a múlt hónapban az OpenAI előnézete egy új szöveg-videó mesterséges intelligencia, a Sora ami megdöbbentette a bámészkodókat.

De mi a helyzet a videojátékokkal?

Kérjen és fogadjon

Kiderült, hogy jó néhány gamer videó van a neten. A Google DeepMind azt állítja, hogy egy új mesterséges intelligenciát, a Genie-t tanított ki 30,000 XNUMX órányi kurált videófelvételen, amelyen a játékosok egyszerű platformerekkel játszanak – gondoljunk csak a korai Nintendo játékokra – és most már képes saját példákat létrehozni.

A Genie egy egyszerű képet, fényképet vagy vázlatot interaktív videojátékká varázsol.

Adott egy felszólítás, mondjuk egy karaktert és környezetét ábrázoló rajz, az AI ezután megkaphatja a játékos bemeneti adatait, hogy a karaktert a világában mozgassa. Egy blogbejegyzésben a DeepMind bemutatta Genie alkotásait, amint 2D tájakon navigálnak, sétálnak vagy ugrálnak a platformok között. Mint egy kígyó, amely megeszi a farkát, e világok egy része még mesterséges intelligencia által generált képekből származik.

A hagyományos videojátékokkal ellentétben a Genie képkockánként generálja ezeket az interaktív világokat. Ha egy prompt és mozgásparancsot kap, előrejelzi a legvalószínűbb következő képkockákat, és menet közben létrehozza őket. Még a parallaxis érzését is megtanulta magában foglalni, ami gyakori jellemzője a platformereknek, ahol az előtér gyorsabban mozog, mint a háttér.

Nevezetesen, az AI képzése nem tartalmazott címkéket. Inkább a Genie megtanulta korrelálni a bemeneti parancsokat – például a balra, jobbra vagy ugrást – a játékon belüli mozdulatokkal pusztán azáltal, hogy példákat figyelt a képzés során. Ez azt jelenti, hogy amikor egy videó szereplője balra mozdult, nem volt címke, amely a parancsot a mozgáshoz kapcsolta volna. Genie magától kitalálta ezt a részt. Ez azt jelenti, hogy a jövőbeli verziók potenciálisan annyi alkalmazható videóra oktathatók, amennyi online elérhető.

Az AI a koncepció lenyűgöző bizonyítéka, de még nagyon korai fejlesztés alatt áll, és a DeepMind egyelőre nem tervezi a modell nyilvánosságra hozatalát.

Maguk a játékok pixelles világok, amelyek másodpercenként egy képkocka ugrásszerű sebességgel áramlanak. Összehasonlításképpen, a kortárs videojátékok másodpercenként 60 vagy 120 képkocka sebességet tudnak elérni. Ezenkívül, mint minden generatív algoritmus, a Genie is furcsa vagy inkonzisztens vizuális műtermékeket generál. Hajlamos az „irreális jövők” hallucinációjára is. – írta a csapat az MI-t leíró tanulmányukban.

Ennek ellenére van néhány okunk azt hinni, hogy Genie innentől fejlődni fog.

Világok felkorbácsolása

Mivel a mesterséges intelligencia képes tanulni a felirat nélküli online videókból, és még mindig szerény méretű – mindössze 11 milliárd paraméter –, bőven van lehetőség a bővítésre. A több információra képzett nagyobb modellek általában drámaian javulnak. És a a növekvő iparág a következtetésre összpontosított– az a folyamat, amelynek során egy képzett AI feladatokat hajt végre, például képeket vagy szöveget generál – valószínűleg gyorsabb lesz.

A DeepMind szerint a Genie segíthet az embereknek, például a professzionális fejlesztőknek, videojátékok készítésében. De az OpenAI-hoz hasonlóan – amely szerint a Sora többről szól, mint a videókról –, a csapat is nagyobb mértékben gondolkodik. A megközelítés jóval túlmutat a videojátékokon.

Egy példa: AI, amely képes irányítani a robotokat. A csapat egy külön modellt készített videón a különböző feladatokat végrehajtó robotkarokról. A modell megtanulta kezelni a robotokat és különféle tárgyakat kezelni.

A DeepMind azt is elmondta, hogy a Genie által generált videojáték-környezetek felhasználhatók AI-ügynökök képzésére. Ez nem egy új stratégia. Egy 2021-es újságban egy másik A DeepMind csapata felvázolta az XLand nevű videojátékot amelyet mesterséges intelligencia-ügynökök és egy mesterséges intelligencia-felügyelő töltött be, akik feladatokat és játékokat generáltak, hogy kihívást jelentsenek nekik. Az az elképzelés, hogy a mesterséges intelligencia következő nagy lépéséhez olyan algoritmusokra lesz szükség, amelyek képesek egymást tanítani vagy szintetikus képzési adatokat generálni. egyre jobban tapad.

Mindez az OpenAI és a Google közötti kiélezett verseny legújabb eredménye az AI fejlődésének bemutatásáért. Míg mások a területen, mint antropikus, a GPT-4-hez hasonló multimodális modelleket fejlesztenek, a Google és az OpenAI is úgy tűnik, hogy a világot szimuláló algoritmusokra összpontosítanak. Az ilyen algoritmusok jobbak lehetnek a tervezésben és az interakcióban. Mindkettő kulcsfontosságú készség lesz a mesterséges intelligencia-ügynökök számára, amelyeket mindkét szervezet szándékában áll előállítani.

"A Genie olyan képekkel ösztönözhető, amelyeket korábban soha nem látott, például valós világból készült fényképeket vagy vázlatokat, amelyek lehetővé teszik az emberek számára, hogy interakcióba lépjenek elképzelt virtuális világaikkal – lényegében a világ alapmodelljeként" – írták a kutatók a Genie blogbejegyzés. „Arra koncentrálunk videók 2D platformer játékokról és robotikáról de a módszerünk általános, és bármilyen típusú tartományban működnie kell, és egyre nagyobb internetes adatkészletekre méretezhető.”

Hasonlóképpen, amikor az OpenAI a múlt hónapban bemutatta a Sorát, a kutatók azt javasolták, hogy valami alapvetőbb dolgot jelenthet: egy világszimulátort. Vagyis úgy tűnik, hogy mindkét csapat úgy tekint az online videók hatalmas gyorsítótárára, mint arra, hogy a mesterséges intelligencia megtanítsa saját videóját generálni, de arra is, hogy hatékonyabban megértse és működjön a világban, akár online, akár azon kívül.

Nyitott kérdés, hogy ez megtérül-e, vagy hosszú távon fenntartható-e. Az emberi agy egy villanykörte erejével működik; a generatív AI egész adatközpontokat használ fel. De a legjobb, ha nem becsüljük alá a jelen pillanatban megnyilvánuló erőket – a tehetség, a technológia, az agy és a készpénz tekintetében –, amelyek célja nemcsak az AI fejlesztése, hanem hatékonyabbá tétele.

Lenyűgöző fejlődést tapasztaltunk a szöveg, a képek, a hang és a három terén együtt. A videók a következő hozzávalók, amelyeket az edénybe dobnak, és még erősebb főzetet készíthetnek.

Kép: Google DeepMind

Időbélyeg:

Még több Singularity Hub