Google'i tehisintellekt vaatas 30,000 XNUMX tundi videomänge

Taasavaldanud Platon

järgijaid: 0

Google'i tehisintellekt vaatas 30,000 XNUMX tundi videomänge – nüüd loob see oma PlatoBlockchaini andmeluure. Vertikaalne otsing. Ai.

AI toodab jätkuvalt palju valgust ja soojust. Parimad teksti- ja pildimudelid, mis on nüüd tellitavad ja tarbekaupadeks kootud, konkureerivad tolli pärast. OpenAI, Google ja Anthropic on kõik enam-vähem kaelas.

Pole siis üllatav, et tehisintellekti teadlased soovivad generatiivseid mudeleid uuele territooriumile lükata. Kuna tehisintellekt nõuab tohutul hulgal andmeid, on üks viis prognoosida, kus asjad edasi lähevad, on vaadata, millised andmed on Internetis laialdaselt saadaval, kuid suures osas kasutamata.

Video, mida on palju, on ilmne järgmine samm. Tõepoolest, eelmisel kuul vaatas OpenAI eelvaade uus tekst videoks AI nimega Sora mis jahmatas pealtvaatajaid.

Aga kuidas on lood video...mängudega?

Küsi ja võta vastu

Selgub, et võrgus on üsna palju mängurivideoid. Google DeepMind ütleb, et õpetas välja uue tehisintellekti Genie 30,000 XNUMX tundi kureeritud videomaterjali, mis näitab mängijaid, kes mängivad lihtsaid platvormimängijaid – mõelge varajastele Nintendo mängudele – ja nüüd saab see luua oma näiteid.

Genie muudab lihtsa pildi, foto või visandi interaktiivseks videomänguks.

Kui antakse viip, näiteks tegelase ja selle ümbruse joonis, saab tehisintellekt võtta mängijalt sisendi, et tegelast tema maailmas liigutada. Blogipostituses näitas DeepMind Genie loomingut 2D-maastikel liikumas, ringi jalutamas või platvormide vahel hüppamas. Nagu madu, kes sööb oma saba, pärinevad mõned neist maailmadest isegi AI-ga loodud piltidest.

Erinevalt traditsioonilistest videomängudest genereerib Genie neid interaktiivseid maailmu kaaderhaaval. Liikumise viipa ja käsu korral ennustab see kõige tõenäolisemaid järgmisi kaadreid ja loob need käigu pealt. See isegi õppis kaasama parallaksi tunnet, mis on tavaline platvormi platvormide puhul, kus esiplaan liigub kiiremini kui taust.

Nimelt ei sisaldanud tehisintellekti koolitus silte. Pigem õppis Genie sisendkäske (nt vasakule, paremale või hüppamine) seostama mängusiseste liikumistega, lihtsalt jälgides näiteid oma koolitusest. See tähendab, et kui tegelane videos vasakule liikus, polnud käsku liikumisega siduvat silti. Genie mõtles selle osa ise välja. See tähendab, et tulevasi versioone saab koolitada nii palju kohaldatavat videot kui võrgus on.

AI on muljetavaldav kontseptsiooni tõestus, kuid see on veel väga varajases arengujärgus ja DeepMind ei kavatse mudelit veel avalikustada.

Mängud ise on piksellitud maailmad, mis voogedastuvad kiirusega üks kaader sekundis. Võrdluseks, kaasaegsed videomängud võivad tabada 60 või 120 kaadrit sekundis. Samuti, nagu kõik generatiivsed algoritmid, genereerib Genie kummalisi või ebajärjekindlaid visuaalseid artefakte. Samuti on see kalduvus hallutsineerima "ebareaalseid tulevikku". meeskond kirjutas oma AI-d kirjeldavas dokumendis.

Sellegipoolest on mõned põhjused uskuda, et Genie paraneb siit edasi.

Maailmade piitsutamine

Kuna tehisintellekt võib õppida märgistamata veebivideotest ja on endiselt tagasihoidliku suurusega – kõigest 11 miljardit parameetrit –, on selle suurendamiseks palju võimalusi. Suuremad mudelid, kes on õppinud rohkem teavet, kipuvad järsult paranema. Ja koos a kasvav tööstus keskendus järeldustele— protsess, mille käigus koolitatud tehisintellekt täidab ülesandeid, nagu piltide või teksti genereerimine — tõenäoliselt läheb see kiiremini.

DeepMind ütleb, et Genie võiks aidata inimestel, nagu professionaalsetel arendajatel, videomänge teha. Kuid nagu OpenAI – mis usub, et Sora on rohkem kui videod – mõtleb meeskond suuremalt. Lähenemisviis võiks minna videomängudest kaugemale.

Üks näide: AI, mis suudab roboteid juhtida. Meeskond treenis videol eraldi mudelit, kus robotkäed täidavad erinevaid ülesandeid. Mudel õppis robotitega manipuleerima ja erinevaid objekte käsitlema.

DeepMind ütles ka, et Genie loodud videomängukeskkondi saab kasutada tehisintellekti agentide koolitamiseks. See ei ole uus strateegia. 2021. aasta paberil on veel üks DeepMindi meeskond tõi välja videomängu nimega XLand kus asustasid tehisintellekti agendid ja tehisintellekti ülem, kes genereeris neile väljakutseks ülesandeid ja mänge. Idee, et järgmine suur samm AI-s nõuab algoritme, mis suudavad üksteist treenida või sünteetilisi treeningandmeid genereerida, on veojõu saamine.

Kõik see on uusim pääste OpenAI ja Google'i vahelises tihedas konkurentsis, et näidata tehisintellekti arengut. Samal ajal kui teised põllul töötavad, nagu antroopiline, arendavad GPT-4-ga sarnaseid multimodaalseid mudeleid, näivad ka Google ja OpenAI keskendunud maailma simuleerivatele algoritmidele. Sellised algoritmid võivad paremini planeerida ja suhelda. Mõlemad on AI-agentide jaoks üliolulised oskused, mida mõlemad organisatsioonid näivad kavatsevat toota.

"Genie't saab õhutada piltidega, mida ta pole kunagi varem näinud, näiteks pärismaailma fotod või visandid, mis võimaldavad inimestel suhelda oma kujutletud virtuaalmaailmaga – toimides põhiliselt maailma alusmudelina," kirjutasid teadlased ajakirjas. Genie ajaveebi postitus. "Keskendume videod 2D-platvormimängudest ja robootikast kuid meie meetod on üldine ja peaks töötama igat tüüpi domeenide jaoks ning on skaleeritav üha suurematele Interneti-andmekogumitele.

Samamoodi, kui OpenAI eelmisel kuul Sora eelvaate tegi, arvasid teadlased, et see võib kuulutada midagi põhilisemat: maailma simulaatorit. See tähendab, et mõlemad meeskonnad näevad võrguvideote tohutut vahemälu kui võimalust õpetada tehisintellekti looma oma videot, jah, aga ka selleks, et paremini mõista ja maailmas tegutseda, nii võrgus kui ka väljaspool.

Kas see toob dividende või on pikas perspektiivis jätkusuutlik, on lahtine küsimus. Inimese aju töötab lambipirni väärtuses võimsusega; generatiivne AI kasutab ära terved andmekeskused. Kuid parem on mitte alahinnata praegu mängivaid jõude – talentide, tehnika, aju ja raha osas –, mille eesmärk on mitte ainult AI täiustamine, vaid ka selle tõhustamine.

Oleme näinud muljetavaldavat edasiminekut teksti, piltide, heli ja kõigi kolme osas. Videod on järgmine koostisosa, mis potti visatakse ja need võivad anda veelgi tugevama joogi.

Image Credit: Google DeepMind