DeepMindi uusim tehisintellekt alistab inimmängijad mängus Stratego PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

DeepMindi uusim tehisintellekt tõrjub inimmängijaid mängus Stratego

AI vihkab ebakindlust. Ent meie ettearvamatus maailmas navigeerimiseks peab ta õppima tegema valikuid ebatäiusliku teabega – nagu me iga päev teeme.

DeepMind lihtsalt tegi torke selle mõistatuse lahendamisel. Trikk oli põimida mänguteooria lahtiselt inimajul põhinevaks algoritmiliseks strateegiaks, mida nimetatakse sügavaks tugevdamiseks õppimiseks. Tulemus, DeepNash, kukutas inimeksperdid väga strateegilises lauamängus nimega Stratego. Tehisintellekti jaoks kurikuulsalt keeruline mäng Stratego nõuab mitmeid tugevaid inimmõistuse tugevusi: pikaajalist mõtlemist, bluffimist ja strateegiate loomist, seda kõike ilma vastase nuppe mängulaual teadmata.

"Erinevalt malest ja Go-st on Stratego ebatäiusliku teabe mäng: mängijad ei saa oma vastase nuppude identiteeti otse jälgida," DeepMind kirjutas blogipostituses. DeepNashiga on "mängivad tehisintellekti (AI) süsteemid jõudnud uuele piirile."

See pole kõik lõbu ja mängud. Tehisintellektisüsteemid, mis suudavad meie maailma juhuslikkust hõlpsalt manööverdada ja vastavalt oma "käitumist" kohandada, saaksid ühel päeval piiratud teabega toime tulla reaalsete probleemidega, nagu liiklusvoo optimeerimine reisiaja lühendamiseks ja (loodetavasti) liiklusraevu kustutamine isejuhtimise tõttu. autod muutuvad üha enam kohal.

"Kui teete isejuhtivat autot, ei taha te eeldada, et kõik teised teel sõitvad juhid on täiesti ratsionaalsed ja käituvad optimaalselt." ütles Dr Noam Brown Meta AI-st, kes ei osalenud uuringus.

DeepNashi triumf saabub kuumalt järjekordse tehisintellekti edumaa sel kuul, kus algoritm õppis diplomaatiat mängima—mäng, mis nõuab võitmiseks läbirääkimisi ja koostööd. Kuna tehisintellekt omandab paindlikuma arutluskäigu, muutub üldistatumaks ja õpib sotsiaalsetes olukordades navigeerima, võib see anda ülevaate ka meie enda aju närviprotsessidest ja tunnetusest.

Tutvuge Strategoga

Keerukuse poolest on Stratego täiesti erinev loom võrreldes male, Go või pokkeriga – kõik mängud, mida AI on varem õppinud.

Mäng on sisuliselt lipu püüdmine. Igal küljel on 40 tükki, mida nad saavad laual igasse kohta asetada. Igal teosel on erinev nimi ja numbriline auaste, näiteks "marssal", "kindral", "skaut" või "spioon". Kõrgema asetusega tükid võivad lüüa madalamaid. Eesmärk on kõrvaldada opositsioon ja lüüa nende lipp.

Stratego on AI jaoks eriti keeruline, kuna mängijad ei näe oma vastase nuppude asukohta nii algseadistuse kui ka mängu ajal. Erinevalt malest või Go-st, kus iga nupp ja liigutus on nähtaval, on Stratego mäng piiratud teabega. Mängijad peavad "tasakaalustama kõiki võimalikke tulemusi" igal ajal, kui nad otsuse teevad, selgitasid autorid.

See ebakindlus on osaliselt põhjus, miks Stratego on tehisintellekti läbi aegade hämmingus. Isegi kõige edukamad mängualgoritmid, nagu AlphaGo ja AlfaZero, tuginege täielikule teabele. Stratego seevastu on puudutus Texas Hold'em, varem algoritmiga vallutatud pokkerimäng DeepMind. Kuid see strateegia jäi Stratego jaoks kõikuma, peamiselt mängu pikkuse tõttu, mis erinevalt pokkerist hõlmab tavaliselt sadu käike.

Võimalike mängukordade arv on hämmastav. Malel on üks stardipositsioon. Strategol on üle 1066 võimalikud lähtepositsioonid – palju rohkem kui kõik universumi tähed. Stratego mängupuu, kõigi mängu võimalike käikude summa, on kokku hämmastavad 10535.

"Stratego võimalike tulemuste arvu tohutu keerukus tähendab, et algoritmid, mis toimivad täiusliku teabega mängudes hästi, ja isegi need, mis töötavad pokkeri jaoks, ei tööta." ütles uuringu autor dr Julien Perolat DeepMindis. Väljakutse on see, mis meid erutas, ütles ta.

A Beautiful Mind

Stratego keerukus tähendab, et tavaline mängukäikude otsimise strateegia ei tule kõne allagi. Monte Carlo puuotsinguks kutsutud tehnika, mis on „teisintellektil põhinevate mängude kindel lähenemine”, kavandab võimalikud marsruudid – nagu puu oksad –, mis võivad viia võiduni.

Selle asemel andis DeepNashi maagilise puudutuse filmis kujutatud matemaatik John Nash. A Beautiful Mind. Mänguteooria pioneer Nash võitis Nobeli preemia oma töö eest Nashi tasakaal. Lihtsamalt öeldes saavad mängijad igas mängus kasutada strateegiate komplekti, mida kõik järgivad, nii et ükski mängija ei võida oma strateegiat muutes midagi. Stategos toob see kaasa nullsummamängu: iga mängija kasu toob kaasa vastase kaotuse.

Stratego keerukuse tõttu kasutas DeepNash oma algoritmi mudelivaba lähenemisviisi. Siin ei püüa AI oma vastase käitumist täpselt modelleerida. Nagu beebil, on sellel omamoodi tühi leht, mida õppida. See seadistus on eriti kasulik mängu algfaasis, "kui DeepNash teab oma vastase tükkidest vähe", muutes ennustused "raskeks, kui mitte võimatuks", ütlesid autorid.

Seejärel kasutas meeskond DeepNashi käivitamiseks sügavat tugevdamisõpet eesmärgiga leida mängu Nashi tasakaal. See on taevas tehtud matš: tugevdav õpe aitab otsustada parima järgmise käigu igal mänguetapil, samas kui DeepNash pakub üldist õppimisstrateegiat. Süsteemi hindamiseks koostas meeskond ka juhendaja, kes kasutas mängu teadmisi, et filtreerida välja ilmsed vead, millel poleks tõenäoliselt tegelikku mõtet.

Harjutamine teeb meistriks

Esimese õppimisetapina mängis DeepNash enda vastu 5.5 miljardis mängus, mis on AI-treeningutel populaarne lähenemine, mida nimetatakse isemänguks.

Kui üks pool võidab, AI saab auhinna ja selle praeguseid tehisnärvivõrgu parameetreid tugevdatakse. Teine pool – seesama AI – saab oma närvivõrgu tugevuse vähendamiseks trahvi. See on nagu endale peegli ees kõne harjutamine. Aja jooksul mõistate vigu ja toimite paremini. DeepNashi puhul triivib see parima mängu saavutamiseks Nashi tasakaalu poole.

Aga tegelik jõudlus?

Meeskond katsetas algoritmi teiste Stratego eliitbotite vastu, millest mõned võitsid Computer Stratego maailmameistrivõistlused. DeepNash purustas oma vastased ligikaudu 97-protsendilise võidumääraga. Kui DeepNash vallandati Gravoni – inimmängijate veebiplatvormi – vastu, võitis DeepNash oma inimvastaseid. Pärast üle kahe nädala kestnud matše Gravoni mängijate vastu tänavu aprillis tõusis DeepNash alates 2002. aastast kõigis järjestatud matšides kolmandale kohale.

See näitab, et DeepNash ei vaja inimeste esitusandmete alglaadimist tehisintellektile, et jõuda inimtasemel jõudluseni – ja seda ületada.

Tehisintellektil oli ka algseadistuse ja mängu ajal intrigeeriv käitumine. Näiteks selle asemel, et asuda kindlale "optimeeritud" lähtepositsioonile, nihutas DeepNash nuppe pidevalt, et takistada vastasel aja jooksul mustreid märgamast. Mängu ajal põrkas tehisintellekt pealtnäha mõttetute liigutuste vahel – nagu kõrgetasemeliste nuppude ohverdamine –, et leida vasturünnakul vastase veelgi kõrgema järguga nuppe.

DeepNash oskab ka bluffida. Ühes näidendis liigutas tehisintellekt madala asetusega nuppe nii, nagu see oleks kõrgetasemeline, meelitades inimvastast oma kõrge koloneliga nuppe taga ajama. Tehisintellekt ohverdas etturi, kuid meelitas omakorda varitsusele vastase väärtusliku spiooninupu.

Kuigi DeepNash töötati välja Stratego jaoks, on see reaalses maailmas üldistatav. Põhimeetod võib potentsiaalselt juhendada tehisintellekti paremini toime tulema meie ettearvamatu tulevikuga, kasutades piiratud teavet – alates rahvahulgast ja liikluse juhtimisest kuni turu segaduse analüüsimiseni.

"Luues üldistatava AI-süsteemi, mis on ebakindlusega silmitsi tugev, loodame viia AI probleemide lahendamise võimalused meie loomupäraselt ettearvamatusse maailma," ütles meeskond.

Image Credit: Derek Bruff / Flickr

Ajatempel:

Veel alates Singulaarsuse keskus