DeepMindin uusin tekoäly huijaa ihmispelaajia Game 'Stratego' PlatoBlockchain Data Intelligencessä. Pystysuuntainen haku. Ai.

DeepMindin uusin tekoäly huijaa ihmispelaajat Stratego-pelissä

AI vihaa epävarmuutta. Kuitenkin navigoidakseen arvaamattomassa maailmassamme sen on opittava tekemään valintoja epätäydellisillä tiedoilla – kuten teemme joka ikinen päivä.

DeepMind vain otti puukon tämän ongelman ratkaisemisessa. Temppu oli yhdistää peliteoria löyhästi ihmisaivoihin perustuvaksi algoritmiseksi strategiaksi, jota kutsutaan syvälle vahvistukseksi. Tuloksena DeepNash kaatoi ihmisasiantuntijat erittäin strategisessa Stratego-lautapelissä. Tekoälylle tunnetusti vaikea peli, Stratego vaatii useita inhimillisen älyn vahvuuksia: pitkäjänteistä ajattelua, bluffausta ja strategioita, kaikki ilman, että tiedät vastustajasi nappuloita laudalla.

"Toisin kuin shakki ja go, Stratego on epätäydellisen tiedon peli: pelaajat eivät voi suoraan tarkkailla vastustajan nappuloiden identiteettiä", DeepMind kirjoitti blogikirjoituksessa. DeepNashin avulla "pelaavat tekoälyjärjestelmät ovat edenneet uudelle rajalle".

Kaikki ei ole hauskaa ja pelejä. Tekoälyjärjestelmät, jotka pystyvät helposti ohjaamaan maailmamme satunnaisuutta ja säätämään "käyttäytymistään" sen mukaan, voisivat jonain päivänä käsitellä todellisia ongelmia rajoitetulla tiedolla, kuten optimoida liikennevirtaa matka-ajan lyhentämiseksi ja (toivottavasti) sammuttaa tieraivoa itse ajamisena. autot ovat yhä enemmän läsnä.

"Jos teet itseajavaa autoa, et halua olettaa, että kaikki muut tiellä olevat kuljettajat ovat täysin järkeviä ja käyttäytyvät optimaalisesti." sanoi Tohtori Noam Brown Meta AI:stä, joka ei ollut mukana tutkimuksessa.

DeepNashin voitto tulee kuumana toisen tekoälykehityksen kannoilla tässä kuussa, missä algoritmi oppi pelaamaan diplomatiaa-peli, joka vaatii neuvotteluja ja yhteistyötä voittaakseen. Kun tekoäly saa joustavamman päättelyn, yleistyy ja oppii navigoimaan sosiaalisissa tilanteissa, se voi myös herättää oivalluksia omien aivoidemme hermoprosesseista ja kognitiosta.

Tutustu Strategoon

Monimutkaisuuden suhteen Stratego on täysin erilainen peto kuin shakki, go tai pokeri – kaikki pelit, jotka tekoäly on aiemmin hallitsenut.

Peli on pohjimmiltaan lipun kaappaaminen. Jokaisella sivulla on 40 nappulaa, jotka he voivat asettaa mihin tahansa kohtaan laudalla. Jokaisella kappaleella on eri nimi ja numeroarvo, kuten "marsalkka", "kenraali", "partio" tai "vakooja". Korkeamman luokan kappaleet voivat vangita alempia. Tavoitteena on eliminoida oppositio ja valloittaa heidän lippunsa.

Stratego on erityisen haastava tekoälylle, koska pelaajat eivät näe vastustajan nappuloiden sijaintia sekä alkuasennuksen aikana että pelin aikana. Toisin kuin shakki tai go, jossa jokainen nappula ja liike on näkyvissä, Stratego on peli, jossa on rajoitettu tieto. Pelaajien on "tasapainotettava kaikki mahdolliset tulokset" aina kun he tekevät päätöksen, kirjoittajat selittivät.

Tämä epävarmuus on osittain syynä siihen, miksi Stratego on järkyttänyt tekoälyä iäksi. Jopa menestyneimmät pelialgoritmit, kuten AlphaGo ja alfanolla, luota täydellisiin tietoihin. Strategossa sen sijaan on ripaus Texas Hold'em, pokeripeli DeepMind, joka on aiemmin valloitettu algoritmilla. Mutta tämä strategia horjui Strategossa, suurelta osin pelin pituuden vuoksi, joka toisin kuin pokeri sisältää yleensä satoja liikkeitä.

Mahdollisten pelien määrä on hämmästyttävä. Shakilla on yksi aloituspaikka. Strategolla on yli 1066 mahdolliset lähtökohdat – paljon enemmän kuin kaikki maailmankaikkeuden tähdet. Strategon pelipuu, pelin kaikkien mahdollisten liikkeiden summa, on huikeat 10535.

"Strategon mahdollisten tulosten monimutkaisuus tarkoittaa, että algoritmit, jotka toimivat hyvin täydellisissä tietopeleissä, ja jopa ne, jotka toimivat pokerissa, eivät toimi." sanoi tutkimuksen kirjoittaja Dr. Julien Perolat DeepMindistä. Haaste on "se, mikä innosti meitä", hän sanoi.

Beautiful Mind

Strategon monimutkaisuus tarkoittaa, että tavallinen strategia pelin liikkeiden etsimiseen ei tule kysymykseen. Monte Carlon puuhakuksi kutsuttu tekniikka, joka on "vahva lähestymistapa tekoälypohjaiseen pelaamiseen", suunnittelee mahdollisia reittejä – kuten puun oksia – jotka voivat johtaa voittoon.

Sen sijaan DeepNashin maaginen kosketus tuli matemaatikko John Nashilta, joka on kuvattu elokuvassa. Beautiful Mind. Peliteorian edelläkävijä Nash voitti Nobel-palkinnon työstään Nashin tasapaino. Yksinkertaisesti sanottuna pelaajat voivat kussakin pelissä hyödyntää strategioita, joita kaikki noudattavat, joten kukaan pelaaja ei hyödy mitään muuttamalla omaa strategiaansa. Stategossa tämä saa aikaan nollasummapelin: mikä tahansa pelaajan voitto johtaa vastustajan tappioon.

Strategon monimutkaisuuden vuoksi DeepNash otti mallittoman lähestymistavan algoritmiinsa. Tässä tekoäly ei yritä tarkasti mallintaa vastustajansa käyttäytymistä. Kuten vauvalla, sillä on tavallaan tyhjä taulukko opittavaa. Tämä järjestely on erityisen hyödyllinen pelin alkuvaiheissa, "kun DeepNash tietää vähän vastustajan nappuloista", mikä tekee ennustuksista "vaikeita, ellei mahdotonta", kirjoittajat sanoivat.

Tämän jälkeen tiimi käytti syvää vahvistamisoppimista DeepNashin tehostamiseksi tavoitteenaan löytää pelin Nash-tasapaino. Se on taivaassa tehty ottelu: vahvistusoppiminen auttaa päättämään parhaan seuraavan liikkeen pelin jokaisessa vaiheessa, kun taas DeepNash tarjoaa kokonaisvaltaisen oppimisstrategian. Järjestelmän arvioimiseksi tiimi suunnitteli myös "tutorin", joka käyttää pelistä saatua tietoa suodattaakseen sellaiset virheet, joilla ei todennäköisesti olisi todellista järkeä.

Harjoitus tekee mestarin

Ensimmäisenä oppimisaskeleena DeepNash pelasi itseään vastaan ​​5.5 miljardissa pelissä, mikä on suosittu lähestymistapa tekoälykoulutuksessa, jota kutsutaan itsepelaamiseksi.

Kun toinen osapuoli voittaa, tekoäly palkitaan ja sen nykyiset keinotekoiset hermoverkkoparametrit vahvistuvat. Toinen puoli – sama tekoäly – saa rangaistuksen heikentääkseen sen hermoverkkojen voimakkuutta. Se on kuin harjoittaisit puhetta itsellesi peilin edessä. Ajan myötä huomaat virheet ja suoriudut paremmin. DeepNashin tapauksessa se ajautuu kohti Nash-tasapainoa parhaan pelattavuuden saavuttamiseksi.

Entä todellinen suorituskyky?

Tiimi testasi algoritmia muita Stratego-eliittibotteja vastaan, joista osa voitti Computer Strategon maailmanmestaruuden. DeepNash voitti vastustajansa noin 97 prosentin voittoprosentilla. Kun DeepNash päästettiin valloilleen Gravonia – ihmispelaajien verkkoalustaa – vastaan, hän voitti ihmisvastustajansa. Yli kahden viikon otteluiden jälkeen Gravonin pelaajia vastaan ​​tämän vuoden huhtikuussa, DeepNash nousi kolmannelle sijalle kaikissa ranking-otteluissa vuodesta 2002 lähtien.

Se osoittaa, että ihmisen pelidatan käynnistäminen tekoälyyn ei ole tarpeen, jotta DeepNash saavuttaa ihmistason suorituskyvyn – ja päihittää sen.

Tekoäly osoitti myös kiehtovaa käyttäytymistä alkuasennuksen ja pelin aikana. Esimerkiksi sen sijaan, että asettuisi tiettyyn "optimoituun" aloitusasentoon, DeepNash siirsi nappuloita jatkuvasti ympäriinsä estääkseen vastustajaansa huomaamasta kuvioita ajan mittaan. Pelin aikana tekoäly pomppii järjettömiltä vaikuttavien liikkeiden välillä – kuten korkea-arvoisten nappuloiden uhraamisen – löytääkseen vastustajan vielä korkeamman tason nappulat vastahyökkäyksessä.

DeepNash osaa myös bluffata. Yhdessä näytelmässä tekoäly liikutti matala-arvoista nappulaa ikään kuin se olisi korkea-arvoista, houkutellen ihmisvastustajaa jahtaamaan nappulaa korkea-arvoisella everstillään. Tekoäly uhrasi sotilaan, mutta houkutteli vastustajan arvokkaan vakoojapalan väijytykseen.

Vaikka DeepNash kehitettiin Strategoa varten, se on yleistettävissä todelliseen maailmaan. Ydinmenetelmä voi mahdollisesti ohjata tekoälyä selviytymään ennakoimattomasta tulevaisuudestamme rajallisen tiedon avulla – väkijoukosta ja liikenteenohjauksesta markkinoiden myllerryksen analysointiin.

"Luoessamme yleistettävän tekoälyjärjestelmän, joka on vankka epävarmuuden edessä, toivomme voivamme tuoda tekoälyn ongelmanratkaisukykyä pidemmälle luonnostaan ​​arvaamattomaan maailmaamme", tiimi sanoi.

Kuva pistetilanne: Derek Bruff / Flickr

Aikaleima:

Lisää aiheesta Singulaarisuus Hub