Miksi kaikki rakastavat ChatGPT Chatbot PlatoBlockchain Data Intelligenceä. Pystysuuntainen haku. Ai.

Miksi kaikki rakastavat ChatGPT Chatbotia

Toinen peli, jonka uskottiin pitkään olevan erittäin haastava tekoälylle (AI) valloittaa, on pudonnut boteille: Stratego.

DeepNash, Lontoossa toimivan yrityksen valmistama tekoäly Deepmind, nyt vastaa asiantuntijoita Strategossa, lautapelissä, joka vaatii pitkän aikavälin strategista ajattelua epätäydellistä tietoa vastaan.

Tämä uusin saavutus tulee sen jälkeen, kun tekoälyt ovat saavuttaneet jälleen yhden suuren voiton peleissä, joita aiemmin pidettiin ihmisten vahvuuksina.

Juuri viime viikolla Metan Cicero, tekoäly, joka voi ylittää ihmispelaajien viisauden Diplomacy-pelissä teki historiaa vastustajien oveltamiseen verkossa.

"Tekoäly on viime vuosina valloittanut laadullisesti erilaisia ​​peliominaisuuksia tai hallinnut niitä uusille tasoille, on varsin huomattava", sanoo Michael Wellman Michiganin yliopistosta Ann Arborissa, tietojenkäsittelytieteilijä, joka tutkii strategista päättelyä ja peliä. teoria.

"Stratego ja Diplomacy ovat melko erilaisia ​​​​toisistaan, ja niillä on myös haastavia ominaisuuksia, jotka eroavat huomattavasti peleistä, joissa on saavutettu vastaavat virstanpylväät", Wellman sanoi.

Epätäydellistä tietoa

Pelin ominaisuudet ovat yleensä paljon monimutkaisempia kuin shakki, go tai pokeri. Shakki, Go ja Poker ovat kaikki tekoälyjen hallitsemia.

Stratego-pelissä kaksi pelaajaa asettaa 40 nappulaa laudalle, mutta he eivät saa nähdä vastustajan nappuloita.

Pelin tavoitteena on siirtää nappuloita vuorotellen vastustajan nappuloiden poistamiseksi ja lipun kaappaamiseksi. 

Strategon pelipuussa – kaaviossa kaikista mahdollisista tavoista, joilla peli mahdollisesti voisi mennä – on 10535 tilaa ja Go:n 10360 tilaa. 

Mitä tulee epätäydellisiin tietoihin pelin alussa, Strategolla on 1066 mahdollista yksityistä asemaa, mikä on vain 106 tällaista aloitustilannetta kahden pelaajan Texas hold'em -pokerissa.

"Strategon mahdollisten tulosten monimutkaisuus tarkoittaa, että algoritmit, jotka toimivat hyvin täydellisissä tietopeleissä, ja jopa ne, jotka toimivat pokerissa, eivät toimi", sanoo Julien Perolat, DeepMind-tutkija Pariisista.

DeepNashin ovat kehittäneet Perolat ja hänen kollegansa.

Nashin inspiroima botti

Botin nimi on kunnianosoitus kuuluisalle yhdysvaltalaiselle matemaatikolle John Nashille, joka keksi Nashin tasapainoteorian, joka olettaa, että on olemassa "vakaat strategiat", joita pelaajat voivat seurata tavalla, josta yksikään pelaaja ei hyödy strategian vaihtamisesta. omillaan. Sellaisenaan peleissä on yleensä nolla, yksi tai useampi Nash-tasapaino.

DeepNash yhdistää vahvistus-oppimisalgoritmin ja syvän hermoverkon löytääkseen Nash-tasapainon. 

Yleensä vahvistusoppimisessa älykäs agentti (tietokoneohjelma) on vuorovaikutuksessa ympäristön kanssa ja oppii parhaan politiikan sanellakseen toiminnan jokaisessa pelitilanteessa. 

Optimaalisen politiikan saavuttamiseksi DeepNash pelasi yhteensä 5.5 miljardia peliä itseään vastaan. 

Pohjimmiltaan, jos toinen osapuoli saa rangaistuksen, toinen palkitaan, ja hermoverkon muuttujia - jotka edustavat politiikkaa - säädellään vastaavasti.

AI päihittää ihmiset Strategossa – Tutustu DeepMashiin

AI päihittää ihmiset Strategossa – Tutustu DeepMashiin

Jossain vaiheessa DeepNash konvergoi likimääräiseen Nash-tasapainoon. Toisin kuin muut botit, DeepNash optimoi itsensä ilman skurkkaamalla pelipuun läpi.

Kahden viikon ajan DeepNash pelasi Stratego-ihmispelaajia vastaan ​​Gravon-verkkopelialustalla.

Kilpailtuaan 50 ottelussa Ai sijoittui kolmanneksi Gravon Strategon pelaajien joukossa vuodesta 2002 lähtien. 

"Työmme osoittaa, että niin monimutkainen peli kuin Stratego, joka sisältää epätäydellistä tietoa, ei vaadi hakutekniikoita sen ratkaisemiseksi", sanoo tiimin jäsen Karl Tuyls, DeepMind-tutkija Pariisissa. "Tämä on todella iso askel eteenpäin tekoälyssä."

Myös muut tutkijat ovat vaikuttuneita tästä saavutuksesta.

Vaikuttavia tuloksia

"Tulokset ovat vaikuttavia", myöntää Noam Brown, tutkija Meta AI:stä, jonka pääkonttori on New Yorkissa, ja tiimin jäsen, joka raportoi vuonna 2019 pokeria pelaavasta AI Pluribus4:stä.

Metassa, Facebookin emoyhtiössä, Brown ja hänen kollegansa rakensivat tekoälyn, joka voi pelata Diplomacy-peliä, jossa seitsemän pelaajaa kilpailee Euroopan maantieteellisestä hallinnasta liikuttamalla palasia kartalla.

Diplomatiassa tavoitteena on ottaa huoltokeskukset hallintaansa siirtämällä yksiköitä (laivastoja ja armeijoita). 

Meta sanoo, että Cicero on varsin merkittävä, koska tekoäly luottaa ei-vastustaviin ympäristöihin.

Toisin kuin menneisyydessä, jolloin monen agentin tekoälyn aiemmat suuret menestykset ovat olleet puhtaasti vastakkainasetteluissa ympäristöissä, kuten shakki, go ja pokeri, joissa viestinnällä ei ole arvoa, Cicero käyttää strategista päättelymoottoria ja ohjattavaa dialogimoduulia.

"Kun mennään pidemmälle kuin kahden pelaajan nollasummapelit, ajatus Nash-tasapainosta ei ole enää niin hyödyllinen ihmisten kanssa pelaamiseen", Brown sanoo.

Brown ja hänen tiiminsä kouluttivat Ciceroa käyttämällä tietoja 125,261 XNUMX ihmispelaajia sisältävän Diplomacy-verkkoversion pelistä. 

Käyttämällä itsepelidataa ja strategista päättelymoduulia (SRM) Cicero oppi ennustamaan pelin tilan ja kertyneiden viestien, todennäköisten liikkeiden ja muiden pelaajien käytäntöjen perusteella. 

AI päihittää ihmiset Strategossa – Tutustu DeepMashiin

AI päihittää ihmiset Strategossa – Tutustu DeepMashiin

Meta kertoo keränneensä tietoja 125,261 40,408 Diplomacy-pelistä, joita pelattiin verkossa webDiplomacy.net-sivustolla. Näistä peleistä yhteensä 12,901,662 XNUMX peliä sisälsi dialogia, ja pelaajien välillä vaihdettiin yhteensä XNUMX XNUMX XNUMX viestiä.

Tosimaailman käyttäytyminen

Brown uskoo, että pelibotit, kuten Cicero, voivat olla vuorovaikutuksessa ihmisten kanssa ja selittää "alioptimaaliset tai jopa irrationaaliset ihmisen toimet voisivat tasoittaa tietä tosielämän sovelluksille".

"Jos teet itseajavaa autoa, et halua olettaa, että kaikki muut tiellä olevat kuljettajat ovat täysin järkeviä ja käyttäytyvät optimaalisesti", hän sanoo.

Hän lisää, että Cicero on iso askel tähän suuntaan. "Meillä on edelleen toinen jalka pelimaailmassa, mutta nyt meillä on toinen jalka myös todellisessa maailmassa."

Muut, kuten Wellman, ovat samaa mieltä, mutta vaativat, että työtä on vielä tehtävä. "Monet näistä tekniikoista ovat todellakin tärkeitä viihdepelien lisäksi" tosielämän sovelluksissa, hän sanoo. "Jossain vaiheessa johtavien tekoälytutkimuslaboratorioiden on kuitenkin päästävä harrastusympäristöjen ulkopuolelle ja keksittävä, kuinka mitata tieteellistä edistystä squishier-todellisen maailman "peleissä", joista todella välitämme."

/MetaNews.

Aikaleima:

Lisää aiheesta MetaNews