Zakaj vsi obožujejo ChatGPT Chatbot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Zakaj vsi obožujejo ChatGPT Chatbot

Še ena igra, za katero se je dolgo verjelo, da je zelo zahtevna za osvajanje umetne inteligence (AI), je pripadla botom: Stratego.

DeepNash, AI, ki ga je izdelalo podjetje s sedežem v Londonu Deepmind, zdaj ustreza strokovnjakom v Stratego, družabni igri, ki zahteva dolgoročno strateško razmišljanje proti nepopolnim informacijam.

Ta najnovejši podvig prihaja po še eni veliki zmagi umetne inteligence v igrah, ki so prej veljale za človeško moč.

Ravno prejšnji teden je Metin Cicero, AI, ki lahko prelisiči človeške igralce v igri Diplomacy se je zapisal v zgodovino s prelisičenjem nasprotnikov na spletu.

"Hitrost, s katero je umetna inteligenca v zadnjih letih osvojila kvalitativno drugačne funkcije iger - ali obvladala nove ravni - je precej izjemna," pravi Michael Wellman z Univerze Michigan v Ann Arborju, računalniški znanstvenik, ki preučuje strateško razmišljanje in igre. teorija.

"Stratego in Diplomacy se precej razlikujeta drug od drugega in imata tudi zahtevne lastnosti, ki se bistveno razlikujejo od iger, za katere so bili doseženi podobni mejniki," je dejal Wellman.

Nepopolne informacije

Igra ima značilnosti, ki so na splošno veliko bolj zapletene kot šah, go ali poker. Umetna inteligenca je obvladala šah, go in poker.

V igri Stratego dva igralca položita vsak po 40 figur na ploščo, vendar ne smeta videti, katere so nasprotnikove figure.

Cilj igre je izmenično premikati figure, da bi odstranili nasprotnikove in zajeli zastavo. 

Strategovo drevo iger – graf vseh možnih načinov, na katere bi igra lahko šla – ima 10535 stanj v primerjavi z Gojevimi 10360. 

Ko gre za nepopolne informacije na začetku igre, ima Stratego 1066 možnih zasebnih položajev, številka, ki zasenči le 106 takšnih začetnih situacij v pokru Texas hold'em za dva igralca.

»Zelo zapleteno število možnih izidov v Strategu pomeni, da algoritmi dobro delujejo pri igrah s popolnimi informacijami in tudi tisti, ki delujejo za poker, ne delujejo,« pravi Julien Perolat, raziskovalec DeepMinda s sedežem v Parizu.

DeepNash so razvili Perolat in njegovi sodelavci.

Bot, ki ga je navdihnil Nash

Ime bota je poklon slavnemu ameriškemu matematiku Johnu Nashu, ki je pripravil Nashevo teorijo ravnovesja, ki predpostavlja, da obstaja "stabilen nabor strategij", ki jim igralci lahko sledijo na način, da noben igralec nima koristi od spreminjanja strategije sami. Kot take imajo igre ponavadi nič, eno ali več Nashevih ravnovesij.

DeepNash združuje algoritem za krepitveno učenje in globoko nevronsko mrežo za iskanje Nashevega ravnovesja. 

Na splošno je okrepitveno učenje tam, kjer inteligentni agent (računalniški program) sodeluje z okoljem in se nauči najboljše politike za narekovanje dejanj za vsako stanje igre. 

Da bi imel optimalno politiko, je DeepNash odigral skupno 5.5 milijarde iger sam proti sebi. 

V bistvu, če je ena stran kaznovana, je druga nagrajena, spremenljivke nevronske mreže – ki predstavljajo politiko – pa se ustrezno prilagodijo.

AI premaga ljudi v Strategu – spoznajte DeepMash

AI premaga ljudi v Strategu – spoznajte DeepMash

Na neki stopnji DeepNash konvergira k približnemu Nashevemu ravnovesju. Za razliko od drugih botov se DeepNash optimizira brez siskanje po drevesu iger.

DeepNash je dva tedna igral proti človeškim igralcem Stratego na platformi spletnih iger Gravon.

Po tekmovanju v 50 tekmah je bil Ai od leta 2002 uvrščen na tretje mesto med vsemi igralci Gravon Stratego. 

»Naše delo kaže, da tako zapletena igra, kot je Stratego, ki vključuje nepopolne informacije, ne potrebuje iskalnih tehnik za rešitev,« pravi član ekipe Karl Tuyls, raziskovalec DeepMinda s sedežem v Parizu. "To je res velik korak naprej v AI."

Nad tem podvigom so navdušeni tudi drugi raziskovalci.

Impresivni rezultati

»Rezultati so impresivni,« se strinja Noam Brown, raziskovalec pri Meta AI s sedežem v New Yorku in član ekipe, ki je leta 2019 prijavila AI za igranje pokra Pluribus4.

V Meti, matičnem podjetju Facebooka, so Brown in njeni sodelavci zgradili AI, ki lahko igra diplomacijo, igro, kjer sedem igralcev tekmuje za geografski nadzor nad Evropo s premikanjem kosov po zemljevidu.

V diplomaciji je cilj prevzeti nadzor nad oskrbovalnimi centri s premikanjem enot (flot in vojsk). 

Meta pravi, da je Cicero precej pomemben, ker se umetna inteligenca opira na okolja, ki niso nasprotna.

Za razliko od preteklosti, kjer so bili predhodni veliki uspehi multi-agentske umetne inteligence doseženi v povsem tekmovalnih okoljih, kot so šah, go in poker, kjer komunikacija nima nobene vrednosti, Cicero uporablja mehanizem za strateško razmišljanje in nadzorovan modul dialoga.

»Ko presežete igro z ničelno vsoto za dva igralca, zamisel o Nashevem ravnovesju ni več tako uporabna za dobro igranje z ljudmi,« pravi Brown.

Brown in njena ekipa sta učila Cicero z uporabo podatkov iz 125,261 iger spletne različice Diplomacy, ki vključuje človeške igralce. 

Z uporabo podatkov o lastnem igranju in modula strateškega razmišljanja (SRM) se je Cicero naučil napovedovati presojo glede na stanje igre in zbrana sporočila, verjetne poteze in politike drugih igralcev. 

AI premaga ljudi v Strategu – spoznajte DeepMash

AI premaga ljudi v Strategu – spoznajte DeepMash

Meta pravi, da je zbrala podatke iz 125,261 iger Diplomacy, igranih na spletu na webDiplomacy.net. Od teh iger je skupno 40,408 iger vsebovalo dialog, s skupno 12,901,662 izmenjanimi sporočili med igralci.

Vedenje v resničnem svetu

Brown verjame, da lahko roboti za igranje iger, kot je Cicero, komunicirajo z ljudmi in pojasnjujejo, da "neoptimalna ali celo iracionalna človeška dejanja lahko utrejo pot aplikacijam v resničnem svetu."

»Če izdelujete samovozeči avto, ne želite domnevati, da so vsi drugi vozniki na cesti popolnoma racionalni in se bodo obnašali optimalno,« pravi.

Cicero, dodaja, je velik korak v tej smeri. "Še vedno smo z eno nogo v svetu iger, zdaj pa smo z eno nogo tudi v resničnem svetu."

Drugi, kot je Wellman, se strinjajo, vendar vztrajajo, da je treba opraviti še več dela. "Mnoge od teh tehnik so res pomembne onkraj rekreativnih iger" za aplikacije v resničnem svetu, pravi. "Kljub temu pa morajo vodilni raziskovalni laboratoriji AI na neki točki preseči rekreacijske nastavitve in ugotoviti, kako izmeriti znanstveni napredek pri bolj zmečkanih 'igrah' iz resničnega sveta, ki nas dejansko zanimajo."

/MetaNovice.

Časovni žig:

Več od MetaNovice