A DeepMind legújabb mesterséges intelligencia megdönti az emberi játékosokat a „Stratego” PlatoBlockchain Data Intelligence játékban. Függőleges keresés. Ai.

A DeepMind legújabb mesterséges intelligencia megdönti az emberi játékosokat a Stratego játékban

Az AI gyűlöli a bizonytalanságot. Ám ahhoz, hogy eligazodjon kiszámíthatatlan világunkban, meg kell tanulnia tökéletlen információk birtokában döntéseket hozni – ahogyan ezt minden egyes nap tesszük.

DeepMind csak leszúrta ennek a rejtélynek a megoldásában. A trükk az volt, hogy a játékelméletet egy, az emberi agyon lazán alapuló algoritmikus stratégiába szőve, úgynevezett mélyerősítő tanulásba. Az eredmény, a DeepNash, megdöntötte a humán szakértőket a Stratego nevű, rendkívül stratégiai társasjátékban. A mesterséges intelligencia számára köztudottan nehéz játék, a Stratego több erős emberi szellemet igényel: hosszú távú gondolkodást, blöffölést és stratégiaalkotást, mindezt anélkül, hogy ismerné az ellenfél bábuit a táblán.

"A sakkkal és a go-val ellentétben a Stratego a tökéletlen információk játéka: a játékosok nem tudják közvetlenül megfigyelni ellenfelük bábuinak kilétét" - mondta DeepMind. írt egy blogbejegyzésben. A DeepNash segítségével „a játékban játszó mesterséges intelligencia (AI) rendszerek új határok felé haladtak”.

Nem minden szórakozás és játék. Az AI-rendszerek, amelyek könnyen manőverezhetik világunk véletlenszerűségét, és ennek megfelelően módosíthatják „viselkedésüket”, egy nap korlátozott információk birtokában kezelhetik a valós problémákat, mint például a forgalom optimalizálása az utazási idő csökkentése érdekében, és (remélhetőleg) önvezetésként csillapíthatják a közúti dühöt. az autók egyre inkább jelen vannak.

"Ha önvezető autót készít, nem akarja azt feltételezni, hogy az úton lévő többi vezető tökéletesen racionális, és optimálisan fog viselkedni." mondott Dr. Noam Brown a Meta AI-tól, aki nem vett részt a kutatásban.

A DeepNash győzelme egy újabb mesterséges intelligencia-előrelépés nyomán érkezik ebben a hónapban, ahol egy algoritmus tanult meg játszani a Diplomáciát– olyan játék, amelyben tárgyalásra és együttműködésre van szükség a győzelemhez. Ahogy a mesterséges intelligencia rugalmasabb érvelésre tesz szert, általánosabbá válik, és megtanul eligazodni a társadalmi helyzetekben, betekintést nyerhet agyunk idegi folyamataiba és megismerésébe is.

Ismerje meg a Stratego-t

Összetettségét tekintve a Stratego teljesen más vadállat, mint a sakk, a go vagy a póker – minden olyan játék, amelyet az AI korábban elsajátított.

A játék lényegében a zászló elfoglalása. Mindegyik oldalon 40 darab található, amelyeket a tábla bármely pontjára elhelyezhetnek. Mindegyik darabnak más a neve és a rangsorolása, például „marsall”, „tábornok”, „felderítő” vagy „kém”. A magasabb rangú darabok az alacsonyabbakat is megragadhatják. A cél az ellenzék felszámolása és zászlójuk elfoglalása.

A Stratego különösen nagy kihívást jelent az AI számára, mert a játékosok nem látják ellenfeleik bábuinak helyét sem a kezdeti beállítás során, sem a játék során. Ellentétben a sakkkal vagy a Go-val, amelyben minden bábu és mozgás látható, a Stratego korlátozott információval rendelkező játék. A játékosoknak „egyensúlyozniuk kell az összes lehetséges eredményt”, amikor döntést hoznak, magyarázták a szerzők.

Ez a bizonytalansági szint részben az oka annak, hogy a Stratego hosszú idők óta megzavarta az AI-t. Még a legsikeresebb játékmeneti algoritmusok is, mint például az AlphaGo és alfanulla, támaszkodjon teljes körű információra. Ezzel szemben a Stratego-nak van egy kis íze Texas Hold'em, a DeepMind korábban egy algoritmussal meghódított pókerjáték. Ez a stratégia azonban megingott a Stratego számára, nagyrészt a játék hossza miatt, amely a pókerrel ellentétben általában több száz lépést foglal magában.

A lehetséges játéklehetőségek száma elképesztő. A sakknak egy kezdőpozíciója van. A Strategónak több mint 10-e van66 lehetséges kiindulási pozíciók – sokkal több, mint az univerzum összes csillaga. A Stratego játékfája, az összes lehetséges lépés összege a játékban, összesen elképesztő 10535.

„A Stratego lehetséges kimeneteleinek számtalan összetettsége azt jelenti, hogy olyan algoritmusok, amelyek jól teljesítenek a tökéletes információs játékokon, és még azok sem, amelyek a pókerben működnek, nem működnek.” mondott tanulmány szerzője, Dr. Julien Perolat a DeepMindnél. A kihívás az, „ami izgatott minket” – mondta.

A Beautiful Mind

A Stratego összetettsége azt jelenti, hogy a játékmenetek keresésének szokásos stratégiája nem jöhet szóba. A Monte Carlo-i fakeresésnek nevezett technika „a mesterséges intelligencia-alapú játékok kitartó megközelítése”, a technika olyan lehetséges útvonalakat tervez – például ágakat a fán –, amelyek győzelmet eredményezhetnek.

Ehelyett a DeepNash varázslatos érintését a filmben szereplő John Nash matematikus adta. A Beautiful Mind. A játékelmélet úttörője, Nash Nobel-díjat kapott a Nash-egyensúly. Leegyszerűsítve, minden játékban a játékosok egy sor stratégiát alkalmazhatnak, amelyet mindenki követ, így egyetlen játékos sem nyerhet semmit a saját stratégiájának megváltoztatásával. Stategóban ez zéró összegű játékot hoz: a játékos bármely nyeresége veszteséget okoz ellenfelének.

A Stratego összetettsége miatt a DeepNash modellmentes megközelítést alkalmazott az algoritmushoz. Itt az AI nem próbálja pontosan modellezni ellenfele viselkedését. Mint egy csecsemőnek, van egy üres lapja, amit meg kell tanulnia. Ez a beállítás különösen hasznos a játék korai szakaszában, „amikor a DeepNash keveset tud ellenfele figuráiról”, így a jóslatok „nehézek, ha nem lehetetlenek” – mondták a szerzők.

A csapat ezután mély megerősítő tanulást használt a DeepNash működéséhez, azzal a céllal, hogy megtalálja a játék Nash-egyensúlyát. A mennyországban született meccs: a megerősítő tanulás segít eldönteni a legjobb következő lépést a játék minden lépésében, míg a DeepNash átfogó tanulási stratégiát biztosít. A rendszer értékeléséhez a csapat egy „oktatót” is kidolgozott a játékból származó ismeretek felhasználásával, hogy kiszűrje azokat a nyilvánvaló hibákat, amelyeknek valószínűleg nem lenne értelme a valóságban.

Gyakorlat teszi a mestert

Az első tanulási lépésként a DeepNash 5.5 milliárd játékban játszott önmaga ellen, ami egy népszerű megközelítés az AI-képzésben, amelyet önjátéknak neveztek.

Ha az egyik fél nyer, a mesterséges intelligencia díjazásban részesül, és a jelenlegi mesterséges neurális hálózat paraméterei megerősödnek. A másik oldal – ugyanaz a mesterséges intelligencia – büntetést kap, hogy csökkentse neurális hálózatának erejét. Ez olyan, mintha egy beszédet próbálnál magadnak a tükör előtt. Idővel rájössz a hibákra, és jobban teljesítesz. A DeepNash esetében a Nash-egyensúly felé sodródik a legjobb játékmenet érdekében.

Mi a helyzet a tényleges teljesítménnyel?

A csapat tesztelte az algoritmust más elit Stratego botokkal szemben, amelyek közül néhány megnyerte a Computer Stratego világbajnokságot. A DeepNash nagyjából 97 százalékos győzelmi aránnyal gyűrte le ellenfelét. Amikor a Gravon ellen szabadult fel – egy online platform emberi játékosok számára – a DeepNash legyőzte emberi ellenfeleit. A Gravon játékosai elleni több mint kéthetes meccs után idén áprilisban a DeepNash a harmadik helyre emelkedett 2002 óta.

Ez azt mutatja, hogy nincs szükség az emberi játékadatok AI-ba való beindítására ahhoz, hogy a DeepNash elérje az emberi szintű teljesítményt – és felülmúlja azt.

A mesterséges intelligencia szintén érdekes viselkedést mutatott a kezdeti beállítások során és a játék közben. Például ahelyett, hogy egy adott „optimalizált” kiindulási pozícióban állapodott volna meg, a DeepNash folyamatosan mozgatta a figurákat, hogy megakadályozza, hogy ellenfele idővel mintákat észleljen. A játék során a mesterséges intelligencia ugrált a látszólag értelmetlen mozdulatok között – mint például a magas rangú bábu feláldozása –, hogy ellentámadáskor megtalálja az ellenfél még magasabb rangú bábuit.

A DeepNash is tud blöffölni. Az egyik játékban az AI úgy mozgott egy alacsony rangú bábuját, mintha az magas rangú lenne, és rávette az emberi ellenfelet, hogy magas rangú ezredesével üldözze a bábuját. Az AI feláldozta a gyalogot, viszont lesbe csalta az ellenfél értékes kémdarabját.

Bár a DeepNash-t a Stratego számára fejlesztették ki, általánosítható a való világra. Az alapmódszer arra utasíthatja a mesterséges intelligenciát, hogy korlátozott információk felhasználásával – a tömegtől és a forgalomirányítástól a piaci zűrzavar elemzéséig – jobban kezelje a kiszámíthatatlan jövőnket.

"Egy általánosítható mesterséges intelligencia rendszer létrehozása során, amely a bizonytalanság ellenére is robusztus, reméljük, hogy az AI problémamegoldó képességeit tovább hozzuk a mi eredendően kiszámíthatatlan világunkba" - mondta a csapat.

Kép: Derek Bruff / Flickr

Időbélyeg:

Még több Singularity Hub