Cea mai recentă IA de la DeepMind îi distruge pe jucătorii umani la jocul „Stratego” PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Cel mai recent AI de la DeepMind îi frământă pe jucătorii umani la jocul „Stratego”

AI urăște incertitudinea. Cu toate acestea, pentru a naviga în lumea noastră imprevizibilă, trebuie să învețe să facă alegeri cu informații imperfecte, așa cum facem în fiecare zi.

DeepMind doar a luat o înjunghiere la rezolvarea acestei enigme. Trucul a fost să împletească teoria jocurilor într-o strategie algoritmică bazată vag pe creierul uman numită învățare prin întărire profundă. Rezultatul, DeepNash, a răsturnat experții umani într-un joc de masă extrem de strategic numit Stratego. Un joc notoriu de dificil pentru AI, Stratego necesită mai multe puncte forte ale inteligenței umane: gândire pe termen lung, cacealma și strategie, toate fără a cunoaște piesele adversarului de pe tablă.

„Spre deosebire de șah și Go, Stratego este un joc de informații imperfecte: jucătorii nu pot observa direct identitățile pieselor adversarului”, DeepMind scris într-o postare pe blog. Cu DeepNash, „sistemele de inteligență artificială (AI) de joc au avansat la o nouă frontieră”.

Nu totul este distracție și jocuri. Sistemele de inteligență artificială care pot manevra cu ușurință caracterul aleatoriu al lumii noastre și își pot ajusta „comportamentul” în consecință, ar putea rezolva într-o zi problemele din lumea reală cu informații limitate, cum ar fi optimizarea fluxului de trafic pentru a reduce timpul de călătorie și (sperăm că) potolirea furiei rutiere ca auto-conducere. mașinile devin din ce în ce mai prezente.

„Dacă faci o mașină care se conduce singur, nu vrei să presupui că toți ceilalți șoferi de pe drum sunt perfect raționali și se vor comporta optim.” a spus Dr. Noam Brown de la Meta AI, care nu a fost implicat în cercetare.

Triumful lui DeepNash vine în urma unui alt avans al AI în această lună, unde un algoritm învățat să joace Diplomacy— un joc care necesită negociere și cooperare pentru a câștiga. Pe măsură ce AI dobândește un raționament mai flexibil, devine mai generalizat și învață să navigheze în situații sociale, poate, de asemenea, să dea o perspectivă asupra proceselor neuronale și a cogniției proprii ale creierului nostru.

Faceți cunoștință cu Stratego

În ceea ce privește complexitatea, Stratego este o fiară complet diferită de șah, Go sau poker - toate jocurile pe care AI le-a stăpânit anterior.

Jocul este, în esență, captura steagul. Fiecare parte are 40 de piese pe care le pot plasa în orice poziție de pe tablă. Fiecare piesă are un nume și un rang numeric diferit, cum ar fi „marshal”, „general”, „cercetaș” sau „spion”. Piesele de rang superior le pot captura pe cele mai mici. Scopul este de a elimina opoziția și de a le captura steagul.

Stratego este o provocare în special pentru AI, deoarece jucătorii nu pot vedea locația pieselor adversarilor, atât în ​​timpul configurării inițiale, cât și pe parcursul jocului. Spre deosebire de șah sau Go, în care fiecare piesă și mișcare este în vedere, Stratego este un joc cu informații limitate. Jucătorii trebuie să „echilibreze toate rezultatele posibile” de fiecare dată când iau o decizie, au explicat autorii.

Acest nivel de incertitudine este, parțial, motivul pentru care Stratego a zăpăcit AI de secole. Chiar și cei mai de succes algoritmi de joc, cum ar fi AlphaGo și alphazero, bazați-vă pe informații complete. Stratego, în schimb, are o notă de Texas Hold 'em, un joc de poker DeepMind cucerit anterior cu un algoritm. Dar această strategie a zguduit pentru Stratego, în mare parte din cauza duratei jocului, care, spre deosebire de poker, cuprinde în mod normal sute de mișcări.

Numărul de jocuri potențiale este uimitor. Șahul are o singură poziție de pornire. Stratego are peste 1066 posibile poziții de plecare — mult mai mult decât toate stelele din univers. Arborele de joc al lui Stratego, suma tuturor mișcărilor potențiale din joc, totalizează un uluitor 10535.

„Complexitatea absolută a numărului de rezultate posibile în Stratego înseamnă algoritmi care funcționează bine la jocurile cu informații perfecte și chiar și cei care funcționează pentru poker, nu funcționează.” a spus autorul studiului Dr. Julien Perolat la DeepMind. Provocarea este „ceea ce ne-a entuziasmat”, a spus el.

A Beautiful Mind

Complexitatea Stratego înseamnă că strategia obișnuită pentru căutarea mișcărilor de joc este exclusă. Denumită căutarea arborelui Monte Carlo, o „abordare fermă a jocurilor bazate pe inteligență artificială”, tehnica trasează potențiale rute – ca ramurile unui copac – care ar putea duce la victorie.

În schimb, atingerea magică pentru DeepNash a venit de la matematicianul John Nash, portretizat în film A Beautiful Mind. Un pionier în teoria jocurilor, Nash a câștigat Premiul Nobel pentru munca sa pentru Echilibru Nash. Mai simplu spus, în fiecare joc, jucătorii pot accesa un set de strategii urmate de toată lumea, astfel încât niciun jucător nu câștigă nimic schimbându-și propria strategie. În Statego, acest lucru duce la un joc cu sumă zero: orice câștig pe care un jucător îl obține are ca rezultat o pierdere pentru adversarul său.

Datorită complexității Stratego, DeepNash a adoptat o abordare fără model a algoritmului lor. Aici, AI nu încearcă să modeleze cu exactitate comportamentul adversarului său. Ca un bebeluș, are un fel de tablă goală de învățat. Această configurație este deosebit de utilă în etapele incipiente ale jocului, „când DeepNash știe puțin despre piesele adversarului”, făcând predicțiile „dificile, dacă nu imposibile”, au spus autorii.

Echipa a folosit apoi învățarea de întărire profundă pentru a alimenta DeepNash, cu scopul de a găsi echilibrul Nash al jocului. Este o potrivire făcută în rai: învățarea prin întărire ajută la alegerea celei mai bune mișcări următoare la fiecare pas al jocului, în timp ce DeepNash oferă o strategie generală de învățare. Pentru a evalua sistemul, echipa a creat și un „tutor” folosind cunoștințele din joc pentru a filtra greșelile evidente care probabil nu ar avea sens în lumea reală.

Practica face perfect

Ca prim pas de învățare, DeepNash a jucat împotriva lui însuși în 5.5 miliarde de jocuri, o abordare populară în antrenamentul AI numită self-play.

Când o parte câștigă, IA este premiată, iar parametrii actuali ai rețelei neuronale artificiale sunt întăriți. Cealaltă parte – aceeași IA – primește o penalizare pentru a-și reduce puterea rețelei neuronale. Este ca și cum ai repeta un discurs în fața unei oglinzi. În timp, îți dai seama de greșeli și faci mai bine. În cazul lui DeepNash, se îndreaptă către un echilibru Nash pentru cel mai bun joc.

Dar performanța reală?

Echipa a testat algoritmul împotriva altor roboți Stratego de elită, dintre care unii au câștigat Campionatul Mondial Computer Stratego. DeepNash și-a strivit adversarii cu o rată de câștig de aproximativ 97 la sută. Când a fost dezlănțuit împotriva Gravon – o platformă online pentru jucători umani – DeepNash și-a depășit adversarii umani. După peste două săptămâni de meciuri împotriva jucătorilor lui Gravon în aprilie anul acesta, DeepNash a urcat pe locul trei în toate meciurile clasate din 2002.

Arată că bootstrap-ul datelor de joc uman la AI nu este necesară pentru ca DeepNash să atingă performanțe la nivel uman și să o bată.

AI a prezentat, de asemenea, un comportament intrigant cu configurarea inițială și în timpul jocului. De exemplu, în loc să se stabilească pe o anumită poziție de pornire „optimizată”, DeepNash a schimbat constant piesele pentru a împiedica adversarul să găsească modele în timp. În timpul jocului, AI-ul a sărit între mișcări aparent lipsite de sens - cum ar fi sacrificarea pieselor de rang înalt - pentru a localiza piesele de rang și mai înalt ale adversarului la contraatac.

DeepNash poate și blufa. Într-o singură piesă, AI-ul a mutat o piesă de rang scăzut ca și cum ar fi una de rang înalt, ademenind adversarul uman să alerge după piesa cu colonelul său de rang înalt. AI a sacrificat pionul, dar, la rândul său, a atras piesa valoroasă de spion a adversarului într-o ambuscadă.

Deși DeepNash a fost dezvoltat pentru Stratego, este generalizabil în lumea reală. Metoda de bază poate instrui AI să abordeze mai bine viitorul nostru imprevizibil folosind informații limitate – de la controlul mulțimilor și al traficului până la analiza turbulențelor pieței.

„În crearea unui sistem AI generalizabil care este robust în fața incertitudinii, sperăm să aducem capacitățile de rezolvare a problemelor AI mai departe în lumea noastră inerent imprevizibilă”, a spus echipa.

Credit imagine: Derek Bruff / Flickr

Timestamp-ul:

Mai mult de la Singularity Hub