L'ultima intelligenza artificiale di DeepMind sconfigge i giocatori umani nel gioco "Stratego" PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

L'ultima intelligenza artificiale di DeepMind sconfigge i giocatori umani nel gioco "Stratego"

L'intelligenza artificiale odia l'incertezza. Tuttavia, per navigare nel nostro mondo imprevedibile, deve imparare a fare delle scelte con informazioni imperfette, come facciamo ogni singolo giorno.

DeepMind solo ha preso una pugnalata a risolvere questo enigma. Il trucco consisteva nell'intrecciare la teoria dei giochi in una strategia algoritmica vagamente basata sul cervello umano chiamata apprendimento per rinforzo profondo. Il risultato, DeepNash, ha rovesciato esperti umani in un gioco da tavolo altamente strategico chiamato Stratego. Un gioco notoriamente difficile per l'IA, Stratego richiede molteplici punti di forza dell'arguzia umana: pensiero a lungo termine, bluff e strategia, il tutto senza conoscere i pezzi del tuo avversario sul tabellone.

"A differenza di Chess and Go, Stratego è un gioco di informazioni imperfette: i giocatori non possono osservare direttamente l'identità dei pezzi dell'avversario", DeepMind ha scritto in un post sul blog. Con DeepNash, "i sistemi di intelligenza artificiale (AI) di gioco sono avanzati verso una nuova frontiera".

Non è tutto divertimento e giochi. I sistemi di intelligenza artificiale che possono facilmente manovrare la casualità del nostro mondo e adattare il loro "comportamento" di conseguenza potrebbero un giorno gestire i problemi del mondo reale con informazioni limitate, come l'ottimizzazione del flusso del traffico per ridurre i tempi di viaggio e (si spera) placare la rabbia della strada come guida autonoma le auto diventano sempre più presenti.

"Se stai realizzando un'auto a guida autonoma, non vuoi dare per scontato che tutti gli altri conducenti sulla strada siano perfettamente razionali e si comporteranno in modo ottimale", disse Il dottor Noam Brown di Meta AI, che non era coinvolto nella ricerca.

Il trionfo di DeepNash arriva sulla scia di un altro progresso dell'IA questo mese, dove un algoritmo ha imparato a giocare a Diplomacy- un gioco che richiede negoziazione e cooperazione per vincere. Man mano che l'intelligenza artificiale acquisisce un ragionamento più flessibile, diventa più generalizzata e impara a navigare nelle situazioni sociali, può anche stimolare intuizioni sui processi neurali e sulla cognizione del nostro cervello.

Incontra Stratego

In termini di complessità, Stratego è una bestia completamente diversa rispetto a scacchi, Go o poker, tutti giochi che l'IA ha già dominato.

Il gioco consiste essenzialmente nel catturare la bandiera. Ogni lato ha 40 pezzi che possono posizionare in qualsiasi posizione sul tabellone. Ogni pezzo ha un nome e un grado numerico diverso, come "maresciallo", "generale", "scout" o "spia". I pezzi di rango superiore possono catturare quelli inferiori. L'obiettivo è eliminare l'opposizione e catturare la loro bandiera.

Stratego è particolarmente impegnativo per l'IA perché i giocatori non possono vedere la posizione dei pezzi dei loro avversari, sia durante la configurazione iniziale che durante il gioco. A differenza degli scacchi o del Go, in cui ogni pezzo e movimento è visibile, Stratego è un gioco con informazioni limitate. I giocatori devono "bilanciare tutti i possibili risultati" ogni volta che prendono una decisione, hanno spiegato gli autori.

Questo livello di incertezza è in parte il motivo per cui Stratego ha bloccato l'IA per secoli. Anche gli algoritmi di gioco di maggior successo, come AlphaGo e Alpha Zero, fare affidamento su informazioni complete. Stratego, al contrario, ha un tocco di Texas Holdem, un gioco di poker DeepMind precedentemente conquistato con un algoritmo. Ma quella strategia ha vacillato per Stratego, in gran parte a causa della lunghezza del gioco, che a differenza del poker, normalmente comprende centinaia di mosse.

Il numero di potenziali giocate è strabiliante. Gli scacchi hanno una posizione di partenza. Stratego ne ha più di 1066 possibili posizioni di partenza, molto più di tutte le stelle dell'universo. L'albero di gioco di Stratego, la somma di tutte le potenziali mosse del gioco, totalizza un incredibile 10535.

"L'assoluta complessità del numero di possibili risultati in Stratego significa che gli algoritmi che funzionano bene su giochi con informazioni perfette, e anche quelli che funzionano per il poker, non funzionano", disse autore dello studio Dr. Julien Perolat presso DeepMind. La sfida è "ciò che ci ha entusiasmato", ha detto.

A Beautiful Mind

La complessità di Stratego significa che la solita strategia per la ricerca delle mosse di gioco è fuori discussione. Soprannominata la ricerca sull'albero di Monte Carlo, un "approccio coraggioso al gioco basato sull'intelligenza artificiale", la tecnica traccia potenziali percorsi, come i rami di un albero, che potrebbero portare alla vittoria.

Invece il tocco magico per DeepNash è arrivato dal matematico John Nash, ritratto nel film A Beautiful Mind. Pioniere della teoria dei giochi, Nash ha vinto il Premio Nobel per il suo lavoro per il equilibrio di Nash. In parole povere, in ogni gioco, i giocatori possono attingere a una serie di strategie seguite da tutti, in modo che nessun singolo giocatore guadagni nulla cambiando la propria strategia. In Statego, questo porta a un gioco a somma zero: qualsiasi guadagno ottenuto da un giocatore si traduce in una perdita per il suo avversario.

A causa della complessità di Stratego, DeepNash ha adottato un approccio model-free al proprio algoritmo. Qui, l'IA non sta cercando di modellare con precisione il comportamento del suo avversario. Come un bambino, ha una sorta di tabula rasa da imparare. Questa configurazione è particolarmente utile nelle prime fasi del gioco, "quando DeepNash sa poco dei pezzi del suo avversario", rendendo le previsioni "difficili, se non impossibili", hanno affermato gli autori.

Il team ha quindi utilizzato l'apprendimento per rinforzo profondo per potenziare DeepNash, con l'obiettivo di trovare l'equilibrio di Nash del gioco. È una partita fatta in paradiso: l'apprendimento per rinforzo aiuta a decidere la migliore mossa successiva in ogni fase del gioco, mentre DeepNash fornisce una strategia di apprendimento generale. Per valutare il sistema, il team ha anche progettato un "tutor" che utilizza la conoscenza del gioco per filtrare errori evidenti che probabilmente non avrebbero senso nel mondo reale.

Serve pratica per perfezionarsi

Come primo passo di apprendimento, DeepNash ha giocato contro se stesso in 5.5 miliardi di partite, un approccio popolare nell'addestramento dell'IA chiamato self-play.

Quando una parte vince, l'intelligenza artificiale viene premiata e i suoi attuali parametri di rete neurale artificiale vengono rafforzati. L'altro lato, la stessa IA, riceve una penalità per smorzare la forza della sua rete neurale. È come provare un discorso davanti a uno specchio. Nel tempo, capisci gli errori e ottieni risultati migliori. Nel caso di DeepNash, si sposta verso un equilibrio di Nash per il miglior gameplay.

E le prestazioni effettive?

Il team ha testato l'algoritmo contro altri bot Stratego d'élite, alcuni dei quali hanno vinto il Computer Stratego World Championship. DeepNash ha schiacciato i suoi avversari con una percentuale di vittorie di circa il 97%. Quando si è scatenato contro Gravon, una piattaforma online per giocatori umani, DeepNash ha sconfitto i suoi avversari umani. Dopo oltre due settimane di partite contro i giocatori di Gravon nell'aprile di quest'anno, DeepNash è salito al terzo posto in tutte le partite classificate dal 2002.

Dimostra che DeepNash non ha bisogno di eseguire il bootstrap dei dati di gioco umano sull'intelligenza artificiale per raggiungere prestazioni a livello umano e superarle.

L'intelligenza artificiale ha anche mostrato un comportamento intrigante con la configurazione iniziale e durante il gioco. Ad esempio, piuttosto che stabilirsi su una particolare posizione di partenza "ottimizzata", DeepNash spostava costantemente i pezzi per impedire al suo avversario di individuare schemi nel tempo. Durante il gioco, l'IA rimbalzava tra mosse apparentemente insensate, come il sacrificio di pezzi di alto rango, per individuare i pezzi di rango ancora più alto dell'avversario al contrattacco.

DeepNash può anche bluffare. In una giocata, l'IA muoveva un pezzo di basso rango come se fosse di alto rango, attirando l'avversario umano a inseguire il pezzo con il suo colonnello di alto rango. L'intelligenza artificiale ha sacrificato il pedone, ma a sua volta ha attirato in un'imboscata il prezioso pezzo spia dell'avversario.

Sebbene DeepNash sia stato sviluppato per Stratego, è generalizzabile al mondo reale. Il metodo di base può potenzialmente istruire l'IA ad affrontare meglio il nostro imprevedibile futuro utilizzando informazioni limitate, dal controllo della folla e del traffico all'analisi delle turbolenze del mercato.

"Nella creazione di un sistema di intelligenza artificiale generalizzabile che sia robusto di fronte all'incertezza, speriamo di portare ulteriormente le capacità di risoluzione dei problemi dell'IA nel nostro mondo intrinsecamente imprevedibile", ha affermato il team.

Immagine di credito: Derek Bruff/Flickr

Timestamp:

Di più da Hub di singolarità