Google DeepMind addestra il "brainstorming artificiale" nell'intelligenza artificiale degli scacchi | Rivista Quanti

Google DeepMind addestra il "brainstorming artificiale" nell'intelligenza artificiale degli scacchi | Rivista Quanti

Google DeepMind addestra il "brainstorming artificiale" nell'intelligenza artificiale degli scacchi | Quanta Magazine PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Introduzione

Quando il Covid-19 mandò le persone a casa all’inizio del 2020, l’informatico Tom Zahavy scacchi riscoperti. Ci giocava da bambino e di recente aveva letto Garry Kasparov Pensiero profondo, un ricordo delle partite del Gran Maestro del 1997 contro il computer per giocare a scacchi dell'IBM, Deep Blue. Ha guardato video di scacchi su YouTube e Il gambetto della regina su Netflix.

Nonostante il suo rinnovato interesse, Zahavy non stava cercando modi per migliorare il suo gioco. "Non sono un grande giocatore", ha detto. "Sono più bravo negli enigmi degli scacchi" - disposizioni di pezzi, spesso artificiose e improbabili che si verifichino durante una partita reale, che sfidano un giocatore a trovare modi creativi per ottenere un vantaggio.

Gli enigmi possono aiutare i giocatori ad affinare le proprie abilità, ma più recentemente hanno contribuito a rivelare i limiti nascosti dei programmi di scacchi. Uno dei puzzle più famosi, ideato dal matematico Sir Roger Penrose nel 2017, mette sul tabellone i pezzi neri più forti (come la regina e le torri), ma in posizioni scomode. Un giocatore umano esperto, giocando con il bianco, potrebbe facilmente portare la partita alla parità, ma potenti programmi di scacchi per computer direbbero che il nero ha un chiaro vantaggio. Questa differenza, ha detto Zahavy, suggerisce che anche se i computer potrebbero sconfiggere i migliori giocatori umani del mondo, non potrebbero ancora riconoscere e risolvere ogni tipo di problema difficile. Da allora, Penrose e altri hanno ideato vaste raccolte di enigmi che i computer faticano a risolvere.

Gli scacchi sono stati a lungo una pietra di paragone per testare nuove idee intelligenza artificialee gli enigmi di Penrose hanno suscitato l'interesse di Zahavy. "Stavo cercando di capire cosa rende queste posizioni così difficili per i computer quando almeno alcune di esse possiamo risolverle come esseri umani", ha detto. "Ero completamente affascinato." Ben presto si è trasformato in un interesse professionale: come ricercatore presso Google DeepMind, Zahavy esplora approcci creativi alla risoluzione dei problemi. L’obiettivo è ideare sistemi di intelligenza artificiale con uno spettro di possibili comportamenti che vada oltre l’esecuzione di un singolo compito.

Un tradizionale programma di scacchi basato sull’intelligenza artificiale, addestrato per vincere, potrebbe non avere il senso di un puzzle di Penrose, ma Zahavy sospettava che un programma composto da molti sistemi diversi, che lavorano insieme come un gruppo, avrebbe potuto fare progressi. Così lui e i suoi colleghi hanno sviluppato un modo per intrecciare più sistemi di intelligenza artificiale decisionali (fino a 10), ciascuno ottimizzato e addestrato per strategie diverse, a partire da AlphaZero, il potente programma di scacchi di DeepMind. Il nuovo sistema, loro segnalato in agosto, ha funzionato meglio del solo AlphaZero e ha mostrato più abilità - e più creatività - nell'affrontare gli enigmi di Penrose. Queste capacità derivavano, in un certo senso, dalla collaborazione personale: se un approccio si scontrava con un muro, il programma semplicemente passava a un altro.

Questo approccio ha fondamentalmente senso, ha detto Allison Liemhetcharat, uno scienziato informatico presso DoorDash che ha lavorato con approcci multi-agente alla risoluzione dei problemi nella robotica. "Con una popolazione di agenti, c'è una maggiore probabilità che gli enigmi si trovino nel dominio in cui almeno uno degli agenti è stato addestrato."

Il lavoro suggerisce che team dotati di diversi sistemi di intelligenza artificiale potrebbero affrontare in modo efficiente problemi difficili ben oltre il tavolo da gioco. "Questo è un ottimo esempio del fatto che cercare più di un modo per risolvere un problema, come vincere una partita a scacchi, offre molti vantaggi", ha affermato Antonio Cully, un ricercatore di intelligenza artificiale presso l'Imperial College di Londra che non era coinvolto nel progetto DeepMind. Lo ha paragonato a una versione artificiale delle sessioni di brainstorming umane. "Questo processo di pensiero porta a soluzioni creative ed efficaci che si perderebbero senza fare questo esercizio."

Inseguendo i fallimenti

Prima di unirsi a DeepMind, Zahavy era interessato all'apprendimento per rinforzo profondo, un'area dell'intelligenza artificiale in cui un sistema utilizza reti neurali per apprendere alcuni compiti attraverso prove ed errori. È la base per i programmi di scacchi più potenti (e utilizzata in altre applicazioni di intelligenza artificiale come le auto a guida autonoma). Il sistema inizia con il suo ambiente. Negli scacchi, ad esempio, l'ambiente comprende il tabellone di gioco e le possibili mosse. Se il compito è guidare un'auto, l'ambiente comprende tutto ciò che circonda il veicolo. Il sistema quindi prende decisioni, intraprende azioni e valuta quanto si è avvicinato al suo obiettivo. Man mano che si avvicina all’obiettivo, accumula ricompense e man mano che il sistema accumula ricompense migliora le sue prestazioni. La parte “profonda” di questo approccio descrive le reti neurali utilizzate per analizzare e valutare i comportamenti.

L'apprendimento per rinforzo è il modo in cui AlphaZero ha imparato a diventare un maestro di scacchi. Mente profonda segnalati che durante le prime nove ore di allenamento del programma, nel dicembre 2017, ha giocato contro se stesso 44 milioni di partite. All'inizio, le sue mosse erano determinate in modo casuale, ma col tempo ha imparato a selezionare le mosse che più probabilmente portavano allo scacco matto. Dopo solo ore di allenamento, AlphaZero ha sviluppato la capacità di sconfiggere qualsiasi giocatore di scacchi umano.

Ma per quanto efficace possa essere l’apprendimento per rinforzo, non sempre porta a strategie che riflettano una comprensione generale del gioco. Nell'ultimo mezzo decennio circa, Zahavy e altri hanno notato un aumento dei peculiari problemi che potrebbero verificarsi su sistemi addestrati con tentativi ed errori. Un sistema che riproduce videogiochi, ad esempio, potrebbe trovare una scappatoia e capire come imbrogliare o saltare un livello, oppure potrebbe facilmente rimanere bloccato in un ciclo ripetitivo. Allo stesso modo, i puzzle in stile Penrose suggerivano una sorta di punto cieco, o problema tecnico, in AlphaZero: non riusciva a capire come affrontare un problema che non aveva mai visto prima.

Ma forse non tutti i problemi sono solo errori. Zahavy sospettava che i punti ciechi di AlphaZero potessero in realtà essere qualcos'altro sotto mentite spoglie: decisioni e comportamenti legati alle ricompense interne del sistema. I sistemi di apprendimento per rinforzo profondo, ha detto, non sanno come fallire – e nemmeno come riconoscere il fallimento. La capacità di fallire è stata a lungo collegata alla risoluzione creativa dei problemi. “La creatività ha una qualità umana”, ha scritto Kasparov Pensiero profondo. “Accetta la nozione di fallimento”.

I sistemi di intelligenza artificiale in genere no. E se un sistema non riconosce di non aver completato il proprio compito, potrebbe non provare qualcos'altro. Invece, continuerà semplicemente a provare a fare ciò che ha già fatto. Questo è probabilmente ciò che ha portato a quei vicoli ciechi nei videogiochi o a rimanere bloccati in alcune sfide di Penrose, ha detto Zahavy. Il sistema stava inseguendo “strani tipi di ricompense intrinseche”, ha detto, che aveva sviluppato durante la sua formazione. Cose che dall’esterno sembravano errori erano probabilmente la conseguenza dello sviluppo di strategie specifiche ma alla fine infruttuose.

Il sistema considerava queste strane ricompense come passi verso un obiettivo più grande, che in realtà non poteva raggiungere, e non sapeva provare qualcosa di nuovo. "Stavo cercando di dare loro un senso", ha detto Zahavy.

Un gioco migliore

Parte del motivo per cui questi problemi possono rivelarsi così consequenziali – e così utili – deriva da ciò che i ricercatori riconoscono come un problema con la generalizzazione. Sebbene i sistemi di apprendimento per rinforzo possano sviluppare una strategia efficace per collegare una determinata situazione a un’azione specifica – che i ricercatori chiamano “politica” – non possono applicarla a problemi diversi. "Quello che normalmente tende ad accadere con l'apprendimento per rinforzo, quasi indipendentemente dal metodo, è che ottieni la policy che risolve il caso particolare del problema su cui ti sei allenato, ma non generalizza", ha detto Giuliano Togelius, scienziato informatico presso la New York University e direttore della ricerca presso modl.ai.

Zahavy riteneva che gli enigmi di Penrose richiedessero proprio questo tipo di generalizzazione. Forse AlphaZero non è riuscito a risolvere la maggior parte degli enigmi perché era così concentrato sulla vittoria di intere partite, dall'inizio alla fine. Ma questo approccio introduceva punti ciechi esposti dalle improbabili disposizioni dei pezzi nei puzzle Penrose. Forse, pensava, il programma avrebbe potuto imparare a risolvere il puzzle se avesse avuto abbastanza spazio creativo per fare brainstorming e accedere a diversi metodi di formazione.

Quindi lui e i suoi colleghi hanno prima raccolto una serie di 53 puzzle Penrose e 15 puzzle sfida aggiuntivi. Da solo, AlphaZero ha risolto meno del 4% dei puzzle Penrose e meno del 12% del resto. Zahavy non ne fu sorpreso: molti di questi enigmi furono progettati da maestri di scacchi per confondere intenzionalmente i computer.

Come test, i ricercatori hanno provato ad addestrare AlphaZero a giocare contro se stesso utilizzando la disposizione del puzzle Penrose come posizione di partenza, invece del tabellone completo dei giochi tipici. Le sue prestazioni sono migliorate notevolmente: ha risolto il 96% degli enigmi di Penrose e il 76% delle sfide impostate. In generale, quando AlphaZero si allenava su un puzzle specifico, riusciva a risolverlo, proprio come poteva vincere quando si allenava su un gioco completo. Forse, pensava Zahavy, se un programma di scacchi potesse in qualche modo avere accesso a tutte quelle diverse versioni di AlphaZero, addestrate su quelle diverse posizioni, allora quella diversità potrebbe stimolare la capacità di affrontare nuovi problemi in modo produttivo. Forse potrebbe generalizzare, in altre parole, risolvendo non solo gli enigmi di Penrose, ma qualsiasi problema di scacchi più ampio.

Il suo gruppo ha deciso di scoprirlo. Hanno costruito la nuova versione diversificata di AlphaZero, che include più sistemi di intelligenza artificiale addestrati in modo indipendente e in una varietà di situazioni. L'algoritmo che governa l'intero sistema agisce come una sorta di sensale virtuale, ha affermato Zahavy: uno progettato per identificare quale agente ha le migliori possibilità di successo quando è il momento di fare una mossa. Lui e i suoi colleghi hanno anche codificato un “bonus di diversità” – una ricompensa per il sistema ogni volta che estraeva strategie da un’ampia selezione di scelte.

Quando il nuovo sistema è stato liberato per giocare i propri giochi, la squadra ha osservato molta varietà. Il giocatore diversificato dell'IA ha sperimentato nuove ed efficaci aperture e nuove, ma valide, decisioni su strategie specifiche, come quando e dove arroccare. Nella maggior parte delle partite, ha sconfitto l'AlphaZero originale. Il team ha anche scoperto che la versione diversificata potrebbe risolvere il doppio dei puzzle di sfida rispetto all'originale e potrebbe risolvere più della metà del catalogo totale dei puzzle Penrose.

“L’idea è che invece di trovare una soluzione, o una singola politica, che possa battere qualsiasi attore, qui [si utilizza] l’idea di diversità creativa”, ha detto Cully.

Con l'accesso a un numero sempre maggiore di giochi diversi, ha affermato Zahavy, il diversificato AlphaZero aveva più opzioni per le situazioni difficili quando si presentavano. "Se puoi controllare il tipo di giochi che vede, puoi sostanzialmente controllare il modo in cui si generalizzerà", ha detto. Quelle strane ricompense intrinseche (e le mosse ad esse associate) potrebbero diventare punti di forza per comportamenti diversi. Quindi il sistema potrebbe imparare a valutare e valutare gli approcci disparati e vedere quando hanno avuto maggior successo. “Abbiamo scoperto che questo gruppo di agenti può effettivamente raggiungere un accordo su queste posizioni”.

E, soprattutto, le implicazioni si estendono oltre gli scacchi.

Creatività nella vita reale

Cully ha affermato che un approccio diversificato può aiutare qualsiasi sistema di intelligenza artificiale, non solo quelli basati sull’apprendimento per rinforzo. Utilizza da tempo la diversità per allenare i sistemi fisici, tra cui a robot a sei zampe a cui è stato permesso di esplorare vari tipi di movimento, prima di "ferirlo" intenzionalmente, permettendogli di continuare a muoversi utilizzando alcune delle tecniche che aveva sviluppato in precedenza. "Stavamo solo cercando di trovare soluzioni diverse da tutte le soluzioni precedenti che abbiamo trovato finora." Recentemente, ha anche collaborato con ricercatori per utilizzare la diversità per identificare nuovi promettenti candidati farmaceutici e sviluppare strategie efficaci di compravendita di titoli.

"L'obiettivo è generare un'ampia raccolta di potenzialmente migliaia di soluzioni diverse, in cui ogni soluzione è molto diversa dalla successiva", ha affermato Cully. Quindi – proprio come il giocatore di scacchi diversificato ha imparato a fare – per ogni tipo di problema, il sistema complessivo potrebbe scegliere la migliore soluzione possibile. Il sistema di intelligenza artificiale di Zahavy, ha affermato, mostra chiaramente come “la ricerca di strategie diverse aiuta a pensare fuori dagli schemi e a trovare soluzioni”.

Zahavy sospetta che, affinché i sistemi di intelligenza artificiale possano pensare in modo creativo, i ricercatori debbano semplicemente convincerli a considerare più opzioni. Questa ipotesi suggerisce una curiosa connessione tra esseri umani e macchine: forse l’intelligenza è solo una questione di potenza computazionale. Per un sistema di intelligenza artificiale, forse la creatività si riduce alla capacità di considerare e selezionare da un buffet di opzioni sufficientemente ampio. Man mano che il sistema ottiene ricompense per la selezione di una varietà di strategie ottimali, questo tipo di risoluzione creativa dei problemi viene rafforzata e rafforzata. In definitiva, in teoria, potrebbe emulare qualsiasi tipo di strategia di risoluzione dei problemi riconosciuta come creativa negli esseri umani. La creatività diventerebbe un problema computazionale.

Liemhetcharat ha osservato che è improbabile che un sistema di intelligenza artificiale diversificato risolva completamente il più ampio problema di generalizzazione nell’apprendimento automatico. Ma è un passo nella giusta direzione. "Sta mitigando una delle carenze", ha detto.

Più in pratica, i risultati di Zahavy sono in sintonia con i recenti sforzi che mostrano come la cooperazione può portare a prestazioni migliori nei compiti difficili tra gli esseri umani. La maggior parte dei successi nella lista Billboard 100 sono stati scritti da gruppi di cantautori, ad esempio, non da singoli individui. E c'è ancora margine di miglioramento. L’approccio diversificato è attualmente costoso dal punto di vista computazionale, poiché deve considerare molte più possibilità rispetto a un sistema tipico. Zahavy inoltre non è convinto che anche il diversificato AlphaZero catturi l'intero spettro di possibilità.

“Penso ancora che ci sia spazio per trovare soluzioni diverse”, ha detto. "Non mi è chiaro se, dati tutti i dati del mondo, ci sia [solo] una risposta a ogni domanda."

Quanta sta conducendo una serie di sondaggi per servire meglio il nostro pubblico. Prendi il nostro Sondaggio tra i lettori di informatica e potrai partecipare alla vincita gratuita Quanta merce.

Timestamp:

Di più da Quantamagazine