La última IA de DeepMind derrota a los jugadores humanos en el juego 'Stratego' PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

La última IA de DeepMind derrota a los jugadores humanos en el juego 'Stratego'

La IA odia la incertidumbre. Sin embargo, para navegar por nuestro mundo impredecible, necesita aprender a tomar decisiones con información imperfecta, como lo hacemos todos los días.

mente profunda solo tomó una puñalada en resolver este enigma. El truco consistía en entretejer la teoría de juegos en una estrategia algorítmica vagamente basada en el cerebro humano llamada aprendizaje de refuerzo profundo. El resultado, DeepNash, derrocó a los expertos humanos en un juego de mesa altamente estratégico llamado Stratego. Un juego notoriamente difícil para la IA, Stratego requiere múltiples fortalezas del ingenio humano: pensamiento a largo plazo, faroles y estrategias, todo sin conocer las piezas de tu oponente en el tablero.

“A diferencia del ajedrez y el Go, Stratego es un juego de información imperfecta: los jugadores no pueden observar directamente las identidades de las piezas de sus oponentes”, DeepMind escribí en una entrada de blog. Con DeepNash, "los sistemas de inteligencia artificial (IA) para juegos han avanzado a una nueva frontera".

No todo es diversión y juegos. Los sistemas de inteligencia artificial que pueden maniobrar fácilmente la aleatoriedad de nuestro mundo y ajustar su "comportamiento" en consecuencia podrían algún día manejar problemas del mundo real con información limitada, como optimizar el flujo de tráfico para reducir el tiempo de viaje y (con suerte) calmar la ira en la carretera como conducción autónoma. los coches se vuelven cada vez más presentes.

"Si está haciendo un automóvil autónomo, no quiere asumir que todos los demás conductores en la carretera son perfectamente racionales y se comportarán de manera óptima". dijo Dr. Noam Brown de Meta AI, que no participó en la investigación.

El triunfo de DeepNash llega inmediatamente después de otro avance de IA este mes, donde un algoritmo aprendido a jugar Diplomacia—un juego que requiere negociación y cooperación para ganar. A medida que la IA adquiere un razonamiento más flexible, se vuelve más generalizada y aprende a navegar en situaciones sociales, también puede generar conocimientos sobre los procesos neuronales y la cognición de nuestro propio cerebro.

Conoce a Stratego

En términos de complejidad, Stratego es una bestia completamente diferente en comparación con el ajedrez, el Go o el póquer, todos los juegos que la IA ha dominado previamente.

El juego es esencialmente capturar la bandera. Cada lado tiene 40 piezas que pueden colocar en cualquier posición del tablero. Cada pieza tiene un nombre y rango numérico diferente, como "mariscal", "general", "explorador" o "espía". Las piezas de rango superior pueden capturar las inferiores. El objetivo es eliminar a la oposición y capturar su bandera.

Stratego es especialmente desafiante para la IA porque los jugadores no pueden ver la ubicación de las piezas de sus oponentes, tanto durante la configuración inicial como durante el juego. A diferencia del ajedrez o el Go, en los que cada pieza y movimiento está a la vista, Stratego es un juego con información limitada. Los jugadores deben "equilibrar todos los resultados posibles" cada vez que toman una decisión, explicaron los autores.

Este nivel de incertidumbre es en parte la razón por la que Stratego ha dejado perpleja a la IA durante mucho tiempo. Incluso los algoritmos de juego más exitosos, como AlphaGo y AlphaZero, confíe en la información completa. Stratego, en cambio, tiene un toque de Texas Hold 'em, un juego de póquer que DeepMind conquistó previamente con un algoritmo. Pero esa estrategia fracasó para Stratego, en gran parte debido a la duración del juego, que a diferencia del póquer, normalmente abarca cientos de movimientos.

La cantidad de jugadas potenciales es alucinante. El ajedrez tiene una posición inicial. Stratego tiene más de 1066 posibles posiciones iniciales, mucho más que todas las estrellas del universo. El árbol de juego de Stratego, la suma de todos los movimientos potenciales en el juego, totaliza la asombrosa cantidad de 10535.

"La gran complejidad de la cantidad de resultados posibles en Stratego significa que los algoritmos que funcionan bien en juegos de información perfecta, e incluso aquellos que funcionan para el póquer, no funcionan". dijo el autor del estudio, el Dr. Julien Perolat de DeepMind. El desafío es “lo que nos entusiasmó”, dijo.

Una mente maravillosa

La complejidad de Stratego significa que la estrategia habitual para buscar movimientos de juego está fuera de discusión. Apodada la búsqueda del árbol de Monte Carlo, un "enfoque incondicional de los juegos basados ​​en IA", la técnica traza rutas potenciales, como las ramas de un árbol, que podrían resultar en la victoria.

En cambio, el toque mágico de DeepNash provino del matemático John Nash, retratado en la película Una mente maravillosa. Pionero en la teoría de juegos, Nash ganó el Premio Nobel por su trabajo para la equilibrio de Nash. En pocas palabras, en cada juego, los jugadores pueden aprovechar un conjunto de estrategias seguidas por todos, de modo que ningún jugador gane nada cambiando su propia estrategia. En Statego, esto genera un juego de suma cero: cualquier ganancia que un jugador obtenga resultará en una pérdida para su oponente.

Debido a la complejidad de Stratego, DeepNash adoptó un enfoque sin modelo para su algoritmo. Aquí, la IA no está tratando de modelar con precisión el comportamiento de su oponente. Como un bebé, tiene una especie de pizarra en blanco para aprender. Esta configuración es particularmente útil en las primeras etapas del juego, "cuando DeepNash sabe poco sobre las piezas de su oponente", lo que hace que las predicciones sean "difíciles, si no imposibles", dijeron los autores.

Luego, el equipo utilizó el aprendizaje de refuerzo profundo para potenciar DeepNash, con el objetivo de encontrar el equilibrio de Nash del juego. Es una combinación perfecta: el aprendizaje por refuerzo ayuda a decidir el mejor próximo paso en cada paso del juego, mientras que DeepNash proporciona una estrategia de aprendizaje general. Para evaluar el sistema, el equipo también diseñó un "tutor" utilizando el conocimiento del juego para filtrar errores obvios que probablemente no tendrían sentido en el mundo real.

La práctica hace la perfección

Como primer paso de aprendizaje, DeepNash jugó contra sí mismo en 5.5 millones de juegos, un enfoque popular en el entrenamiento de IA denominado autojuego.

Cuando un lado gana, se premia a la IA y se fortalecen los parámetros actuales de su red neuronal artificial. El otro lado, la misma IA, recibe una penalización para amortiguar la fuerza de su red neuronal. Es como ensayar un discurso frente a un espejo. Con el tiempo, te das cuenta de los errores y te desempeñas mejor. En el caso de DeepNash, se desplaza hacia un equilibrio de Nash para lograr la mejor jugabilidad.

¿Qué pasa con el rendimiento real?

El equipo probó el algoritmo contra otros bots de élite de Stratego, algunos de los cuales ganaron el Campeonato Mundial de Informática de Stratego. DeepNash aplastó a sus oponentes con una tasa de victorias de aproximadamente el 97 por ciento. Cuando se desató contra Gravon, una plataforma en línea para jugadores humanos, DeepNash derrotó a sus oponentes humanos. Después de más de dos semanas de partidos contra los jugadores de Gravon en abril de este año, DeepNash subió al tercer lugar en todos los partidos clasificados desde 2002.

Muestra que el arranque de los datos de juego humano a la IA no es necesario para que DeepNash alcance un rendimiento de nivel humano y lo supere.

La IA también exhibió un comportamiento intrigante con la configuración inicial y durante el juego. Por ejemplo, en lugar de decidirse por una posición inicial "optimizada" en particular, DeepNash cambiaba constantemente las piezas para evitar que su oponente detectara patrones con el tiempo. Durante el juego, la IA rebotaba entre movimientos aparentemente sin sentido, como sacrificar piezas de alto rango, para localizar las piezas de mayor rango del oponente en el contraataque.

DeepNash también puede farolear. En una jugada, la IA movió una pieza de bajo rango como si fuera una de alto rango, atrayendo al oponente humano para que persiguiera la pieza con su coronel de alto rango. La IA sacrificó el peón, pero a su vez, atrajo la valiosa pieza espía del oponente a una emboscada.

Aunque DeepNash se desarrolló para Stratego, se puede generalizar al mundo real. El método central puede instruir potencialmente a la IA para que aborde mejor nuestro futuro impredecible utilizando información limitada, desde el control de multitudes y tráfico hasta el análisis de la agitación del mercado.

“Al crear un sistema de IA generalizable que sea robusto frente a la incertidumbre, esperamos llevar las capacidades de resolución de problemas de la IA a nuestro mundo inherentemente impredecible”, dijo el equipo.

Crédito de la imagen: Derek Bruff / Flickr

Sello de tiempo:

Mas de Centro de Singularidad