Google DeepMind entrena 'lluvia de ideas artificial' en ajedrez con inteligencia artificial | Revista Quanta

Google DeepMind entrena 'lluvia de ideas artificial' en ajedrez con inteligencia artificial | Revista Quanta

Google DeepMind entrena 'lluvia de ideas artificial' en ajedrez con inteligencia artificial | Revista Quanta PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Introducción

Cuando Covid-19 envió a la gente a casa a principios de 2020, el informático Tom Zahavy El ajedrez redescubierto. Había jugado cuando era niño y recientemente había leído el libro de Garry Kasparov. Pensamiento profundo, una memoria de las partidas del gran maestro en 1997 contra la computadora de ajedrez de IBM, Deep Blue. Vio vídeos de ajedrez en YouTube y El Gambito de la Reina en Netflix.

A pesar de su renovado interés, Zahavy no buscaba formas de mejorar su juego. "No soy un gran jugador", dijo. “Soy mejor con los acertijos de ajedrez”: disposiciones de piezas, a menudo artificiales y poco probables que ocurran durante un juego real, que desafían al jugador a encontrar formas creativas de obtener la ventaja.

Los acertijos pueden ayudar a los jugadores a perfeccionar sus habilidades, pero más recientemente han ayudado a revelar las limitaciones ocultas de los programas de ajedrez. Uno de los acertijos más notorios, ideado por el matemático Sir Roger Penrose en 2017, coloca piezas negras más fuertes (como la reina y las torres) en el tablero, pero en posiciones incómodas. Un jugador humano experimentado, jugando con blancas, fácilmente podría llevar la partida a un empate, pero potentes programas de ajedrez por ordenador dirían que las negras tenían una clara ventaja. Esa diferencia, dijo Zahavy, sugería que aunque las computadoras podían derrotar a los mejores jugadores humanos del mundo, todavía no podían reconocer y resolver todo tipo de problemas difíciles. Desde entonces, Penrose y otros han ideado extensas colecciones de acertijos que las computadoras luchan por resolver.

El ajedrez ha sido durante mucho tiempo una piedra de toque para probar nuevas ideas en inteligencia artificial, y los acertijos de Penrose despertaron el interés de Zahavy. "Estaba tratando de entender qué hace que estas situaciones sean tan difíciles para las computadoras cuando al menos algunas de ellas las podemos resolver como humanos", dijo. “Estaba completamente fascinado”. Pronto se convirtió en un interés profesional: como científico investigador en Google DeepMind, Zahavy explora enfoques creativos para la resolución de problemas. El objetivo es diseñar sistemas de IA con un espectro de comportamientos posibles más allá de realizar una sola tarea.

Un programa tradicional de ajedrez con IA, entrenado para ganar, puede no tener sentido en un rompecabezas de Penrose, pero Zahavy sospechaba que un programa formado por muchos sistemas diversos, trabajando juntos como un grupo, podría lograr avances. Entonces él y sus colegas desarrollaron una forma de entrelazar múltiples (hasta 10) sistemas de inteligencia artificial para la toma de decisiones, cada uno de ellos optimizado y entrenado para diferentes estrategias, comenzando con AlphaZero, el poderoso programa de ajedrez de DeepMind. El nuevo sistema, ellos informado en agosto, jugó mejor que AlphaZero solo y mostró más habilidad (y más creatividad) al resolver los acertijos de Penrose. Estas habilidades surgieron, en cierto sentido, de la autocolaboración: si un enfoque chocaba contra un muro, el programa simplemente recurría a otro.

Este enfoque tiene fundamentalmente sentido, afirmó Allison Liemhetcharat, un científico informático de DoorDash que ha trabajado con enfoques de múltiples agentes para la resolución de problemas en robótica. "Con una población de agentes, existe una mayor probabilidad de que los acertijos estén en el dominio en el que al menos uno de los agentes fue entrenado".

El trabajo sugiere que equipos de diversos sistemas de IA podrían abordar de manera eficiente problemas difíciles mucho más allá del tablero de juego. "Este es un gran ejemplo de que buscar más de una forma de resolver un problema, como ganar una partida de ajedrez, proporciona muchos beneficios", dijo Antonio Cully, un investigador de inteligencia artificial del Imperial College de Londres que no participó en el proyecto DeepMind. Lo comparó con una versión artificial de las sesiones de lluvia de ideas humanas. "Este proceso de pensamiento conduce a soluciones creativas y efectivas que uno perdería sin hacer este ejercicio".

Persiguiendo fracasos

Antes de unirse a DeepMind, Zahavy estaba interesado en el aprendizaje por refuerzo profundo, un área de la inteligencia artificial en la que un sistema utiliza redes neuronales para aprender alguna tarea mediante prueba y error. Es la base de los programas de ajedrez más potentes (y se utiliza en otras aplicaciones de IA, como los coches autónomos). El sistema comienza con su entorno. En el ajedrez, por ejemplo, el entorno incluye el tablero de juego y los posibles movimientos. Si la tarea es conducir un automóvil, el entorno incluye todo lo que rodea al vehículo. Luego, el sistema toma decisiones, realiza acciones y evalúa qué tan cerca estuvo de su objetivo. A medida que se acerca a la meta, acumula recompensas y, a medida que el sistema acumula recompensas, mejora su rendimiento. La parte "profunda" de este enfoque describe las redes neuronales utilizadas para analizar y evaluar comportamientos.

El aprendizaje por refuerzo es cómo AlphaZero aprendió a convertirse en un maestro del ajedrez. Mente profunda reportaron que durante las primeras nueve horas de entrenamiento del programa, en diciembre de 2017, disputó 44 millones de partidos contra sí mismo. Al principio, sus movimientos se determinaban al azar, pero con el tiempo aprendió a seleccionar movimientos con más probabilidades de conducir al jaque mate. Después de sólo unas horas de entrenamiento, AlphaZero desarrolló la capacidad de derrotar a cualquier jugador de ajedrez humano.

Pero por muy exitoso que pueda ser el aprendizaje por refuerzo, no siempre conduce a estrategias que reflejen una comprensión general del juego. Durante la última media década, Zahavy y otros notaron un aumento en los fallos peculiares que podían ocurrir en sistemas entrenados con prueba y error. Un sistema que juega videojuegos, por ejemplo, podría encontrar una laguna jurídica y descubrir cómo hacer trampa o saltarse un nivel, o podría fácilmente quedarse atrapado en un bucle repetitivo. Los acertijos estilo Penrose sugirieron de manera similar una especie de punto ciego o falla técnica en AlphaZero: no podía descubrir cómo abordar un problema que nunca antes había visto.

Pero tal vez no todos los fallos sean sólo errores. Zahavy sospechaba que los puntos ciegos de AlphaZero podrían en realidad ser algo más disfrazado: decisiones y comportamientos vinculados a las recompensas internas del sistema. Los sistemas de aprendizaje por refuerzo profundo, afirmó, no saben cómo fallar, ni siquiera cómo reconocer el fracaso. La capacidad de fracasar ha estado vinculada durante mucho tiempo a la resolución creativa de problemas. "La creatividad tiene una cualidad humana", escribió Kasparov en Pensamiento profundo. "Acepta la noción de fracaso".

Los sistemas de IA normalmente no lo hacen. Y si un sistema no reconoce que no pudo completar su tarea, es posible que no intente otra cosa. En cambio, seguirá intentando hacer lo que ya ha hecho. Probablemente eso es lo que llevó a esos callejones sin salida en los videojuegos, o a quedarse estancado en algunos desafíos de Penrose, dijo Zahavy. El sistema perseguía “tipos extraños de recompensas intrínsecas”, dijo, que había desarrollado durante su entrenamiento. Cosas que desde fuera parecían errores probablemente fueron consecuencia del desarrollo de estrategias específicas pero, en última instancia, infructuosas.

El sistema consideraba estas extrañas recompensas como pasos hacia un objetivo mayor, que en realidad no podía lograr, y no sabía probar algo nuevo. “Estaba tratando de darles sentido”, dijo Zahavy.

un mejor juego

Parte de la razón por la que estos fallos pueden resultar tan importantes (y tan útiles) proviene de lo que los investigadores reconocen como un problema de generalización. Si bien los sistemas de aprendizaje por refuerzo pueden desarrollar una estrategia eficaz para conectar una situación determinada con una acción específica (lo que los investigadores denominan “política”), no pueden aplicarla a diferentes problemas. "Lo que normalmente tiende a suceder con el aprendizaje por refuerzo, casi independientemente del método, es que se obtiene la política que resuelve el caso particular del problema en el que se ha estado entrenando, pero no se generaliza", dijo julian togelius, científico informático de la Universidad de Nueva York y director de investigación de modl.ai.

Zahavy consideró que los enigmas de Penrose requerían precisamente este tipo de generalización. Quizás AlphaZero no podía resolver la mayoría de los acertijos porque estaba muy concentrado en ganar juegos enteros, de principio a fin. Pero ese enfoque introdujo puntos ciegos expuestos por la improbable disposición de las piezas de los rompecabezas de Penrose. Tal vez, razonó, el programa podría aprender a resolver el rompecabezas si tuviera suficiente espacio creativo para intercambiar ideas y acceder a diferentes métodos de capacitación.

Entonces, él y sus colegas primero recopilaron un conjunto de 53 acertijos de Penrose y 15 acertijos de desafío adicionales. Por sí solo, AlphaZero resolvió menos del 4% de los acertijos de Penrose y menos del 12% del resto. Zahavy no se sorprendió: muchos de estos acertijos fueron diseñados por maestros del ajedrez para confundir intencionalmente a las computadoras.

Como prueba, los investigadores intentaron entrenar a AlphaZero para que jugara contra sí mismo utilizando el rompecabezas de Penrose como posición inicial, en lugar del tablero completo de los juegos típicos. Su rendimiento mejoró dramáticamente: resolvió el 96% de los acertijos de Penrose y el 76% del desafío planteado. En general, cuando AlphaZero entrenaba en un rompecabezas específico, podía resolverlo, del mismo modo que podía ganar cuando entrenaba en un juego completo. Quizás, pensó Zahavy, si un programa de ajedrez pudiera de alguna manera tener acceso a todas esas versiones diferentes de AlphaZero, entrenadas en esas diferentes posiciones, entonces esa diversidad podría generar la capacidad de abordar nuevos problemas de manera productiva. En otras palabras, tal vez podría generalizarse, resolviendo no sólo los acertijos de Penrose, sino cualquier problema de ajedrez más amplio.

Su grupo decidió averiguarlo. Construyeron la versión nueva y diversificada de AlphaZero, que incluye múltiples sistemas de inteligencia artificial que se entrenan de forma independiente y en una variedad de situaciones. El algoritmo que gobierna el sistema en general actúa como una especie de casamentero virtual, dijo Zahavy: uno diseñado para identificar qué agente tiene más posibilidades de tener éxito cuando llega el momento de hacer un movimiento. Él y sus colegas también codificaron un “bono de diversidad”, una recompensa para el sistema cada vez que extraía estrategias de una gran selección de opciones.

Cuando el nuevo sistema empezó a jugar sus propios juegos, el equipo observó mucha variedad. El jugador de IA diversificado experimentó con aperturas nuevas y efectivas y decisiones novedosas (pero acertadas) sobre estrategias específicas, como cuándo y dónde enrocar. En la mayoría de los partidos, derrotó al AlphaZero original. El equipo también descubrió que la versión diversificada podía resolver el doble de acertijos desafiantes que el original y podía resolver más de la mitad del catálogo total de acertijos de Penrose.

“La idea es que en lugar de encontrar una solución o una política única que pueda vencer a cualquier jugador, aquí [se utiliza] la idea de diversidad creativa”, dijo Cully.

Con acceso a más y diferentes juegos jugados, dijo Zahavy, el diversificado AlphaZero tenía más opciones para situaciones difíciles cuando surgían. "Si puedes controlar el tipo de juegos que ve, básicamente controlas cómo se generalizará", dijo. Esas extrañas recompensas intrínsecas (y sus movimientos asociados) podrían convertirse en fortalezas para diversos comportamientos. Entonces el sistema podría aprender a evaluar y valorar los enfoques dispares y ver cuándo tuvieron más éxito. "Descubrimos que este grupo de agentes realmente puede llegar a un acuerdo sobre estas posiciones".

Y, lo que es más importante, las implicaciones se extienden más allá del ajedrez.

Creatividad de la vida real

Cully dijo que un enfoque diversificado puede ayudar a cualquier sistema de inteligencia artificial, no solo a aquellos basados ​​en el aprendizaje por refuerzo. Durante mucho tiempo ha utilizado la diversidad para entrenar sistemas físicos, incluido un robot de seis patas a eso se le permitió explorar varios tipos de movimiento, antes de "herirlo" intencionalmente, permitiéndole continuar moviéndose usando algunas de las técnicas que había desarrollado antes. "Solo estábamos tratando de encontrar soluciones que fueran diferentes de todas las soluciones anteriores que hemos encontrado hasta ahora". Recientemente, también ha estado colaborando con investigadores para utilizar la diversidad para identificar nuevos candidatos a fármacos prometedores y desarrollar estrategias efectivas de negociación de acciones.

"El objetivo es generar una gran colección de potencialmente miles de soluciones diferentes, donde cada solución sea muy diferente de la siguiente", dijo Cully. Entonces, tal como aprendió a hacer el jugador de ajedrez diversificado, para cada tipo de problema, el sistema general podría elegir la mejor solución posible. El sistema de inteligencia artificial de Zahavy, dijo, muestra claramente cómo "la búsqueda de estrategias diversas ayuda a pensar de manera innovadora y encontrar soluciones".

Zahavy sospecha que para que los sistemas de IA piensen creativamente, los investigadores simplemente tienen que lograr que consideren más opciones. Esa hipótesis sugiere una curiosa conexión entre humanos y máquinas: tal vez la inteligencia sea sólo una cuestión de poder computacional. Para un sistema de IA, tal vez la creatividad se reduzca a la capacidad de considerar y seleccionar entre un conjunto de opciones suficientemente grande. A medida que el sistema obtiene recompensas por seleccionar una variedad de estrategias óptimas, este tipo de resolución creativa de problemas se refuerza y ​​fortalece. En última instancia, en teoría, podría emular cualquier tipo de estrategia de resolución de problemas reconocida como creativa en los humanos. La creatividad se convertiría en un problema computacional.

Liemhetcharat señaló que es poco probable que un sistema de IA diversificado resuelva por completo el problema de generalización más amplio del aprendizaje automático. Pero es un paso en la dirección correcta. "Está mitigando una de las deficiencias", dijo.

De manera más práctica, los resultados de Zahavy resuenan con esfuerzos recientes que muestran cómo la cooperación puede conducir a un mejor desempeño en tareas difíciles entre humanos. La mayoría de los éxitos de la lista Billboard 100 fueron escritos por equipos de compositores, por ejemplo, no por individuos. Y todavía hay margen de mejora. Actualmente, el enfoque diverso es computacionalmente costoso, ya que debe considerar muchas más posibilidades que un sistema típico. Zahavy tampoco está convencido de que incluso el diversificado AlphaZero abarque todo el espectro de posibilidades.

"Todavía creo que hay margen para encontrar diferentes soluciones", afirmó. "No me queda claro que, teniendo en cuenta todos los datos del mundo, haya [sólo] una respuesta para cada pregunta".

¿Cuánto está realizando una serie de encuestas para servir mejor a nuestra audiencia. Toma nuestro encuesta a lectores de informática y entrarás para ganar gratis ¿Cuánto mercancía.

Sello de tiempo:

Mas de Revista Quanta