DeepMind entrena a jugadores de fútbol robot para anotar, mal

DeepMind entrena a jugadores de fútbol robot para anotar, mal

DeepMind entrena a jugadores de fútbol robot para anotar, mal PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Video Los intelectuales de DeepMind de Google han desarrollado un plan de estudios de aprendizaje profundo que puede enseñar a los robots cómo jugar mal al fútbol, ​​y es maravilloso de contemplar.

En contraste con el acrobacias pulidas del robot Atlas de Boston Dynamics, el par de robots Robotis OP3 bajo la tutela de DeepMind andan dando tumbos por un campo de fútbol de 5 metros por 4 metros que no cumple con las normas, como niños exhaustos. Juzgue usted mismo en el siguiente video.

Youtube Video

Lo hacen con un propósito aparente y logran, a pesar de las repetidas caídas, enderezarse y ocasionalmente marcar goles. En el tropiezo infantil de estas máquinas humanoides, es fácil ver algo parecido a la determinación que valoramos y alentamos unos a otros, incluso si eso no es más que un antropomorfismo fuera de lugar. Es difícil no alentarlos, aunque inspirarían otras emociones si fueran más grandes y armados.

Los 28 investigadores involucrados en este proyecto describen su trabajo en un papel [PDF] titulado, "Aprender habilidades ágiles de fútbol para un robot bípedo con aprendizaje de refuerzo profundo".

“Utilizamos Deep [Reinforcement Learning] para entrenar a un robot humanoide con 20 articulaciones accionadas para jugar un partido de fútbol simplificado uno contra uno (1v1)”, explican los autores. “Primero entrenamos habilidades individuales de forma aislada y luego compusimos esas habilidades de principio a fin en un entorno de juego individual.

“La política resultante exhibe habilidades de movimiento sólidas y dinámicas, como recuperación rápida de caídas, caminar, girar, patear y más; y transiciones entre ellos de una manera suave, estable y eficiente, mucho más allá de lo que intuitivamente se espera del robot”.

El proyecto DeepMind tiene un alcance menos ambicioso que los esfuerzos para preparar máquinas para la competencia de tecnología avanzada RoboCup, que se lleva a cabo durante años. Sin embargo, la última versión de la RoboCup es decididamente menos divertido de ver debido al comportamiento comedido de los participantes. Donde los bots RoboCup tienen la rigidez de Riverdance intérpretes con los brazos pegados a los costados, los jugadores de DeepMind agitan los brazos como locos – es cierto que no es ideal cuando se trata de evitar una llamada de balonmano, pero es una mejor solicitud de simpatía.

El aprendizaje de refuerzo profundo es una forma de entrenar una red neuronal en la que los agentes (entidades basadas en software o hardware) aprenden cómo hacer cosas (simuladas o en el mundo real) a través de prueba y error. Y se ha convertido en una técnica común para enseñar a los robots cómo moverse en varios entornos, como se puede ver en el perspicacia para correr de Cassie, una especie de torso de mecha-avestruz que esperarías nunca ver persiguiéndote.

El objetivo del equipo de DeepMind era entrenar a un agente para jugar fútbol, ​​lo que requiere una variedad de habilidades, como caminar, patear, ponerse de pie, anotar y defender, todo lo cual debe coordinarse para marcar goles y ganar el juego.

Para entrenar al agente, en este caso el software que controla el robot, no era suficiente recompensar al sistema por marcar goles, lo que no produciría todas las habilidades necesarias. En cambio, los investigadores abordaron los conjuntos de habilidades por separado, centrándose en desarrollar lo que llaman políticas docentes. Estas políticas gobiernan cosas como levantarse del suelo y anotar goles contra un oponente no entrenado, uno que inmediatamente cae al suelo, un comportamiento similar al de un clavado de fútbol real.

Los investigadores debían tener cuidado de detener el entrenamiento de gol cuando los agentes caían al suelo para evitar comportamientos indeseables pero evidentemente funcionales: “Sin esta terminación, los agentes encuentran un mínimo local y aprenden a rodar por el suelo hacia el balón para golpearlo. hacia la portería, en lugar de caminar y patear”, explican en su artículo.

La política de levantarse y la política de marcar goles finalmente se combinaron. Y a través de un proceso de aprendizaje de refuerzo profundo y recompensas por lograr objetivos específicos, el software desarrolló habilidades futbolísticas aceptables.

Transformar al agente de software capacitado en un cuerpo de robot no resultó demasiado difícil. Fue un proceso de tiro cero, según los autores, lo que significa que no tuvieron que hacer entrenamiento adicional.

“Redujimos la brecha entre la simulación y la realidad a través de la identificación simple del sistema, mejoramos la solidez de nuestras políticas a través de la aleatorización de dominios y las perturbaciones durante el entrenamiento, e incluimos la configuración de términos de recompensa para obtener un comportamiento que es menos probable que dañe el robot”, explican.

Es decir, se aseguraron de que los parámetros del simulador se asignaran a la configuración del actuador de hardware, características aleatorias como la fricción del piso y la orientación de las articulaciones, la masa de las piezas del robot, la latencia del bucle de control y las perturbaciones aleatorias, todo para garantizar que el software pudiera manejar una variedad de fuerzas que actúan sobre el cuerpo del robot. En un ajuste, agregaron un componente de recompensa que alentó a los bots a poner menos estrés en las articulaciones de sus rodillas, que de otra manera tendían a dañarse.

La formación de los profesores de fútbol y de vestuario tomó 14 horas y 158 horas (6.5 días), respectivamente, seguidas de 68 horas de destilación y autojuego. Y el resultado fue mejor que tratar deliberadamente de programar esas habilidades, dijeron los científicos.

“La política de aprendizaje por refuerzo funcionó mejor que las habilidades especializadas diseñadas manualmente: caminó un 156 por ciento más rápido y tardó un 63 por ciento menos en levantarse”, dice el documento.

“Cuando se inicializó cerca de la pelota, pateó la pelota con un 5 por ciento menos de velocidad; ambos lograron una velocidad de bola de alrededor de 2 m/s. Sin embargo, con un acercamiento adicional a la pelota, la velocidad media de patada de la política aprendida fue de 2.6 m/s (24 por ciento más rápida que la habilidad del guión) y la velocidad máxima de patada en los episodios fue de 3.4 m/s.

Los cerebritos de DeepMind demostraron que el aprendizaje por refuerzo profundo se puede aplicar para enseñar a los robots humanoides de manera efectiva y a bajo costo. Ese es un paso vacilante más hacia un futuro donde los robots bípedos caminan entre nosotros, para bien o para mal. ®

Sello de tiempo:

Mas de El registro