DeepMind treina jogadores de futebol de robôs para marcar, mal

DeepMind treina jogadores de futebol de robôs para marcar, mal

DeepMind treina jogadores de futebol robôs para marcar, mal PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Vídeo Os intelectuais da DeepMind do Google desenvolveram um currículo de aprendizado profundo que pode ensinar robôs a jogar futebol mal – e isso é maravilhoso de se ver.

Em contraste com o acrobacias polidas do robô Atlas da Boston Dynamics, o par de robôs Robotis OP3 sob a tutela da DeepMind tropeça e se debate em um campo de futebol ou campo de futebol abaixo do padrão de 5 metros por 4 metros, como crianças exaustas. Julgue por si mesmo no vídeo abaixo.

Youtube Video

Fazem-no com aparente propósito e conseguem, apesar das repetidas quedas, endireitar-se e ocasionalmente marcar golos. Nos tropeços infantis dessas máquinas humanóides, é fácil ver algo semelhante à determinação que valorizamos e encorajamos uns nos outros, mesmo que isso seja apenas um antropomorfismo equivocado. É difícil não torcer por eles, embora eles inspirassem outras emoções se fossem aumentados e transformados em armas.

Os 28 investigadores envolvidos neste projecto descrevem o seu trabalho em um papel [PDF] intitulado “Aprendendo habilidades ágeis de futebol para um robô bípede com aprendizado por reforço profundo”.

“Usamos Deep [Reinforcement Learning] para treinar um robô humanóide com 20 articulações acionadas para jogar um jogo de futebol simplificado um contra um (1v1)”, explicam os autores. “Primeiro treinamos habilidades individuais isoladamente e depois compusemos essas habilidades de ponta a ponta em um ambiente de jogo independente.

“A política resultante apresenta habilidades de movimento robustas e dinâmicas, como recuperação rápida de quedas, andar, virar, chutar e muito mais; e transições entre eles de maneira suave, estável e eficiente – muito além do que é intuitivamente esperado do robô.”

O projeto DeepMind tem escopo menos ambicioso do que os esforços para preparar máquinas para a competição de tecnologia avançada RoboCup, que já acontece há anos. No entanto, a última iteração do RoboCup é decididamente menos divertido de se olhar devido ao comportamento contido dos participantes. Onde os bots RoboCup têm a rigidez de Riverdance artistas com os braços fixos ao lado do corpo, os jogadores do DeepMind agitam os braços como maníacos – reconhecidamente não é o ideal ao tentar evitar uma chamada de handebol, mas é uma melhor solicitação de simpatia.

O aprendizado por reforço profundo é uma forma de treinar uma rede neural em que os agentes (entidades baseadas em software ou hardware) aprendem como fazer coisas (simuladas ou no mundo real) por tentativa e erro. E tornou-se uma técnica comum para ensinar robôs a se movimentarem em vários ambientes, como pode ser visto no perspicácia de Cassie, uma espécie de torso de avestruz mecha que você espera nunca ver te perseguindo.

O objetivo da equipe DeepMind era treinar um agente para jogar futebol, o que requer uma variedade de habilidades, incluindo andar, chutar, ficar em pé, marcar e defender, todas as quais precisam ser coordenadas para marcar gols e vencer o jogo.

Para treinar o agente – neste caso o software que controla o robô – não bastava recompensar o sistema pelos gols, o que não produziria todas as habilidades necessárias. Em vez disso, os investigadores abordaram os conjuntos de competências separadamente, concentrando-se no desenvolvimento do que chamam de políticas docentes. Estas políticas regem coisas como levantar-se do chão e marcar golos contra um adversário não treinado – um adversário que imediatamente cai no chão, um comportamento não muito diferente do verdadeiro mergulho no futebol.

Os pesquisadores tiveram que ter o cuidado de interromper o treinamento de gol quando os agentes caíam no chão para evitar comportamentos indesejáveis, mas evidentemente funcionais: “Sem essa terminação, os agentes encontram um mínimo local e aprendem a rolar no chão em direção à bola para derrubá-la. para o gol, em vez de caminhar e chutar”, explicam eles em seu artigo.

A política de preparação e a política de golos acabaram por se combinar. E através de um processo de aprendizagem por reforço profundo e recompensas por atingir objetivos específicos, o software desenvolveu habilidades futebolísticas aceitáveis.

Transformar o agente de software treinado em um corpo de robô não foi muito difícil. Foi um processo zero-shot, segundo os autores, o que significa que eles não precisaram fazer treinamento adicional.

“Reduzimos a lacuna entre sim e real por meio da simples identificação do sistema, melhoramos a robustez de nossas políticas por meio de randomização de domínio e perturbações durante o treinamento e incluímos a definição de termos de recompensa para obter um comportamento com menor probabilidade de danificar o robô”, explicam.

Ou seja, eles garantiram que os parâmetros do simulador fossem mapeados para as configurações do atuador de hardware, características aleatórias como atrito do piso e orientação da junta, massa das peças do robô, latência do circuito de controle e perturbações aleatórias, tudo para garantir que o software pudesse lidar com uma variedade de forças que atuam sobre o corpo do robô. Em um ajuste, eles adicionaram um componente de recompensa que encorajou os bots a colocar menos estresse nas articulações dos joelhos, que de outra forma teriam tendência a serem danificadas.

O treinamento dos professores de preparação e futebol levou 14 horas e 158 horas (6.5 dias), respectivamente, seguido de 68 horas de destilação e autojogo. E o resultado foi melhor do que tentar programar deliberadamente essas habilidades, disseram os especialistas.

“A política de aprendizagem por reforço teve um desempenho melhor do que as habilidades especializadas projetadas manualmente: andou 156% mais rápido e levou 63% menos tempo para se levantar”, diz o artigo.

“Quando inicializado perto da bola, ele chutou a bola com 5% menos velocidade; ambos alcançaram uma velocidade de bola de cerca de 2 m/s. No entanto, com uma abordagem adicional para a bola, a velocidade média de chute da política aprendida foi de 2.6 m/s (24 por cento mais rápida do que a habilidade programada) e a velocidade máxima de chute entre os episódios foi de 3.4 m/s.”

Os especialistas da DeepMind demonstraram que o aprendizado por reforço profundo pode ser aplicado para ensinar robôs humanóides de maneira eficaz e com baixo custo. Esse é mais um passo hesitante em direção a um futuro onde robôs bípedes caminharão entre nós, para o bem ou para o mal. ®

Carimbo de hora:

Mais de O registro