Vídeo Os intelectuais da DeepMind do Google desenvolveram um currículo de aprendizado profundo que pode ensinar robôs a jogar futebol mal – e isso é maravilhoso de se ver.
Em contraste com o acrobacias polidas do robô Atlas da Boston Dynamics, o par de robôs Robotis OP3 sob a tutela da DeepMind tropeça e se debate em um campo de futebol ou campo de futebol abaixo do padrão de 5 metros por 4 metros, como crianças exaustas. Julgue por si mesmo no vídeo abaixo.
Fazem-no com aparente propósito e conseguem, apesar das repetidas quedas, endireitar-se e ocasionalmente marcar golos. Nos tropeços infantis dessas máquinas humanóides, é fácil ver algo semelhante à determinação que valorizamos e encorajamos uns nos outros, mesmo que isso seja apenas um antropomorfismo equivocado. É difícil não torcer por eles, embora eles inspirassem outras emoções se fossem aumentados e transformados em armas.
Os 28 investigadores envolvidos neste projecto descrevem o seu trabalho em um papel [PDF] intitulado “Aprendendo habilidades ágeis de futebol para um robô bípede com aprendizado por reforço profundo”.
“Usamos Deep [Reinforcement Learning] para treinar um robô humanóide com 20 articulações acionadas para jogar um jogo de futebol simplificado um contra um (1v1)”, explicam os autores. “Primeiro treinamos habilidades individuais isoladamente e depois compusemos essas habilidades de ponta a ponta em um ambiente de jogo independente.
“A política resultante apresenta habilidades de movimento robustas e dinâmicas, como recuperação rápida de quedas, andar, virar, chutar e muito mais; e transições entre eles de maneira suave, estável e eficiente – muito além do que é intuitivamente esperado do robô.”
O projeto DeepMind tem escopo menos ambicioso do que os esforços para preparar máquinas para a competição de tecnologia avançada RoboCup, que já acontece há anos. No entanto, a última iteração do RoboCup é decididamente menos divertido de se olhar devido ao comportamento contido dos participantes. Onde os bots RoboCup têm a rigidez de Riverdance artistas com os braços fixos ao lado do corpo, os jogadores do DeepMind agitam os braços como maníacos – reconhecidamente não é o ideal ao tentar evitar uma chamada de handebol, mas é uma melhor solicitação de simpatia.
O aprendizado por reforço profundo é uma forma de treinar uma rede neural em que os agentes (entidades baseadas em software ou hardware) aprendem como fazer coisas (simuladas ou no mundo real) por tentativa e erro. E tornou-se uma técnica comum para ensinar robôs a se movimentarem em vários ambientes, como pode ser visto no perspicácia de Cassie, uma espécie de torso de avestruz mecha que você espera nunca ver te perseguindo.
O objetivo da equipe DeepMind era treinar um agente para jogar futebol, o que requer uma variedade de habilidades, incluindo andar, chutar, ficar em pé, marcar e defender, todas as quais precisam ser coordenadas para marcar gols e vencer o jogo.
Para treinar o agente – neste caso o software que controla o robô – não bastava recompensar o sistema pelos gols, o que não produziria todas as habilidades necessárias. Em vez disso, os investigadores abordaram os conjuntos de competências separadamente, concentrando-se no desenvolvimento do que chamam de políticas docentes. Estas políticas regem coisas como levantar-se do chão e marcar golos contra um adversário não treinado – um adversário que imediatamente cai no chão, um comportamento não muito diferente do verdadeiro mergulho no futebol.
Os pesquisadores tiveram que ter o cuidado de interromper o treinamento de gol quando os agentes caíam no chão para evitar comportamentos indesejáveis, mas evidentemente funcionais: “Sem essa terminação, os agentes encontram um mínimo local e aprendem a rolar no chão em direção à bola para derrubá-la. para o gol, em vez de caminhar e chutar”, explicam eles em seu artigo.
A política de preparação e a política de golos acabaram por se combinar. E através de um processo de aprendizagem por reforço profundo e recompensas por atingir objetivos específicos, o software desenvolveu habilidades futebolísticas aceitáveis.
Transformar o agente de software treinado em um corpo de robô não foi muito difícil. Foi um processo zero-shot, segundo os autores, o que significa que eles não precisaram fazer treinamento adicional.
“Reduzimos a lacuna entre sim e real por meio da simples identificação do sistema, melhoramos a robustez de nossas políticas por meio de randomização de domínio e perturbações durante o treinamento e incluímos a definição de termos de recompensa para obter um comportamento com menor probabilidade de danificar o robô”, explicam.
Ou seja, eles garantiram que os parâmetros do simulador fossem mapeados para as configurações do atuador de hardware, características aleatórias como atrito do piso e orientação da junta, massa das peças do robô, latência do circuito de controle e perturbações aleatórias, tudo para garantir que o software pudesse lidar com uma variedade de forças que atuam sobre o corpo do robô. Em um ajuste, eles adicionaram um componente de recompensa que encorajou os bots a colocar menos estresse nas articulações dos joelhos, que de outra forma teriam tendência a serem danificadas.
O treinamento dos professores de preparação e futebol levou 14 horas e 158 horas (6.5 dias), respectivamente, seguido de 68 horas de destilação e autojogo. E o resultado foi melhor do que tentar programar deliberadamente essas habilidades, disseram os especialistas.
“A política de aprendizagem por reforço teve um desempenho melhor do que as habilidades especializadas projetadas manualmente: andou 156% mais rápido e levou 63% menos tempo para se levantar”, diz o artigo.
“Quando inicializado perto da bola, ele chutou a bola com 5% menos velocidade; ambos alcançaram uma velocidade de bola de cerca de 2 m/s. No entanto, com uma abordagem adicional para a bola, a velocidade média de chute da política aprendida foi de 2.6 m/s (24 por cento mais rápida do que a habilidade programada) e a velocidade máxima de chute entre os episódios foi de 3.4 m/s.”
Os especialistas da DeepMind demonstraram que o aprendizado por reforço profundo pode ser aplicado para ensinar robôs humanóides de maneira eficaz e com baixo custo. Esse é mais um passo hesitante em direção a um futuro onde robôs bípedes caminharão entre nós, para o bem ou para o mal. ®
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoAiStream. Inteligência de Dados Web3. Conhecimento Amplificado. Acesse aqui.
- Cunhando o Futuro com Adryenn Ashley. Acesse aqui.
- Compre e venda ações em empresas PRE-IPO com PREIPO®. Acesse aqui.
- Fonte: https://go.theregister.com/feed/www.theregister.com/2023/05/09/ai_robot_soccer/
- :tem
- :é
- :não
- :onde
- $UP
- 14
- 20
- 24
- 28
- 7
- a
- Sobre
- Segundo
- alcançado
- alcançar
- em
- real
- perspicácia
- adicionado
- Adicional
- Ajustamento
- contra
- Agente
- agentes
- ágil
- visar
- Todos os Produtos
- ambicioso
- entre
- entre nós
- an
- e
- Outro
- aparente
- aplicado
- abordagem
- braços
- por aí
- AS
- At
- autores
- evitar
- seriamente
- bola
- BE
- tornam-se
- sido
- abaixo
- Melhor
- entre
- Pós
- corpo
- Boston
- ambos
- bots
- bumble
- mas a
- by
- chamada
- CAN
- cuidadoso
- casas
- características
- CO
- combinado
- comum
- competição
- componente
- composta
- contraste
- ao controle
- controle
- coordenado
- poderia
- Currículo
- dias
- profundo
- deep learning
- DeepMind
- Defendendo
- demonstraram
- descreve
- Apesar de
- determinação
- desenvolvido
- em desenvolvimento
- difícil
- do
- domínio
- dois
- durante
- dinâmico
- dinâmica
- fácil
- efetivamente
- eficiente
- esforços
- emoções
- encorajar
- encorajados
- end-to-end
- suficiente
- garantir
- entidades
- ambientes
- erro
- Mesmo
- eventualmente
- exposições
- esperado
- Explicação
- Cair
- Quedas
- mais rápido
- campo
- Encontre
- Primeiro nome
- fixado
- Andar
- focando
- seguido
- Futebol
- Escolha
- Forças
- atrito
- da
- Diversão
- funcional
- futuro
- jogo
- lacuna
- ter
- obtendo
- meta
- Objetivos
- vai
- Solo
- tinha
- parando
- manipular
- Hardware
- Ter
- esperança
- HORÁRIO
- Como funciona o dobrador de carta de canal
- Como Negociar
- Contudo
- HTTPS
- Humanóide
- ideal
- identificação
- if
- imediatamente
- melhorado
- in
- incluído
- Incluindo
- Individual
- inspirar
- em vez disso
- para dentro
- envolvido
- isolamento
- IT
- iteração
- articulação
- jpg
- juiz
- apenas por
- O rótulo
- Latência
- mais recente
- APRENDER
- aprendido
- aprendizagem
- menos
- como
- Provável
- local
- olhar
- baixo custo
- máquinas
- moldadas
- gerencia
- maneira
- Massa
- máximo
- significar
- significado
- mínimo
- extraviado
- mais
- mover
- movimento
- Perto
- necessário
- você merece...
- rede
- rede neural
- nunca
- objetivos
- obter
- of
- WOW!
- on
- ONE
- or
- Outros
- de outra forma
- A Nossa
- Resultado
- par
- Papel
- parâmetros
- participantes
- peças
- por cento
- performers
- Passo
- platão
- Inteligência de Dados Platão
- PlatãoData
- Jogar
- players
- políticas
- Privacidade
- Preparar
- evitar
- processo
- produzir
- Agenda
- projeto
- provou
- propósito
- colocar
- acaso
- Randomizado
- rápido
- em vez
- reais
- mundo real
- recuperação
- Reduzido
- repetido
- exige
- pesquisadores
- respectivamente
- resultando
- Recompensa
- Recompensas
- certo
- robô
- robôs
- uma conta de despesas robusta
- robustez
- Rolo
- raiz
- s
- Dito
- dizer
- diz
- escopo
- Ponto
- marcar
- Vejo
- visto
- Conjuntos
- contexto
- Configurações
- formação
- Sides
- simples
- simplificada
- simulador
- habilidade
- Habilidades
- So
- futebol
- Software
- solicitação
- algo
- especializado
- especificada
- velocidade
- estável
- Passo
- Dê um basta
- estresse
- tropeçando
- tal
- .
- professores
- Ensino
- Profissionais
- condições
- do que
- que
- A
- deles
- Eles
- si mesmos
- então
- Este
- deles
- coisas
- isto
- aqueles
- Apesar?
- Através da
- tempo
- intitulado
- para
- também
- levou
- para
- para
- Trem
- treinado
- Training
- trens
- transições
- julgamento
- Passando
- para
- ao contrário
- sobre
- us
- usava
- valor
- variedade
- vário
- via
- Vídeo
- caminhou
- caminhada
- foi
- Caminho..
- we
- BEM
- foram
- O Quê
- O que é a
- quando
- qual
- QUEM
- ganhar
- de
- sem
- Maravilhoso
- Atividades:
- mundo
- pior
- anos
- Vocês
- você mesmo
- Youtube
- zefirnet