DeepMind는 로봇 축구 선수를 훈련시켜 점수를 얻습니다.

DeepMind는 로봇 축구 선수를 훈련시켜 점수를 얻습니다.

DeepMind는 로봇 축구 선수들이 점수를 매길 수 있도록 훈련합니다. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

Video Google DeepMind의 Eggheads는 로봇에게 축구를 잘못하는 방법을 가르칠 수 있는 딥 러닝 커리큘럼을 개발했습니다.

받는 이에 세련된 곡예 Boston Dynamics의 Atlas 로봇, DeepMind의 지도하에 있는 한 쌍의 Robotis OP3 로봇은 5m x 4m 크기의 축구장 또는 축구 경기장에서 지친 유아처럼 규정에 미치지 못하는 곳에서 넘어지고 퍼집니다. 아래 비디오에서 직접 판단하십시오.

YouTube 동영상

그들은 명백한 목적을 가지고 그렇게 하고 반복적인 넘어짐에도 불구하고 스스로를 바로잡고 때때로 골을 넣습니다. 이 휴머노이드 기계의 어린애 같은 비틀림에서 우리가 서로를 소중히 여기고 격려한다는 결의와 비슷한 것을 쉽게 볼 수 있습니다. 그것이 단지 잘못 배치된 의인화일지라도 말입니다. 크기가 커지고 무기화되면 다른 감정을 불러일으키겠지만 그들을 응원하지 않는 것은 어렵습니다.

이 프로젝트에 참여한 28명의 연구원은 종이 [PDF] 제목은 "심층 강화 학습을 통한 이족 보행 로봇을 위한 민첩한 축구 기술 학습"입니다.

"우리는 Deep [Reinforcement Learning]을 사용하여 20개의 작동 관절이 있는 휴머노이드 로봇을 훈련시켜 단순화된 일대일(1v1) 축구 게임을 플레이했습니다."라고 저자는 설명합니다. “먼저 개별 기술을 개별적으로 훈련한 다음 이러한 기술을 셀프 플레이 환경에서 엔드 투 엔드로 구성했습니다.

“그 결과 정책은 빠른 낙상 회복, 걷기, 회전, 차기 등과 같은 강력하고 역동적인 움직임 기술을 보여줍니다. 로봇에서 직관적으로 기대하는 것 이상으로 부드럽고 안정적이며 효율적인 방식으로 전환합니다.”

DeepMind 프로젝트는 수년 동안 진행된 RoboCup 첨단 기술 대회를 위해 기계를 준비하는 노력보다 범위가 덜 야심적입니다. 그러나 RoboCup의 최신 버전은 보기에 확실히 덜 재미 참가자들의 절제된 행동으로 인해. RoboCup 봇의 강성은 강변 팔을 옆구리에 고정한 연주자, 딥마인드 플레이어 미치광이처럼 팔을 흔든다 – 핸드볼 콜을 피하려고 할 때 이상적이지는 않지만 동정을 구하는 것이 더 좋습니다.

심층 강화 학습은 에이전트(소프트웨어 또는 하드웨어 기반 엔터티)가 시행착오를 통해 작업(시뮬레이션 또는 실제 세계에서)을 수행하는 방법을 학습하는 신경망을 교육하는 방법입니다. 그리고 로봇이 다양한 환경에서 이동하는 방법을 가르치는 일반적인 기술이 되었습니다. Cassie의 실행 통찰력, 당신이 당신을 쫓는 것을 결코 보지 않기를 바라는 일종의 메카 타조 몸통.

DeepMind 팀의 목표는 걷기, 차기, 일어서기, 득점, 수비 등 다양한 기술이 필요한 축구를 에이전트에게 훈련시키는 것이었습니다.

에이전트(이 경우 로봇을 제어하는 ​​소프트웨어)를 훈련시키는 것은 필요한 모든 기술을 생성하지 않는 득점 목표에 대해 시스템에 보상하는 것만으로는 충분하지 않았습니다. 대신 연구원들은 기술 세트에 개별적으로 접근하여 교사 정책이라고 부르는 개발에 중점을 두었습니다. 이러한 정책은 지면에서 일어나서 훈련되지 않은 상대를 상대로 골을 넣는 것과 같은 일에 적용됩니다. 즉, 즉시 지면에 쓰러지는 실제 축구 다이빙과 다르지 않은 행동입니다.

연구자들은 바람직하지 않지만 분명히 기능적인 행동을 방지하기 위해 에이전트가 땅에 떨어졌을 때 골 득점 훈련을 중단하도록 주의해야 했습니다. 걷거나 발로 차는 것보다 골대 안으로 들어가는 것입니다.”라고 그들은 신문에서 설명합니다.

get-up 정책과 골 득점 정책은 결국 결합되었습니다. 그리고 특정 목표 달성에 대한 심층 강화 학습 및 보상 프로세스를 통해 소프트웨어는 무난한 축구 기술을 개발했습니다.

훈련된 소프트웨어 에이전트를 로봇 본체로 전환하는 것은 그리 어렵지 않은 것으로 판명되었습니다. 저자에 따르면 제로샷 프로세스로 추가 교육을 받을 필요가 없었습니다.

"간단한 시스템 식별을 통해 시뮬레이션과 실제 간 격차를 줄이고, 훈련 중 영역 무작위화 및 섭동을 통해 정책의 견고성을 개선했으며, 로봇을 손상시킬 가능성이 적은 행동을 얻기 위해 보상 조건 형성을 포함했습니다."라고 그들은 설명합니다.

즉, 하드웨어 액추에이터 설정에 매핑된 시뮬레이터 매개변수, 바닥 마찰 및 관절 방향과 같은 무작위 특성, 로봇 부품의 질량, 제어 루프 대기 시간 및 무작위 섭동 등 소프트웨어가 다양한 상황을 처리할 수 있도록 했습니다. 로봇의 몸에 작용하는 힘. 한 가지 조정에서 그들은 봇이 손상되기 쉬운 무릎 관절에 스트레스를 덜 가하도록 장려하는 보상 구성 요소를 추가했습니다.

겟업교사와 축구교사 교육은 각각 14시간, 158시간(6.5일)이 소요됐으며, 증류·자기놀이 68시간이 이어졌다. 그리고 의도적으로 그러한 기술을 프로그래밍하려고 시도하는 것보다 결과가 더 좋았다고 boffins는 말했습니다.

"강화 학습 정책은 전문화된 수동 설계 기술보다 더 나은 성능을 보였습니다. 156% 더 빨리 걸었고 일어나는 데 63% 더 짧은 시간이 걸렸습니다."라고 논문은 말합니다.

“공 근처에서 초기화되었을 때 공을 차는 속도가 5% 감소했습니다. 둘 다 약 2m/s의 볼 속도를 달성했습니다. 그러나 공에 대한 추가 런업 접근 방식을 사용하면 학습된 정책의 평균 차기 속도는 2.6m/s(스크립트 기술보다 24% 더 빠름)이고 에피소드 전체에서 최대 차기 속도는 3.4m/s였습니다.”

DeepMind의 보핀은 딥 강화 학습을 적용하여 휴머노이드 로봇을 효과적이고 저렴한 비용으로 가르칠 수 있음을 보여주었습니다. 좋든 나쁘든 이족보행 로봇이 우리 사이를 걷는 미래를 향한 또 하나의 정지된 발걸음입니다. ®

타임 스탬프 :

더보기 등록