이 로봇 개는 AI 두뇌를 가지고 있으며 단 한 시간 만에 걷는 법을 배웠습니다.

플라톤에 의해 재발행

팔로워 : 0

아기 가젤이 걷는 법을 배우는 것을 본 적이 있습니까? 기본적으로 포유동물 아빠의 긴 다리인 새끼 사슴은 발을 딛고 일어서고, 넘어지고, 일어서고, 다시 넘어집니다. 결국, 그것은 이쑤시개 같은 다리를 휘둘러 일련의 가까운 폭포...에헴, 계단을 만들 만큼 충분히 길게 서 있습니다. 놀랍게도, 이 사랑스러운 전시가 끝난 후 몇 분 후에 새끼 사슴은 늙은 프로처럼 뛰어다니고 있습니다.

자, 이제 이 고전적인 세렝게티 장면의 로봇 버전이 있습니다.

이 경우 새끼 사슴은 버클리 캘리포니아 대학교의 로봇 개입니다. 그리고 마찬가지로 놀라울 정도로 빠른 학습자입니다(나머지 로봇 종류에 비해). 이 로봇은 또한 온라인에서 볼 수 있는 다른 화려한 로봇과 달리 인공 지능을 사용하여 걷는 방법을 스스로 가르치기 때문에 특별합니다.

로봇은 등 뒤에서 다리를 흔들며 시작하여 한 시간 안에 뒤집고, 일어서고, 걷는 법을 배웁니다. 골판지 한 덩이로 XNUMX분 더 괴롭힘을 당하면 핸들러에게 밀리는 것을 견디고 회복하는 방법을 배우기에 충분합니다.

처음이 아니야 로봇은 인공 지능을 사용하여 걷는 법을 배웠습니다.. 그러나 이전 로봇은 시뮬레이션에서 수많은 반복을 통해 시행착오를 통해 기술을 배웠지만 Berkeley 봇은 현실 세계에서 완전히 배웠습니다.

[포함 된 콘텐츠]

안에 논문 출판 arXiv 사전 인쇄 서버에서 연구원(Danijar Hafner, Alejandro Escontrela 및 Philipp Wu)은 시뮬레이션에서 학습한 알고리즘을 실제 세계로 전송하는 것이 간단하지 않다고 말합니다. 실제 세계와 시뮬레이션 사이의 작은 세부 사항과 차이점으로 인해 갓 태어난 로봇은 발을 헛디딜 수 있습니다. 반면에 현실 세계에서 알고리즘을 훈련하는 것은 비현실적입니다. 너무 많은 시간과 마모가 필요합니다.

예를 들어, 100년 전 OpenAI는 큐브를 조작할 수 있는 AI 지원 로봇 손을 선보였습니다. 제어 알고리즘인 Dactyl은 이 비교적 간단한 작업을 수행하기 위해 6,144개의 CPU와 8개의 Nvidia V100 GPU로 구동되는 시뮬레이션에서 약 XNUMX년 가치의 경험이 필요했습니다. 그 이후로 상황이 개선되었지만 문제는 크게 남아 있습니다. 순수한 강화 학습 알고리즘은 실제 세계에서 훈련하기 위한 기술을 배우기 위해 너무 많은 시행착오를 필요로 합니다. 간단히 말해서, 학습 과정은 연구원들을 깨뜨릴 것입니다. 및 의미 있는 진전을 이루기 전에 로봇.

Berkeley 팀은 Dreamer라는 알고리즘으로 이 문제를 해결하기 시작했습니다. "라고 불리는 것을 구축세계 모델," Dreamer는 미래의 행동이 목표를 달성할 확률을 예측할 수 있습니다. 경험을 통해 예측의 정확도가 향상됩니다. 덜 성공적인 행동을 미리 걸러냄으로써 세계 모델은 로봇이 무엇이 효과가 있는지 더 효율적으로 파악할 수 있도록 합니다.

연구원들은 "과거 경험에서 세계 모델을 학습하면 로봇이 잠재적 행동의 미래 결과를 상상할 수 있어 실제 환경에서 성공적인 행동을 배우는 데 필요한 시행착오의 양을 줄일 수 있습니다."라고 씁니다. "미래의 결과를 예측함으로써 세계 모델은 실제 세계 상호 작용의 작은 양만 주어진 계획 및 행동 학습을 허용합니다."

다시 말해, 세계 모델은 시뮬레이션에서 수년간의 훈련 시간을 현실 세계에서 어색한 시간 이상으로 줄일 수 있습니다.

접근 방식은 로봇 개보다 더 광범위한 관련성을 가질 수 있습니다. 팀은 또한 픽앤플레이스 로봇 팔과 바퀴 달린 로봇에 드리머를 적용했습니다. 두 경우 모두 Dreamer를 통해 로봇이 시뮬레이션 시간 없이 관련 기술을 효율적으로 학습할 수 있다는 사실을 알게 되었습니다. 더 야심찬 미래 애플리케이션에는 다음이 포함될 수 있습니다. 자가 운전 자동차.

물론 아직 해결해야 할 과제가 있습니다. 강화 학습이 오늘날의 가장 진보된 로봇 뒤에 있는 복잡한 수작업 코딩 중 일부를 자동화하지만, 여전히 엔지니어가 로봇의 목표와 성공을 구성하는 요소를 정의해야 합니다. 이 작업은 시간이 많이 걸리고 실제 환경에서는 끝이 없습니다. 또한 로봇이 여기에서 팀의 실험에서 살아남았지만 더 고급 기술에 대한 더 긴 훈련은 미래의 봇이 손상 없이 생존하기에는 너무 많다는 것이 증명될 수 있습니다. 연구원들은 시뮬레이터 교육과 빠른 실제 학습을 결합하는 것이 유익할 수 있다고 말합니다.

그럼에도 불구하고 그 결과는 로봇의 AI를 한 단계 더 발전시킵니다. 드리머(Dreamer)는 "강화 학습이 로봇 제어의 미래에 초석이 될 도구가 될 것"이라는 주장을 강화한다고 오레곤 주립 대학의 로봇 공학 교수인 조나단 허스트(Jonathan Hurst)가 말했다. 이야기 MIT 기술 검토.

이미지 신용 : 다니자르 하프너 / 유튜브

타임 스탬프 : 2022 년 8 월 8 일2022 년 8 월 8 일