DeepMind의 ChatGPT와 유사한 로봇용 두뇌로 인터넷에서 학습 가능

DeepMind의 ChatGPT와 유사한 로봇용 두뇌로 인터넷에서 학습 가능

작년 XNUMX월 기술 분야에 폭발적으로 등장한 ChatGPT 이후로 ChatGPT는 사람들이 모든 종류의 자료를 작성하고 코드를 생성하고 정보를 찾는 데 도움을 주고 있습니다. 그것과 다른 LLM(Large Language Models)은 고객 서비스 전화 응대에서 패스트푸드 주문 받기에 이르기까지 작업을 용이하게 했습니다. 짧은 시간 동안 LLM이 인간에게 얼마나 유용했는지를 감안할 때 로봇용 ChatGPT가 새로운 것을 배우고 수행하는 능력에 어떤 영향을 미칠 수 있습니까? Google DeepMind의 연구원들은 발견한 내용을 알아내어 블로그 게시물 그리고 지난 주에 발표된 종이.

그들은 시스템을 RT-2라고 부릅니다. 로보틱스 트랜스포머 2의 줄임말로, 로봇 공학 변압기 1, 회사는 작년 말에 출시했습니다. RT-1은 소규모 언어 및 시각 프로그램을 기반으로 하며 많은 작업을 수행하도록 특별히 훈련되었습니다. 이 소프트웨어는 알파벳 X에서 사용되었습니다. 일상 로봇700%의 성공률로 97개 이상의 다양한 작업을 수행할 수 있습니다. 그러나 훈련되지 않은 새로운 작업을 수행하라는 메시지가 표시되었을 때 RT-1을 사용하는 로봇은 성공률이 32%에 불과했습니다.

RT-2는 이 속도를 거의 두 배로 늘려 요청받은 시간의 62%를 성공적으로 새로운 작업을 수행합니다. 연구자들은 RT-2를 VLA(vision-language-action) 모델이라고 부릅니다. 새로운 기술을 배우기 위해 온라인에서 보는 텍스트와 이미지를 사용합니다. 그것은 들리는 것처럼 간단하지 않습니다. 소프트웨어가 먼저 개념을 "이해"한 다음 이해한 내용을 명령 또는 일련의 지침에 적용한 다음 해당 지침을 충족하는 작업을 수행해야 합니다.

논문의 저자가 제공하는 한 가지 예는 쓰레기 처리입니다. 이전 모델에서는 로봇의 소프트웨어가 먼저 쓰레기를 식별하도록 훈련되어야 했습니다. 예를 들어 테이블 위에 껍질이 벗겨진 바나나가 있고 그 옆에 껍질이 있는 경우 봇은 껍질은 쓰레기이고 바나나는 쓰레기가 아니라고 표시합니다. 그런 다음 껍질을 집어 쓰레기통으로 옮기고 거기에 넣는 방법을 배웁니다.

그러나 RT-2는 약간 다르게 작동합니다. 이 모델은 인터넷의 많은 정보와 데이터에 대해 훈련을 받았기 때문에 쓰레기가 무엇인지에 대한 일반적인 이해가 있으며 쓰레기를 버리도록 훈련되지는 않았지만 이 작업을 완료하기 위한 단계를 함께 모을 수 있습니다.

연구자들이 RT-2 교육에 사용한 LLM은 다음과 같습니다. PaLI-X (55억 개의 매개변수가 있는 비전 및 언어 모델) 팜-이 (구글에서는 12억 개의 매개변수가 있는 로봇용으로 특별히 개발된 구체화된 다중 모드 언어 모델이라고 합니다). "파라미터"는 기계 학습 모델이 훈련 데이터를 기반으로 정의하는 속성을 나타냅니다. LLM의 경우 문장에서 단어 간의 관계를 모델링하고 주어진 단어 앞에 다른 단어가 올 가능성이 얼마나 되는지 평가합니다.

거대한 데이터 세트에서 단어 간의 관계와 패턴을 찾음으로써 모델은 자체 추론에서 학습합니다. 결국 서로 다른 개념이 서로 어떻게 관련되어 있는지 파악하고 맥락을 식별할 수 있습니다. RT-2의 경우 해당 지식을 로봇 동작에 대한 일반화된 지침으로 변환합니다.

이러한 작업은 일반적으로 단어 조각의 형태로 자연어 텍스트를 나타내는 데 사용되는 토큰으로 로봇에 대해 표시됩니다. 이 경우 토큰은 작업의 일부이며 소프트웨어는 작업을 수행하기 위해 여러 토큰을 함께 묶습니다. 또한 이 구조를 통해 소프트웨어는 일련의 사고 추론을 수행할 수 있습니다. 즉, 어느 정도의 추론이 필요한 질문이나 프롬프트에 응답할 수 있습니다.

팀이 제공하는 예에는 망치가 없을 때 망치로 사용할 물체를 선택하는 것(로봇이 돌을 선택함)과 피곤한 사람에게 가장 좋은 음료를 고르는 것(로봇이 에너지 드링크를 선택함)이 포함됩니다.

DeepMind의 ChatGPT와 유사한 로봇용 두뇌를 통해 인터넷에서 배울 수 있습니다. PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.
이미지 크레디트: Google DeepMind

"RT-2는 노출된 로봇 데이터를 넘어 개선된 일반화 기능과 의미론적 및 시각적 이해를 보여줍니다."라고 연구원들은 Google에 썼습니다. 블로그 게시물. "여기에는 개체 범주 또는 높은 수준의 설명에 대한 추론과 같은 기본적인 추론을 수행하여 새로운 명령을 해석하고 사용자 명령에 응답하는 것이 포함됩니다."

범용 로봇 가정, 상업 환경, 산업 환경 등 무엇이든 인간을 도울 수 있는 것은 로봇이 이동 중에 학습할 수 있을 때까지 달성할 수 없습니다. 우리에게 가장 기본적인 본능처럼 보이는 것은 로봇의 경우 컨텍스트 이해, 이를 통해 추론할 수 있는 능력, 갑자기 나타날 것으로 예상되지 않은 문제를 해결하기 위해 조치를 취하는 것의 복잡한 조합입니다. 계획되지 않은 다양한 시나리오에 적절하게 반응하도록 프로그래밍하는 것은 불가능하므로 인간처럼 일반화하고 경험을 통해 배울 수 있어야 합니다.

RT-2는 이 방향의 단계입니다. 연구원들은 RT-2가 의미론적 및 시각적 개념을 일반화할 수 있지만 아직 자체적으로 새로운 작업을 학습할 수 없다는 점을 인정합니다. 오히려 이미 알고 있는 작업을 새로운 시나리오에 적용합니다. 아마도 RT-3 또는 4는 이러한 기술을 다음 단계로 끌어올릴 수 있을 것입니다. 그 동안 팀이 결론을 내리면서 블로그 게시물, "인간 중심 환경에서 도움이 되는 로봇을 구현하기 위해 수행해야 할 엄청난 양의 작업이 여전히 남아 있지만 RT-2는 우리에게 로봇 공학의 흥미진진한 미래를 보여줍니다."

이미지 신용 : Google DeepMind

타임 스탬프 :

더보기 특이점 허브