'다중 자아'를 가진 AI 에이전트는 변화하는 세계에서 빠르게 적응하는 법을 배웁니다.

'다중 자아'를 가진 AI 에이전트는 변화하는 세계에서 빠르게 적응하는 법을 배웁니다.

'다중 자아'를 갖춘 AI 에이전트는 변화하는 세계에 빠르게 적응하는 방법을 배웁니다. PlatoBlockchain Data Intelligence. 수직 검색. 일체 포함.

매일 우리는 다양한 요구 사항을 저글링하고 있습니다. 나는 배가 고프지만 지쳤습니다. 소파에 주저앉아야 할까요 아니면 저녁을 준비해야 할까요? 나는 위험한 온도에서 과열되고 있지만 또한 극도로 목이 마르다. 태양 아래 뜨거워진 미지근한 물을 들이켜야 할까요, 아니면 얼음을 만들 정신력이 생길 때까지 머리를 냉동실에 집어넣어야 할까요?

딜레마에 직면했을 때 우리는 생각 없이 본능을 따르는 경우가 많습니다. 그러나 내부적으로는 여러 신경망이 언제든지 "최상의" 결정을 내리기 위해 경쟁하고 있습니다. 음식을 먹고 자십시오. 미지근한 물에 냉동실. 돌이켜 보면 끔찍한 결정일 수 있지만 다음에는 과거의 실수로부터 배웁니다.

끊임없이 변화하는 세계에 대한 우리의 적응력은 현재 대부분의 AI 에이전트를 벗어나는 초강대국입니다. 가장 정교한 AI 에이전트조차도 상충되는 목표를 저글링하면서 무너지거나 견딜 수 없는 양의 컴퓨팅 시간이 필요합니다.

프린스턴 신경과학 연구소(Princeton Neuroscience Institute)의 조나단 코헨(Jonathan Cohen) 박사가 이끄는 팀에게 그 이유는 간단합니다. 기계 학습 시스템은 일반적으로 단일 개체로 작동하며 한 번에 하나의 목표를 평가, 계산 및 실행해야 합니다. AI는 실수로부터 배울 수 있지만 동시에 여러 반대 목표에 도전할 때 올바른 균형을 찾기 위해 고군분투합니다.

그렇다면 AI를 분리하지 않는 이유는 무엇입니까?

In 새로운 연구 에 게시 PNAS, 팀은 인지 신경 과학의 한 페이지를 가져와 모듈식 AI 에이전트를 구축했습니다.

아이디어는 간단해 보입니다. 모놀리식 AI(전체 "자기"를 포함하는 단일 네트워크) 대신 팀은 모듈식 에이전트를 구성했습니다. 민주 사회와 마찬가지로 AI 시스템은 가장 큰 승리 결과를 가져올 가능성이 가장 높은 조치가 다음 단계를 안내하는 최선의 대응을 결정하기 위해 자체적으로 주장합니다.

여러 시뮬레이션에서 모듈식 AI는 기존의 모놀리식 동료보다 성능이 뛰어났습니다. 특히 연구원들이 동시에 유지해야 하는 목표의 수를 인위적으로 늘렸을 때 그 적응성이 빛을 발했습니다. 레고 같은 AI는 빠르게 적응했지만 모놀리식 인공지능은 따라잡기 위해 고군분투했습니다.

"대리인에 대한 가장 근본적인 질문 중 하나는 개인이 상충되는 요구를 관리하는 방법입니다."라고 팀은 말했습니다. AI 에이전트를 해체함으로써 이 연구는 더 스마트한 기계 학습 에이전트에 대한 통찰력을 제공하는 데 그치지 않습니다. 또한 "인간 정신에 내재된 심리적 갈등을 이해하는 길을 열어줍니다." 이 작업에 참여하지 않은 Princeton University의 Rober Boshra 박사.

인생의 비디오 게임

지능적인 존재는 복잡하고 변화하는 세상에서 상충되는 필요의 균형을 맞추는 방법을 어떻게 배웁니까?

철학적 질문은 인간 본성을 탐구하는 신경과학, 심리학, 경제학 등 여러 분야를 괴롭혔습니다. 아직 명확한 답이 없습니다. 그러나 AI가 현실 세계에 진입하면서 점점 더 유사한 문제에 직면하게 되면서 오래된 문제를 정면으로 해결해야 할 때입니다.

새로운 연구는 간단한 RPG(롤플레잉 게임)의 형태로 도전했습니다. 그리드와 같은 세계를 탐색하는 두 명의 캐릭터가 있으며 각각 생존을 위해 자원을 찾으려고 합니다.

첫 번째 참가자: DQL(deep-Q-learning)을 사용하여 훈련된 모놀리식 에이전트("셀프"라고도 함). DeepMind에 의해 대중화된 이 알고리즘은 현재 상태에 따라 다음 최적 단계를 파악하는 데 특히 강력합니다. 예를 들어 비디오 게임에서와 같이 왼쪽으로 가야 합니까 아니면 오른쪽으로 가야 합니까? 어떤 체스나 바둑 말을 어디로 옮길까요? 여기에서 알고리즘은 최종 목표인 단일 보상 신호를 따라 전체 환경을 조사합니다. 어떤 의미에서 모놀리식 에이전트는 모든 리소스를 동시에 처리한 후 최상의 결과를 극대화하려는 통합된 두뇌입니다.

상대: 모듈식 AI. 반자동 팔다리를 가진 문어처럼 AI 에이전트는 각각 고유한 목표와 피드백이 있는 하위 에이전트로 나뉩니다. 공정한 싸움을 위해 각 모듈도 DQL로 훈련됩니다. 분리된 "두뇌"는 주변 환경을 관찰하고 최상의 옵션을 선택하는 방법을 배우지만 자신의 목표에만 맞춰집니다. 그런 다음 예상 결과가 요약됩니다. 그런 다음 잠재적인 최적의 결과가 있는 솔루션이 선택되어 AI 에이전트를 다음 선택으로 안내합니다.

그리고 경기장?

이 게임은 서바이벌 게임의 극단적으로 축소된 버전입니다. 각 AI 에이전트는 일부 지역에 숨겨진 다양한 유형의 리소스가 있는 XNUMX차원 그리드 주위를 돌아다닙니다. 목표는 에이전트의 네 가지 통계를 설정된 수준으로 유지하고 각 통계는 시간이 지남에 따라 점차 감소하는 것입니다. 여러 통계가 떨어질 때 우선순위를 정하는 것은 AI에게 달려 있습니다.

비디오 게이머의 경우 테스트를 새로운 게임 맵에 던져넣고 예를 들어 건강, 마법, 체력 및 공격력을 높일 수 있는 리소스를 찾는 것으로 생각하십시오. 일상 생활에서 배고픔, 온도, 수면 및 기타 기본적인 생리적 요구의 균형을 유지합니다.

“예를 들어 에이전트의 '배고픔' 스탯이 낮으면 해당 자원이 있는 위치로 이동하여 '식량' 자원을 수집할 수 있습니다."라고 팀은 설명했습니다.

나무를 위한 숲

첫 번째 테스트는 비교적 간단한 환경에서 시작되었습니다. 각 자원 목표의 위치는 게임 경기장 모서리에 고정되었습니다. 모놀리식 에이전트는 30,000개의 훈련 단계 후에도 5,000가지 통계를 쉽게 유지했지만 목표 목표에 도달할 때까지 오버슈팅 및 언더슈팅 기간을 거쳤습니다. 반대로 모듈식 에이전트는 훨씬 빠르게 학습했습니다. XNUMX개의 학습 단계에서 에이전트는 이미 "세계 상태"에 대한 이해를 포착했습니다.

저자들은 모듈식 AI의 기량 중 일부는 본질적인 자유로운 탐색 감각에서 비롯되었다고 말했습니다. 최종 목표를 향해 나아가기 위해 분할하고 정복하는 모듈식 시스템의 이전 방법과 달리 여기에서 AI는 지속적인 내부 경쟁 상태를 통해 일부 모듈이 이득을 얻고 일부는 손해를 보는 보다 전체적인 사회적 관계를 나타냅니다.

AI 에이전트의 "신체"는 승자 모듈에 의해서만 인도되기 때문에 패자는 자신이 동의하지 않은 결정을 따라야 하며 새로운 현실에 처하게 됩니다. 그런 다음 다음 단계를 위한 최상의 솔루션을 신속하게 조정하고 다시 계산해야 합니다. 즉, 모듈은 종종 안전 영역 밖에 있는 자신을 발견합니다. 힘든 사랑이지만 예상치 못한 결과로 인해 새로운 솔루션을 고민하게 됩니다. 때로는 혼자 문제를 해결했다면 고려하지 않았을 더 나은 결과를 얻을 수 있습니다.

연구 저자 Zack Dulberg는 전반적으로 모듈식 시스템이 AI 작업을 더욱 개선하기 위해 "탐색을 통한 선순환"을 형성한다고 말했습니다.

이러한 적응력은 팀이 변화하는 환경에서 두 AI 에이전트에 도전했을 때 더욱 빛을 발했습니다. 한 테스트에서 리소스 목표 위치는 산발적인 시간 척도에서 임의의 그리드 위치로 이동했습니다. 모듈식 AI는 변경 사항을 빠르게 파악하고 적응한 반면 모놀리식 에이전트는 성능이 훨씬 나빴습니다.

또 다른 테스트에서 팀은 다이얼을 올려 AI 에이전트가 원래 XNUMX개가 아닌 XNUMX개의 요소를 동시에 유지하도록 요구했습니다. 이 테스트는 "차원의 저주"라고 불리는 변수의 수가 증가함에 따라 시간과 에너지 소비 측면에서 계산이 점점 더 어려워지는 문제를 해결했습니다.

모듈식 에이전트는 목표를 유지하기 위해 리소스를 사냥하도록 빠르게 적응했습니다. 반대로 모놀리식 에이전트는 각 능력치에 대해 원하는 수준으로 돌아가는 데 훨씬 더 오랜 시간이 걸리며 다시 어려움을 겪었습니다.

하나 대 다수

모듈식 접근 방식은 AI 개발을 위해 신경 과학을 활용하는 동시에 우리의 노긴이 작동하는 방식에 대한 통찰력을 제공하는 또 다른 예입니다.

이전 작업과 마찬가지로 모듈식 모듈은 데이터 처리 측면에서 상대적으로 분산된 방식으로 단일 AI 에이전트가 별도의 더 쉬운 하위 문제를 병렬로 학습하도록 할 수 있음을 보여줍니다. 계층적 제어 시스템이 있는 모델을 추가하면 AI를 강화할 수 있다고 저자는 말했습니다. 두 구조가 모두 자연 세계에 존재하기 때문입니다.

지금은 각 모듈이 자신의 이득, 즉 다중 자아를 위해 프로그래밍됩니다. 그러나 우리 삶의 목표는 종종 서로 연결되어 있습니다. 예를 들어, 갈증 완화와 열과의 싸움은 상호 배타적이지 않습니다. 팀은 향후 테스트에서 이러한 크로스오버를 통합하고 상속인지 학습인지 학습해야 할 필요성을 강조합니다.

덜베르그에게, 알려지지 않은 것은 흥분의 일부입니다. “모듈은 어떻게 개발됩니까? 개발 환경의 어떤 기능이 다른 솔루션에 압력을 가합니까?” 그는 물었다. "그리고 모듈화의 이점은 내부 심리적 갈등이 인간 조건의 핵심인 이유를 설명합니까?"

이미지 신용 : Anestiev/픽사베이

타임 스탬프 :

더보기 특이점 허브