DeepMind의 최신 AI가 게임 'Stratego'에서 인간 플레이어를 압도합니다

플라톤에 의해 재발행

팔로워 : 0

AI는 불확실성을 싫어합니다. 그러나 예측할 수 없는 세상을 탐색하려면 우리가 매일 하는 것처럼 불완전한 정보로 선택하는 법을 배워야 합니다.

딥마인드 찌르다 이 난제를 풀 때. 비결은 게임 이론을 심층 강화 학습이라는 인간의 두뇌에 느슨하게 기반을 둔 알고리즘 전략에 엮는 것이었습니다. 그 결과 DeepNash는 Stratego라는 매우 전략적인 보드 게임에서 인간 전문가를 쓰러뜨렸습니다. AI를 위한 어려운 게임으로 악명 높은 Stratego는 보드에 있는 상대방의 말을 알지 못한 채 장기적인 사고, 허세 부리기, 전략 수립과 같은 인간 재치의 여러 가지 강점을 필요로 합니다.

"체스와 바둑과 달리 Stratego는 불완전한 정보의 게임입니다. 플레이어는 상대방 말의 정체를 직접 관찰할 수 없습니다." DeepMind 쓴 블로그 게시물에서. DeepNash를 통해 "게임 플레이 인공 지능(AI) 시스템이 새로운 지평을 열었습니다."

모든 재미와 게임이 아닙니다. 우리 세계의 무작위성을 쉽게 조종하고 그에 따라 "행동"을 조정할 수 있는 AI 시스템은 언젠가는 이동 시간을 줄이기 위해 교통 흐름을 최적화하고 (바라건대) 자율 주행으로 도로 분노를 해소하는 것과 같이 제한된 정보로 실제 문제를 처리할 수 있습니다. 자동차는 점점 더 존재하게 됩니다.

"자율주행차를 만들고 있다면 도로 위의 다른 모든 운전자가 완벽하게 합리적이고 최적의 행동을 할 것이라고 가정하고 싶지 않을 것입니다." 말했다 연구에 참여하지 않은 Meta AI의 Noam Brown 박사.

DeepNash의 승리는 이번 달 또 다른 AI 발전에 뒤이어 뜨겁게 다가옵니다. 외교를 하기 위해 학습된 알고리즘—승리하려면 협상과 협력이 필요한 게임입니다. AI가 더 유연한 추론을 얻고 더 일반화되고 사회적 상황을 탐색하는 방법을 학습함에 따라 우리 뇌의 신경 프로세스 및 인지에 대한 통찰력을 촉발할 수도 있습니다.

스트라테고를 만나다

복잡성 측면에서 Stratego는 이전에 AI가 마스터한 모든 게임인 체스, 바둑 또는 포커와 비교할 때 완전히 다른 야수입니다.

게임은 본질적으로 깃발을 캡처합니다. 각 면에는 보드의 어느 위치에나 놓을 수 있는 40개의 조각이 있습니다. 각 조각에는 "원수", "장군", "스카우트" 또는 "스파이"와 같이 다른 이름과 숫자 순위가 있습니다. 순위가 높은 조각은 낮은 조각을 잡을 수 있습니다. 목표는 야당을 제거하고 그들의 깃발을 탈환하는 것입니다.

Stratego는 플레이어가 초기 설정과 게임 플레이 중에 상대방 조각의 위치를 볼 수 없기 때문에 AI에게 특히 어렵습니다. 말과 움직임 하나하나가 시야에 들어오는 체스나 바둑과 달리 스트라테고는 정보가 제한된 게임이다. 플레이어는 결정을 내릴 때마다 "가능한 모든 결과의 균형"을 맞춰야 한다고 저자는 설명했습니다.

이러한 수준의 불확실성은 부분적으로 Stratego가 오랫동안 AI를 난처하게 만든 이유입니다. AlphaGo 및 알파 제로, 완전한 정보에 의존하십시오. 대조적으로 Stratego는 텍사스 홀덤, 포커 게임 DeepMind는 이전에 알고리즘으로 정복했습니다. 그러나 그 전략은 포커와 달리 일반적으로 수백 번의 동작을 포함하는 게임의 길이 때문에 Stratego에서 흔들렸습니다.

잠재적 인 게임 플레이의 수는 놀랍습니다. 체스에는 하나의 시작 위치가 있습니다. Stratego는 10개가 넘는⁶⁶ 가능한 시작 위치는 우주의 모든 별보다 훨씬 더 많습니다. Stratego의 게임 트리, 게임의 모든 잠재적 움직임의 합계는 놀라운 10입니다.⁵³⁵.

"Stratego에서 가능한 결과의 수의 순전히 복잡성은 완전 정보 게임에서 잘 작동하는 알고리즘을 의미하며 포커에서 작동하는 알고리즘도 작동하지 않습니다." 말했다 연구 저자 DeepMind의 Julien Perolat 박사. 도전은 "우리를 흥분시킨 것"이라고 그는 말했다.

아름다운 마음

Stratego의 복잡성은 게임 플레이 동작을 검색하는 일반적인 전략이 불가능하다는 것을 의미합니다. "AI 기반 게임에 대한 충실한 접근 방식"인 Monte Carlo 트리 검색이라고 불리는 이 기술은 승리를 가져올 수 있는 잠재적 경로(나무의 가지와 같은)를 계획합니다.

대신 DeepNash에 대한 마법의 손길은 영화에서 묘사된 수학자 John Nash에서 나왔습니다. 아름다운 마음. 게임 이론의 선구자 내쉬는 게임 이론으로 노벨상을 받았습니다. 내쉬 평형. 간단히 말해서, 각 게임에서 플레이어는 모두가 따르는 일련의 전략을 활용할 수 있으므로 어떤 플레이어도 자신의 전략을 변경하여 아무것도 얻지 못합니다. Statego에서 이것은 제로섬 게임을 가져옵니다. 플레이어가 얻는 모든 이득은 상대에게 손실을 초래합니다.

Stratego의 복잡성 때문에 DeepNash는 알고리즘에 모델 없는 접근 방식을 취했습니다. 여기서 AI는 상대의 행동을 정확하게 모델링하려고 시도하지 않습니다. 아기처럼, 그것은 배워야 할 일종의 빈 서판을 가지고 있습니다. 이 설정은 "DeepNash가 상대방의 조각에 대해 거의 알지 못하는" 게임 플레이의 초기 단계에서 특히 유용하여 예측이 "불가능하지는 않더라도 어렵습니다"라고 말했습니다.

그런 다음 팀은 게임의 Nash 균형을 찾는 것을 목표로 심층 강화 학습을 사용하여 DeepNash를 강화했습니다. 강화 학습은 게임의 모든 단계에서 최고의 다음 동작을 결정하는 데 도움이 되며 DeepNash는 전반적인 학습 전략을 제공합니다. 시스템을 평가하기 위해 팀은 게임에서 얻은 지식을 사용하여 실제 상황에서는 이해가 되지 않을 가능성이 있는 명백한 실수를 걸러내는 "강사"를 설계했습니다.

연습이 완벽을 만들지

첫 번째 학습 단계로 DeepNash는 5.5억 개의 게임에서 자신과 대결을 펼쳤습니다. 이는 셀프 플레이라고 불리는 AI 교육에서 인기 있는 접근 방식입니다.

한쪽이 이기면 AI가 상을 받고 현재 인공 신경망 매개 변수가 강화됩니다. 다른 쪽(동일한 AI)은 신경망 강도를 약화시키는 페널티를 받습니다. 거울 앞에서 자신에게 연설을 연습하는 것과 같습니다. 시간이 지남에 따라 실수를 파악하고 더 잘 수행합니다. DeepNash의 경우 최고의 게임 플레이를 위해 Nash 균형을 향해 표류합니다.

실제 성능은 어떻습니까?

팀은 다른 엘리트 Stratego 봇에 대해 알고리즘을 테스트했으며 그 중 일부는 Computer Stratego World Championship에서 우승했습니다. DeepNash는 약 97%의 승률로 상대방을 압도했습니다. 인간 플레이어를 위한 온라인 플랫폼인 Gravon에 대해 공개되었을 때 DeepNash는 인간 상대를 압도했습니다. 올해 2002월 Gravon의 선수들과 XNUMX주 넘게 경기를 치른 후 DeepNash는 XNUMX년 이후 모든 순위 경기에서 XNUMX위에 올랐습니다.

이는 DeepNash가 인간 수준의 성능에 도달하고 이를 능가하는 데 인간 플레이 데이터를 AI에 부트스트래핑할 필요가 없음을 보여줍니다.

AI는 또한 초기 설정과 게임 플레이 중에 몇 가지 흥미로운 동작을 보여주었습니다. 예를 들어 DeepNash는 특정 "최적화된" 시작 위치에 안주하지 않고 상대방이 시간이 지남에 따라 패턴을 발견하지 못하도록 지속적으로 조각을 이동했습니다. 게임 플레이 중에 AI는 반격 시 상대방의 더 높은 순위의 조각을 찾기 위해 높은 등급의 조각을 희생하는 것과 같이 무의미해 보이는 동작 사이를 튕겼습니다.

DeepNash는 블러핑도 할 수 있습니다. 한 플레이에서 AI는 하위 기물을 상위 기물인 것처럼 움직여 인간 상대가 상위 대령과 함께 기물을 쫓도록 유인했습니다. AI는 폰을 희생했지만 상대의 귀중한 스파이 조각을 유인하여 매복했습니다.

DeepNash는 Stratego용으로 개발되었지만 실제 세계에 일반화할 수 있습니다. 핵심 방법은 AI가 군중 및 교통 통제에서 시장 혼란 분석에 이르기까지 제한된 정보를 사용하여 예측할 수 없는 미래에 더 잘 대처하도록 지시할 수 있습니다.

팀은 "불확실함에 직면하여 견고하고 일반화 가능한 AI 시스템을 만들면서 AI의 문제 해결 기능을 본질적으로 예측할 수 없는 세계로 가져오기를 희망합니다."라고 말했습니다.

이미지 신용 : 데릭 브루프 / 플리커

타임 스탬프 : 2022 년 12 월 5 일2022 년 12 월 5 일

타임 스탬프 : 15년 2022월 XNUMX일

DeepMind의 최신 AI가 게임 'Stratego'에서 인간 플레이어를 압도합니다.

플라톤에 의해 재발행

스트라테고를 만나다

아름다운 마음

연습이 완벽을 만들지

더보기 특이점 허브

10년 가장 인기 있는 Singularity 허브 스토리 2023개

마음을 구성하는 것은 무엇입니까? Lars Chittka는 가장 작은 생물로 감각에 대한 우리의 인식에 도전합니다.

아직까지 가장 위대한 생물학 위업에서 AI는 우리 DNA를 수용하는 단백질 복합체를 해독했습니다

DeepMind는 새로운 멀티 게임 AI가 보다 일반적인 지능을 향한 단계라고 말합니다.

Moderna, 세계 최악의 질병 15가지에 대한 mRNA 백신 개발

NASA는 이제 화성에서 나무 가치의 산소를 안정적으로 생산할 수 있다고 말합니다

제너레이티브 AI는 근로자의 생산성과 만족도를 높이고 가장 저숙련 근로자에게 가장 많은 혜택을 줍니다.

웹에서 제공하는 이번 주의 멋진 기술 이야기(15월 XNUMX일까지)

메타의 새로운 AI는 게임 '외교'에서 상위 10%에 들었고 인간 플레이어는 아무도 현명하지 않았습니다.

인간은 수천 년 동안 숲을 파괴했습니다. 우리는 그들을 확장하는 첫 번째 세대가 될 수 있습니다

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정