DeepMind の最新 AI がゲーム「Stratego」で人間プレイヤーを圧倒

プラトン再発行

フォロワー： 0

AIは不確実性を嫌います。しかし、予測不可能な世界を生き抜くためには、私たちが毎日行っているように、不完全な情報から選択を行うことを学ぶ必要があります。

ディープマインド刺したこの難問を解決するにあたり。その秘訣は、深層強化学習と呼ばれる人間の脳に大まかに基づいたアルゴリズム戦略にゲーム理論を織り込むことでした。その結果、DeepNash は、Stratego と呼ばれる高度に戦略的なボードゲームで人間の専門家を倒しました。 AIにとって非常に難しいゲームであるStrategoは、ボード上の対戦相手の駒を知らずに、長期的な思考、はったり、戦略を立てるなど、人間のウィットの複数の強みを必要とします。

「チェスや囲碁とは異なり、Stratego は不完全な情報のゲームです。プレイヤーは対戦相手の駒の正体を直接観察することはできません。」DeepMind 書いたブログ投稿で。 DeepNash により、「ゲームをプレイする人工知能 (AI) システムは新たなフロンティアに進出しました。」

楽しいことやゲームばかりではありません。私たちの世界のランダム性を簡単に操作し、それに応じて「動作」を調整できる AI システムは、交通の流れを最適化して移動時間を短縮したり、(うまくいけば) 自動運転として道路の怒りを鎮めたりするなど、限られた情報で現実世界の問題を処理できるようになるでしょう。車はますます存在感を増しています。

「自動運転車を作っているのなら、路上にいる他のすべてのドライバーが完全に合理的であり、最適に行動すると仮定したくはありません。」と研究に関与していない Meta AI の Noam Brown 博士。

DeepNash の勝利は、今月の別の AI の進歩に続きます。外交を行うことを学習したアルゴリズム—勝つために交渉と協力が必要なゲーム。 AIがより柔軟な推論を獲得し、より一般化され、社会的状況をナビゲートすることを学ぶにつれて、AIは私たち自身の脳の神経プロセスと認知への洞察を引き起こす可能性もあります.

ストラテゴに会う

複雑さの点で、Stratego はチェス、囲碁、ポーカーなど、AI が以前に習得したすべてのゲームとはまったく異なる獣です。

ゲームは基本的にフラグをキャプチャします。各面には 40 個のピースがあり、ボード上の任意の位置に配置できます。各駒には、「元帥」、「将軍」、「斥候」、「スパイ」など、異なる名前と数値のランクがあります。上位のピースは下位のピースをキャプチャできます。目標は、敵を排除し、旗を獲得することです。

Stratego は、初期セットアップ時とゲームプレイ中の両方で、プレイヤーが対戦相手の駒の位置を見ることができないため、AI にとって特に困難です。各駒と動きが見えるチェスや囲碁とは異なり、ストラテゴは情報が限られているゲームです。プレーヤーは、決定を下すときはいつでも「すべての可能な結果のバランスを取る」必要がある、と著者は説明した.

このレベルの不確実性が、Stratego が長年にわたって AI を悩ませてきた理由の XNUMX つです。 AlphaGo や AlphaGo などの最も成功したゲームプレイアルゴリズムでさえ、アルファゼロ、完全な情報に依存します。対照的に、Stratego には少しの特徴があります。テキサスホールデム、アルゴリズムで以前に征服されたポーカーゲーム DeepMind。しかし、Stratego の戦略は、ポーカーとは異なり、通常は数百の手が含まれるゲームの長さのために失敗しました。

潜在的なゲームプレイの数は驚異的です。チェスには開始位置が 10 つあります。 StrategoにはXNUMX以上あります⁶⁶ 可能性のある開始位置は、宇宙のすべての星よりもはるかに多くあります。 Stratego のゲームツリー (ゲーム内で考えられるすべての動きの合計) の合計は、驚異的な 10 です。⁵³⁵.

「Stratego で可能な結果の数が非常に複雑であることは、アルゴリズムが完全情報ゲームでうまく機能し、ポーカーで機能するアルゴリズムでさえ機能しないことを意味します。」と DeepMind の研究著者 Julien Perolat 博士。課題は、「何が私たちを興奮させたか」です、と彼は言いました。

ビューティフル·マインド

Stratego の複雑さは、ゲームプレイの動きを検索するための通常の戦略が問題外であることを意味します。モンテカルロ木探索と呼ばれるこの手法は、「AI ベースのゲームへの確固たるアプローチ」であり、勝利につながる可能性のあるルート (木の枝のように) を計画します。

代わりに、DeepNash の魔法のタッチは、映画で描かれている数学者のジョンナッシュからもたらされました。 ビューティフル·マインド. ゲーム理論のパイオニアであるナッシュは、その功績によりノーベル賞を受賞しました。ナッシュ均衡. 簡単に言えば、各ゲームで、プレーヤーは全員が従う一連の戦略を利用できるため、自分の戦略を変更しても、XNUMX 人のプレーヤーが何も得られません。 Statego では、これがゼロサムゲームをもたらします。つまり、プレーヤーが得た利益は、対戦相手の損失になります。

Stratego は複雑であるため、DeepNash はアルゴリズムに対してモデルフリーのアプローチを採用しました。ここでは、AI は敵の行動を正確にモデル化しようとはしていません。赤ちゃんのように、白紙の状態で学習する必要があります。このセットアップは、「DeepNash が対戦相手の駒についてほとんど知らない」ゲームプレイの初期段階で特に役立ち、予測を「不可能ではないにしても困難にします」と著者は述べています。

次に、チームは深層強化学習を使用して DeepNash を強化し、ゲームのナッシュ均衡を見つけることを目標にしました。これはまさに理想の組み合わせです。強化学習は、ゲームのすべてのステップで最適な次の動きを決定するのに役立ち、DeepNash は全体的な学習戦略を提供します。システムを評価するために、チームはゲームから得た知識を使用して「家庭教師」を設計し、現実世界では意味を成さない可能性が高い明らかな間違いを除外しました。

習うより慣れろ

学習の最初のステップとして、DeepNash は 5.5 億回のゲームで自分自身と対戦しました。これは、セルフプレイと呼ばれる AI トレーニングで一般的なアプローチです。

一方が勝つと、AI が授与され、現在の人工ニューラルネットワークのパラメーターが強化されます。反対側 (同じ AI) は、ニューラルネットワークの強度を弱めるペナルティを受け取ります。鏡の前でスピーチのリハーサルをしているようなものです。時間が経つにつれて、間違いを見つけ出し、パフォーマンスを向上させます。 DeepNash の場合、最高のゲームプレイのためにナッシュ均衡に向かってドリフトします。

実際のパフォーマンスはどうですか？

チームはアルゴリズムを他のエリート Stratego ボットと比較してテストし、そのうちのいくつかは Computer Stratego World Championship で優勝しました。 DeepNash は、約 97% の勝率で対戦相手を圧倒しました。人間のプレイヤーのためのオンラインプラットフォームである Gravon に対して解き放たれたとき、DeepNash は人間の対戦相手を打ち負かしました。今年 2002 月に Gravon のプレイヤーと XNUMX 週間以上対戦した後、DeepNash は XNUMX 年以降のすべてのランクマッチで XNUMX 位になりました。

人間のプレイデータを AI にブートストラップすることは、DeepNash が人間レベルのパフォーマンスに到達し、それを打ち負かすために必要ではないことを示しています。

AI はまた、初期セットアップ時およびゲームプレイ中に興味深い動作を示しました。たとえば、特定の「最適化された」開始位置に落ち着くのではなく、DeepNash は常にピースを移動させて、対戦相手が時間の経過とともにパターンを見つけられないようにします。ゲームプレイ中、AI は一見無意味な動き (高位の駒を犠牲にするなど) の間を跳ね返って、反撃時に対戦相手のさらに高位の駒を見つけました。

DeepNash はブラフすることもできます。あるプレイでは、AI が低位の駒を高位の駒のように動かし、人間の対戦相手をおびき寄せて高位の大佐で駒を追いかけさせました。 AI はポーンを犠牲にしましたが、代わりに相手の貴重なスパイピースを待ち伏せに誘い込みました。

DeepNash は Stratego 用に開発されましたが、現実世界に一般化できます。コアメソッドは、限られた情報 (群衆や交通制御から市場の混乱の分析まで) を使用して、予測不可能な未来により適切に対処するよう AI に指示する可能性があります。

「不確実性に直面しても堅牢な一般化可能な AI システムを作成することで、AI の問題解決能力を本質的に予測不可能な世界にさらに広げたいと考えています」とチームは述べています。

画像のクレジット：デレク・ブラフ/フリッカー

タイムスタンプ： 2022 年 12 月 5 日2022 年 12 月 5 日

タイムスタンプ： 2022 年 9 月 15 日

DeepMind の最新 AI がゲーム「Stratego」で人間のプレイヤーを打ち負かす

プラトン再発行

ストラテゴに会う

ビューティフル·マインド

習うより慣れろ

より多くの特異点ハブ

10 年に最も人気のあるシンギュラリティハブストーリー 2023 件は次のとおりです

心を構成するものは何ですか? ラース・チトカは、最小の生き物で私たちの感覚の知覚に挑戦します

これまでで最大の生物学的特技で、AIは私たちのDNAを収容するタンパク質複合体を解読しました

DeepMindは、新しいマルチゲームAIはより一般的な知能への一歩であると述べています

モデルナは世界で最悪の15の病気のためのmRNAワクチンを開発します

NASA は、火星で木 XNUMX 本分の酸素を確実に生成できるようになったと述べています。

ジェネレーティブ AI は従業員の生産性と満足度を向上させ、最もスキルの低い従業員が最も恩恵を受ける

今週のWeb全体からの素晴らしい技術ストーリー（15月XNUMX日まで）

メタの新しい AI がゲーム「外交」で上位 10% にランクイン - そして人間のプレイヤーは賢明ではなかった

人間は何千年もの間、森林を破壊してきました。私たちはそれらを拡張する最初の世代になることができます

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

ストラテゴに会う

ビューティフル·マインド

習うより慣れろ

より多くの 特異点ハブ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの特異点ハブ