DeepMind の最新 AI は、ゲーム「Stratego」PlatoBlockchain Data Intelligence で人間のプレイヤーを圧倒します。垂直検索。あい。

DeepMind の最新 AI がゲーム「Stratego」で人間のプレイヤーを打ち負かす

AIは不確実性を嫌います。 しかし、予測不可能な世界を生き抜くためには、私たちが毎日行っているように、不完全な情報から選択を行うことを学ぶ必要があります。

ディープマインド 刺した この難問を解決するにあたり。 その秘訣は、深層強化学習と呼ばれる人間の脳に大まかに基づいたアルゴリズム戦略にゲーム理論を織り込むことでした。 その結果、DeepNash は、Stratego と呼ばれる高度に戦略的なボード ゲームで人間の専門家を倒しました。 AIにとって非常に難しいゲームであるStrategoは、ボード上の対戦相手の駒を知らずに、長期的な思考、はったり、戦略を立てるなど、人間のウィットの複数の強みを必要とします。

「チェスや囲碁とは異なり、Stratego は不完全な情報のゲームです。プレイヤーは対戦相手の駒の正体を直接観察することはできません。」DeepMind 書いた ブログ投稿で。 DeepNash により、「ゲームをプレイする人工知能 (AI) システムは新たなフロンティアに進出しました。」

楽しいことやゲームばかりではありません。 私たちの世界のランダム性を簡単に操作し、それに応じて「動作」を調整できる AI システムは、交通の流れを最適化して移動時間を短縮したり、(うまくいけば) 自動運転として道路の怒りを鎮めたりするなど、限られた情報で現実世界の問題を処理できるようになるでしょう。車はますます存在感を増しています。

「自動運転車を作っているのなら、路上にいる他のすべてのドライバーが完全に合理的であり、最適に行動すると仮定したくはありません。」 研究に関与していない Meta AI の Noam Brown 博士。

DeepNash の勝利は、今月の別の AI の進歩に続きます。 外交を行うことを学習したアルゴリズム—勝つために交渉と協力が必要なゲーム。 AIがより柔軟な推論を獲得し、より一般化され、社会的状況をナビゲートすることを学ぶにつれて、AIは私たち自身の脳の神経プロセスと認知への洞察を引き起こす可能性もあります.

ストラテゴに会う

複雑さの点で、Stratego はチェス、囲碁、ポーカーなど、AI が以前に習得したすべてのゲームとはまったく異なる獣です。

ゲームは基本的にフラグをキャプチャします。 各面には 40 個のピース​​があり、ボード上の任意の位置に配置できます。 各駒には、「元帥」、「将軍」、「斥候」、「スパイ」など、異なる名前と数値のランクがあります。 上位のピースは下位のピースをキャプチャできます。 目標は、敵を排除し、旗を獲得することです。

Stratego は、初期セットアップ時とゲームプレイ中の両方で、プレイヤーが対戦相手の駒の位置を見ることができないため、AI にとって特に困難です。 各駒と動きが見えるチェスや囲碁とは異なり、ストラテゴは情報が限られているゲームです。 プレーヤーは、決定を下すときはいつでも「すべての可能な結果のバランスを取る」必要がある、と著者は説明した.

このレベルの不確実性が、Stratego が長年にわたって AI を悩ませてきた理由の XNUMX つです。 AlphaGo や AlphaGo などの最も成功したゲームプレイ アルゴリズムでさえ、 アルファゼロ、完全な情報に依存します。 対照的に、Stratego には少しの特徴があります。 テキサスホールデム、アルゴリズムで以前に征服されたポーカー ゲーム DeepMind。 しかし、Stratego の戦略は、ポーカーとは異なり、通常は数百の手が含まれるゲームの長さのために失敗しました。

潜在的なゲームプレイの数は驚異的です。 チェスには開始位置が 10 つあります。 StrategoにはXNUMX以上あります66 可能性のある開始位置は、宇宙のすべての星よりもはるかに多くあります。 Stratego のゲーム ツリー (ゲーム内で考えられるすべての動きの合計) の合計は、驚異的な 10 です。535.

「Stratego で可能な結果の数が非常に複雑であることは、アルゴリズムが完全情報ゲームでうまく機能し、ポーカーで機能するアルゴリズムでさえ機能しないことを意味します。」 DeepMind の研究著者 Julien Perolat 博士。 課題は、「何が私たちを興奮させたか」です、と彼は言いました。

ビューティフル·マインド

Stratego の複雑さは、ゲームプレイの動きを検索するための通常の戦略が問題外であることを意味します。 モンテカルロ木探索と呼ばれるこの手法は、「AI ベースのゲームへの確固たるアプローチ」であり、勝利につながる可能性のあるルート (木の枝のように) を計画します。

代わりに、DeepNash の魔法のタッチは、映画で描かれている数学者のジョン ナッシュからもたらされました。 ビューティフル·マインド. ゲーム理論のパイオニアであるナッシュは、その功績によりノーベル賞を受賞しました。 ナッシュ均衡. 簡単に言えば、各ゲームで、プレーヤーは全員が従う一連の戦略を利用できるため、自分の戦略を変更しても、XNUMX 人のプレーヤーが何も得られません。 Statego では、これがゼロサム ゲームをもたらします。つまり、プレーヤーが得た利益は、対戦相手の損失になります。

Stratego は複雑であるため、DeepNash はアルゴリズムに対してモデルフリーのアプローチを採用しました。 ここでは、AI は敵の行動を正確にモデル化しようとはしていません。 赤ちゃんのように、白紙の状態で学習する必要があります。 このセットアップは、「DeepNash が対戦相手の駒についてほとんど知らない」ゲームプレイの初期段階で特に役立ち、予測を「不可能ではないにしても困難にします」と著者は述べています。

次に、チームは深層強化学習を使用して DeepNash を強化し、ゲームのナッシュ均衡を見つけることを目標にしました。 これはまさに理想の組み合わせです。強化学習は、ゲームのすべてのステップで最適な次の動きを決定するのに役立ち、DeepNash は全体的な学習戦略を提供します。 システムを評価するために、チームはゲームから得た知識を使用して「家庭教師」を設計し、現実世界では意味を成さない可能性が高い明らかな間違いを除外しました。

習うより慣れろ

学習の最初のステップとして、DeepNash は 5.5 億回のゲームで自分自身と対戦しました。これは、セルフプレイと呼ばれる AI トレーニングで一般的なアプローチです。

一方が勝つと、AI が授与され、現在の人工ニューラル ネットワークのパラメーターが強化されます。 反対側 (同じ AI) は、ニューラル ネットワークの強度を弱めるペナルティを受け取ります。 鏡の前でスピーチのリハーサルをしているようなものです。 時間が経つにつれて、間違いを見つけ出し、パフォーマンスを向上させます。 DeepNash の場合、最高のゲームプレイのためにナッシュ均衡に向かってドリフトします。

実際のパフォーマンスはどうですか?

チームはアルゴリズムを他のエリート Stratego ボットと比較してテストし、そのうちのいくつかは Computer Stratego World Championship で優勝しました。 DeepNash は、約 97% の勝率で対戦相手を圧倒しました。 人間のプレイヤーのためのオンライン プラットフォームである Gravon に対して解き放たれたとき、DeepNash は人間の対戦相手を打ち負かしました。 今年 2002 月に Gravon のプレイヤーと XNUMX 週間以上対戦した後、DeepNash は XNUMX 年以降のすべてのランクマッチで XNUMX 位になりました。

人間のプレイ データを AI にブートストラップすることは、DeepNash が人間レベルのパフォーマンスに到達し、それを打ち負かすために必要ではないことを示しています。

AI はまた、初期セットアップ時およびゲームプレイ中に興味深い動作を示しました。 たとえば、特定の「最適化された」開始位置に落ち着くのではなく、DeepNash は常にピースを移動させて、対戦相手が時間の経過とともにパターンを見つけられないようにします。 ゲームプレイ中、AI は一見無意味な動き (高位の駒を犠牲にするなど) の間を跳ね返って、反撃時に対戦相手のさらに高位の駒を見つけました。

DeepNash はブラフすることもできます。 あるプレイでは、AI が低位の駒を高位の駒のように動かし、人間の対戦相手をおびき寄せて高位の大佐で駒を追いかけさせました。 AI はポーンを犠牲にしましたが、代わりに相手の貴重なスパイ ピースを待ち伏せに誘い込みました。

DeepNash は Stratego 用に開発されましたが、現実世界に一般化できます。 コア メソッドは、限られた情報 (群衆や交通制御から市場の混乱の分析まで) を使用して、予測不可能な未来により適切に対処するよう AI に指示する可能性があります。

「不確実性に直面しても堅牢な一般化可能な AI システムを作成することで、AI の問題解決能力を本質的に予測不可能な世界にさらに広げたいと考えています」とチームは述べています。

画像のクレジット: デレク・ブラフ/フリッカー

タイムスタンプ:

より多くの 特異点ハブ