Meta の新しい AI は、ゲーム「Diplomacy」で上位 10% にランクインしました。そして人間のプレイヤーは、より賢明な PlatoBlockchain データ インテリジェンスではありませんでした。垂直検索。あい。

メタの新しい AI がゲーム「外交」で上位 10% にランクイン - そして人間のプレイヤーは賢明ではなかった

AI は最も優れた機能のいくつかを習得しました 複雑なゲーム 人には知られていますが、しばしば競争に優れていますが、協力は自然には起こりません. Meta の AI が Diplomacy というゲームをマスターしました。このゲームでは、他のプレイヤーと協力して勝つ必要があります。

グーグルの熟達 囲碁のゲーム AI の主要なマイルストーンとして歓迎されましたが、その紛れもない複雑さにもかかわらず、多くの点で機械の冷静で計算ロジックに適しています。 これは、相手の動きを完全に把握できる完全な情報のゲームであり、勝利とは単に他のプレイヤーを出し抜くことができることを意味します。

一方、外交はより厄介な問題です。 ボードゲームでは、最大 XNUMX 人のプレイヤーが参加できます ヨーロッパの軍事大国であり、軍隊を使って戦略的な都市を支配します。 しかし、プレイヤーはお互いに交渉して、同盟を結んだり壊したりして、完全な支配を追求することができます。

さらに、すべてのプレイヤーの動きは各ターンで同時に行われるため、他のプレイヤーの行動に単純に反応することはできません。 これは、ゲームに勝つには、戦略的思考、他のプレイヤーと協力する能力、説得力のある交渉スキルの複雑な組み合わせが必要であることを意味します。 AI はすでに純粋な戦略を習得していますが、他のスキルを複製するのははるかに難しいことがわかっています。

ただし、Meta の研究者によって設計された新しい AI は、その方向に大きな一歩を踏み出した可能性があります。 で 論文が発表された 先週 in 科学, 彼らは、オンラインの外交リーグで上位 10% のプレーヤーにランクされ、人間のプレーヤーの平均スコアの XNUMX 倍以上を達成した Cicero と呼ばれるシステムについて説明しています。

シセロは回復力があり、冷酷で、忍耐強い」と、XNUMX 回の外交世界チャンピオンのアンドリュー・ゴフ said メタが制作したビデオ. 「時には悪い決断をさせてしまう人間の感情をあまり感じさせずにプレイします。 状況を評価し、自分のためだけでなく、一緒に働いている人々のために最善の決定を下すだけです。」

Cicero を作成するには、Meta の研究者が、戦略的推論と自然言語処理という XNUMX つの異なるサブフィールドから最先端の AI 手法を組み合わせる必要がありました。 システムの中心には、他のプレイヤーの動きを予測し、これを使用して独自の戦略を決定する計画アルゴリズムがあります。 このアルゴリズムは、人間がゲームをプレイする方法を模倣しようとしながら、AI を何度も何度もプレイさせることによってトレーニングされました。

研究者は、この計画モジュールだけで、 人間のプロに勝つ ゲームの簡易版で。 しかし、この最新の研究では、チームはそれを、インターネットからの膨大な量のテキストでトレーニングされた大規模な言語モデルと組み合わせ、40,000 のオンライン外交ゲームからの対話を使用して微調整しました。 これにより、アップグレードされたシセロは、他のプレイヤーからのメッセージを両方とも解釈できるようになりました。 および 自作も メッセージ 一緒に働くように彼らを説得するために。

組み合わせたシステムは、ボードの現在の状態と過去の会話を使用して、各プレイヤーが何をする可能性が高いかを予測することから始まります。 次に、その意図を概説し、他のプレーヤーの協力を確保するように設計されたメッセージを生成する前に、それ自体とそのパートナーの両方の行動計画を考え出します.

オンライン トーナメントでの 40 以上のゲームで、Cicero は 82 人の他のプレイヤーと効果的にコミュニケーションを取り、意図を説明し、行動を調整し、同盟を交渉しました。 重要なことに、研究者は、ゲーム内のメッセージから、人間のプレイヤーが AI とチームを組んでいると疑ったという証拠は見られなかったと述べています。

しかし、モデルのコミュニケーション能力は完璧ではありませんでした. 無意味なメッセージや目的にそぐわないメッセージを吐き出す能力が十分にあるため、研究者は動きのたびに複数の候補メッセージを生成し、さまざまなフィルタリング メカニズムを使用してゴミを取り除く必要がありました。 それでもなお、研究者たちは、非論理的なメッセージが時々すり抜けてしまうことを認めていますペッド 経由。

これは、Cicero の心臓部にある言語モデルがまだ何が起こっているのかを本当に理解しておらず、もっともらしいメッセージを生成しているだけであることを示唆しています。

書き込む 会話, オーストラリアのニューサウスウェールズ大学の AI 研究者である Toby Walsh も、ほとんどの人間のプレーヤーとは異なり、Cicero は間違いなく正直であると述べています。 これは驚くほど効果的な戦略ですが、競合他社が自分たちをだまそうとすることは決してないと判断した場合、大きな弱点になる可能性があります。

それにもかかわらず、この進歩は重要なものであり、Facebook はボードゲームをはるかに超えたアプリケーションを持つことを望んでいます. ブログ記事で研究者は、計画アルゴリズムを使用して言語生成を制御する機能により、AI チャットボットとのより長く豊かな会話や、プレイヤーの行動に適応できるビデオ ゲーム キャラクターの作成が可能になる可能性があると述べています。

画像のクレジット: MabelAmber / 4008枚の画像

タイムスタンプ:

より多くの 特異点ハブ