Meta の新しい AI がゲーム「外交」で上位 10% にランクイン - そして人間のプレイヤーは賢くなかった

プラトン再発行

フォロワー： 0

AI は最も優れた機能のいくつかを習得しました複雑なゲーム人には知られていますが、しばしば競争に優れていますが、協力は自然には起こりません. Meta の AI が Diplomacy というゲームをマスターしました。このゲームでは、他のプレイヤーと協力して勝つ必要があります。

グーグルの熟達囲碁のゲーム AI の主要なマイルストーンとして歓迎されましたが、その紛れもない複雑さにもかかわらず、多くの点で機械の冷静で計算ロジックに適しています。これは、相手の動きを完全に把握できる完全な情報のゲームであり、勝利とは単に他のプレイヤーを出し抜くことができることを意味します。

一方、外交はより厄介な問題です。ボードゲームでは、最大 XNUMX 人のプレイヤーが参加できますがヨーロッパの軍事大国であり、軍隊を使って戦略的な都市を支配します。しかし、プレイヤーはお互いに交渉して、同盟を結んだり壊したりして、完全な支配を追求することができます。

さらに、すべてのプレイヤーの動きは各ターンで同時に行われるため、他のプレイヤーの行動に単純に反応することはできません。これは、ゲームに勝つには、戦略的思考、他のプレイヤーと協力する能力、説得力のある交渉スキルの複雑な組み合わせが必要であることを意味します。 AI はすでに純粋な戦略を習得していますが、他のスキルを複製するのははるかに難しいことがわかっています。

ただし、Meta の研究者によって設計された新しい AI は、その方向に大きな一歩を踏み出した可能性があります。で論文が発表された先週 in 科学, 彼らは、オンラインの外交リーグで上位 10% のプレーヤーにランクされ、人間のプレーヤーの平均スコアの XNUMX 倍以上を達成した Cicero と呼ばれるシステムについて説明しています。

「シセロは回復力があり、冷酷で、忍耐強い」と、XNUMX 回の外交世界チャンピオンのアンドリュー・ゴフ said メタが制作したビデオ. 「時には悪い決断をさせてしまう人間の感情をあまり感じさせずにプレイします。状況を評価し、自分のためだけでなく、一緒に働いている人々のために最善の決定を下すだけです。」

Cicero を作成するには、Meta の研究者が、戦略的推論と自然言語処理という XNUMX つの異なるサブフィールドから最先端の AI 手法を組み合わせる必要がありました。システムの中心には、他のプレイヤーの動きを予測し、これを使用して独自の戦略を決定する計画アルゴリズムがあります。このアルゴリズムは、人間がゲームをプレイする方法を模倣しようとしながら、AI を何度も何度もプレイさせることによってトレーニングされました。

研究者は、この計画モジュールだけで、人間のプロに勝つゲームの簡易版で。しかし、この最新の研究では、チームはそれを、インターネットからの膨大な量のテキストでトレーニングされた大規模な言語モデルと組み合わせ、40,000 のオンライン外交ゲームからの対話を使用して微調整しました。これにより、アップグレードされたシセロは、他のプレイヤーからのメッセージを両方とも解釈できるようになりました。および自作もメッセージ一緒に働くように彼らを説得するために。

組み合わせたシステムは、ボードの現在の状態と過去の会話を使用して、各プレイヤーが何をする可能性が高いかを予測することから始まります。次に、その意図を概説し、他のプレーヤーの協力を確保するように設計されたメッセージを生成する前に、それ自体とそのパートナーの両方の行動計画を考え出します.

オンライントーナメントでの 40 以上のゲームで、Cicero は 82 人の他のプレイヤーと効果的にコミュニケーションを取り、意図を説明し、行動を調整し、同盟を交渉しました。重要なことに、研究者は、ゲーム内のメッセージから、人間のプレイヤーが AI とチームを組んでいると疑ったという証拠は見られなかったと述べています。

しかし、モデルのコミュニケーション能力は完璧ではありませんでした. 無意味なメッセージや目的にそぐわないメッセージを吐き出す能力が十分にあるため、研究者は動きのたびに複数の候補メッセージを生成し、さまざまなフィルタリングメカニズムを使用してゴミを取り除く必要がありました。それでもなお、研究者たちは、非論理的なメッセージが時々すり抜けてしまうことを認めていますペッド経由。

これは、Cicero の心臓部にある言語モデルがまだ何が起こっているのかを本当に理解しておらず、もっともらしいメッセージを生成しているだけであることを示唆しています。

書き込む会話, オーストラリアのニューサウスウェールズ大学の AI 研究者である Toby Walsh も、ほとんどの人間のプレーヤーとは異なり、Cicero は間違いなく正直であると述べています。これは驚くほど効果的な戦略ですが、競合他社が自分たちをだまそうとすることは決してないと判断した場合、大きな弱点になる可能性があります。

それにもかかわらず、この進歩は重要なものであり、Facebook はボードゲームをはるかに超えたアプリケーションを持つことを望んでいます. ブログ記事で研究者は、計画アルゴリズムを使用して言語生成を制御する機能により、AI チャットボットとのより長く豊かな会話や、プレイヤーの行動に適応できるビデオゲームキャラクターの作成が可能になる可能性があると述べています。

画像のクレジット： MabelAmber / 4008枚の画像

タイムスタンプ： 2022 年 11 月 28 日2022 年 11 月 28 日

タイムスタンプ： 2024 年 3 月 1 日

メタの新しい AI がゲーム「外交」で上位 10% にランクイン - そして人間のプレイヤーは賢明ではなかった

プラトン再発行

より多くの特異点ハブ

科学者たちは細菌を誘導して自然界には見られない珍しいタンパク質を作らせる

私たちのホモサピエンスの祖先は、ネアンデルタール人、デニソワ人、およびDNAが私たちの遺伝子に生き続ける他のタイプの人間と世界を共有しました

ハーバード大学の新しいプログラム可能な液体は、オンデマンドで特性を変化させる

このアルゴリズムは、タンパク質をゼロから設計して創薬を加速します

GPUとは何ですか? AI ブームを支えるチップとその価値が数兆ドルに達する理由

金星からの宇宙塵は、新しい大気汚染破壊技術を刺激しています

人間と同じように、この画期的な AI は学習した単語から概念を作成します

科学者たちは量子コンピューターが音波に基づいてどのように構築できるかを示した

このロボット料理人はすぐにチポトレで完璧に味付けされたチップスを提供します

ルナーゴールドラッシュは始まったのか？初めての民間月面着陸がなぜ重要なのか

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの 特異点ハブ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの特異点ハブ