OpenAI の GPT-4 は Doom を実行しませんが、ゲームのプレイは不十分です

OpenAI の GPT-4 は Doom を実行しませんが、ゲームのプレイは不十分です

あなたは散弾銃小屋に住んでいることに気づくかもしれません。そして、GPT-4 を使用していることに気づくかもしれません。そして、「GPT-4 は Doom を実行するのでしょうか?」と自問するかもしれません。そして、あなたは自問するかもしれません。私が間違っている?"

マイクロソフトの主任応用科学者であり、イギリスのヨーク大学の研究者でもあるエイドリアン・デ・ウィンター氏は、最近の研究論文で次のような疑問を投げかけています。GPT-4は破滅をもたらすのか?

残念ながら、Microsoft が支援する OpenAI の大規模な言語モデルである GPT-4 には、Doom のソース コードを直接実行する機能がありません。

しかし、そのマルチモーダルなバージョンである GPT-4V は、テキストだけでなく画像も入力として受け入れることができ、同様の愛らしいサブコンピテンシーを示します。 運命 無数の AI スタートアップを立ち上げた、問題を抱えたテキストベースのモデルと同じです。

「論文の設定では、GPT-4 (およびビジョン付き GPT-4、または GPT-4V) は、実際にはそれ自体で Doom を実行することはできません。入力サイズによって制限されているためです (そして明らかに、おそらくそれは単に何かをでっち上げているだけでしょう) ; コンパイラが XNUMX 分ごとに幻覚を起こすのは本当に望ましくありません)」と de Wynter 氏は説明文で書いています。 注意 彼の論文について。 「とはいえ、エンジンのプロキシとして機能することは間違いなく、他の「Doom を実行しますか?」と区別することはできません。実装など 大腸菌 or メモ帳に設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

つまり、GPT-4V では Doom は実行されません。 ジョンディアのトラクターみたいに ただし、特別なトレーニングなしでも Doom をプレイできます。

これを管理するために、de Wynter は GPT-4V を呼び出す Vision コンポーネントを設計しました。GPT-4V は、ゲーム エンジンからスクリーンショットをキャプチャし、ゲーム状態の構造記述を返します。そして彼は、それを GPT-XNUMX を呼び出して視覚的な入力と以前の履歴に基づいて意思決定を行うエージェント モデルと組み合わせました。エージェント モデルは、その応答を、ゲーム エンジンにとって意味のあるキーストローク コマンドに変換するように指示されています。

インタラクションは、オープンソースの Python バインディングで構成されるマネージャー層を通じて処理されます。 C ドゥームエンジン Matplotlib 上で実行されます。

DOOM をプレイするための GPT-4V システムの設計を示すチャート

Doom をプレイするための GPT-4V システムの設計を示す De Wynter の図…クリックして拡大

同紙によると、この AI モデルとコードの組み合わせにより、ドアを開け、敵と戦い、武器を発砲することができるという。また、レベルのウォークスルーなどのより広範な命令セットを実行して、自身のパフォーマンスを向上させることができます。

この GPT-4V ベースのシステムの主な欠点は、オブジェクトの永続性が欠如していることです。ゲーム内のゾンビが画面外に出ると、そのことを忘れてしまいます。

GPT-4 はゾンビのことを忘れてただ進み続けます

「たとえば、モデルが画面上にゾンビを見つけて、ゾンビに当たる(または死ぬ)まで発砲し続けることは非常に一般的です」とデ・ウィンター氏は説明します。 「これは 1993 年のハードウェアで動作するように書かれた AI なので、非常に深い意思決定ツリーはないと推測します。ゾンビはあなたに向かって発砲し、部屋中を走り始めます。

「ここで何が問題ですか?さて、まずゾンビが視界から消えます。さらに悪いことに、それはまだ生きており、いつかあなたを打ちのめすでしょう。だから、それを追いかけなければなりませんね?結局のところ、Doom では叩くか叩かれるかです。

「GPT-4 はゾンビのことを忘れてそのまま進み続けることが判明しました。注: プロンプトは、モデルがダメージを受けていて敵が見えない場合に何をすべきかを明示的にモデルに指示します。さらに良いのは、ただ楽しく進んで隅に追い込まれて死んでしまうことです。何度か向きを変えましたが、50~60回近くの実行で、それを観察しました…言いたいのはXNUMX回です。」

また、GPT-4 はうまく推論することができません。文脈上は一般的に正しい行動を説明するように求められたとき、その説明は不十分で、しばしば幻覚(別名、誤った情報)が含まれていました。

それでもデ・ウィンター氏は、GPT-4 が事前のトレーニングなしで Doom をプレイできることは注目に値すると考えています。

同時に、彼はそれが厄介なことだとも感じています。

「倫理部門に関して言えば、(a) モデルに何かを撮影させるためのコードを構築するのが私にとってどれほど簡単だったかは非常に心配です。 (b) モデルが指示を実際に考え直さずに正確に撮影できるようにすること」と彼は要約投稿に書いている。

「つまり、これは計画と推論に関する非常に興味深い調査であり、ビデオ ゲームの自動テストに応用できる可能性がありますが、このモデルが自分が何をしているのかを認識していないことは明らかです。これらのモデルの導入が社会とその潜在的な悪用にどのような影響を与えるかを皆さんに考えていただくことを強くお勧めします。」

そしてあなたは自分自身にこう言うかもしれません。神様、私が何をしてしまったのでしょうか?”®

タイムスタンプ:

より多くの 登録