OpenAIの新しいAIは、70,000時間のYouTubePlatoBlockchainデータインテリジェンスを視聴してMinecraftをプレイすることを学びました。 垂直検索。 愛。

OpenAIの新しいAIは、70,000時間のYouTubeを視聴してMinecraftをプレイすることを学びました

マインクラフト openai 機械学習アルゴリズム ゲームをプレイします youtube

2020年、OpenAIの機械学習アルゴリズムGPT-3は、インターネットから削り取られた数十億の単語を取り込んだ後、人々を驚かせました。 巧妙に作られた文章を吐き出す。 今年、テキストと画像のトレーニングを受けたGPT-2のいとこであるDALL-E 3は、鞭打ちを始めたときにオンラインで同様の騒動を引き起こしました。 馬に乗る宇宙飛行士のシュールな画像 そして、最近では、奇妙なクラフト、 存在しない人々の写実的な顔.

現在、同社は、最新のAIが、YouTubeでゲームをプレイしている人々を示す約70,000時間のビデオを見た後、Minecraftをプレイすることを学んだと述べています。

鉱山学校 

ゲームのはるかに単純な「サンドボックス」バージョンで動作する多くの以前のMinecraftアルゴリズムと比較して、新しいAIは、標準のキーボードとマウスのコマンドを使用して、人間と同じ環境で再生されます。

ブログ投稿 および プレプリント OpenAIチームは、作業の詳細について、箱から出してすぐに、アルゴリズムが木を切り倒したり、板を作ったり、クラフトテーブルを作ったりするなどの基本的なスキルを習得したと述べています。 彼らはまた、それが水泳、狩猟、料理、そして「柱の跳躍」を観察しました。

「私たちの知る限り、ドラッグアンドドロップの在庫管理やアイテムの作成を含む、完全な、変更されていない人間の行動空間で動作する公開された作品はありません」と著者は論文に書いています。

微調整、つまり、より焦点を絞ったデータセットでモデルをトレーニングすることで、アルゴリズムがこれらすべてのタスクをより確実に実行できることを発見しましたが、木や石の道具を製造し、基本的な避難所を建設し、探索することで、技術力を向上させ始めました。村、そして襲撃の胸。

強化学習でさらに微調整した後、ダイヤモンドのつるはしを作成することを学びました。これは、人間のプレイヤーが達成するのに約20分と24,000のアクションを必要とするスキルです。

これは注目に値する結果です。 AIは、Minecraftの広く開かれたゲームプレイと長い間苦労してきました。 AIがすでに習得しているチェスや囲碁のようなゲームには明確な目的があり、それらの目的に向けた進捗状況を測定できます。 囲碁を征服するために、研究者は 強化学習、アルゴリズムに目標が与えられ、その目標に向けた進捗に対して報酬が与えられます。 一方、Minecraftにはさまざまな目的があり、進歩は直線的ではなく、通常、深層強化学習アルゴリズムは車輪を回転させたままになります。

たとえば、AI開発者を対象とした2019 MineRL Minecraftコンテストでは、660件の提出物のいずれも達成しませんでした ダイヤモンドを採掘するという競争の比較的単純な目標.

創造性に報い、問題にコンピューティング能力を投入することが常に答えであるとは限らないことを示すために、MineRL主催者は参加者に厳しい制限を課しました。参加者には1,000つのNVIDIAGPUと720時間の記録されたゲームプレイが許可されました。 出場者は見事にパフォーマンスを発揮しましたが、より多くのデータとXNUMXのNVIDIA GPUで達成されたOpenAIの結果は、コンピューティング能力にはまだ利点があることを示しているようです。

AIが狡猾になる

OpenAIは、Minecraft用のビデオ事前トレーニング(VPT)アルゴリズムを使用して、GPT-3およびDALL-Eで使用されていたアプローチに戻りました。人間が作成したコンテンツの膨大なデータセットでアルゴリズムを事前トレーニングします。 しかし、アルゴリズムの成功は、計算能力やデータだけでは実現できませんでした。 これほど多くのビデオでMinecraftAIをトレーニングすることは、以前は実用的ではありませんでした。

生のビデオ映像は、GPT-3やDALL-Eなどのコンテンツジェネレーターの場合ほど、行動AIには役立ちません。 それは人々が何をしているのかを示していますが、彼らがそれをどのように行っているのかを説明していません。 ビデオをアクションにリンクするアルゴリズムには、ラベルが必要です。 たとえば、プレーヤーのオブジェクトのコレクションを示すビデオフレームには、インベントリを開くために使用されるコマンドキー「E」の横に「インベントリ」というラベルを付ける必要があります。

70,000時間のビデオのすべてのフレームにラベルを付けるのは…非常識です。 そのため、チームはUpworkの請負業者に支払いを行い、Minecraftの基本的なスキルを記録してラベルを付けました。 彼らはこのビデオの2,000時間を使用して、Minecraftビデオにラベルを付ける方法をXNUMX番目のアルゴリズムに教えました。 それ アルゴリズム、IDMは、70,000時間のYouTube映像すべてに注釈を付けました。 (チームによると、キーボードとマウスのコマンドにラベルを付けるとき、IDMは90%以上正確でした。)

オンラインで行動データセットのロックを解除するためにデータラベル付けアルゴリズムをトレーニングする人間のこのアプローチは、AIが他のスキルを学ぶのにも役立つ可能性があります。 「VPTは、エージェントができるようにするための道を開きます 行動することを学ぶ インターネット上の膨大な数のビデオを見ることによって」と研究者は書いた。 OpenAIは、Minecraftを超えて、VPTが、コンピューターをプロンプトで操作するアルゴリズムなどの新しい実世界のアプリケーションをもたらすことができると考えています(たとえば、ラップトップにドキュメントを見つけて上司に電子メールで送信するように依頼することを想像してください)。

ダイヤモンドは永遠ではない

MineRLコンテストの主催者の残念なことに、結果は、コンピューティング能力とリソースが依然として最先端のAIに針を動かしていることを示しているようです。

コンピューティングのコストを気にしないでください、OpenAIはUpwork請負業者だけで160,000万ドルかかると言いました。 公平であるとはいえ、データセット全体に手動でラベルを付けると、数百万に達し、完了するまでにかなりの時間がかかります。 そして、計算能力は無視できませんでしたが、モデルは実際にはかなり小さかったです。 VPTの数億のパラメーターは、GPT-3の数千億よりも桁違いに小さくなっています。

それでも、より少ないデータとコンピューティングを使用する巧妙な新しいアプローチを見つけるという意欲は有効です。 子供はXNUMXつかXNUMXつのビデオを見ることでMinecraftの基本を学ぶことができます。 今日のAIは、単純なスキルでさえ学ぶためにはるかに多くのことを必要とします。 作る AIがより効率的に 大きな、価値のある挑戦です。

いずれにせよ、今回はOpenAIが共有ムードになっています。 研究者たちは、VPTにはリスクがないわけではなく、誤用を制限するためにGPT-3やDALL-Eなどのアルゴリズムへのアクセスを厳密に制御していると述べていますが、リスクは今のところ最小限です。 彼らはデータ、環境、アルゴリズムをオープンソース化し、MineRLと提携しています。 今年の参加者は、最新のMinecraft AIを自由に使用、変更、微調整できます。

今回はダイアモンドの採掘をはるかに超えて成功する可能性があります。

画像のクレジット: シモンリー / Unsplash 

タイムスタンプ:

より多くの 特異点ハブ