この DeepMind AI は人間を観察するだけで新しいスキルを急速に学習します

この DeepMind AI は人間を観察するだけで新しいスキルを急速に学習します

この DeepMind AI は、人間の PlatoBlockchain データ インテリジェンスを観察するだけで新しいスキルを急速に学習します。垂直検索。あい。

人間を模倣するアルゴリズムを教えるには、通常、数百または数千の例が必要です。 しかし、Google DeepMind の新しい AI は、人間のデモンストレーターから新しいスキルをその場で習得できます。

人類の最大の秘訣の XNUMX つは、お互いから知識を迅速かつ効率的に取得できることです。 文化の伝達とも呼ばれるこの種の社会学習により、同僚に新しいツールの使い方を教えたり、子供たちに童謡を教えたりすることができます。

研究者がこのプロセスを機械で再現しようと試みたのも不思議ではありません。 AI が人間がタスクを完了するのを見て、その行動を模倣しようとする模倣学習は、ロボットを訓練するためのアプローチとして長年人気がありました。 しかし、今日の最も高度な深層学習アルゴリズムでさえ、トレーナーを正常にコピーする前に、通常、多くの例を確認する必要があります。

人間が模倣を通じて学習する場合、ほんの数回デモンストレーションを行っただけで、新しいタスクを習得できることがよくあります。 現在、Google DeepMind の研究者は、人間からリアルタイムで仮想世界をナビゲートする方法を学習するエージェントを使用した AI の迅速な社会学習に向けた一歩を踏み出しました。

「私たちのエージェントは、事前に収集された人間のデータを一切使用せずに、新しい状況で人間をリアルタイムで模倣することに成功しました」と研究者らは論文で書いている。 紙の ネイチャー·コミュニケーションズ. 私たちは、文化の伝達を生み出すのに十分な、驚くほどシンプルな一連の要素を特定しました。」

研究者らは、GoalCycle3D と呼ばれる特別に設計されたシミュレーターでエージェントをトレーニングしました。 シミュレーターはアルゴリズムを使用して、シミュレーションがどのように動作するか、シミュレーションのどの側面が変化するかに関するルールに基づいて、ほぼ無限の数の異なる環境を生成します。

それぞれの環境において、小さな塊のような AIエージェント 一連の色付きの球体を特定の順序で通過するには、でこぼこした地形やさまざまな障害物を乗り越えなければなりません。 地形の凹凸、障害物の密度、球の構成は環境によって異なります。

エージェントは、以下を使用してナビゲートするように訓練されています。 強化学習。 彼らは球体を正しい順序で通過すると報酬を獲得し、この信号を使用して多くの試行でのパフォーマンスを向上させます。 しかしさらに、これらの環境には、コース内の正しいルートをすでに知っている、ハードコーディングされているか人間によって制御されている専門エージェントも備えています。

多くのトレーニングを実行するうちに、AI エージェントは環境がどのように動作するかの基本だけでなく、各問題を解決する最も早い方法は専門家の真似をすることであることも学習します。 エージェントが単にコースを暗記するのではなく、模倣することを確実に学習できるようにするために、チームはエージェントをある環境セットでトレーニングし、次に別の環境でテストしました。 重要なのは、トレーニング後、エージェントが専門家を真似て、専門家がいなくてもルートに従い続けることができることをチームが示したということです。

これには、標準的な強化学習アプローチにいくつかの調整が必要でした。

研究者らは、アルゴリズムに他のエージェントの位置を予測させることで、専門家に焦点を当てた。 彼らはそれにメモリモジュールも与えました。 トレーニング中、専門家は環境に出入りするため、エージェントは存在しなくなったときのためにそのアクションを記憶する必要がありました。 AI はまた、幅広い環境でトレーニングされたため、可能なタスクを幅広く認識できるようになりました。

ただし、このアプローチをより実用的な領域に応用するのは難しいかもしれません。重要な制限は、研究者が AI が人間のデモンストレーションから学習できるかどうかをテストした際、すべてのトレーニング実行中、エキスパート エージェントは 1 人によって制御されていたことです。そのため、エージェントがさまざまな人から学ぶことができるかどうかを判断するのは困難です。

さらに差し迫った問題として、トレーニング環境をランダムに変更する機能を現実世界で再現するのは困難です。 そして、基礎となるタスクは単純であり、細かいモーター制御を必要とせず、高度に制御された仮想環境で実行されます。

それでも、AI におけるソーシャル学習の進歩は歓迎されます。 私たちがインテリジェントなマシンのある世界に住むことになるのであれば、私たちの経験や専門知識をそれらのマシンと共有するための効率的かつ直感的な方法を見つけることが極めて重要になります。

画像のクレジット: ジュリアナとマリアナ・アモリン / Unsplash

タイムスタンプ:

より多くの 特異点ハブ