人間を模倣するアルゴリズムを教えるには、通常、数百または数千の例が必要です。 しかし、Google DeepMind の新しい AI は、人間のデモンストレーターから新しいスキルをその場で習得できます。
人類の最大の秘訣の XNUMX つは、お互いから知識を迅速かつ効率的に取得できることです。 文化の伝達とも呼ばれるこの種の社会学習により、同僚に新しいツールの使い方を教えたり、子供たちに童謡を教えたりすることができます。
研究者がこのプロセスを機械で再現しようと試みたのも不思議ではありません。 AI が人間がタスクを完了するのを見て、その行動を模倣しようとする模倣学習は、ロボットを訓練するためのアプローチとして長年人気がありました。 しかし、今日の最も高度な深層学習アルゴリズムでさえ、トレーナーを正常にコピーする前に、通常、多くの例を確認する必要があります。
人間が模倣を通じて学習する場合、ほんの数回デモンストレーションを行っただけで、新しいタスクを習得できることがよくあります。 現在、Google DeepMind の研究者は、人間からリアルタイムで仮想世界をナビゲートする方法を学習するエージェントを使用した AI の迅速な社会学習に向けた一歩を踏み出しました。
「私たちのエージェントは、事前に収集された人間のデータを一切使用せずに、新しい状況で人間をリアルタイムで模倣することに成功しました」と研究者らは論文で書いている。 紙の ネイチャー·コミュニケーションズ. 「私たちは、文化の伝達を生み出すのに十分な、驚くほどシンプルな一連の要素を特定しました。」
研究者らは、GoalCycle3D と呼ばれる特別に設計されたシミュレーターでエージェントをトレーニングしました。 シミュレーターはアルゴリズムを使用して、シミュレーションがどのように動作するか、シミュレーションのどの側面が変化するかに関するルールに基づいて、ほぼ無限の数の異なる環境を生成します。
それぞれの環境において、小さな塊のような AIエージェント 一連の色付きの球体を特定の順序で通過するには、でこぼこした地形やさまざまな障害物を乗り越えなければなりません。 地形の凹凸、障害物の密度、球の構成は環境によって異なります。
エージェントは、以下を使用してナビゲートするように訓練されています。 強化学習。 彼らは球体を正しい順序で通過すると報酬を獲得し、この信号を使用して多くの試行でのパフォーマンスを向上させます。 しかしさらに、これらの環境には、コース内の正しいルートをすでに知っている、ハードコーディングされているか人間によって制御されている専門エージェントも備えています。
多くのトレーニングを実行するうちに、AI エージェントは環境がどのように動作するかの基本だけでなく、各問題を解決する最も早い方法は専門家の真似をすることであることも学習します。 エージェントが単にコースを暗記するのではなく、模倣することを確実に学習できるようにするために、チームはエージェントをある環境セットでトレーニングし、次に別の環境でテストしました。 重要なのは、トレーニング後、エージェントが専門家を真似て、専門家がいなくてもルートに従い続けることができることをチームが示したということです。
これには、標準的な強化学習アプローチにいくつかの調整が必要でした。
研究者らは、アルゴリズムに他のエージェントの位置を予測させることで、専門家に焦点を当てた。 彼らはそれにメモリモジュールも与えました。 トレーニング中、専門家は環境に出入りするため、エージェントは存在しなくなったときのためにそのアクションを記憶する必要がありました。 AI はまた、幅広い環境でトレーニングされたため、可能なタスクを幅広く認識できるようになりました。
ただし、このアプローチをより実用的な領域に応用するのは難しいかもしれません。重要な制限は、研究者が AI が人間のデモンストレーションから学習できるかどうかをテストした際、すべてのトレーニング実行中、エキスパート エージェントは 1 人によって制御されていたことです。そのため、エージェントがさまざまな人から学ぶことができるかどうかを判断するのは困難です。
さらに差し迫った問題として、トレーニング環境をランダムに変更する機能を現実世界で再現するのは困難です。 そして、基礎となるタスクは単純であり、細かいモーター制御を必要とせず、高度に制御された仮想環境で実行されます。
それでも、AI におけるソーシャル学習の進歩は歓迎されます。 私たちがインテリジェントなマシンのある世界に住むことになるのであれば、私たちの経験や専門知識をそれらのマシンと共有するための効率的かつ直感的な方法を見つけることが極めて重要になります。
画像のクレジット: ジュリアナとマリアナ・アモリン / Unsplash
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://singularityhub.com/2023/12/01/this-deepmind-ai-rapidly-learns-new-skills-just-by-watching-humans/
- :持っている
- :は
- :not
- $UP
- a
- 能力
- 私たちについて
- 取得する
- 行動
- 添加
- 高度な
- 後
- エージェント
- エージェント
- AI
- アルゴリズム
- アルゴリズム
- すべて
- ことができます
- ほとんど
- 既に
- また
- an
- および
- 別の
- どれか
- アプローチ
- アプローチ
- です
- AS
- 側面
- At
- ベース
- BE
- き
- 行動
- の間に
- 広い
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 呼ばれます
- 缶
- 子供達
- 同僚
- コンプリート
- 文脈
- 続ける
- コントロール
- 制御
- 正しい
- 可能性
- コース
- コース
- クレジット
- 重大な
- 決定的に
- 文化的な
- データ
- 深いです
- 深い学習
- ディープマインド
- 設計
- 異なります
- 難しい
- ドメイン
- Drop
- 間に
- e
- 各
- 稼ぐ
- 効率的な
- 効率良く
- どちら
- エンドレス
- 確保
- 確実
- 環境
- 環境
- さらに
- 例
- 体験
- エキスパート
- 専門知識
- 特徴
- 少数の
- 発見
- 終わり
- フォーカス
- 強制
- から
- 基礎
- 与えた
- 生成する
- 生成
- でログイン
- 最大
- 一握り
- ハード
- 持ってる
- 持って
- 非常に
- 認定条件
- How To
- HTTPS
- 人間
- 人間
- 何百
- 識別する
- if
- 改善します
- in
- インテリジェント-
- 直観的な
- IT
- ITS
- ただ
- キー
- 種類
- 知っている
- 知識
- 知っている
- LEARN
- 学習
- 学ぶ
- 制限
- ライブ
- 場所
- 長い
- より長いです
- マシン
- 製
- 作る
- 多くの
- メモリ
- かもしれない
- モジュール
- 他には?
- 最も
- モーター
- しなければなりません
- 自然
- ナビゲート
- 必要
- 新作
- いいえ
- 小説
- 今
- 数
- 障害
- 発生する
- of
- 頻繁に
- on
- ONE
- の
- 操作する
- or
- 注文
- その他
- 私たちの
- でる
- が
- パス
- 通過
- のワークプ
- パフォーマンス
- 人
- 選ぶ
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 人気
- 可能
- 実用的
- 予測する
- 現在
- 問題
- プロセス
- 進捗
- 最も速い
- 範囲
- 急速な
- 急速に
- むしろ
- リアル
- 現実の世界
- への
- 言及
- の提出が必要です
- 必要
- 研究者
- 報いる
- ロボット
- ルート
- ルール
- runs
- 見ました
- シリーズ
- セッションに
- シェアする
- すべき
- 表示する
- 示されました
- シグナル
- 簡単な拡張で
- シミュレータ
- スキル
- 小さい
- 社会
- 解決する
- 特別に
- 特定の
- 標準
- 手順
- 成功する
- 首尾よく
- 十分な
- 驚き
- 撮影
- 仕事
- タスク
- チーム
- 地形
- テスト
- より
- それ
- アプリ環境に合わせて
- それら
- その後
- 彼ら
- この
- しかし?
- 数千
- 介して
- 時間
- 〜へ
- 今日の
- ツール
- に向かって
- 訓練された
- トレーニング
- 翻訳する
- 試験
- 試み
- 微調整
- 一般的に
- 根本的な
- us
- つかいます
- 使用されます
- 多様
- さまざまな
- バーチャル
- 仮想世界
- ました
- ウオッチ
- 見ている
- 仕方..
- 方法
- 歓迎
- した
- この試験は
- いつ
- かどうか
- which
- ワイド
- 広い範囲
- 意志
- 無し
- 世界
- でしょう
- 書きます
- ゼファーネット