このロボット犬は AI の頭脳を持ち、わずか XNUMX 時間で歩くことを学びました PlatoBlockchain Data Intelligence. 垂直検索。 あい。

このロボット犬は AI の頭脳を持ち、わずか XNUMX 時間で歩くことを学びました

画像

赤ちゃんガゼルが歩くことを学ぶのを見たことがありますか? 子鹿は基本的にほ乳類のパパの長い脚で、立ち上がり、倒れ、立ち、そしてまた倒れます。 最終的には、つまようじのような脚を一連の近くの落下に向けるのに十分な長さになります...ええと、ステップ。 驚くべきことに、この愛らしい姿を見せてから数分後、子鹿は昔のプロのように飛び回っています。

さて、これで、この古典的なセレンゲティ シーンのロボット バージョンができました。

この場合の子鹿は、カリフォルニア大学バークレー校のロボット犬です。 また、驚くほど学習が早い (他のロボットと比較して)。 このロボットは、オンラインで見たことのある派手なロボットとは異なり、人工知能を使用して歩き方を学習するという点でも特別です。

仰向けになり、足を振って、ロボットは XNUMX 時間でひっくり返ったり、立ち上がったり、歩いたりすることを学びます。 さらに XNUMX 分間ボール紙を使って嫌がらせをするだけで、ハンドラーに押し付けられるのに耐え、回復する方法を学ぶことができます。

初めてではありません ロボットは人工知能を使って歩くことを学びました. しかし、以前のロボットは、シミュレーションで数え切れないほどの試行錯誤を繰り返してスキルを習得していましたが、バークレーのボットは、現実世界で完全に学習しました。

[埋め込まれたコンテンツ]

論文が発表された arXiv プレプリント サーバーでは、研究者 (Danijar Hafner、Alejandro Escontrela、Philipp Wu) は、シミュレーションで学習したアルゴリズムを現実の世界に移すのは簡単ではないと述べています。 現実世界とシミュレーションの細部や違いが、駆け出しのロボットをつまずかせる可能性があります。 一方、現実世界でのトレーニング アルゴリズムは実用的ではありません。時間と消耗が多すぎるためです。

たとえば、100 年前、OpenAI は立方体を操作できる AI 対応のロボットハンドを披露しました。 制御アルゴリズムである Dactyl は、この比較的単純なタスクを達成するために、6,144 個の CPU と 8 個の Nvidia V100 GPU を使用したシミュレーションで約 XNUMX 年分の経験を必要としました。 それ以来、物事は進歩しましたが、問題はほとんど残っています。 純粋な強化学習アルゴリズムは、現実の世界で訓練するためのスキルを習得するには、試行錯誤が多すぎます。 簡単に言えば、学習プロセスは研究者を壊すでしょう および 有意義な進歩を遂げる前にロボット。

バークレーのチームは、Dreamer と呼ばれるアルゴリズムを使用してこの問題を解決しようと試みました。 いわゆる「世界モデルドリーマーは、将来の行動が目標を達成する確率を予測できます。 経験を積むと、その予測の精度が向上します。 成功率の低いアクションを事前に除外することで、世界モデルはロボットがより効率的に何が機能するかを理解できるようにします。

「過去の経験から世界モデルを学習することで、ロボットは潜在的な行動の将来の結果を想像できるようになり、成功した行動を学習するために必要な実際の環境での試行錯誤の量を減らすことができます」と研究者は書いています。 「将来の結果を予測することにより、世界モデルは、現実世界の相互作用がわずかであっても、計画と行動学習を可能にします。」

言い換えれば、世界モデルは、シミュレーションでのトレーニング時間に相当する年数を、現実の世界ではぎこちない時間にまで短縮することができます。

このアプローチは、ロボット犬よりも幅広い関連性を持つ可能性があります。 チームはまた、Dreamer をピックアンドプレース ロボット アームと車輪付きロボットにも適用しました。 どちらの場合も、Dreamer を使用することで、シミュレーションの時間を必要とせずに、ロボットが関連するスキルを効率的に学習できることがわかりました。 より野心的な将来のアプリケーションには、 自己駆動車.

もちろん、取り組むべき課題はまだあります。 強化学習は、今日の最も高度なロボットの背後にある複雑なハンドコーディングの一部を自動化しますが、ロボットの目標と成功を構成するものを定義するエンジニアを依然として必要としています。 また、ロボットはここでのチームの実験を生き延びましたが、より高度なスキルのより長いトレーニングは、将来のボットが損傷なしで生き残るにはあまりにも多くのことを証明するかもしれません. 研究者たちは、シミュレーターによるトレーニングと実世界での素早い学習を組み合わせることは有益かもしれないと述べています。

それでも、結果はロボティクスにおける AI をさらに一歩前進させます。 ドリーマーは、「強化学習は将来のロボット制御の土台となるツールになる」という主張を強めていると、オレゴン州立大学のロボティクス教授であるジョナサン・ハースト 言われ MITテクノロジーレビュー. 

画像のクレジット: ダニジャー・ハフナー / YouTube

タイムスタンプ:

より多くの 特異点ハブ