私たちは毎日、さまざまなニーズに対応しています。 お腹は空いていますが、疲れています。 ソファに倒れ込んだほうがいいですか、それとも夕食を作るべきですか? 危険な気温でオーバーヒートしていますが、同時に非常に喉が渇いています。 太陽の下で温められたぬるま湯を一気飲みするべきでしょうか、それとも氷を作る精神的な能力が身につくまで冷凍庫に頭を突っ込むべきでしょうか?
ジレンマに直面したとき、私たちは考えずに基本的な本能に従ってしまうことがよくあります。 しかし内部では、いつでも「最善の」決定を下すために複数のニューラル ネットワークが競合しています。 食べ物を食べながら寝る。 ぬるま湯で冷凍します。 後から考えるとひどい決断かもしれませんが、次回は過去の失敗から学びます。
絶え間なく変化する世界に対する私たちの適応力は、現在ほとんどの AI エージェントから逃れられる超強力な力です。 最も洗練された AI エージェントでも、相反する目標を両立させると故障したり、耐えられないほどのコンピューティング時間が必要になったりします。
プリンストン神経科学研究所のジョナサン・コーエン博士率いるチームによれば、その理由は単純だ。機械学習システムは通常、単一の実体として機能し、一度に XNUMX つの目標を評価、計算、実行する必要があるからだ。 AI は失敗から学ぶことはできますが、複数の相反する目標に同時に挑戦すると、適切なバランスを見つけるのに苦労します。
では、AI を分解してみませんか?
In 新しい研究 に発表され PNAS、チームは認知神経科学からページを取得し、モジュール式 AI エージェントを構築しました。
アイデアは一見シンプルです。 モノリシック AI (「自己」全体を包含する単一のネットワーク) ではなく、チームはモジュール式エージェントを構築しました。各部分は独自の「動機」と目標を持ち、単一の「本体」を指揮します。 民主主義社会と同様に、AI システムは最適な対応を決定するために内部で議論し、最大の勝利結果をもたらす可能性が最も高い行動が次のステップを導きます。
いくつかのシミュレーションでは、モジュール型 AI が従来のモノリシック型 AI を上回るパフォーマンスを示しました。 その適応性は、研究者が同時に維持しなければならない目標の数を人為的に増やしたときに特に輝きました。 レゴ風の AI は急速に適応しましたが、モノリシックな AI は追いつくのに苦労しました。
「エージェンシーに関する最も基本的な問題の XNUMX つは、個人が相反するニーズをどのように管理するかということです」と研究チームは述べています。 AI エージェントを分解することで、この研究は、よりスマートな機械学習エージェントについての洞察を提供するだけではありません。 また、「人間の精神に内在する心理的葛藤を理解する道も開かれる」。 書いた プリンストン大学のロバー・ボシュラ博士はこの研究には関与していませんでした。
人生のビデオゲーム
知的生命体は、複雑で変化する世界で、相反するニーズのバランスを取る方法をどのように学ぶのでしょうか?
この哲学的な問いは、神経科学、心理学、経済学など、人間の本性を掘り下げる複数の分野に悩まされてきました。 まだ明確な答えはありません。 しかし、AI が現実世界に進出するにつれて同様の課題に直面することが増えており、長年の問題に正面から取り組む時期が来ています。
新しい研究では、単純な RPG (ロールプレイング ゲーム) の形でこの課題に取り組みました。 格子状の世界をナビゲートする XNUMX 人のキャラクターがおり、それぞれが生き残るためのリソースを見つけようとしています。
最初の参加者: モノリシック エージェント (別名「セルフ」) は、深層 Q ラーニング (DQL) を使用してトレーニングされました。 DeepMind によって普及されたこのアルゴリズムは、現在の状態に応じて次の最適なステップを見つけるのに特に強力です。 たとえば、ビデオゲームのように、左に行くべきですか、それとも右に行くべきですか? チェスまたは碁のどの駒をどこに移動しますか? ここで、アルゴリズムは単一の報酬シグナル、つまり最終目標に従いながら、環境全体を調査します。 ある意味、モノリシック エージェントは、すべてのリソースを並行して同時に処理した後、最良の結果を最大化しようとする統合された頭脳です。
敵はモジュール型 AI です。 半自律的な手足を持つタコのように、AI エージェントはサブエージェントに分類され、それぞれが独自の目標とフィードバックを持っています。 公平な戦いを実現するために、各モジュールも DQL でトレーニングされています。 別々の「脳」は周囲を観察し、最適な選択肢を選択することを学びますが、それは各自の目標に合わせて調整されたものに限られます。 次に、予測された結果が合計されます。 次に、最適な結果が得られる可能性のあるソリューションが選択され、AI エージェントが次の選択に進みます。
そして競技場は?
このゲームは、サバイバル ゲームを非常にシンプルにしたバージョンです。 各 AI エージェントは、いくつかの領域にさまざまな種類のリソースが隠されている XNUMX 次元グリッドの周りを歩き回ります。 目標は、エージェントの XNUMX つの統計を設定レベルに維持し、それぞれが時間の経過とともに徐々に減少するようにすることです。 複数の統計が低下した場合、どれを優先するかを決定するのは AI 次第です。
ビデオ ゲーマーにとって、テストは新しいゲーム マップに放り込まれ、健康、魔法、スタミナ、攻撃力などを強化するためのリソースを見つけようとするものであると考えてください。 私たちの日常生活では、空腹、体温、睡眠、その他の基本的な生理学的ニーズのバランスをとることが重要です。
「たとえば、エージェントの『空腹』ステータスが低い場合、そのリソースの場所に移動することで『食料』リソースを収集できます」とチームは説明しました。
木の森
最初のテストは、比較的単純な環境から始まりました。 各リソース目標の場所は、ゲームアリーナの隅に固定されました。 このモノリシック エージェントは、30,000 回のトレーニング ステップ後も 5,000 つの統計を容易に維持しましたが、目標に到達するまでにはオーバーシュートとアンダーシュートの時期がありました。 対照的に、モジュール型エージェントははるかに速く学習しました。 XNUMX 学習ステップまでに、エージェントはすでに「世界の状態」を理解していました。
モジュール型 AI の優れた能力の一部は、本質的な自由探索の感覚から来ている、と著者らは述べています。 最終目標に向かって分割統治するモジュール型システムのこれまでの手法とは異なり、ここでは AI はより全体的な社会関係、つまり一定の内部競争状態を通じて一部のモジュールが利益を得たり、一部のモジュールが損失したりする社会関係を表します。
AI エージェントの「体」は勝者のモジュールによってのみ導かれるため、敗者は同意しない決定に従わなければならず、新たな現実に追い込まれることになります。 その後、次のステップに向けて迅速に適応し、最適なソリューションを再計算する必要があります。 言い換えれば、モジュールはしばしば自分自身が快適ゾーンから外れていることに気づきます。 厳しい恋愛ではありますが、予期せぬ結果により、彼らは新たな解決策を熟考することを余儀なくされ、一人で問題に取り組んでいた場合には考えられなかったより良い結果が得られることもあります。
研究著者のザック・ダルバーグ氏は、全体として、モジュール式システムはAIの動作をさらに改善するための「探索による好循環」を形成していると述べた。
この適応性は、チームが変化する環境で両方の AI エージェントに挑戦したときにさらに輝きました。 あるテストでは、リソースの目標位置が散発的な時間スケールでランダムなグリッドの位置に移動しました。 モジュール型 AI は変化をすぐに認識して適応しましたが、モノリシック エージェントのパフォーマンスははるかに悪かったです。
別のテストでは、チームはダイヤルを上げ、AI エージェントが元の XNUMX つではなく XNUMX つの要素を同時に維持することを要求しました。 このテストでは、変数の数が増加するにつれて、時間とエネルギーの消費という点で計算がますます不可能になるという、「次元の呪い」と呼ばれる問題に取り組みました。
モジュール式エージェントは、目標を維持するためにリソースを探索するように急速に適応しました。 対照的に、モノリシック エージェントは再び苦戦し、各ステータスが望ましいレベルに戻るまでにはるかに長い時間がかかりました。
XNUMX 対多数
モジュール式アプローチは、AI の開発に神経科学を利用するもう XNUMX つの例であり、同時に私たちの脳がどのように機能するかについての洞察を提供します。
以前の研究と同様に、モジュール式モジュールは、データ処理の点で比較的分散された方法で、単一の AI エージェントに個別の簡単なサブ問題を並行して学習させることが可能であることを示しています。 階層制御システムを備えたモデルを追加すると、AI が強化される可能性があると著者らは述べています。なぜなら、両方の構造が自然界に存在するからです。
今のところ、各モジュールは独自のゲイン、つまり自己の倍数を得るようにプログラムされています。 しかし、私たちの人生の目標はしばしば相互に関連しています。 たとえば、喉の渇きを軽減することと暑さと戦うことは相互に排他的ではありません。 チームは、今後のテストでこれらのクロスオーバーを統合し、それらが継承されるのか学習されるのかを学習する必要性を強調しています。
ダルバーグへ、未知は興奮の一部です。 「モジュールはどのように開発されるのでしょうか? 開発環境のどのような機能がさまざまなソリューションに圧力を与えていますか?」 彼は尋ねた。 「そして、モジュール化の利点は、なぜ内部の心理的葛藤が人間の状態の中心にあるように見えるのかを説明するのでしょうか?」
画像のクレジット: アネスティエフ/Pixabay
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 自動車/EV、 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- ブロックオフセット。 環境オフセット所有権の近代化。 こちらからアクセスしてください。
- 情報源: https://singularityhub.com/2023/07/11/ai-agents-with-multiple-selves-can-rapidly-adapt-to-a-changing-world/
- :持っている
- :は
- :not
- :どこ
- $UP
- 000
- 30
- a
- できる
- 私たちについて
- 行為
- Action
- 行動
- 適応する
- 追加
- 後
- 再び
- 古くから
- 代理店
- エージェント
- エージェント
- AI
- アルゴリズム
- すべて
- 一人で
- 沿って
- 既に
- また
- しかし
- 金額
- an
- および
- 別の
- 回答
- どれか
- 離れて
- アプローチ
- です
- アリーナ
- 主張する
- 周りに
- AS
- At
- 攻撃
- 著者
- 著者
- バランシング
- 基本
- 戦闘
- BE
- なぜなら
- になる
- き
- さ
- 利点
- BEST
- より良いです
- ボルスター
- ブースト
- 両言語で
- 脳
- ブレーク
- 壊れた
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 計算する
- came
- 容量
- 捕捉した
- レスリング
- 中央の
- 挑戦する
- 挑戦した
- 課題
- 変更
- 変化
- 文字
- チェス
- 選択
- クラシック
- クリア
- 認知
- コーエン
- 崩壊
- 収集する
- 快適さ
- 競合します
- コンペ
- 複雑な
- 計算
- コンピューティング
- 条件
- 紛争
- 相反する
- 見なさ
- 定数
- 消費
- コントラスト
- コントロール
- コーナー
- 可能性
- カウンターパート
- クレジット
- 電流プローブ
- 現在の状態
- 現在
- サイクル
- 危険な
- データ
- データ処理
- 中
- 分権化された
- 決めます
- 決定
- 決定
- ディープマインド
- 掘り下げる
- 民主的な
- によっては
- 希望
- 開発する
- 開発
- 発達上の
- 異なります
- 夕食
- do
- そうではありません
- ドント
- ダウン
- dr
- 各
- 容易
- 包含する
- エネルギー
- エネルギー消費
- 入ります
- 全体
- エンティティ
- 環境
- 環境
- 特に
- 評価する
- さらに
- 刻々と変化する
- 日常
- 例
- 興奮
- 特別
- 実行します
- 存在する
- 説明する
- 説明
- 探査
- 非常に
- 直面して
- 向い
- 要因
- フェア
- 遠く
- 速いです
- 特徴
- フィードバック
- フィールド
- 戦い
- ファイナル
- もう完成させ、ワークスペースに掲示しましたか?
- 名
- 固定の
- フォロー中
- フード
- 強
- フォーム
- フォーム
- 4
- 無料版
- から
- 基本的な
- さらに
- 未来
- 利得
- ゲーム
- ゲーマー
- 賭博
- 一般に
- Go
- 目標
- 目標
- 徐々に
- グリッド
- ガイド
- 持っていました
- 持ってる
- he
- 健康
- こちら
- 隠されました
- ハイライト
- 包括的な
- フード
- 認定条件
- HTTPS
- 人間
- 飢餓
- 飢えました
- 狩り
- i
- ICE
- アイデア
- if
- ありそうにありません
- 改善します
- in
- その他の
- 増加した
- ますます
- 個人
- 固有の
- 洞察力
- 機関
- 統合する
- インテリジェント-
- 内部
- に
- 本質的な
- 関係する
- IT
- ITS
- 自体
- JPG
- ただ
- キープ
- 既知の
- 最大の
- LEARN
- 学んだ
- 学習
- ツェッペリン
- 左
- レベル
- レベル
- 生活
- ような
- 可能性が高い
- 命
- 場所
- より長いです
- 失う
- 負け
- 愛
- ロー
- 機械
- 機械学習
- マジック
- 維持する
- make
- 管理する
- 地図
- 最大化します
- 五月..
- メンタル
- メソッド
- ミス
- モジュラー
- モジュール
- モジュール
- 瞬間
- 一枚岩
- 他には?
- 最も
- 移動
- 移動する
- の試合に
- 互いに
- my
- ナチュラル
- 自然
- ナビゲート
- 必要
- ニーズ
- ネットワーク
- ネットワーク
- ニューラルネットワーク
- 神経科学
- 新作
- 次の
- 今
- 数
- 観察する
- of
- 頻繁に
- on
- ONE
- もの
- の
- 最適な
- or
- オリジナル
- その他
- 私たちの
- でる
- 結果
- 成果
- 外側
- が
- 自分の
- ページ
- 並列シミュレーションの設定
- 部
- 過去
- ピア
- 実行
- 期間
- ピックアップ
- ピース
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 再生
- 熟考する
- ポジション
- 可能
- 潜在的な
- 電力
- 強力な
- 予測
- 圧力
- 前
- 優先順位をつける
- 問題
- 処理
- プログラム
- 提供します
- 提供
- 腕前
- Psychology
- 公表
- 置きます
- 質問
- 質問
- すぐに
- ランダム
- 急速に
- むしろ
- 到達
- リアル
- 現実の世界
- 現実
- 理由
- 地域
- 相対的に
- 表し
- 必要とする
- 研究
- 研究者
- リソースを追加する。
- リソース
- 応答
- 結果
- return
- 報いる
- 右
- ロール・プレイング
- RPG
- 前記
- 秤
- 一見
- と思われる
- 選択
- センス
- 別
- セッションに
- いくつかの
- すべき
- 表示する
- 同様の
- 簡単な拡張で
- 同時に
- 眠る
- 賢い
- So
- 社会
- 社会
- 溶液
- ソリューション
- 一部
- 洗練された
- 開始
- 都道府県
- 統計情報
- 手順
- ステップ
- 闘争
- 勉強
- 加算
- 日
- 超大国
- 生存
- サバイバルゲーム
- 生き残る
- システム
- タックル
- タックル
- テーラード
- 取得
- タンデム
- タップ
- 対象となります
- チーム
- 条件
- test
- テスト
- より
- それ
- 世界
- アプリ環境に合わせて
- それら
- 自分自身
- その後
- そこ。
- ボーマン
- 彼ら
- 考える
- しかし?
- 考え
- 介して
- 時間
- 〜へ
- 取った
- 厳しい
- に向かって
- 訓練された
- トレーニング
- タンブル
- オン
- 2
- 下
- 理解する
- 予期しない
- 統一
- 大学
- 未知の
- 異なり、
- まで
- バージョン
- 対
- ビデオ
- ビデオゲーム
- ました
- 水
- 仕方..
- we
- went
- この試験は
- いつ
- 一方
- かどうか
- which
- while
- 誰
- なぜ
- 勝利
- 以内
- 無し
- 言葉
- 仕事
- 世界
- もっと悪い
- まだ
- 産出
- 収穫
- ゼファーネット