概要
小学校の先生はおそらく 20 桁の数字の足し算の仕方を教えてくれなかったでしょう。しかし、より小さな数字を足す方法を知っていれば、必要なのは紙と鉛筆、そして少しの忍耐だけです。 XNUMX の位から始めて、左に向かって少しずつ作業していけば、すぐに XNUMX 億を簡単に積み上げることができるでしょう。
このような問題は人間にとって簡単ですが、それは正しい方法で対処した場合に限ります。 「私たち人間がこれらの問題を解決する方法は、『問題を見つめて答えを書き留める』ことではありません」と彼は言いました。 エラン・マラック、ハーバード大学の機械学習研究者。 「実際に手順を踏んでいきます。」
この洞察は、ChatGPT のようなチャットボットを強化する大規模な言語モデルを研究する研究者にインスピレーションを与えました。これらのシステムは、数ステップの算術を含む問題には合格するかもしれませんが、2022 つの大きな数値の合計を計算するなど、多くのステップを含む問題では失敗することがよくあります。しかし XNUMX 年に、Google 研究者チームは 示されました 言語モデルに段階的な解決策を生成するように依頼することで、以前は手の届かないように思われていた問題をモデルが解決できるようになったということです。思考連鎖プロンプティングと呼ばれる彼らの手法は、研究者たちがそれが機能する仕組みを理解するのに苦労しながらも、すぐに普及しました。
現在、いくつかのチームが、計算複雑性理論と呼ばれる理論コンピューターサイエンスの難解な分野のテクニックを使用して、思考連鎖推論の力を研究しています。これは、複雑性理論を使用して言語モデルの固有の機能と制限を研究する一連の研究の最新章です。これらの取り組みにより、モデルがどこで失敗すると予想すべきかが明確になり、モデルを構築するための新しいアプローチが示される可能性があります。
「彼らは魔法の一部を取り除きます」と言いました ディミトリス・パパイリオプロス、ウィスコンシン大学マディソン校の機械学習研究者。 "それはいい。"
トレーニングトランスフォーマー
大規模な言語モデルは、人工ニューラル ネットワークと呼ばれる数学的構造を中心に構築されています。これらのネットワーク内の多くの「ニューロン」は、個々の単語を表す長い数値列に対して単純な数学的演算を実行し、ネットワークを通過する各単語を別の単語に変換します。この数学的錬金術の詳細は、ニューロン間の接続の強さを定量化する、ネットワークのパラメーターと呼ばれる別の数値セットに依存します。
一貫した出力を生成するように言語モデルをトレーニングするために、研究者は通常、パラメータがすべてランダムな値を持つニューラル ネットワークから開始し、次にインターネット上から大量のデータをそれに供給します。モデルは新しいテキスト ブロックを見つけるたびに、各単語を順番に予測しようとします。最初の単語に基づいて 2 番目の単語を推測し、最初の 2 つに基づいて 3 番目の単語を推測します。各予測を実際のテキストと比較し、その差を減らすためにパラメータを微調整します。それぞれの微調整はモデルの予測をほんの少し変えるだけですが、どういうわけかその集合的な効果により、モデルはこれまでに見たことのない入力に一貫して応答できるようになります。
研究者は 20 年間、言語を処理するニューラル ネットワークをトレーニングしてきました。しかし、この取り組みが本格的に始まったのは、Google の研究者が 2017 年に導入したときでした。 新しい種類のネットワーク トランスと呼ばれます。
「これは7年前に提案されたものだが、まるで先史時代のことのようだ」と述べた。 パブロ・バルセロ、チリの教皇庁カトリック大学の機械学習研究者。
トランスフォーマーがこれほど変革的である理由は、トレーニングに法外なコストをかけることなく、トランスフォーマーを簡単にスケールアップして、パラメーターの数とトレーニング データの量を増やすことができるためです。トランスフォーマーが登場する以前、ニューラル ネットワークには最大でも数億のパラメータがありました。現在、最大の変圧器ベースのモデルには 1 兆を超えるものがあります。過去 5 年間の言語モデルのパフォーマンス向上の多くは、単純なスケールアップによるものです。
トランスフォーマーは、アテンション ヘッドと呼ばれる特別な数学的構造を使用することでこれを可能にし、読んでいるテキストの一種の鳥瞰図を提供します。トランスフォーマーがテキストの新しいブロックを読み取ると、そのアテンションヘッドは全体をすばやくスキャンし、単語間の関連するつながりを特定します。おそらく、10 番目と XNUMX 番目の単語が XNUMX 番目の単語を予測するのに最も役立つ可能性が高いことに注目します。次に、アテンションヘッドはフィードフォワード ネットワークと呼ばれる巨大なニューロンの網に単語を渡します。フィードフォワード ネットワークは、学習に役立つ予測を生成するために必要な大量の計算処理を実行します。
実際のトランスフォーマーには、フィードフォワード ネットワークによって分離された複数のアテンション ヘッド層があり、最後の層の後にのみ予測を吐き出します。ただし、各レイヤーでは、アテンションヘッドが各単語に最も関連性の高いコンテキストをすでに特定しているため、計算負荷の高いフィードフォワード ステップがテキスト内のすべての単語に対して同時に発生する可能性があります。これによりトレーニング プロセスが高速化され、ますます大規模なデータ セットでトランスフォーマーをトレーニングできるようになります。さらに重要なことは、研究者が大規模なニューラル ネットワークのトレーニングに伴う膨大な計算負荷を、連携して動作する多くのプロセッサーに分散できることです。
膨大なデータセットを最大限に活用するには、「モデルを非常に大きくする必要があります」と彼は言いました。 デビッド・チェン、ノートルダム大学の機械学習研究者。 「並列化しない限り、それらをトレーニングするのは現実的ではありません。」
ただし、トランスフォーマーのトレーニングを非常に簡単にする並列構造は、トレーニング後には役に立ちません。その時点では、すでに存在する単語を予測する必要はありません。通常の動作中、トランスフォーマーは一度に 1 ワードを出力し、次のワードを生成する前に各出力を入力に戻しますが、依然として並列処理に最適化されたアーキテクチャに固執しています。
トランスフォーマーベースのモデルが成長し、特定のタスクで問題が発生し続けるにつれて、一部の研究者は、より並列化可能なモデルへの推進が犠牲になったのではないかと考え始めました。変圧器の動作を理論的に理解する方法はあったのでしょうか?
トランスフォーマーの複雑さ
ニューラル ネットワークの理論的研究は、特にトレーニングを考慮しようとする場合、多くの困難に直面します。ニューラル ネットワークは、よく知られた手順を使用して、トレーニング プロセスの各ステップでパラメーターを微調整します。しかし、この単純な手順が適切なパラメータのセットに収束する理由を理解するのは難しい場合があります。
研究者の中には、トレーニング中に何が起こるかを考えるのではなく、変圧器のパラメータを任意の値に調整できると想像することで、変圧器の固有の機能を研究する人もいます。これは、変圧器を特別なタイプのプログラマブル コンピュータとして扱うことになります。
「あなたはコンピューティング デバイスを持っていて、『それでは何ができるのか』を知りたいと思うでしょう。どのような種類の関数を計算できるのでしょうか?」と Chiang 氏は言いました。
これらは、計算の正式な研究における中心的な質問です。この分野の歴史は 1936 年に遡ります。当時、アラン チューリングは初めて 空想的な装置、現在はチューリングマシンと呼ばれており、無限のテープ上のシンボルを読み書きすることであらゆる計算を実行できます。計算複雑性理論家は、後にチューリングの研究を基礎にして、計算問題が自然にさまざまなタイプに分類されることを証明することになります。 複雑さのクラス それらを解決するために必要なリソースによって定義されます。
2019年、バルセロと他のXNUMX人の研究者 証明 固定数のパラメータを備えた理想的な変換器は、チューリング マシンと同じくらい強力になる可能性があるということです。出力を入力として繰り返しフィードバックするようにトランスフォーマーを設定し、解決したい特定の問題に合わせてパラメーターを適切な値に設定すると、最終的には正しい答えが出力されます。
この結果は出発点ではありましたが、変圧器の電力を過大評価する可能性があるいくつかの非現実的な仮定に依存していました。それ以来、研究者たちは、より現実的な理論的枠組みの開発に取り組んできました。
そのような取り組みの 2021 つが XNUMX 年に始まりました。 ウィリアムメリル現在ニューヨーク大学の大学院生である彼は、シアトルのアレン人工知能研究所での2年間のフェローシップを辞めようとしていた。そこにいる間、彼はトランスフォーマーの並列アーキテクチャにはあまり適合しないと思われる手法を使用して、他の種類のニューラル ネットワークを分析していました。出発直前に、彼はアレンAI研究所の研究者と会話を始めた。 アシシュ・サバーワルAI 研究に進む前に複雑性理論を学んでいました。彼らは、複雑さの理論が変圧器の限界を理解するのに役立つのではないかと疑い始めました。
「単純なモデルのように思えました。簡単に特定できる制限がいくつかあるはずです」とサバワル氏は語った。
二人は、並列計算の研究によく使用される、回路複雑性と呼ばれる計算複雑性理論の分野を使用して変圧器を分析しました。 最近適用された トランスの簡易版に。翌年にかけて、彼らは以前の研究における非現実的な仮定のいくつかを洗練させました。トランスの並列構造がトランスの能力をどのように制限するかを研究するために、二人はトランスが出力を入力にフィードバックしない場合を検討しました。代わりに、最初の出力が最終的な答えになる必要があります。彼らは 証明 この理論的枠組みの変換器は、特定の複雑さのクラスの外側にある計算問題を解決できないということです。そして、一次方程式を解くような比較的単純なものを含む多くの数学の問題は、このクラスの外にあると考えられています。
基本的に、彼らは、少なくとも変換器がすぐに答えを吐き出さなければならない場合には、並列処理には代償が伴うことを示しました。 「トランスフォーマーは、入力を与えてすぐに答えが返ってくることを期待するような使い方をすると、非常に弱いものになります」とメリル氏は言う。
思考実験
Merrill と Sabharwal の結果は、当然の疑問を引き起こしました。出力をリサイクルできるようになると、変圧器はどのくらい強力になるのでしょうか?バルセロと彼の共著者らは、理想化された変圧器の 2019 年の分析でこのケースを研究していましたが、より現実的な仮定があったため、疑問は未解決のままでした。そしてそれから数年の間に、研究者たちは思考の連鎖が促すことを発見し、この質問に新たな関連性を見出しました。
Merrill と Sabharwal は、純粋に数学的なアプローチでは、実際の言語モデルにおける思考連鎖推論のすべての側面を捉えることはできないことを認識していました。 非常に重要な場合があります。しかし、プロンプトがどのように表現されていても、言語モデルが段階的な解決策を出力する限り、モデルは原則として、トランスフォーマーを通過する後続のパスで中間ステップの結果を再利用できます。これにより、並列計算の制限を回避する方法が提供される可能性があります。
一方、北京大学のチームも同様の方針に沿って検討しており、暫定的な結果は肯定的なものでした。 2023 年 XNUMX 月の論文で、彼らはメリルとサバルワルのフレームワークでは通常の変圧器では不可能であるはずのいくつかの数学的問題を特定しました。 示されました その中間ステップにより、変圧器がこれらの問題を解決できるようになりました。
10月、メリルとサバワルは以前の研究に続き、 詳細な理論的研究 思考の連鎖の計算能力。彼らは、追加の計算能力が、最終的な答えを吐き出す前に変換器が使用できる中間ステップの数にどのように依存するかを定量化しました。一般に、研究者は、問題を解決するための適切な中間ステップの数は、問題への入力のサイズに依存すると予想します。たとえば、20 つの 10 桁の数値を加算する最も単純な方法では、XNUMX つの XNUMX 桁の数値を加算する同じ方法の XNUMX 倍の中間加算ステップが必要です。
このような例は、トランスフォーマーがいくつかの中間ステップを使用するだけではあまりメリットがないことを示唆しています。実際、メリルとサバワルは、中間ステップの数が入力のサイズに比例して増加する場合にのみ思考の連鎖が実際に役に立ち始めること、そして多くの問題では中間ステップの数がさらに大きくなる必要があることを証明しました。
結果の徹底的さは研究者らを感心させた。 「彼らは本当にこれを突き止めた」と彼は言った ダニエル・スー、コロンビア大学の機械学習研究者。
Merrill と Sabharwal の最近の研究は、思考の連鎖が万能薬ではないことを示しています。原則として、思考の連鎖は変換器がより困難な問題を解決するのに役立ちますが、その場合は多大な計算量が必要になります。
「私たちは変圧器の制限をワンステップで回避するさまざまな方法に興味があります」とメリル氏は語った。 「思考の連鎖は 1 つの方法ですが、この論文は、それが最も経済的な方法ではない可能性があることを示しています。」
現実に戻れ
それでも研究者らは、この種の理論的分析では実際の言語モデルについて明らかにできることは限られていると警告している。肯定的な結果 (トランスフォーマーが原理的に特定の問題を解決できることの証明) は、言語モデルがトレーニング中に実際にそれらの解決策を学習することを意味するものではありません。
そして、変圧器の限界に対処する結果であっても、注意が必要です。これらは、あらゆる場合に特定の問題を完全に解決できる変圧器はないことを示しています。もちろん、それはかなり高いハードルです。 「問題の特殊なケースでは、問題なく処理できる可能性があります」と Hsu 氏は言います。
これらの注意点にもかかわらず、新しい研究は、最終的にトランスフォーマーに代わる可能性のあるさまざまな種類のニューラル ネットワーク アーキテクチャを分析するためのテンプレートを提供します。複雑性理論の分析により、特定の種類のネットワークが他の種類のネットワークよりも強力であることが示唆された場合、それは、それらのネットワークが現実世界でもよりうまく機能する可能性があるという証拠になります。
また、Chiang 氏は、言語モデルが現実世界の幅広いアプリケーションで使用されることが増え、その能力を過大評価しやすくなっているため、トランスフォーマーの限界に関する研究の価値がますます高まっていると強調しました。
「実際には、彼らがそれほどうまくやっていないことがたくさんあります。そして、私たちは限界が何であるかを非常によく認識する必要があります」とチェン氏は述べた。 「だからこそ、この種の仕事は本当に重要なのです。」
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/
- :持っている
- :は
- :not
- :どこ
- ][p
- $UP
- 10
- 20
- 20年
- 2017
- 2019
- 2021
- 2022
- 2023
- a
- 能力
- 私たちについて
- 越えて
- 実際の
- 実際に
- 加えます
- 追加
- 添加
- 住所
- 調整します
- 後
- 前
- AI
- 愛の研究
- アラン
- アラン·チューリング
- 錬金術
- すべて
- アレン
- 許可されて
- ことができます
- 沿って
- 既に
- また
- 量
- 金額
- an
- 分析
- 分析
- 分析する
- および
- 別の
- 回答
- どれか
- アプローチ
- アプローチ
- 適切な
- 任意
- Arcane
- 建築
- アーキテクチャ
- です
- 周りに
- 人工の
- 人工知能
- AS
- 質問
- 側面
- 前提条件
- At
- 注意
- 離れて
- バック
- バー
- ベース
- BE
- になりました
- になる
- き
- 始まった
- 始まります
- 行動
- より良いです
- の間に
- 越えて
- ビット
- ブロック
- ブランチ
- ビルド
- 建物
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- 計算
- 呼ばれます
- 缶
- 機能
- キャプチャー
- 場合
- 例
- 原因
- 注意
- 中央の
- 一定
- チェーン
- 変更
- 章
- チャットボット
- AI言語モデルを活用してコードのデバッグからデータの異常検出まで、
- チリ
- class
- コヒーレント
- 集団
- COLUMBIA
- 来ます
- comes
- 複雑さ
- 計算
- 計算的
- 計算能力
- 計算的に
- 計算
- コンピュータ
- コンピュータサイエンス
- コンピューティング
- Connections
- 検討
- 見なさ
- コンテキスト
- 継続します
- 会話
- 正しい
- 費用
- 可能性
- コース
- データ
- データセット
- 試合日
- 定義済みの
- 決まる
- 依存
- 細部
- 開発する
- デバイス
- DID
- 違い
- 異なります
- 難しい
- 困難
- 発見
- do
- ありません
- そうではありません
- ドント
- ダウン
- 間に
- 各
- 前
- 緩和する
- 簡単に
- 効果
- 努力
- 努力
- エイス
- 使用可能
- 可能
- 巨大な
- 方程式
- 特に
- 逃げる
- さらに
- 最終的に
- あらゆる
- 証拠
- 例
- 存在する
- 期待する
- 高価な
- 調査済み
- 余分な
- 顔
- フェイル
- 秋
- 少数の
- フィールド
- ファイナル
- 終わり
- 名
- フィット
- 五
- 固定の
- 続いて
- フォロー中
- フォーマル
- 第4
- フレームワーク
- フレームワーク
- から
- 機能
- 利得
- 生成する
- 生成
- 取得する
- 受け
- 与える
- 与え
- 行く
- 良い
- でログイン
- だ
- グレード
- 卒業生
- 成長しました
- 成長する
- 育ちます
- 持っていました
- ハンドル
- 起こる
- 起こります
- もっと強く
- ハーバード
- ハーバード大学
- 持ってる
- he
- 頭
- ヘビー
- 助けます
- ことができます
- ハイ
- 彼の
- 認定条件
- How To
- HTTP
- HTTPS
- 人間
- 百
- 特定され
- 識別する
- if
- 想像
- 即時の
- 重要
- 不可能
- 感銘を受けて
- 改善
- in
- 含めて
- 増える
- ますます
- 確かに
- 示す
- を示し
- 個人
- 無限
- ING
- 入力
- 内部
- 洞察力
- インスピレーションある
- を取得する必要がある者
- 機関
- インテリジェンス
- 興味がある
- インターネット
- 介入する
- に
- 本質的な
- 導入
- 関与
- IT
- ITS
- ただ
- 種類
- 種類
- 知っている
- 言語
- 大
- より大きい
- 最大の
- 姓
- 後で
- 最新の
- 層
- 層
- LEARN
- 学習
- 最低
- 残す
- リー
- ような
- 可能性が高い
- LIMIT
- 制限
- 制限
- LINE
- 線形
- ライン
- 負荷
- 長い
- たくさん
- 機械
- 機械学習
- 製
- マガジン
- マジック
- make
- 作る
- 作成
- 多くの
- 大規模な
- math
- 数学的
- 問題
- 五月..
- メリル
- かもしれない
- 百万
- モデル
- 他には?
- 最も
- 移動する
- ずっと
- の試合に
- しなければなりません
- ナチュラル
- 必要
- 必要とされる
- ネットワーク
- ネットワーク
- ニューラル
- ニューラルネットワーク
- ニューラルネットワーク
- ニューロン
- 決して
- 新作
- ニューヨーク
- 次の
- いいえ
- 注記
- 今
- 数
- 番号
- 10月
- of
- オフ
- オファー
- 頻繁に
- on
- ONE
- もの
- の
- 〜に
- 開いた
- 操作
- 業務執行統括
- 最適化
- 一般
- その他
- その他
- でる
- 出力
- outputs
- 外側
- が
- ペア
- 万能薬
- 紙素材
- 並列シミュレーションの設定
- パラメータ
- パス
- パス
- 過去
- 忍耐
- 北京
- 完璧に
- 実行する
- パフォーマンス
- おそらく
- 場所
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- 貧しいです
- 正の
- 可能
- 電力
- 強力な
- 実用的
- 予測する
- 予測
- 予測
- 予測
- 予備
- かなり
- 前
- 前に
- 原則
- 多分
- 問題
- 問題
- 手続き
- プロセス
- 処理
- プロセッサ
- 作り出す
- プログラム可能な
- 証拠
- 割合
- 提案された
- 証明
- 提供します
- 判明
- 純粋に
- プッシュ
- クアンタマガジン
- 定量化された
- 質問
- 質問
- すぐに
- 非常に
- 隆起した
- ランダム
- 範囲
- リーチ
- リーディング
- リアル
- 現実の世界
- 現実的な
- 現実
- 本当に
- 最近
- 減らします
- 洗練された
- 相対的に
- 関連性
- 関連した
- 残った
- 削除します
- 繰り返し
- replace
- 表します
- 必要とする
- の提出が必要です
- 必要
- 研究
- 研究者
- 研究者
- リソース
- 反応します
- 結果
- 結果
- 再利用
- 明らかにする
- 右
- 前記
- 同じ
- 規模
- スケーリング
- スキャン
- 学校
- 科学
- シアトル
- 二番
- 見えた
- と思われる
- 見て
- 見て
- セッションに
- セット
- セブン
- いくつかの
- まもなく
- すべき
- 表示する
- 示されました
- 作品
- 同様の
- 簡単な拡張で
- 簡略化されました
- 単に
- 同時に
- から
- サイズ
- より小さい
- So
- ソリューション
- 解決する
- 解決
- 一部
- 何とか
- すぐに
- 特別
- 特定の
- 速度
- 広がる
- スタッキング
- start
- 起動
- 手順
- ステップ
- まだ
- 戦略
- 力
- 構造
- 構造
- 学生
- 研究
- 研究
- 勉強
- 勉強
- それに続きます
- そのような
- 示唆する
- 提案する
- システム
- タンデム
- タスク
- チーム
- チーム
- 技術
- テクニック
- template
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- アプリ環境に合わせて
- それら
- その後
- 理論的な
- 理論
- そこ。
- ボーマン
- 彼ら
- もの
- 物事
- 考え
- 三番
- この
- それらの
- 考え
- 介して
- 時間
- 〜へ
- 今日
- 取った
- に向かって
- トレーニング
- トレーニング
- 変形させる
- トランス
- トランスフォーマー
- 治療
- 1兆
- トラブル
- 試します
- チューリング
- 順番
- 微調整
- 微調整
- Twice
- 2
- type
- 一般的に
- わかる
- 大学
- ない限り、
- つかいます
- 中古
- 便利
- 使用されます
- 貴重な
- 価値観
- バージョン
- バージョン
- 非常に
- 詳しく見る
- 歩く
- 欲しいです
- ました
- 仕方..
- 方法
- we
- 弱い
- ウェブ
- webp
- WELL
- 周知
- した
- この試験は
- いつ
- かどうか
- which
- while
- 全体
- その
- なぜ
- ワイド
- 広い範囲
- 広範囲
- 意志
- 無し
- 不思議
- Word
- 言い回し
- 言葉
- 仕事
- 働いていました
- ワーキング
- 世界
- でしょう
- 書きます
- 書き込み
- 年
- 年
- ヨーク
- You
- ゼファーネット