新しい「物理学にヒントを得た」生成 AI は期待を超える | クアンタマガジン

新しい「物理学にヒントを得た」生成 AI は期待を超える | クアンタマガジン

新しい「物理学にヒントを得た」生成 AI は期待を超える | Quanta Magazine PlatoBlockchain Data Intelligence。垂直検索。あい。

概要

人工知能のツール、特にニューラル ネットワークは物理学者にとって有益です。 長年にわたり、この技術は研究者が加速器実験で粒子の軌道を再構築し、新しい粒子の証拠を探索し、重力波や系外惑星を検出するのに役立ちました。 マサチューセッツ工科大学の物理学者マックス・テグマーク氏によると、AI ツールが物理学者に多くのことをもたらしてくれるのは明らかだが、今の疑問は「私たちは何かを与えることができるのか?」ということだという。

Tegmark 氏は、同僚の物理学者が AI 科学に多大な貢献をしてくれると信じており、これを研究の最優先事項に据えています。 同氏は、物理学者がAI技術の進歩に貢献できる方法のXNUMXつは、その仕組みがほとんど不可解なニューラルネットワークの「ブラックボックス」アルゴリズムを、よく理解されている物理プロセスの方程式に置き換えることだろうと述べた。

このアイデアはまったく新しいものではありません。 生成 AI モデル 拡散に基づく — たとえば、一杯のコーヒーに注がれたミルクを均一に広げるプロセス — は 2015 年に初めて登場し、それ以来、生成される画像の品質は大幅に向上しました。 このテクノロジーは、DALL・E 2 や Midjourney などの人気のある画像作成ソフトウェアを支えています。 現在、テグマーク氏と彼の同僚は、他の物理学にヒントを得た生成モデルが拡散ベースのモデルと同様に機能するか、あるいはそれ以上に機能する可能性があるかどうかを研究中です。

昨年末、Tegmark のチームは、画像を作成する有望な新しい方法を導入しました。 ポアソン流生成モデル (PFGM)。 その中で、データは荷電粒子によって表され、荷電粒子が結合して電場を生成し、その特性は任意の瞬間の電荷の分布に依存します。 これは、電荷の移動がポアソン方程式によって支配されるため、ポアソン流モデルと呼ばれます。この方程式は、XNUMX つの電荷間の静電力がそれらの間の距離の XNUMX 乗に反比例して変化するという原理に由来しています (ニュートン重力の定式化と同様)。 。

この物理的なプロセスが PFGM の中心です。 「私たちのモデルは、空間のあらゆる点における電場の強さと方向によってほぼ完全に特徴付けることができます。」と彼は言いました。 徐宜倫、MITの大学院生であり、論文の共著者です。 「ニューラル ネットワークがトレーニング プロセス中に学習するのは、その電場を推定する方法です。」 そしてそうすることで、このモデルの画像は電場によって簡潔に記述できるため、画像の作成方法を学習することができます。

概要

PFGM は、拡散ベースのアプローチで生成される画像と同じ品質の画像を 10 ~ 20 倍の速度で作成できます。 「これは、これまでに見たことのない方法で、電界という物理的構造物を利用しています」と氏は述べた。 ハナネル・ハザン、タフツ大学のコンピューター科学者。 「これにより、他の物理現象を利用してニューラルネットワークを改善できる可能性への扉が開かれます。」

拡散モデルとポアソン流モデルには、物理​​学からインポートされた方程式に基づいているという点以外に、多くの共通点があります。 トレーニング中、画像生成用に設計された拡散モデルは通常、画像 (たとえば、犬) から開始し、視覚的なノイズを追加して、その特徴が完全に覆い隠される (ただし、完全には除去されない) までランダムな方法で各ピクセルを変更します。 次に、モデルはプロセスを逆にして、元の犬に近い犬を生成しようとします。 トレーニングが完了すると、モデルは一見空白のキャンバスから犬やその他の画像を作成できるようになります。

ポアソン流モデルもほぼ同じように動作します。 トレーニング中には、かつて鮮明だった画像に段階的にノイズを追加する順方向プロセスと、最初のバージョンがほぼ復元されるまでモデルが段階的にそのノイズを除去しようとする逆方向プロセスがあります。 拡散ベースの生成と同様に、システムは最終的に、トレーニングでは決して見たことのない画像を作成することを学習します。

しかし、ポアソンモデルの基礎となる物理学はまったく異なります。 拡散は熱力学的な力によって駆動されるのに対し、ポアソン流は静電力によって駆動されます。 後者は、非常に複雑な電場を生成する可能性のある電荷の配置を使用して詳細な画像を表します。 しかし、このフィールドにより、ミルクが一杯のコーヒーの中で自然に分散するのと同じように、時間の経過とともに電荷がより均一に分散されます。 その結果、フィールド自体がよりシンプルかつ均一になります。 しかし、このノイズだらけの均一フィールドは完全な白紙の状態ではありません。 そこには、画像を容易に組み立てることができる情報の種がまだ含まれています。

2023 年の初めに、チームはポアソン モデルをアップグレードしました。 それを延長する モデルのファミリー全体を網羅します。 拡張バージョンの PFGM++ には、新しいパラメーターが含まれています。 Dこれにより、研究者はシステムの次元を調整できます。 これは大きな違いを生む可能性があります。よく知られた XNUMX 次元空間では、電荷によって生成される電場の強度は、その電荷からの距離の XNUMX 乗に反比例します。 しかし、XNUMX 次元では、場の強さは逆 XNUMX 乗の法則に従います。 そして空間のあらゆる次元、そしてあらゆる価値観に対して、 D、その関係は多少異なります。

概要

この XNUMX つの革新により、ポアソン流モデルにはるかに大きな変動性が与えられ、極端な場合にはさまざまなメリットが得られます。 いつ D たとえば、値が低い場合、モデルはより堅牢になります。これは、電界を推定する際に生じる誤差をより許容できることを意味します。 「このモデルでは電界を完全に予測することはできません」と述べた。 劉子明、MITのもう一人の大学院生であり、両方の論文の共著者です。 「常に何らかのズレが生じます。 しかし、堅牢性とは、たとえ推定誤差が高くても、良好な画像を生成できることを意味します。」 つまり、夢の犬を手に入れることはできないかもしれませんが、それでも犬に似たものを手に入れることになるでしょう。

反対の極端な場合、 D 値が高いと、ニューラル ネットワークのトレーニングが容易になり、芸術的スキルを習得するために必要なデータが少なくなります。 正確な理由を説明するのは簡単ではありませんが、次元が増えるとモデルが追跡する電場が少なくなり、したがって同化するデータが少なくなるという事実によるものです。

強化されたモデル PFGM++ により、「これら XNUMX つの極端な値の間を補間する柔軟性が得られます」と同氏は述べています。 ローズユー、カリフォルニア大学サンディエゴ校のコンピューター科学者。

そして、この範囲内のどこかに、 D それは堅牢性とトレーニングの容易さの間で適切なバランスをとっているとシュー氏は語った。 「今後の研究の目標の XNUMX つは、スイート スポットを見つけるための体系的な方法を見つけ出し、可能な限り最良のソリューションを選択できるようにすることです。 D 与えられた状況に対して、試行錯誤をすることなく対応できるのです。」

MIT 研究者のもう XNUMX つの目標には、生成モデルの新しいファミリーの基礎を提供できる、より多くの物理プロセスを発見することが含まれます。 というプロジェクトを通じて GenPhys、チームはすでに XNUMX つの有望な候補を特定しています。それは、弱い核力に関連する湯川ポテンシャルです。 「粒子の数が常に保存されるポアソン流モデルや拡散モデルとは異なります」と Liu 氏は言います。 「湯川ポテンシャルを利用すると、粒子を消滅させたり、粒子を XNUMX つに分割したりできます。 このようなモデルは、たとえば、細胞の数が同じである必要がない生物学的システムをシミュレートする可能性があります。」

これは有益な調査になるかもしれない、とユウ氏は語った。 「それは、画像生成を超えた潜在的なアプリケーションを備えた新しいアルゴリズムと新しい生成モデルにつながる可能性があります。」

そして、PFGM++ だけでも、すでに発明者の当初の予想を超えています。 彼らは最初、それがいつなのか分かりませんでした。 D を無限大に設定すると、増幅されたポアソン流モデルは拡散モデルと区別できなくなります。 リュー氏は今年初めに行った計算でこのことを発見した。

マート・ピランチスタンフォード大学のコンピューター科学者である彼は、この「統合」が MIT グループの研究から生じた最も重要な成果であると考えています。 「PFGM++の論文は、これらのモデルがどちらもより広範なクラスの一部であることを明らかにしており、興味深い疑問を引き起こしています。発見を待っている生成AIの他の物理モデルがあり、さらに壮大な統合を示唆しているのではないか?」と彼は述べた。 」

タイムスタンプ:

より多くの クアンタマガジン