ボトムアップからトップダウンへ: 計算科学者のアマンダ・バーナードがシミュレーション、機械学習の美しさ、そしてその XNUMX つがどのように交差するかについて語る – Physics World

ボトムアップからトップダウンへ: 計算科学者のアマンダ・バーナードがシミュレーション、機械学習の美しさ、そしてその XNUMX つがどのように交差するかについて語る – Physics World

アマンダ・バーナード
インターフェーススペシャリスト アマンダ・バーナードは、オーストラリア国立大学のコンピューティング学部の副所長であり、計算科学の責任者です。 (提供: Sitthixay Ditthavong/キャンベラタイムズ)

スーパーコンピューターを使用して新しい種類の材料を利用することから、機械学習モデルをトレーニングしてナノスケールで複雑な特性を研究することまで、 オーストラリアの計算科学者アマンダ・バーナード コンピューティングとデータサイエンスのインターフェースで働いています。 の上級教授 オーストラリア国立大学コンピューティング学部, バーナード氏は副所長兼計算科学責任者でもあります。 最近では、さまざまな計算手法を使用して物理科学全体の問題を解決していますが、バーナードは物理学者としてのキャリアをスタートし、2003 年に理論物性物理学の博士号を取得しました。

その後数年間を博士研究員として過ごした後、 アルゴンヌ国立研究所のナノスケール材料センター 米国では、ナノテクノロジー、材料科学、化学、医学における機械学習の使用を含む、計算科学の多くの側面を含むように研究対象を広げ始めました。

両方の仲間 オーストラリア物理学研究所英国王立化学協会、2022年にバーナードは オーストラリア勲章のメンバー。 彼女はまた、次のような数々の賞も受賞しています。 2014 年ファインマン賞ナノテクノロジー賞 (理論)そして オーストラリア分子モデラー協会からの 2019 年メダル。 彼女は、機械学習をさまざまな問題に適用することへの関心と、大学運営を行う上での課題とやりがいについて、ハミッシュ ジョンストンに語ります。

計算科学者としてのあなたの活動について少し教えていただけますか?

計算科学には、科学や工学の多くの分野で計算を必要とする問題を分析するための数学モデルの設計と使用が含まれます。 これには、さまざまな分野の研究者が大規模な計算実験を実行できるようにする計算インフラストラクチャとアルゴリズムの進歩が含まれます。 ある意味、計算科学には高性能コンピュータを使った研究だけではなく、高性能コンピューティングの研究も含まれます。

私たちはアルゴリズムにほとんどの時間を費やし、高度なハードウェアを最大限に活用する方法でアルゴリズムを実装する方法を見つけようとしています。 そしてそのハードウェアは常に変化しています。 これには、物理​​学、化学など、さまざまな科学分野で特別に開発された数学的モデルに基づく従来のシミュレーションが含まれます。 また、以下のメソッドの使用にも多くの時間を費やしています。 機械学習 (ML)および 人工知能 (AI) のほとんどはコンピューター科学者によって開発されており、非常に学際的な研究となっています。 これにより、さまざまな科学分野で多数の新しいアプローチを使用できるようになります。

機械学習を使用すると、美しい理論を導き出すときに失った複雑さの多くを取り戻すことができます。

シミュレーションは、各科学分野の理論的側面から生まれ、いくつかの便利な抽象化レベルを使用して方程式を解くことができました。 しかし、私たちがそれらの理論を開発したとき、それらは問題をほとんど単純化しすぎたもので、数学的な優雅さを追求するため、または単に実用性を目的として行われました。 ML を使用すると、美しい理論を導き出すときに失った複雑さの多くを取り戻すことができます。 しかし、残念ながら、すべての ML が科学とうまく連携するわけではないため、計算科学者は、このような種類のデータセットに使用することを意図していないアルゴリズムを適用して、問題のいくつかを克服する方法を見つけるのに多くの時間を費やしています。インターフェイスでの経験がある。 それは私が好きなエキサイティングな分野の XNUMX つです。

あなたは物理学者としてキャリアをスタートしました。 計算科学に移ったきっかけは何ですか?

物理学は、事実上あらゆるものに対する優れた出発点です。 しかし、私は気づかないうちに常に計算科学への道を歩んでいたのです。 学生時代の最初の研究プロジェクトでは、計算手法を使用し、すぐに夢中になりました。 コードの作成から最終結果に至るまで、コーディングが大好きだったので、スーパーコンピューターが私の科学機器になる運命にあるとすぐにわかりました。 材料科学者が毎回完璧なサンプルを作成できたら何ができるかを考えるのは刺激的でした。 あるいは、すべての汚染を除去し、完璧な反応を行うことができたら、化学者は何ができるでしょうか。 誰かを傷つけるリスクを冒さずに過酷な環境や危険な環境を探索できたら、何ができるでしょうか? そしてさらに重要なのは、これらすべてのことを、試すたびに、オンデマンドで同時に実行できたらどうなるでしょうか?

スーパーコンピューターの利点は、スーパーコンピューターがこのほぼ完璧な状態を実現できる唯一の手段であることです。 私が最も魅了されたのは、同僚が研究室でできることを再現できるだけでなく、研究室ではできないことをすべて実行できることです。 したがって、非常に初期の頃から、私の計算物理学はコンピューター上で行われていました。 その後、私の計算化学は材料、マテリアルズインフォマティクスへと進化し、現在はほぼ ML のみとなっています。 しかし、私は常にこれらの各領域の手法に焦点を当てており、物理学の基礎があれば、これらの他の領域すべてに計算的にアプローチする方法について非常に創造的に考えることができると思います。

機械学習は古典的なコンピューター シミュレーションとどう違うのでしょうか?

現在、私の研究のほとんどは ML であり、おそらく 80% です。 ただし、非常に異なる結果が得られるため、私は今でも従来のシミュレーションをいくつか行っています。 シミュレーションは基本的にボトムアップのアプローチです。 システムや問題をある程度理解することから始めて、シミュレーションを実行し、最後にデータを取得します。 対照的に、ML はトップダウンのアプローチです。 データから始めてモデルを実行し、最終的にシステムや問題をより深く理解することができます。 シミュレーションは確立された科学理論によって決定されたルールに基づいていますが、ML は経験と歴史に基づいています。 シミュレーションは多くの場合、主に決定論的ですが、モンテカルロなどの確率論的な手法の例もいくつかあります。 ML は主に確率論的ですが、決定論的な例もいくつかあります。

シミュレーションを使用すると、非常に適切な推定を行うことができます。 シミュレーションを支える多くの理論により、「構成空間」(システムの考えられるすべての状態を決定する座標) の領域や、データや情報が存在しない問題の領域を探索することができます。 一方、ML はすべてのギャップを補間して埋めることに非常に優れており、推論に非常に優れています。

データフローの概念

実際、XNUMX つの方法はまったく異なる種類のロジックに基づいています。 シミュレーションは「if-then-else」ロジックに基づいています。つまり、特定の問題または特定の一連の条件がある場合、決定的な答えが得られます。そうでない場合、計算上、次の結果が得られるとおそらくクラッシュします。それは間違っています。 対照的に、ML は「推定 - 改善 - 繰り返し」ロジックに基づいており、常に答えが得られることを意味します。 その答えは常に改善可能ですが、常に正しいとは限らないため、それがもう XNUMX つの違いです。

シミュレーションは学際的なものであり、分野の知識と非常に密接な関係があり、人間の知性に依存しています。 一方、ML は学際的です。元のドメインの外で開発されたモデルを使用するため、ドメインの知識にとらわれず、人工知能に大きく依存します。 これが、私が XNUMX つのアプローチを組み合わせることを好む理由です。

研究で機械学習をどのように利用しているかについてもう少し詳しく教えていただけますか?

ML が登場する前は、科学者は入力と出力の関係をほぼ理解する必要がありました。 モデルを解く前に、モデルの構造をあらかじめ決めておく必要がありました。 つまり、答えを探す前に、答えを理解しておく必要がありました。

式や方程式の構造を開発し、それを同時に解くことができます。 それが科学的手法を加速させるものであり、それが私が機械学習を使用することを好むもう XNUMX つの理由です

ML を使用する場合、マシンは基本的に統計手法と履歴情報を使用して自身をプログラムします。 それは、式や方程式の構造を開発し、それを同時に解くことができることを意味します。 それが科学的手法を加速させるものであり、それが私がそれを使いたいもう一つの理由です。

私が使用する ML テクニックは多岐にわたります。 さまざまな種類の計算物理学や実験物理学の手法があるのと同じように、ML にもさまざまな種類や種類があります。 私は教師なし学習を使用しています。これは完全に入力変数に基づいており、「隠れたパターン」を開発するか、代表的なデータを見つけようとします。 これは、特性を測定するための実験は行っていないが、材料を開発するために投入した入力条件についてはかなりのことを知っている場合に、ナノサイエンスの材料に役立ちます。

教師なし学習は、高次元空間で類似性を持つクラスターと呼ばれる構造のグループ、またはデータセット全体を記述する純粋で代表的な構造 (原型またはプロトタイプ) を見つけるのに役立ちます。 また、物理学における逆空間に変換するのと同じような方法で、データを変換して低次元空間にマッピングし、以前は明らかにならなかった類似点を明らかにすることもできます。

また、教師あり ML を使用して、構造と特性の関係など、材料やナノサイエンスで重要な関係や傾向を見つけます。 これには、個別のラベルを持つ分類が含まれます。 すでにナノ粒子のさまざまなカテゴリがあり、それらの特性に基づいてそれらをいずれかのカテゴリに自動的に割り当て、入力データのみに基づいてこれらのクラスを簡単に分離できるようにしたいとします。

統計学習と半教師あり学習も使用します。 まだ広く使用されていませんが、統計学習は特に科学に役立ちます。 私たちは、これを医療診断でよく使用される因果推論と考えています。これは、たとえば、材料が作成される理由だけでなく、どのように作成されるかを効果的に診断するために適用できます。

あなたの研究グループには、幅広い科学的関心を持つ人々が含まれています。 彼らが研究していることの一部を教えていただけますか?

私が物理学を学び始めたとき、さまざまな科学分野のこれほど優秀な人々の素晴らしいグループに囲まれるようになるとは思いもしませんでした。 オーストラリア国立大学の計算科学クラスターには、環境科学者、地球科学者、計算生物学者、生物情報学者が含まれています。 ゲノミクス、計算神経科学、量子化学、材料科学、プラズマ物理学、天体物理学、天文学、工学、そして私ですがナノテクノロジーを研究している研究者もいます。 つまり、私たちは多様な集団なのです。

私たちのグループには以下が含まれます ジュゼッペ・バルカ氏は、世界中で使用されている量子化学ソフトウェア パッケージを支えるアルゴリズムを開発しています。 彼の研究は、アクセラレータなどの新しいプロセッサをどのように活用できるか、また、大規模な並列ワークフローを戦略的に結合できるように、大きな分子を分割および断片化する方法をどのように再考できるかに焦点を当てています。 彼はまた、スーパーコンピューターをより効率的に使用してエネルギーを節約することにも貢献しています。 そして過去 XNUMX 年間、彼は最高のスケーリング量子化学アルゴリズムの世界記録を保持してきました。

また、科学の観点から言えば、小規模ではありますが、 ミンブイ彼は、系統ゲノミクス システム (ネットワーク科学の手法を使用して、進化研究とシステム生物学および生態学を組み合わせた学際的な分野) の分野で新しい統計モデルの開発に取り組んでいる生物情報学者です。 これらには、分割モデル、同型対応モデル、および分布ツリー モデルが含まれます。 この応用には、光合成酵素や昆虫の系統発生の深い転写データの分野が含まれ、彼は藻類だけでなく、HIV や SARS-CoV-2 (新型コロナウイルス感染症の原因) などの細菌やウイルスを研究する研究も行ってきました。

ミンブイ

スケールの大きな端にあるのは数学者です デン・クァンリンの研究は、海洋や大気力学、南極の流氷などの大規模媒体の数学的モデリングとシミュレーションに焦点を当てています。

最も良いのは、あるドメインの問題が実際に別のドメインですでに解決されていることが判明したときです。さらに、複数のドメインで経験した問題を発見すると、非常に線形にスケールできるようになります。 XNUMX つのソリューションが複数の領域に影響を与えるのは素晴らしいことです。 そして、計算神経科学者がプラズマ物理学者と一緒に働いているのをどのくらい頻繁に見つけるでしょうか? それは普通は起こりません。

研究グループで働くだけでなく、あなたはオーストラリア国立大学コンピューティング学部の副所長も務めています。 その役割について少し教えていただけますか?

それは主に管理上の役割です。 そのため、データ サイエンス、言語の基礎分野、ソフトウェア開発、サイバーセキュリティ、コンピュータ ビジョン、ロボット工学などの分野で素晴らしいコンピュータ サイエンティストのグループと協力するだけでなく、新しい人々が学校に参加し、自分たちのベストバージョン。 リーダーとしての私の仕事の多くは人々に関するものです。 これには採用、テニュアトラックプログラム、専門能力開発プログラムの管理も含まれます。 また、注意が必要だと思われる分野について、いくつかの新しいプログラムを開始する機会にも恵まれました。

その一例は、世界的な新型コロナウイルスのパンデミックの最中でした。 私たちの多くは閉鎖され、研究室にアクセスできなくなったため、私たちに何ができるだろうかと考え続けました。 私は、と呼ばれるプログラムを開発する機会を得ました。 ジュビリー共同フェローシップは、コンピューター サイエンスと別のドメインの間のインターフェイスで研究を行っている研究者をサポートします。研究者は、自分の分野の壮大な課題を解決するだけでなく、そのドメインの知識を利用して新しいタイプのコンピューター サイエンスに情報を提供します。 このプログラムは、2021 年にさまざまな分野でそのような研究者 XNUMX 名を支援しました。

私はその委員長でもあります 先駆者女性プログラムは、コンピューティング業界に参入する女性をサポートし、女性が当社でのキャリアを通じて確実に成功できるようにするための奨学金、講義、フェローシップを提供しています。

そしてもちろん、副校長としての私のもう XNUMX つの役割は、学校のコンピューティング設備の世話をすることです。 私は、新型コロナウイルス感染症の期間中など、新しい機器を注文できなかった困難な時期を乗り越えるために、リソースのパイプラインを多様化する方法を検討しています。 また、コンピューティングは膨大な量のエネルギーを使用するため、エネルギー効率を高める方法についても検討しています。

このテクノロジーは非常に多くのさまざまな用途に使用されているため、ML の研究を行っている人々にとっては、非常にエキサイティングな時期に違いありません。 研究において最も楽しみにしている ML の新しい応用は何ですか?

そうですね、おそらくあなたもすでに聞いたことのあるもののいくつか、つまり AI です。 AI にはリスクもありますが、大きなチャンスもあります。生成 AI は、科学にとって今後数年間で特に重要になると思います。ただし、AI システムが「幻覚を起こす」問題のいくつかを克服できればのことですが、大規模な言語モデルなど、トレーニング データセットまたはコンテキスト ロジック、またはその両方の組み合わせに基づいて、誤った情報が生成されます。

私たちが科学のどの分野に属していても、私たちがアクセスできる時間、資金、リソース、機器には制限があります。 それは、私たちが限界を克服することに焦点を当てるのではなく、これらの限界に適合させるために科学を妥協していることを意味します

しかし、科学のどの分野にいても、計算分野であっても実験分野であっても、私たちは皆、多くの制限の下で苦しんでいます。 私たちは、時間、お金、リソース、アクセスできる設備によって制限されています。 それは、私たちが限界を克服することに注力するのではなく、これらの限界に適合させるために科学を妥協していることを意味します。 私は、インフラストラクチャが私たちの行動を決定づけるべきではなく、その逆であるべきだと心から信じています。

生成 AI は、これらの問題のいくつかを最終的に克服できるようにする適切な時期に来たと思います。なぜなら、生成 AI には、ギャップを埋め、もしすべてが揃っていたらどのような科学ができるかについてのアイデアを私たちに提供してくれる可能性がたくさんあるからです。必要なリソース。

実際、AI を使えば、少ない作業でより多くの成果を得ることができ、選択バイアスなどの落とし穴を回避できる可能性があります。 これは、ML を科学データセットに適用する場合に非常に大きな問題になります。 生成手法が幻覚ではなく有意義な科学を生み出していることを確認するには、さらに多くの作業を行う必要があります。 これは、大規模な事前トレーニング済みモデルの基盤を形成する場合に特に重要です。 しかし、これからは、AI が単に私たちの代わりにタスクを実行するのではなく、AI と協力して作業する、非常にエキサイティングな科学の時代になると思います。

タイムスタンプ:

より多くの 物理学の世界