从自下而上到自上而下:计算科学家阿曼达·巴纳德 (Amanda Barnard) 谈模拟之美、机器学习以及两者如何交叉 – 物理世界

从自下而上到自上而下:计算科学家阿曼达·巴纳德 (Amanda Barnard) 谈模拟之美、机器学习以及两者如何交叉 – 物理世界

阿曼达巴纳德
接口专家 阿曼达·巴纳德 (Amanda Barnard) 是澳大利亚国立大学计算机学院副院长兼计算科学负责人。 (礼貌:Sitthixay Ditthavong/堪培拉时报)

从使用超级计算机开发新型材料,到训练机器学习模型以研究纳米尺度的复杂特性, 澳大利亚计算科学家阿曼达·巴纳德 致力于计算和数据科学的接口。 一位资深教授 澳大利亚国立大学计算机学院巴纳德还是副主任和计算科学负责人。 如今,她使用各种计算方法来解决物理科学领域的问题,但巴纳德的职业生涯始于物理学家,并于 2003 年获得理论凝聚态物理学博士学位。

在接下来的几年里担任博士后之后 阿贡国家实验室纳米材料中心 在美国,她开始扩大自己的研究兴趣,涵盖计算科学的许多方面,包括机器学习在纳米技术、材料科学、化学和医学中的应用。

两者的同僚 澳大利亚物理研究所皇家化学学会,2022 年巴纳德被任命为 澳大利亚勋章成员。 她还获得了多项奖项,包括 2014年费曼纳米技术奖 (理论)和 2019年澳大利亚分子模型师协会奖章。 她向哈米什·约翰斯顿讲述了她对将机器学习应用于一系列问题的兴趣,以及从事大学管理的挑战和回报。

您能告诉我们一些您作为计算科学家所做的工作吗?

计算科学涉及设计和使用数学模型来分析科学和工程许多领域中计算要求较高的问题。 这包括计算基础设施和算法的进步,使这些不同领域的研究人员能够进行大规模计算实验。 在某种程度上,计算科学涉及高性能计算的研究,而不仅仅是使用高性能计算机的研究。

我们将大部分时间花在算法上,并试图找出如何以充分利用先进硬件的方式来实现它们; 而且硬件一直在变化。 这包括基于专门在不同科学领域(无论是物理、化学还是其他领域)开发的数学模型的传统模拟。 我们还花了很多时间使用以下方法 机器学习 (ML)和 人工智能 (人工智能),其中大部分是由计算机科学家开发的,使其成为非常跨学科的研究。 这使得在所有这些不同的科学领域中使用大量新方法。

机器学习使我们能够重新获得在推导这些美丽理论时失去的许多复杂性

模拟诞生于每个科学领域的理论方面,通过一些方便的抽象层次,使我们能够求解方程。 但当我们发展这些理论时,它们几乎是对问题的过度简化,要么是为了追求数学的优雅,要么只是为了实用性。 机器学习使我们能够重新获得在推导这些美丽理论时失去的许多复杂性。 但不幸的是,并不是所有的机器学习都能很好地与科学结合,因此计算科学家花费了大量时间试图弄清楚如何应用这些从未打算用于此类数据集的算法来克服一些问题。界面经验丰富。 这是我喜欢的令人兴奋的领域之一。

您的职业生涯始于物理学家。 是什么让您转向计算科学?

物理学几乎是任何事物的一个很好的起点。 但我一直在不知不觉中走在计算科学的道路上。 在我作为学生的第一个研究项目中,我使用了计算方法并立即被迷住了。 我喜欢编码,从编写代码到最终结果,所以我立即知道超级计算机注定会成为我的科学工具。 想象一下如果材料科学家每次都能制作出完美的样品,他们可以做什么,这是令人兴奋的。 或者如果化学家能够去除所有污染物并产生完美的反应,他们可以做什么。 如果我们可以探索恶劣或危险的环境而不会有伤害任何人的风险,我们能做什么? 更重要的是,如果我们每次尝试时都能按需同时完成所有这些事情,会怎样?

超级计算机的美妙之处在于,它们是使我们能够实现近乎完美的唯一工具。 最让我着迷的是,我不仅可以重现同事在实验室能做的事情,还能做他们在实验室做不到的一切。 所以从很早开始,我的计算物理就在计算机上进行。 然后我的计算化学发展到材料、材料信息学,现在几乎完全是机器学习。 但我一直专注于每个领域的方法,并且我认为物理学基础使我能够非常创造性地思考如何通过计算处理所有其他领域。

机器学习与经典计算机模拟有何不同?

我现在的大部分研究都是机器学习,大概有 80%。 然而,我仍然进行一些传统的模拟,因为它们给了我一些非常不同的东西。 模拟从根本上来说是一种自下而上的方法。 我们从对系统或问题的一些了解开始,运行模拟,最后得到一些数据。 相比之下,机器学习是一种自上而下的方法。 我们从数据开始,运行模型,然后最终更好地理解系统或问题。 模拟基于我们既定的科学理论确定的规则,而机器学习则基于经验和历史。 尽管有一些随机方法(例如蒙特卡罗)的示例,但模拟通常在很大程度上是确定性的。 机器学习在很大程度上是随机的,尽管也有一些例子是确定性的。

通过模拟,我能够做出很好的推断。 支持模拟的许多理论使我们能够探索“配置空间”(确定系统所有可能状态的坐标)区域或我们没有数据或信息的问题区域。 另一方面,机器学习非常擅长插值和填补所有空白,并且非常适合推理。

数据流概念

事实上,这两种方法基于非常不同的逻辑。 模拟基于“if-then-else”逻辑,这意味着如果我遇到某个问题或一组特定的条件,那么我将得到一个确定性的答案,否则,从计算角度来看,如果得到以下结果,它可能会崩溃错了。 相比之下,机器学习基于“估计-改进-重复”逻辑,这意味着它总是会给出答案。 这个答案总是可以改进的,但它可能并不总是正确的,所以这是另一个区别。

模拟是跨学科的:它们与领域知识有非常密切的关系,并且依赖于人类智能。 另一方面,机器学习是跨学科的:使用在原始领域之外开发的模型,它与领域知识无关,并且严重依赖人工智能。 这就是为什么我喜欢结合这两种方法。

您能告诉我们更多关于您如何在研究中使用机器学习的信息吗?

在机器学习出现之前,科学家必须非常了解输入和输出之间的关系。 在解决问题之前,我们必须预先确定模型的结构。 这意味着我们必须先了解答案,然后才能寻找答案。

我们可以开发表达式或方程的结构并同时求解它。 这加速了科学方法的发展,这也是我喜欢使用机器学习的另一个原因

当您使用机器学习时,机器使用统计技术和历史信息来基本上进行自我编程。 这意味着我们可以开发表达式或方程的结构并同时求解它。 这加速了科学方法的发展,也是我喜欢使用它的另一个原因。

我使用的机器学习技术多种多样。 机器学习有很多不同的风格和类型,就像有很多不同类型的计算物理或实验物理方法一样。 我使用无监督学习,它完全基于输入变量,它着眼于开发“隐藏模式”或尝试找到代表性数据。 这对于纳米科学中的材料很有用,因为我们还没有进行实验来测量某种特性,但我们对开发材料时所采用的输入条件了解很多。

无监督学习可用于查找在高维空间中具有相似性的结构组(称为簇),或描述整个数据集的纯粹的代表性结构(原型或原型)。 我们还可以转换数据,将它们映射到低维空间,并揭示更多以前不明显的相似性,就像我们可能会改变物理学中的倒易空间一样。

我还使用监督机器学习来查找关系和趋势,例如结构-性质关系,这在材料和纳米科学中很重要。 这包括分类,其中我们有一个离散的标签。 假设我们已经有了不同类别的纳米粒子,并且根据它们的特征,我们希望自动将它们分配到一个类别或另一个类别,并确保我们可以仅根据输入数据轻松区分这些类别。

我也使用统计学习和半监督学习。 统计学习在科学中尤其有用,尽管它尚未得到广泛应用。 我们认为这是一种在医学诊断中经常使用的因果推理,这可以用于有效地诊断一种材料是如何被创造的,而不仅仅是它被创造的原因。

您的研究小组包括具有广泛科学兴趣的人员。 您能给我们介绍一下他们正在研究的一些东西吗?

当我开始学习物理学时,我从未想过我会被一群来自不同科学领域的令人惊叹的聪明人包围。 澳大利亚国立大学的计算科学集群包括环境科学家、地球科学家、计算生物学家和生物信息学家。 还有研究人员研究基因组学、计算神经科学、量子化学、材料科学、等离子体物理学、天体物理学、天文学、工程学,以及——我——纳米技术。 所以我们是一个多元化的群体。

我们的小组包括 朱塞佩·巴尔卡,他正在开发支持世界各地使用的量子化学软件包的算法。 他的研究重点是我们如何利用加速器等新处理器,以及如何重新思考如何对大分子进行分区和碎片化,以便我们可以战略性地组合大规模并行工作流程。 他还帮助我们更有效地使用超级计算机,从而节省能源。 在过去的两年里,他保持着最佳缩放量子化学算法的世界纪录。

同样在小范围内——就科学而言——是 明布,他是一位生物信息学家,致力于在系统基因组系统领域开发新的统计模型[一个使用网络科学方法将进化研究与系统生物学和生态学相结合的多学科领域]。 其中包括分区模型、同构感知模型和分布树模型。 其应用包括光合酶或深层昆虫系统发育转录数据领域,他还研究了藻类以及细菌和病毒,例如 HIV 和 SARS-CoV-2(导致 COVID-19)。

明布

规模较大的一端是数学家 邓全岭,其研究重点是大规模介质的数学建模和模拟,例如海洋和大气动力学以及南极浮冰。

最好的部分是当我们发现一个领域的问题实际上已经在另一个领域得到解决时,更好的是当我们发现一个在多个领域经验丰富的问题​​时,我们可以超线性扩展。 当一种解决方案具有多个领域的影响时,那就太好了。 您多久会发现计算神经科学家与等离子体物理学家一起工作? 这通常不会发生。

除了与您的研究小组合作外,您还是澳大利亚国立大学计算机学院的副主任。 您能给我们介绍一下这个角色吗?

这主要是一个行政角色。 因此,除了与数据科学、语言基础领域、软件开发、网络安全、计算机视觉、机器人技术等领域的一群出色的计算机科学家合作外,我还为新人创造加入学校并成为新人的机会。最好的自己版本。 我担任领导职务时的很多工作都是与人有关的。 这包括招聘、照顾我们的终身教授计划和专业发展计划。 我还有机会针对我认为需要关注的领域启动一些新计划。

全球新冠疫情期间就是这样的一个例子。 我们很多人都被关闭,无法进入实验室,这让我们想知道我们能做什么。 我借此机会开发了一个名为 禧年联合团契,它支持在计算机科学和另一个领域之间的接口上工作的研究人员,他们在解决各自领域的重大挑战的同时,也利用该领域知识为新型计算机科学提供信息。 该计划于 2021 年为不同领域的五名此类研究人员提供支持。

我也是该委员会的主席 女性先锋计划,该组织提供奖学金、讲师职位和研究金,以支持女性进入计算机领域,并确保她们在我们的整个职业生涯中取得成功。

当然,作为副主任,我的其他职责之一就是管理我们学校的计算机设施。 我研究了如何使我们的资源渠道多样化,以度过艰难时期,比如在新冠疫情期间,我们无法订购任何新设备。 我还研究了如何提高能源效率,因为计算需要消耗大量能源。

对于从事机器学习研究的人们来说,这一定是一个非常激动人心的时刻,因为这项技术正在找到如此多的不同用途。 您在研究中最期待 ML 的哪些新应用?

嗯,可能你已经听说过一些,即人工智能。 尽管存在与人工智能相关的风险,但也存在巨大的机会,我认为生成式人工智能在未来几年对科学来说将特别重要——只要我们能够克服它“产生幻觉”的一些问题[当人工智能系统,例如大型语言模型,基于训练数据集或上下文逻辑或两者的组合生成错误信息]。

无论我们处于哪个科学领域,我们都会受到我们拥有的时间、金钱、资源和设备的限制。 这意味着我们正在牺牲我们的科学来适应这些限制,而不是专注于克服它们

但无论我们处于哪个科学领域,无论是计算领域还是实验领域,我们都受到许多限制的困扰。 我们受到时间、金钱、资源和设备的限制。 这意味着我们正在牺牲我们的科学来适应这些限制,而不是专注于克服它们。 我坚信基础设施不应该决定我们做什么,而应该相反。

我认为生成式人工智能的出现恰逢其时,它使我们能够最终克服其中一些问题,因为它有很大的潜力来填补空白,并为我们提供一个想法,如果我们拥有所有这些,我们可以做些什么科学必要的资源。

事实上,人工智能可以让我们通过更少的工作获得更多的成果,并避免选择偏差等一些陷阱。 将机器学习应用于科学数据集时,这是一个非常大的问题。 我们需要做更多的工作来确保生成方法产生有意义的科学,而不是幻觉。 如果它们要为大型预训练模型奠定基础,这一点尤其重要。 但我认为这将是一个非常令人兴奋的科学时代,我们将与人工智能合作,而不仅仅是人工智能为我们执行任务。

时间戳记:

更多来自 物理世界