От восходящего к нисходящему: ученый-вычислитель Аманда Барнард о красоте моделирования, машинного обучения и их пересечении – Мир Физики

От восходящего к нисходящему: ученый-вычислитель Аманда Барнард о красоте моделирования, машинного обучения и их пересечении – Мир Физики

Аманда Барнард
Специалист по интерфейсам Аманда Барнард — заместитель директора и руководитель отдела вычислительной техники в Школе вычислительной техники Австралийского национального университета. (Фото любезно предоставлено: Ситтиксай Диттавонг/Время в Канберре)

От использования суперкомпьютеров для освоения новых видов материалов до обучения моделей машинного обучения для изучения сложных свойств на наноуровне. Австралийский ученый-компьютерщик Аманда Барнард работает на стыке вычислений и науки о данных. Старший профессор в Школа информатики Австралийского национального университетаБарнард также является заместителем директора и руководителем отдела вычислительной техники. Сегодня она использует различные вычислительные методы для решения проблем в области физических наук, но Барнард начала свою карьеру как физик, получив докторскую степень по теоретической физике конденсированного состояния в 2003 году.

Проведя следующие несколько лет в качестве постдока в Центр наноразмерных материалов Аргоннской национальной лаборатории в США она начала расширять свои исследовательские интересы, включив в них многие аспекты вычислительной науки, включая использование машинного обучения в нанотехнологиях, материаловедении, химии и медицине.

Товарищ обоих Австралийский институт физики и Королевское химическое общество, в 2022 году Барнард был назначен Член Ордена Австралии. Она также завоевала ряд наград, в том числе Премия Фейнмана 2014 г. в области нанотехнологий (Теория) и Медаль 2019 от Ассоциации разработчиков молекулярного моделирования Австралазии.. Она рассказывает Хэмишу Джонстону о своем интересе к применению машинного обучения для решения ряда задач, а также о трудностях и преимуществах управления университетом.

Можете ли вы рассказать нам немного о том, чем вы занимаетесь как ученый-компьютерщик?

Вычислительная наука включает в себя разработку и использование математических моделей для анализа сложных вычислительных задач во многих областях науки и техники. Сюда входят достижения в вычислительной инфраструктуре и алгоритмах, которые позволяют исследователям в этих различных областях проводить крупномасштабные вычислительные эксперименты. В некотором смысле, информатика включает в себя исследования высокопроизводительных вычислений, а не только исследования с использованием высокопроизводительного компьютера.

Мы тратим большую часть времени на алгоритмы и пытаемся выяснить, как их реализовать таким образом, чтобы наилучшим образом использовать современное оборудование; и это оборудование постоянно меняется. Сюда входят традиционные симуляции, основанные на математических моделях, разработанных специально в различных научных областях, будь то физика, химия или другие области. Мы также тратим много времени, используя методы из обучение с помощью машины (ML) и искусственный интеллект (ИИ), большинство из которых были разработаны учеными-компьютерщиками, что делает это исследование очень междисциплинарным. Это позволяет использовать целый ряд новых подходов во всех этих различных научных областях.

Машинное обучение позволяет нам вернуть большую часть сложности, которую мы потеряли, когда создавали эти прекрасные теории.

Моделирование родилось из теоретических аспектов каждой научной области, которые, с некоторыми удобными уровнями абстракции, позволили нам решать уравнения. Но когда мы разработали эти теории, они оказались почти чрезмерным упрощением проблемы, что было сделано либо в погоне за математической элегантностью, либо просто ради практичности. Машинное обучение позволяет нам вернуть большую часть сложности, которую мы потеряли, когда создавали эти прекрасные теории. Но, к сожалению, не все машинное обучение хорошо сочетается с наукой, и поэтому ученые-компьютерщики тратят много времени, пытаясь выяснить, как применить эти алгоритмы, которые никогда не предназначались для использования с такими типами наборов данных, чтобы преодолеть некоторые проблемы, которые возникают опыт работы в интерфейсе. И это одна из захватывающих областей, которая мне нравится.

Вы начали свою карьеру как физик. Что заставило вас перейти к информатике?

Физика — отличная отправная точка практически для всего. Но я всегда был на пути к вычислительной науке, даже не осознавая этого. Во время моего первого исследовательского проекта, будучи студентом, я использовал вычислительные методы и сразу увлекся. Мне нравилось программировать, начиная с написания кода и заканчивая конечными результатами, и я сразу понял, что суперкомпьютерам суждено стать моим научным инструментом. Было интересно подумать о том, что могли бы сделать ученые-материалисты, если бы они могли каждый раз создавать идеальные образцы. Или что мог бы сделать химик, если бы он мог удалить все загрязнения и добиться идеальных реакций. Что бы мы могли сделать, если бы могли исследовать суровые и опасные условия, не рискуя никого ранить? И что еще более важно, что, если бы мы могли делать все эти вещи одновременно, по требованию, каждый раз, когда мы пытаемся?

Прелесть суперкомпьютеров в том, что они — единственный инструмент, позволяющий нам достичь этого почти совершенства. Больше всего меня привлекает то, что я могу не только воспроизвести то, что мои коллеги могут делать в лаборатории, но и сделать все, что они не могут сделать в лаборатории. Итак, с самых первых дней моя вычислительная физика была на компьютере. Моя вычислительная химия затем переросла в материалы, информатику материалов, а теперь практически исключительно в машинное обучение. Но я всегда фокусировался на методах в каждой из этих областей и думаю, что знания физики позволяют мне очень творчески подходить к вычислительным подходам ко всем этим другим областям.

Чем машинное обучение отличается от классического компьютерного моделирования?

Большая часть моих исследований теперь связана с МО, вероятно, 80%. Однако я все еще занимаюсь традиционными симуляциями, поскольку они дают мне нечто совсем другое. Моделирование по своей сути представляет собой восходящий подход. Мы начинаем с некоторого понимания системы или проблемы, запускаем моделирование и в конце получаем некоторые данные. ML, напротив, представляет собой нисходящий подход. Мы начинаем с данных, запускаем модель, а затем получаем лучшее понимание системы или проблемы. Моделирование основано на правилах, определенных нашими устоявшимися научными теориями, тогда как машинное обучение основано на опыте и истории. Моделирование часто в значительной степени детерминировано, хотя есть некоторые примеры стохастических методов, таких как метод Монте-Карло. Машинное обучение в значительной степени является стохастическим, хотя есть некоторые примеры, которые также являются детерминированными.

С помощью моделирования я могу делать очень хорошую экстраполяцию. Многие теории, лежащие в основе моделирования, позволяют нам исследовать области «конфигурационного пространства» (координаты, определяющие все возможные состояния системы) или области проблемы, по которым у нас нет данных или информации. С другой стороны, ML действительно хорош в интерполяции и заполнении всех пробелов, а также очень хорош для вывода.

Концепция потока данных

Действительно, эти два метода основаны на совершенно разных видах логики. Моделирование основано на логике «если-то-иначе», что означает, что если у меня есть определенная проблема или определенный набор условий, то я получу детерминированный ответ, иначе в вычислительном отношении, вероятно, произойдет сбой, если вы получите это неправильно. ML, напротив, основано на логике «оценить-улучшить-повторить», что означает, что оно всегда даст ответ. Этот ответ всегда невозможно улучшить, но он не всегда может быть верным, и это еще одно отличие.

Моделирование носит междисциплинарный характер: оно очень тесно связано со знаниями предметной области и опирается на человеческий интеллект. С другой стороны, машинное обучение является междисциплинарным: используя модели, разработанные за пределами исходной предметной области, оно не зависит от знаний предметной области и в значительной степени полагается на искусственный интеллект. Вот почему мне нравится совмещать два подхода.

Можете ли вы рассказать нам немного больше о том, как вы используете машинное обучение в своих исследованиях?

До появления МО ученым приходилось в значительной степени понимать взаимосвязь между входными и выходными данными. Нам нужно было заранее определить структуру модели, прежде чем мы смогли ее решить. Это означало, что нам нужно было иметь представление об ответе, прежде чем мы сможем его искать.

Мы можем разработать структуру выражения или уравнения и одновременно решить его. Это ускоряет научный метод и является еще одной причиной, почему мне нравится использовать машинное обучение.

Когда вы используете МО, машины используют статистические методы и историческую информацию, чтобы по сути программировать себя. Это означает, что мы можем разработать структуру выражения или уравнения и одновременно решить его. Это ускоряет научный метод, и это еще одна причина, почему мне нравится его использовать.

Методы ML, которые я использую, разнообразны. Существует множество разновидностей и типов машинного обучения, так же, как существует множество различных типов вычислительной физики или методов экспериментальной физики. Я использую обучение без учителя, которое полностью основано на входных переменных и направлено на разработку «скрытых закономерностей» или попытку найти репрезентативные данные. Это полезно для материалов в нанонауке, когда мы не проводили эксперименты, возможно, для измерения свойства, но мы довольно много знаем о входных условиях, которые мы задали для разработки материала.

Обучение без учителя может быть полезно для поиска групп структур, называемых кластерами, которые имеют сходство в многомерном пространстве, или чистых и репрезентативных структур (архетипов или прототипов), которые описывают набор данных в целом. Мы также можем преобразовать данные, чтобы отобразить их в пространстве более низкой размерности и выявить больше сходств, которые ранее не были очевидны, аналогично тому, как мы могли бы перейти к обратному пространству в физике.

Я также использую контролируемое машинное обучение для поиска взаимосвязей и тенденций, таких как отношения структура-свойство, которые важны в материалах и нанонауке. Сюда входит классификация, в которой у нас есть дискретная метка. Допустим, у нас уже есть разные категории наночастиц, и на основе их характеристик мы хотим автоматически отнести их либо к той, либо к другой категории и убедиться, что мы можем легко разделить эти классы только на основе входных данных.

Я также использую статистическое обучение и полуконтролируемое обучение. Статистическое обучение, в частности, полезно в науке, хотя оно еще не получило широкого распространения. Мы думаем об этом как о причинно-следственном выводе, который часто используется в медицинской диагностике, и его можно применять для эффективной диагностики, например, того, как может быть создан материал, а не просто почему он создается.

В вашу исследовательскую группу входят люди с широким спектром научных интересов. Можете ли вы рассказать нам о некоторых вещах, которые они изучают?

Когда я начинал заниматься физикой, я никогда не думал, что меня будет окружать такая замечательная группа умных людей из разных научных областей. В кластер вычислительных наук Австралийского национального университета входят ученые-экологи, ученые-землеведы, компьютерные биологи и биоинформатики. Есть также исследователи, изучающие геномику, вычислительную нейронауку, квантовую химию, материаловедение, физику плазмы, астрофизику, астрономию, инженерию и – я – нанотехнологии. Итак, мы — разношерстная группа.

В нашу группу входят Джузеппе Барка, который разрабатывает алгоритмы, лежащие в основе пакетов программного обеспечения для квантовой химии, которые используются во всем мире. Его исследования сосредоточены на том, как мы можем использовать новые процессоры, такие как ускорители, и как мы можем переосмыслить, как можно разделить и фрагментировать большие молекулы, чтобы мы могли стратегически комбинировать массово параллельные рабочие процессы. Он также помогает нам более эффективно использовать суперкомпьютеры, что позволяет экономить энергию. И последние два года он является мировым рекордсменом по лучшему масштабируемому алгоритму квантовой химии.

Также в малых масштабах – с точки зрения науки – Мин Буй, биоинформатик, работающий над разработкой новых статистических моделей в области систем филогеномики (многодисциплинарная область, сочетающая эволюционные исследования с системной биологией и экологией с использованием методов сетевой науки). К ним относятся модели разделения, модели с учетом изоморфизма и модели дерева распределения. Приложения этого включают области фотосинтетических ферментов или данные глубокой транскрипции филогении насекомых, и он проделал работу по изучению водорослей, а также бактерий и вирусов, таких как ВИЧ и SARS-CoV-2 (который вызывает COVID-19).

Мин Буй

На большем конце шкалы находится математик Цюаньлин Дэн, чьи исследования сосредоточены на математическом моделировании и моделировании крупномасштабных сред, таких как динамика океанов и атмосферы, а также льдин Антарктики.

Самое приятное — это когда мы обнаруживаем, что проблема из одной области уже решена в другой, и еще лучше, когда мы обнаруживаем, что проблема из одной области уже решена в другой, и еще лучше, когда мы обнаруживаем, что проблема существует в нескольких областях, поэтому мы можем масштабировать суперлинейно. Замечательно, когда одно решение имеет несколько областей воздействия. И как часто вы встретите специалиста по вычислительной нейробиологии, работающего бок о бок с физиком плазмы? Обычно этого не происходит.

Помимо работы со своей исследовательской группой, вы также являетесь заместителем директора Школы вычислительной техники Австралийского национального университета. Можете ли вы рассказать нам немного об этой роли?

В основном это административная роль. Таким образом, я не только работаю с замечательной группой ученых-компьютерщиков, занимающихся наукой о данных, фундаментальными областями языков, разработкой программного обеспечения, кибербезопасностью, компьютерным зрением, робототехникой и т. д., я также могу создавать возможности для новых людей присоединиться к школе и стать лучшая версия себя. Большая часть моей работы на руководящей должности связана с людьми. И это включает в себя набор персонала, контроль за нашей программой стажировки, а также нашей программой профессионального развития. У меня также была возможность запустить несколько новых программ в тех областях, которые, по моему мнению, требовали внимания.

Одним из таких примеров была глобальная пандемия COVID. Многие из нас были закрыты и не смогли получить доступ к нашим лабораториям, что заставило нас задуматься о том, что мы можем сделать. Я воспользовался возможностью и разработал программу под названием Юбилейное совместное стипендию, который поддерживает исследователей, работающих на стыке информатики и другой области, где они решают серьезные проблемы в своих областях, а также используют эти знания для информирования о новых типах информатики. В 2021 году программа поддержала пять таких исследователей в разных областях.

Я также являюсь председателем Программа женщин-новаторов, который предоставляет стипендии, лекции и стипендии для поддержки женщин, занимающихся компьютерными технологиями, и обеспечения их успеха на протяжении всей их карьеры с нами.

И, конечно же, еще одна моя роль как заместителя директора — присматривать за компьютерным оборудованием нашей школы. Я рассматриваю способы, которыми мы можем диверсифицировать наш портфель ресурсов, чтобы пережить трудные времена, например, во время COVID, когда мы не могли заказать новое оборудование. Я также изучаю, как мы можем быть более энергоэффективными, поскольку компьютеры потребляют огромное количество энергии.

Должно быть, это очень интересное время для людей, занимающихся исследованиями в области машинного обучения, поскольку эта технология находит очень много разных применений. Какие новые применения машинного обучения вы больше всего ожидаете в своих исследованиях?

Ну, возможно, некоторые из тех, о которых вы уже слышали, а именно ИИ. Хотя существуют риски, связанные с ИИ, есть также и огромные возможности, и я думаю, что генеративный ИИ будет особенно важен в ближайшие годы для науки – при условии, что мы сможем преодолеть некоторые проблемы, связанные с его «галлюцинациями» [когда система ИИ , например, большая языковая модель, генерирует ложную информацию, основанную либо на наборе обучающих данных, либо на контекстной логике, либо на их комбинации].

Независимо от того, в какой области науки мы работаем, мы ограничены временем, деньгами, ресурсами и оборудованием, к которым у нас есть доступ. Это означает, что мы идем на компромисс с нашей наукой, чтобы соответствовать этим ограничениям, вместо того, чтобы сосредоточиться на их преодолении.

Но независимо от того, в какой области науки мы работаем, вычислительной или экспериментальной, мы все страдаем от ряда ограничений. Мы ограничены временем, деньгами, ресурсами и оборудованием, к которым у нас есть доступ. Это означает, что мы идем на компромисс с нашей наукой, чтобы соответствовать этим ограничениям, вместо того, чтобы сосредоточиться на их преодолении. Я искренне верю, что инфраструктура не должна диктовать нам, что нам делать, должно быть наоборот.

Я думаю, что генеративный ИИ появился в нужное время, чтобы позволить нам, наконец, преодолеть некоторые из этих проблем, потому что у него есть большой потенциал, чтобы заполнить пробелы и дать нам представление о том, какую науку мы могли бы сделать, если бы у нас были все возможности. необходимые ресурсы.

Действительно, ИИ может позволить нам получать больше, делая меньше, и избежать некоторых ошибок, таких как систематическая ошибка отбора. Это действительно большая проблема при применении машинного обучения к наборам научных данных. Нам нужно проделать гораздо больше работы, чтобы гарантировать, что генеративные методы производят осмысленную науку, а не галлюцинации. Это особенно важно, если они собираются стать основой для больших предварительно обученных моделей. Но я думаю, что это будет действительно захватывающая эра науки, когда мы будем работать совместно с ИИ, а не просто выполнять за нас задачу.

Отметка времени:

Больше от Мир физики