Fra bottom-up til top-down: dataforsker Amanda Barnard om skjønnheten i simuleringer, maskinlæring og hvordan de to krysser hverandre – Physics World

Fra bottom-up til top-down: dataforsker Amanda Barnard om skjønnheten i simuleringer, maskinlæring og hvordan de to krysser hverandre – Physics World

Amanda Barnard
Grensesnittspesialist Amanda Barnard er nestleder og leder for beregningsvitenskap ved School of Computing ved Australian National University. (Med tillatelse: Sitthixay Ditthavong/Canberra Times)

Fra å bruke superdatamaskiner for å utnytte nye typer materialer til å trene maskinlæringsmodeller for å studere komplekse egenskaper på nanoskala, Den australske beregningsforskeren Amanda Barnard fungerer i grensesnittet mellom databehandling og datavitenskap. En senior professor i School of Computing ved Australian National UniversityBarnard er også nestleder og leder for beregningsvitenskap. I disse dager bruker hun en rekke beregningsmetoder for å løse problemer på tvers av de fysiske vitenskapene, men Barnard begynte sin karriere som fysiker, og mottok sin doktorgrad i teoretisk kondensert materiefysikk i 2003.

Etter å ha tilbrakt de neste årene som postdoktor ved Senter for materialer i nanoskala ved Argonne National Laboratory i USA begynte hun å utvide forskningsinteressene sine til å omfatte mange aspekter av beregningsvitenskap, inkludert bruken av maskinlæring innen nanoteknologi, materialvitenskap, kjemi og medisin.

En kar fra begge Australian Institute of Physics og Royal Society of Chemistry, i 2022 ble Barnard utnevnt til en Medlem av Order of Australia. Hun har også vunnet en rekke priser, inkludert 2014 Feynman-prisen i nanoteknologi (Teori) og 2019-medalje fra Association of Molecular Modellers of Australasia. Hun snakker med Hamish Johnston om hennes interesse for å bruke maskinlæring på en rekke problemer, og om utfordringene og fordelene ved å drive universitetsadministrasjon.

Kan du fortelle oss litt om hva du gjør som dataforsker?

Beregningsvitenskap innebærer å designe og bruke matematiske modeller for å analysere beregningskrevende problemer innen mange områder av vitenskap og ingeniørfag. Dette inkluderer fremskritt innen beregningsmessig infrastruktur og algoritmer som gjør det mulig for forskere på tvers av disse forskjellige domenene å utføre beregningseksperimenter i stor skala. På en måte involverer beregningsvitenskap forskning på databehandling med høy ytelse, og ikke bare forskning ved hjelp av en datamaskin med høy ytelse.

Vi bruker mesteparten av tiden vår på algoritmer og prøver å finne ut hvordan vi implementerer dem på en måte som utnytter den avanserte maskinvaren best; og at maskinvaren endres hele tiden. Dette inkluderer konvensjonelle simuleringer basert på matematiske modeller utviklet spesifikt i forskjellige vitenskapelige domener, det være seg fysikk, kjemi eller utover. Vi bruker også mye tid på å bruke metoder fra maskinlæring (ML) og kunstig intelligens (AI), hvorav de fleste ble utviklet av informatikere, noe som gjør det veldig tverrfaglig forskning. Dette gjør det mulig å bruke en hel haug med nye tilnærminger innen alle disse ulike vitenskapelige områdene.

Maskinlæring gjør oss i stand til å gjenerobre mye av kompleksiteten vi har mistet når vi utleder disse vakre teoriene

Simulering ble født ut av de teoretiske aspektene ved hvert vitenskapelig område som, med noen praktiske abstraksjonsnivåer, gjorde det mulig for oss å løse ligningene. Men når vi utviklet disse teoriene, var de nesten en overforenkling av problemet, som ble gjort enten i jakten på matematisk eleganse eller bare for praktiske skyld. ML gjør det mulig for oss å gjenvinne mye av kompleksiteten vi har mistet når vi utleder disse vakre teoriene. Men dessverre fungerer ikke all ML bra med vitenskap, og derfor bruker beregningsforskere mye tid på å prøve å finne ut hvordan de skal bruke disse algoritmene som aldri var ment å bli brukt for denne typen datasett for å overvinne noen av problemene som er opplevd i grensesnittet. Og det er et av de spennende områdene jeg liker.

Du begynte din karriere som fysiker. Hva fikk deg til å gå over til datavitenskap?

Fysikk er et flott utgangspunkt for nesten alt. Men jeg var alltid på vei til beregningsvitenskap uten å være klar over det. Under mitt første forskningsprosjekt som student brukte jeg beregningsmetoder og ble umiddelbart hektet. Jeg elsket kodingen, hele veien fra å skrive koden til de endelige resultatene, og derfor visste jeg umiddelbart at superdatamaskiner var bestemt til å være mitt vitenskapelige instrument. Det var spennende å tenke på hva en materialforsker kunne gjøre hvis de kunne lage perfekte prøver hver gang. Eller hva en kjemiker kunne gjøre hvis de kunne fjerne all forurensning og ha perfekte reaksjoner. Hva kunne vi gjort hvis vi kunne utforske tøffe eller farlige miljøer uten risiko for å skade noen? Og enda viktigere, hva om vi kunne gjøre alle disse tingene samtidig, på forespørsel, hver gang vi prøvde?

Det fine med superdatamaskiner er at de er det eneste instrumentet som gjør oss i stand til å oppnå denne nesten perfeksjon. Det som fenger meg mest er at jeg ikke bare kan reprodusere det kollegene mine kan på laboratoriet, men også gjøre alt de ikke kan på laboratoriet. Så fra de aller første dagene var beregningsfysikken min på en datamaskin. Beregningskjemien min utviklet seg deretter til materialer, materialinformatikk, og nå stort sett utelukkende ML. Men jeg har alltid fokusert på metodene i hvert av disse områdene, og jeg tror at et fundament i fysikk gjør meg i stand til å tenke veldig kreativt om hvordan jeg nærmer meg alle disse andre områdene beregningsmessig.

Hvordan skiller maskinlæring seg fra klassiske datasimuleringer?

Det meste av forskningen min er nå ML, sannsynligvis 80% av den. Jeg gjør fortsatt noen konvensjonelle simuleringer, siden de gir meg noe helt annet. Simuleringer er i utgangspunktet en nedenfra og opp-tilnærming. Vi starter med en viss forståelse av et system eller et problem, vi kjører en simulering, og så får vi noen data på slutten. ML, derimot, er en ovenfra-ned-tilnærming. Vi starter med dataene, vi kjører en modell, og så ender vi opp med en bedre forståelse av systemet eller problemet. Simulering er basert på regler bestemt av våre etablerte vitenskapelige teorier, mens ML er basert på erfaringer og historie. Simuleringer er ofte i stor grad deterministiske, selv om det finnes noen eksempler på stokastiske metoder som Monte Carlo. ML er stort sett stokastisk, selv om det er noen eksempler som også er deterministiske.

Med simuleringer er jeg i stand til å gjøre veldig god ekstrapolering. Mange av teoriene som ligger til grunn for simuleringer gjør oss i stand til å utforske områder av et "konfigurasjonsrom" (koordinatene som bestemmer alle mulige tilstander i et system) eller områder av et problem som vi ikke har data eller informasjon for. På den annen side er ML veldig god til å interpolere og fylle ut alle hullene, og det er veldig bra for slutninger.

Dataflyt konsept

Faktisk er de to metodene basert på svært forskjellige typer logikk. Simulering er basert på en "hvis-så-annet"-logikk, som betyr at hvis jeg har et visst problem eller et bestemt sett med betingelser, vil jeg få et deterministisk svar, ellers vil det, beregningsmessig, sannsynligvis krasje hvis du får det er feil. ML, derimot, er basert på en "estimat-forbedre-gjenta"-logikk, som betyr at den alltid vil gi et svar. Det svaret kan alltid forbedres, men det er kanskje ikke alltid riktig, så det er en annen forskjell.

Simuleringer er intradisiplinære: de har et veldig nært forhold til domenekunnskapen og er avhengige av menneskelig intelligens. På den annen side er ML tverrfaglig: ved å bruke modeller utviklet utenfor det opprinnelige domenet, er det agnostisk for domenekunnskap og er sterkt avhengig av kunstig intelligens. Det er derfor jeg liker å kombinere de to tilnærmingene.

Kan du fortelle oss litt mer om hvordan du bruker maskinlæring i forskningen din?

Før bruken av ML, måtte forskere ganske mye forstå forholdet mellom inngangene og utgangene. Vi måtte ha strukturen til modellen forhåndsbestemt før vi klarte å løse den. Det betydde at vi måtte ha en idé om svaret før vi kunne se etter et.

Vi kan utvikle strukturen til et uttrykk eller en ligning og løse det samtidig. Det akselererer den vitenskapelige metoden, og det er en annen grunn til at jeg liker å bruke maskinlæring

Når du bruker ML, bruker maskinene statistiske teknikker og historisk informasjon for å programmere seg selv. Det betyr at vi kan utvikle strukturen til et uttrykk eller en ligning og løse det samtidig. Det akselererer den vitenskapelige metoden, og det er en annen grunn til at jeg liker å bruke den.

ML-teknikkene jeg bruker er mangfoldige. Det finnes mange forskjellige smaker og typer ML, akkurat som det er mange forskjellige typer beregningsfysikk eller eksperimentelle fysikkmetoder. Jeg bruker uovervåket læring, som er basert utelukkende på inputvariabler, og den ser på å utvikle "skjulte mønstre" eller å prøve å finne representative data. Det er nyttig for materialer i nanovitenskap, når vi ikke har gjort eksperimentene for å kanskje måle en egenskap, men vi vet ganske mye om inputbetingelsene vi legger inn for å utvikle materialet.

Uovervåket læring kan være nyttig for å finne grupper av strukturer, referert til som klynger, som har likheter i det høydimensjonale rommet, eller rene og representative strukturer (arketyper eller prototyper) som beskriver datasettet som en helhet. Vi kan også transformere data for å kartlegge dem til et lavere dimensjonalt rom og avsløre flere likheter som ikke tidligere var synlige, på en lignende måte som vi kan endre til gjensidig rom i fysikk.

Jeg bruker også veiledet ML for å finne relasjoner og trender, som struktur-egenskapsrelasjoner, som er viktige innen material- og nanovitenskap. Dette inkluderer klassifisering, hvor vi har en diskret etikett. Si at vi allerede har forskjellige kategorier av nanopartikler, og basert på deres egenskaper vil vi automatisk tilordne dem til enten en eller annen kategori, og sørge for at vi enkelt kan skille disse klassene basert på inputdata alene.

Jeg bruker statistisk læring og semi-veiledet læring også. Statistisk læring, spesielt, er nyttig i vitenskap, selv om det ikke er mye brukt ennå. Vi tenker på det som en kausal slutning som brukes mye i medisinsk diagnostikk, og dette kan brukes for å effektivt diagnostisere hvordan et materiale, for eksempel, kan skapes, i stedet for bare hvorfor det er skapt.

Forskningsgruppen din inkluderer personer med et bredt spekter av vitenskapelige interesser. Kan du gi oss en smak av noen av tingene de studerer?

Da jeg begynte i fysikk, trodde jeg aldri at jeg skulle være omgitt av en så fantastisk gruppe smarte mennesker fra forskjellige vitenskapelige områder. Beregningsvitenskapsklyngen ved Australian National University inkluderer miljøforskere, jordforskere, beregningsbiologer og bioinformatikere. Det er også forskere som studerer genomikk, beregningsnevrovitenskap, kvantekjemi, materialvitenskap, plasmafysikk, astrofysikk, astronomi, ingeniørvitenskap og – meg – nanoteknologi. Så vi er en mangfoldig gjeng.

Vår gruppe inkluderer Giuseppe Barca, som utvikler algoritmer som understøtter programvarepakkene for kvantekjemi som brukes over hele verden. Forskningen hans er fokusert på hvordan vi kan utnytte nye prosessorer, for eksempel akseleratorer, og hvordan vi kan tenke nytt om hvordan store molekyler kan partisjoneres og fragmenteres slik at vi strategisk kan kombinere massivt parallelle arbeidsflyter. Han hjelper oss også med å bruke superdatamaskiner mer effektivt, noe som sparer energi. Og de siste to årene har han hatt verdensrekorden i den beste skaleringskvantekjemialgoritmen.

Også i liten skala – vitenskapelig – er Minh Bui, som er en bioinformatiker som jobber med å utvikle nye statistiske modeller innen området fylogenomiske systemer [et tverrfaglig felt som kombinerer evolusjonsforskning med systembiologi og økologi, ved hjelp av metoder fra nettverksvitenskap]. Disse inkluderer partisjoneringsmodeller, isomorfismebevisste modeller og distribusjonstremodeller. Anvendelsene av dette inkluderer områder i fotosyntetiske enzymer eller dype insektsfylogene transkripsjonsdata, og han har arbeidet med å se på alger, samt bakterier og virus som HIV og SARS-CoV-2 (som forårsaker COVID-19).

Minh Bui

I den større enden av skalaen er matematiker Quanling Deng, hvis forskning fokuserer på matematisk modellering og simulering for storskala medier, som hav og atmosfæredynamikk, samt antarktiske isflak.

Det beste er når vi oppdager at et problem fra ett domene faktisk allerede er løst i et annet, og enda bedre når vi oppdager et som er opplevd i flere domener, slik at vi kan skalere superlineært. Det er flott når én løsning har flere innvirkningsområder. Og hvor ofte vil du finne en beregningsnevroforsker som jobber sammen med en plasmafysiker? Det skjer bare ikke normalt.

I tillegg til å jobbe med forskningsgruppen din, er du også nestleder ved Australian National University's School of Computing. Kan du fortelle litt om den rollen?

Det er i stor grad en administrativ rolle. Så i tillegg til å jobbe med en fantastisk gruppe informatikere på tvers av datavitenskap, grunnleggende områder innen språk, programvareutvikling, cybersikkerhet, datasyn, robotikk og så videre, får jeg også skape muligheter for nye mennesker til å bli med på skolen og bli den beste versjonen av seg selv. Mye av arbeidet mitt i lederrollen handler om menneskene. Og dette inkluderer rekruttering, ivaretakelse av vårt tenure-track-program og vårt faglige utviklingsprogram. Jeg har også hatt muligheten til å starte noen nye programmer for områder jeg mente trengte oppmerksomhet.

Et slikt eksempel var under den globale COVID-pandemien. Mange av oss ble stengt og kunne ikke få tilgang til laboratoriene våre, noe som gjorde at vi lurte på hva vi kan gjøre. Jeg benyttet anledningen til å utvikle et program som heter Jubileumsfellesskap, som støtter forskere som jobber i grensesnittet mellom informatikk og et annet domene, der de løser store utfordringer på sine områder, men også bruker denne domenekunnskapen til å informere om nye typer informatikk. Programmet støttet fem slike forskere på tvers av ulike områder i 2021.

Jeg er også styreleder i Banebrytende kvinneprogram, som har stipender, forelesninger og stipend for å støtte kvinner som begynner på databehandling og sikre at de lykkes gjennom hele karrieren hos oss.

Og selvfølgelig, en av mine andre roller som nestleder er å passe på databehandlingsfasiliteter for skolen vår. Jeg ser på måter vi kan diversifisere ressursene våre for å komme gjennom tøffe tider, som under COVID, da vi ikke kunne bestille noe nytt utstyr. Jeg ser også på hvordan vi kan bli mer energieffektive, fordi databehandling bruker enormt mye energi.

Det må være en veldig spennende tid for folk som forsker i ML, siden teknologien finner så mange forskjellige bruksområder. Hvilke nye anvendelser av ML ser du mest frem til i forskningen din?

Vel, sannsynligvis noen av de du allerede hører om, nemlig AI. Selv om det er risiko forbundet med AI, er det også enorme muligheter, og jeg tror at generativ AI kommer til å bli spesielt viktig i de kommende årene for vitenskapen – forutsatt at vi kan overvinne noen av problemene med at det «hallusinerer» [når et AI-system , for eksempel en stor språkmodell, genererer falsk informasjon, basert på enten et treningsdatasett eller kontekstuell logikk, eller en kombinasjon av dem begge].

Uansett hvilket vitenskapsområde vi er innenfor, er vi begrenset av tiden vi har, pengene, ressursene og utstyret vi har tilgang til. Det betyr at vi kompromitterer vitenskapen vår for å passe disse begrensningene i stedet for å fokusere på å overvinne dem

Men uansett hvilket vitenskapsområde vi er innenfor, enten det er beregningsmessig eller eksperimentelt, lider vi alle under en rekke begrensninger. Vi er begrenset av tiden vi har, pengene, ressursene og utstyret vi har tilgang til. Det betyr at vi kompromitterer vitenskapen vår for å passe disse begrensningene i stedet for å fokusere på å overvinne dem. Jeg tror virkelig at infrastrukturen ikke skal diktere hva vi gjør, det bør være omvendt.

Jeg tror generativ kunstig intelligens har kommet til rett tid for å gjøre oss i stand til å endelig overvinne noen av disse problemene fordi den har mye potensial til å fylle hullene og gi oss en idé om hva vitenskapen vi kunne ha gjort, hvis vi hadde alt ressursene som er nødvendige.

Faktisk kan AI gjøre det mulig for oss å få mer ved å gjøre mindre og unngå noen av fallgruvene som seleksjonsskjevhet. Det er et veldig stort problem når man bruker ML på vitenskapelige datasett. Vi må gjøre mye mer arbeid for å sikre at generative metoder produserer meningsfull vitenskap, ikke hallusinasjoner. Dette er spesielt viktig hvis de skal danne grunnlaget for store ferdigtrente modeller. Men jeg tror dette kommer til å bli en veldig spennende epoke med vitenskap hvor vi samarbeider med AI, i stedet for bare å utføre en oppgave for oss.

Tidstempel:

Mer fra Fysikkens verden