Fra bottom-up til top-down: beregningsforsker Amanda Barnard om skønheden ved simuleringer, maskinlæring og hvordan de to krydser hinanden – Physics World

Fra bottom-up til top-down: beregningsforsker Amanda Barnard om skønheden ved simuleringer, maskinlæring og hvordan de to krydser hinanden – Physics World

Amanda Barnard
Interface specialist Amanda Barnard er vicedirektør og leder af computervidenskab på School of Computing ved Australian National University. (Med høflighed: Sitthixay Ditthavong/Canberra Times)

Fra at bruge supercomputere til at udnytte nye slags materialer til at træne maskinlæringsmodeller til at studere komplekse egenskaber på nanoskala, Den australske beregningsforsker Amanda Barnard arbejder i grænsefladen mellem databehandling og datavidenskab. En seniorprofessor i School of Computing ved Australian National University, Barnard er også vicedirektør og computational-science lead. I disse dage bruger hun en række forskellige beregningsmetoder til at løse problemer på tværs af de fysiske videnskaber, men Barnard begyndte sin karriere som fysiker og modtog sin ph.d.-grad i teoretisk kondenseret stoffysik i 2003.

Efter at have tilbragt de næste par år som postdoc på Center for Nanoskala materialer ved Argonne National Laboratory i USA begyndte hun at udvide sine forskningsinteresser til at omfatte mange aspekter af beregningsvidenskab, herunder brugen af ​​maskinlæring inden for nanoteknologi, materialevidenskab, kemi og medicin.

En fyr fra begge Australian Institute of Physics og Royal Society of Chemistry, i 2022 blev Barnard udnævnt til en Medlem af Order of Australia. Hun har også vundet en række priser, herunder 2014 Feynman-prisen i nanoteknologi (Teori) og 2019-medalje fra Association of Molecular Modellers of Australasia. Hun taler med Hamish Johnston om sin interesse i at anvende maskinlæring på en række problemer og om udfordringerne og fordelene ved at udføre universitetsadministration.

Kan du fortælle os lidt om, hvad du laver som dataforsker?

Beregningsvidenskab involverer design og brug af matematiske modeller til at analysere beregningskrævende problemer inden for mange områder af videnskab og teknik. Dette inkluderer fremskridt inden for beregningsinfrastruktur og algoritmer, der gør det muligt for forskere på tværs af disse forskellige domæner at udføre beregningseksperimenter i stor skala. På en måde involverer beregningsvidenskab forskning i højtydende databehandling og ikke kun forskning ved hjælp af en højtydende computer.

Vi bruger det meste af vores tid på algoritmer og forsøger at finde ud af, hvordan vi implementerer dem på en måde, der udnytter den avancerede hardware bedst muligt; og at hardwaren ændrer sig hele tiden. Dette inkluderer konventionelle simuleringer baseret på matematiske modeller udviklet specifikt inden for forskellige videnskabelige domæner, hvad enten det er fysik, kemi eller videre. Vi bruger også meget tid på at bruge metoder fra machine learning (ML) og kunstig intelligens (AI), hvoraf de fleste er udviklet af dataloger, hvilket gør det meget tværfagligt. Dette gør det muligt at bruge en hel masse nye tilgange inden for alle disse forskellige videnskabelige områder.

Maskinlæring sætter os i stand til at genvinde meget af den kompleksitet, vi har mistet, når vi udleder disse smukke teorier

Simulering blev født ud af de teoretiske aspekter af hvert videnskabeligt område, som med nogle bekvemme abstraktionsniveauer gjorde det muligt for os at løse ligningerne. Men da vi udviklede de teorier, var de nærmest en overforenkling af problemet, hvilket blev gjort enten i jagten på matematisk elegance eller blot for praktiske skyld. ML gør det muligt for os at genvinde meget af den kompleksitet, vi har mistet, når vi udleder disse smukke teorier. Men desværre fungerer ikke al ML godt sammen med videnskab, og derfor bruger beregningsforskere meget tid på at finde ud af, hvordan man anvender disse algoritmer, som aldrig var beregnet til at blive brugt til den slags datasæt for at overvinde nogle af de problemer, der er oplevet ved grænsefladen. Og det er et af de spændende områder, som jeg godt kan lide.

Du begyndte din karriere som fysiker. Hvad fik dig til at flytte til computervidenskab?

Fysik er et godt udgangspunkt for stort set alt. Men jeg var altid på vej mod beregningsvidenskab uden at være klar over det. Under mit første forskningsprojekt som studerende brugte jeg beregningsmetoder og blev øjeblikkeligt hooked. Jeg elskede kodningen, hele vejen fra at skrive koden til de endelige resultater, og så vidste jeg med det samme, at supercomputere var bestemt til at være mit videnskabelige instrument. Det var spændende at tænke på, hvad en materialeforsker kunne gøre, hvis de kunne lave perfekte prøver hver gang. Eller hvad en kemiker kunne gøre, hvis de kunne fjerne al forurening og have perfekte reaktioner. Hvad kunne vi gøre, hvis vi kunne udforske barske eller farlige miljøer uden risiko for at skade nogen? Og endnu vigtigere, hvad nu hvis vi kunne gøre alle disse ting samtidigt, efter behov, hver gang vi prøvede?

Det smukke ved supercomputere er, at de er det eneste instrument, der gør os i stand til at opnå denne næsten perfektion. Det, der fanger mig mest, er, at jeg ikke kun kan gengive, hvad mine kollegaer kan i laboratoriet, men også gøre alt, hvad de ikke kan i laboratoriet. Så fra de allerførste dage var min beregningsfysik på en computer. Min beregningskemi udviklede sig derefter til materialer, materialeinformatik og nu stort set udelukkende ML. Men jeg har altid fokuseret på metoderne inden for hvert af disse områder, og jeg tror, ​​at et fundament i fysik sætter mig i stand til at tænke meget kreativt over, hvordan jeg griber alle disse andre områder an i beregningen.

Hvordan adskiller maskinlæring sig fra klassiske computersimuleringer?

Det meste af min forskning er nu ML, sandsynligvis 80% af det. Jeg laver dog stadig nogle konventionelle simuleringer, da de giver mig noget meget anderledes. Simuleringer er grundlæggende en bottom-up tilgang. Vi starter med en vis forståelse af et system eller et problem, vi kører en simulering, og så får vi nogle data til sidst. ML er derimod en top-down tilgang. Vi starter med dataene, vi kører en model, og så ender vi med en bedre forståelse af systemet eller problemet. Simulering er baseret på regler bestemt af vores etablerede videnskabelige teorier, hvorimod ML er baseret på erfaringer og historie. Simuleringer er ofte stort set deterministiske, selvom der er nogle eksempler på stokastiske metoder såsom Monte Carlo. ML er stort set stokastisk, selvom der er nogle eksempler, der også er deterministiske.

Med simuleringer er jeg i stand til at lave meget god ekstrapolering. Mange af de teorier, der understøtter simuleringer, gør os i stand til at udforske områder af et "konfigurationsrum" (koordinaterne, der bestemmer alle de mulige tilstande i et system) eller områder af et problem, som vi ikke har nogen data eller information om. På den anden side er ML rigtig god til at interpolere og udfylde alle hullerne, og det er meget godt til inferens.

Data flow koncept

Faktisk er de to metoder baseret på meget forskellige former for logik. Simulering er baseret på en "hvis-så-andet"-logik, hvilket betyder, at hvis jeg har et bestemt problem eller et bestemt sæt betingelser, så får jeg et deterministisk svar, ellers vil det regnemæssigt sandsynligvis gå ned, hvis du får det er forkert. ML er derimod baseret på en "estimate-improve-repeat"-logik, hvilket betyder, at den altid vil give et svar. Det svar kan altid forbedres, men det er måske ikke altid rigtigt, så det er en anden forskel.

Simuleringer er intradisciplinære: de har et meget tæt forhold til domæneviden og er afhængige af menneskelig intelligens. På den anden side er ML tværfagligt: ​​Ved at bruge modeller udviklet uden for det oprindelige domæne er det agnostisk over for domæneviden og er stærkt afhængig af kunstig intelligens. Derfor kan jeg godt lide at kombinere de to tilgange.

Kan du fortælle os lidt mere om, hvordan du bruger maskinlæring i din forskning?

Før fremkomsten af ​​ML skulle videnskabsmænd stort set forstå forholdet mellem input og output. Vi skulle have modellens struktur forudbestemt, før vi kunne løse den. Det betød, at vi skulle have en idé om svaret, før vi kunne lede efter en.

Vi kan udvikle strukturen af ​​et udtryk eller en ligning og løse det på samme tid. Det accelererer den videnskabelige metode, og det er endnu en grund til, at jeg godt kan lide at bruge maskinlæring

Når du bruger ML, bruger maskinerne statistiske teknikker og historisk information til grundlæggende at programmere sig selv. Det betyder, at vi kan udvikle strukturen af ​​et udtryk eller en ligning og løse det på samme tid. Det accelererer den videnskabelige metode, og det er endnu en grund til, at jeg kan lide at bruge den.

De ML-teknikker, jeg bruger, er forskellige. Der er mange forskellige varianter og typer af ML, ligesom der er masser af forskellige typer af beregningsfysik eller eksperimentelle fysik metoder. Jeg bruger uovervåget læring, som udelukkende er baseret på inputvariabler, og det går ud på at udvikle "skjulte mønstre" eller forsøge at finde repræsentative data. Det er nyttigt for materialer inden for nanovidenskab, når vi ikke har lavet eksperimenterne for måske at måle en egenskab, men vi ved en del om de inputbetingelser, vi lægger i at udvikle materialet.

Uovervåget læring kan være nyttig til at finde grupper af strukturer, kaldet klynger, der har ligheder i det højdimensionelle rum, eller rene og repræsentative strukturer (arketyper eller prototyper), der beskriver datasættet som en helhed. Vi kan også transformere data for at kortlægge dem til et rum med lavere dimensioner og afsløre flere ligheder, som ikke tidligere var synlige, på en lignende måde, som vi kunne ændre til gensidigt rum i fysik.

Jeg bruger også superviseret ML til at finde relationer og tendenser, såsom struktur-egenskabsforhold, som er vigtige inden for materialer og nanovidenskab. Dette inkluderer klassificering, hvor vi har en diskret etiket. Lad os sige, at vi allerede har forskellige kategorier af nanopartikler, og baseret på deres egenskaber vil vi automatisk tildele dem til enten den ene eller den anden kategori og sikre, at vi nemt kan adskille disse klasser baseret på inputdata alene.

Jeg bruger også statistisk læring og semi-superviseret læring. Især statistisk læring er nyttig i videnskaben, selvom den ikke er meget brugt endnu. Vi tænker på det som en kausal slutning, der bruges meget i medicinsk diagnostik, og dette kan bruges til effektivt at diagnosticere, hvordan et materiale, for eksempel, kan skabes, snarere end blot hvorfor det er skabt.

Din forskningsgruppe omfatter mennesker med en bred vifte af videnskabelige interesser. Kan du give os en smagsprøve på nogle af de ting, de studerer?

Da jeg startede i fysik, troede jeg aldrig, at jeg ville være omgivet af sådan en fantastisk gruppe af kloge mennesker fra forskellige videnskabelige områder. Den beregningsvidenskabelige klynge ved Australian National University omfatter miljøforskere, jordforskere, beregningsbiologer og bioinformatikere. Der er også forskere, der studerer genomik, computational neuroscience, kvantekemi, materialevidenskab, plasmafysik, astrofysik, astronomi, ingeniørvidenskab og – mig – nanoteknologi. Så vi er en mangfoldig flok.

Vores gruppe omfatter Giuseppe Barca, der udvikler algoritmer, der understøtter de kvantekemi-softwarepakker, der bruges over hele verden. Hans forskning er fokuseret på, hvordan vi kan udnytte nye processorer, såsom acceleratorer, og hvordan vi kan gentænke, hvordan store molekyler kan opdeles og fragmenteres, så vi strategisk kan kombinere massivt parallelle arbejdsgange. Han hjælper os også med at bruge supercomputere mere effektivt, hvilket sparer energi. Og i de sidste to år har han haft verdensrekorden i den bedste skaleringskvantekemialgoritme.

Også i den lille skala – videnskabsmæssigt – er Minh Bui, som er en bioinformatiker, der arbejder på at udvikle nye statistiske modeller inden for området fylogenomiske systemer [et multidisciplinært felt, der kombinerer evolutionær forskning med systembiologi og økologi ved hjælp af metoder fra netværksvidenskab]. Disse omfatter partitioneringsmodeller, isomorfibevidste modeller og distributionstræmodeller. Anvendelsen af ​​dette omfatter områder i fotosyntetiske enzymer eller dybe insektfylogeni-transkriptionsdata, og han har arbejdet med at undersøge alger, såvel som bakterier og vira såsom HIV og SARS-CoV-2 (som forårsager COVID-19).

Minh Bui

I den større ende af skalaen er matematiker Quanling Deng, hvis forskning fokuserer på matematisk modellering og simulering for medier i stor skala, såsom oceaner og atmosfæredynamik, samt antarktiske isflager.

Det bedste er, når vi opdager, at et problem fra et domæne faktisk allerede er løst i et andet, og endnu bedre, når vi opdager et, der er oplevet i flere domæner, så vi kan skalere superlineært. Det er fantastisk, når én løsning har flere indvirkningsområder. Og hvor ofte ville du finde en computerneuroforsker, der arbejder sammen med en plasmafysiker? Det sker bare ikke normalt.

Udover at arbejde med din forskningsgruppe, er du også vicedirektør for Australian National University's School of Computing. Kan du fortælle os lidt om den rolle?

Det er i høj grad en administrativ rolle. Så udover at arbejde med en fantastisk gruppe af dataloger på tværs af datalogi, grundlæggende områder inden for sprog, softwareudvikling, cybersikkerhed, computervision, robotteknologi og så videre, får jeg også mulighed for at skabe muligheder for, at nye mennesker kan komme ind på skolen og blive den bedste udgave af sig selv. Meget af mit arbejde i lederrollen handler om mennesker. Og dette inkluderer rekruttering, pleje af vores tenure-track-program og vores faglige udviklingsprogram. Jeg har også haft mulighed for at starte nogle nye programmer for områder, som jeg syntes havde brug for opmærksomhed.

Et sådant eksempel var under den globale COVID-pandemi. Mange af os blev lukket ned og kunne ikke få adgang til vores laboratorier, hvilket fik os til at spekulere på, hvad vi kan gøre. Jeg benyttede lejligheden til at udvikle et program kaldet Jubilæums Fællesskab, som understøtter forskere, der arbejder i grænsefladen mellem datalogi og et andet domæne, hvor de løser store udfordringer inden for deres områder, men også bruger denne domæneviden til at informere om nye typer datalogi. Programmet støttede fem sådanne forskere på tværs af forskellige områder i 2021.

Jeg er også formand for Pioneer Women Program, som har stipendier, lektorater og stipendier til at støtte kvinder, der begynder at arbejde med computere og sikre, at de har succes gennem hele deres karriere hos os.

Og selvfølgelig er en af ​​mine andre roller som vicedirektør at passe computerfaciliteter til vores skole. Jeg ser på måder, hvorpå vi kan diversificere vores pipeline af ressourcer for at komme igennem hårde tider, som under COVID, hvor vi ikke kunne bestille nyt udstyr. Jeg ser også på, hvordan vi kan blive mere energieffektive, fordi computere bruger enormt meget energi.

Det må være en meget spændende tid for folk, der forsker i ML, da teknologien finder så mange forskellige anvendelser. Hvilke nye anvendelser af ML ser du mest frem til i din forskning?

Nå, sikkert nogle af dem, du allerede hører om, nemlig AI. Selvom der er risici forbundet med AI, er der også enorme muligheder, og jeg tror, ​​at generativ AI vil være særlig vigtig i de kommende år for videnskaben - forudsat at vi kan overvinde nogle af problemerne med, at det "hallucinerer" [når et AI-system , såsom en stor sprogmodel, genererer falsk information, baseret på enten et træningsdatasæt eller kontekstuel logik eller en kombination af dem begge].

Uanset hvilket videnskabsområde vi er inden for, er vi begrænset af den tid, vi har, pengene, ressourcerne og det udstyr, vi har adgang til. Det betyder, at vi kompromitterer vores videnskab for at passe disse begrænsninger i stedet for at fokusere på at overvinde dem

Men uanset hvilket videnskabeligt område vi er i, uanset om det er beregningsmæssigt eller eksperimentelt, lider vi alle under en række begrænsninger. Vi er begrænset af den tid, vi har, pengene, ressourcerne og det udstyr, vi har adgang til. Det betyder, at vi kompromitterer vores videnskab for at passe disse begrænsninger i stedet for at fokusere på at overvinde dem. Jeg mener virkelig, at infrastrukturen ikke skal diktere, hvad vi gør, det skal være omvendt.

Jeg tror, ​​at generativ kunstig intelligens er kommet på det rigtige tidspunkt for at sætte os i stand til endelig at overvinde nogle af disse problemer, fordi den har et stort potentiale til at udfylde hullerne og give os en idé om, hvad videnskaben vi kunne have gjort, hvis vi havde alt. de nødvendige ressourcer.

Faktisk kunne kunstig intelligens gøre det muligt for os at få mere ved at gøre mindre og undgå nogle af faldgruberne som udvælgelsesbias. Det er et virkelig stort problem, når man anvender ML til videnskabelige datasæt. Vi skal gøre meget mere for at sikre, at generative metoder producerer meningsfuld videnskab, ikke hallucinationer. Dette er især vigtigt, hvis de skal danne grundlaget for store præ-trænede modeller. Men jeg tror, ​​det bliver en virkelig spændende epoke inden for videnskab, hvor vi samarbejder med kunstig intelligens i stedet for blot at udføre en opgave for os.

Tidsstempel:

Mere fra Fysik verden