Alt-üles ülalt alla: arvutusteadlane Amanda Barnard simulatsioonide ilust, masinõppest ja nende kahe ristumisviisist – füüsikamaailm

Alt-üles ülalt alla: arvutusteadlane Amanda Barnard simulatsioonide ilust, masinõppest ja nende kahe ristumisviisist – füüsikamaailm

Amanda Barnard
Liidese spetsialist Amanda Barnard on Austraalia riikliku ülikooli andmetöötluskooli asedirektor ja arvutusteaduste juht. (Viisakalt: Sitthixay Ditthavong/Canberra Times)

Alates superarvutite kasutamisest uut tüüpi materjalide kasutamiseks kuni masinõppemudelite väljaõppeni, et uurida keerulisi omadusi nanomõõtmes, Austraalia arvutusteadlane Amanda Barnard töötab andmetöötluse ja andmeteaduse liideses. Vanemprofessor aastal Austraalia riikliku ülikooli arvutikool, Barnard on ka direktori asetäitja ja arvutusteaduste juht. Tänapäeval kasutab ta füüsikaliste teaduste probleemide lahendamiseks mitmesuguseid arvutusmeetodeid, kuid Barnard alustas oma karjääri füüsikuna, saades 2003. aastal doktorikraadi teoreetilise kondenseeritud aine füüsika alal.

Pärast järgmise paari aasta möödumist ülikoolis järeldoktorina Argonne'i riikliku labori nanomõõtmeliste materjalide keskus USA-s hakkas ta laiendama oma uurimishuve, et hõlmata arvutusteaduse paljusid aspekte, sealhulgas masinõppe kasutamist nanotehnoloogias, materjaliteaduses, keemias ja meditsiinis.

Kaaslane mõlemast Austraalia Füüsika Instituut ja Kuninglik Keemia Selts, 2022. aastal määrati Barnard a Austraalia ordu liige. Ta on võitnud ka mitmeid auhindu, sealhulgas 2014. aasta Feynmani auhind nanotehnoloogias (teooria) ja 2019. aasta medal Australaasia molekulaarsete modelleerijate ühingult. Ta räägib Hamish Johnstoniga oma huvist rakendada masinõpet mitmesuguste probleemide lahendamisel ning ülikooli administreerimisega kaasnevatest väljakutsetest ja hüvedest.

Rääkige meile natuke sellest, millega te arvutiteadlasena tegelete?

Arvutusteadus hõlmab matemaatiliste mudelite kavandamist ja kasutamist, et analüüsida arvutuslikult nõudlikke probleeme paljudes teaduse ja tehnika valdkondades. See hõlmab edusamme arvutusinfrastruktuuris ja algoritmides, mis võimaldavad nende erinevate valdkondade teadlastel teha suuremahulisi arvutuskatseid. Teatud mõttes hõlmab arvutusteadus suure jõudlusega andmetöötluse uurimist, mitte ainult kõrgjõudlusega arvutit kasutades.

Veedame suurema osa ajast algoritmidele ja püüame välja mõelda, kuidas neid rakendada viisil, mis kasutab täiustatud riistvara kõige paremini ära; ja see riistvara muutub kogu aeg. See hõlmab tavapäraseid simulatsioone, mis põhinevad matemaatilistel mudelitel, mis on spetsiaalselt välja töötatud erinevates teadusvaldkondades, olgu see siis füüsika, keemia või kaugemalgi. Samuti kulutame palju aega, kasutades meetodeid alates masinõpe (ML) ja tehisintellekti (AI), millest enamiku töötasid välja arvutiteadlased, mistõttu on tegemist väga interdistsiplinaarse uurimistööga. See võimaldab kõigis neis erinevates teadusvaldkondades kasutada tervet hulka uusi lähenemisviise.

Masinõpe võimaldab meil taastada palju keerukust, mille oleme nende ilusate teooriate tuletamisel kaotanud

Simulatsioon sündis iga teadusvaldkonna teoreetilistest aspektidest, mis võimaldasid meil mõne sobiva abstraktsioonitasemega võrrandeid lahendada. Kuid kui me need teooriad välja töötasime, olid need probleemi peaaegu ülelihtsustatud, mida tehti kas matemaatilise elegantsi taotlemisel või lihtsalt praktilisuse huvides. ML võimaldab meil taastada palju keerukust, mille oleme nende ilusate teooriate tuletamisel kaotanud. Kuid kahjuks ei tööta kõik ML teadusega hästi ja seetõttu kulutavad arvutusteadlased palju aega, püüdes välja mõelda, kuidas rakendada neid algoritme, mida pole kunagi ette nähtud seda tüüpi andmekogumite jaoks kasutada, et ületada mõned probleemid, mis on liideses kogenud. Ja see on üks põnevaid valdkondi, mis mulle meeldib.

Alustasite oma karjääri füüsikuna. Mis sundis teid arvutusteaduse poole liikuma?

Füüsika on suurepärane lähtepunkt peaaegu kõige jaoks. Kuid ma olin alati teel arvutusteaduse poole, ilma et oleksin sellest aru saanud. Oma esimese uurimisprojekti ajal üliõpilasena kasutasin arvutusmeetodeid ja jäin kohe konksule. Mulle meeldis kodeerimine, alates koodi kirjutamisest kuni lõpptulemusteni, ja seega teadsin kohe, et superarvutid on määratud minu teaduslikuks instrumendiks. Põnev oli mõelda, mida saaks teha materjaliteadlane, kui saaks iga kord ideaalseid proove teha. Või mida saaks teha keemik, kui ta suudaks eemaldada kõik saasteained ja omada täiuslikke reaktsioone. Mida saaksime teha, kui saaksime uurida karmi või ohtlikku keskkonda, ilma et oleks oht kedagi vigastada? Ja mis veelgi olulisem, mis siis, kui saaksime teha kõiki neid asju üheaegselt, nõudmisel iga kord, kui proovime?

Superarvutite ilu seisneb selles, et need on ainsad vahendid, mis võimaldavad meil seda peaaegu täiuslikkust saavutada. Mind köidab kõige enam see, et ma ei saa mitte ainult reprodutseerida seda, mida mu kolleegid laboris teha saavad, vaid ka teha kõike, mida nad laboris teha ei saa. Nii et minu arvutusfüüsika oli algusest peale arvutis. Minu arvutuskeemia arenes seejärel materjalideks, materjalide informaatikaks ja nüüd peaaegu eranditult ML-ks. Kuid olen alati keskendunud meetoditele nendes valdkondades ja arvan, et füüsika alus võimaldab mul väga loovalt mõelda, kuidas ma kõikidele teistele valdkondadele arvutuslikult lähenen.

Kuidas masinõpe erineb klassikalisest arvutisimulatsioonist?

Suurem osa minu uurimistööst on praegu ML, ilmselt 80% sellest. Teen siiski mõningaid tavapäraseid simulatsioone, kuna need annavad mulle midagi väga erinevat. Simulatsioonid on põhimõtteliselt alt-üles lähenemisviis. Alustame sellest, et mõistame süsteemi või probleemi, käivitame simulatsiooni ja lõpuks saame mõned andmed. ML seevastu on ülalt-alla lähenemisviis. Alustame andmetega, käivitame mudeli ja seejärel mõistame paremini süsteemi või probleemi. Simulatsioon põhineb meie väljakujunenud teaduslike teooriate poolt määratud reeglitel, samas kui ML põhineb kogemustel ja ajalool. Simulatsioonid on sageli suures osas deterministlikud, kuigi on mõned näited stohhastilistest meetoditest, nagu Monte Carlo. ML on suures osas stohhastiline, kuigi on ka näiteid, mis on ka deterministlikud.

Simulatsioonide abil saan teha väga head ekstrapolatsiooni. Paljud simulatsioonide aluseks olevad teooriad võimaldavad meil uurida "konfiguratsiooniruumi" piirkondi (koordinaadid, mis määravad süsteemi kõik võimalikud olekud) või probleemi valdkondi, mille kohta meil pole andmeid ega teavet. Teisest küljest on ML väga hea kõigi lünkade interpoleerimisel ja täitmisel ning see on väga hea järelduste tegemiseks.

Andmevoo kontseptsioon

Tõepoolest, need kaks meetodit põhinevad väga erineval loogikal. Simulatsioon põhineb "kui-siis-muidu" loogikal, mis tähendab, et kui mul on teatud probleem või teatud tingimuste kogum, siis saan ma deterministliku vastuse või muidu jookseb see tõenäoliselt kokku, kui saad see vale. ML seevastu põhineb "hindamis-paranda-korda" loogikal, mis tähendab, et see annab alati vastuse. Seda vastust saab alati parandada, kuid see ei pruugi alati õige olla, nii et see on veel üks erinevus.

Simulatsioonid on interdistsiplinaarsed: neil on väga tihe seos valdkonna teadmistega ja need tuginevad inimese intelligentsusele. Teisest küljest on ML interdistsiplinaarne: kasutades väljaspool algset domeeni välja töötatud mudeleid, on see domeeniteadmiste suhtes agnostiline ja tugineb suuresti tehisintellektile. Seetõttu meeldib mulle neid kahte lähenemisviisi kombineerida.

Kas saaksite meile natuke rohkem rääkida, kuidas masinõpet oma uurimistöös kasutate?

Enne ML-i tulekut pidid teadlased üsna palju mõistma sisendite ja väljundite vahelisi seoseid. Enne selle lahendamist pidime mudeli struktuuri eelnevalt kindlaks määrama. See tähendas, et enne selle otsimist pidi meil vastusest aimu olema.

Saame välja töötada avaldise või võrrandi struktuuri ja seda samal ajal lahendada. See kiirendab teaduslikku meetodit ja on veel üks põhjus, miks mulle meeldib masinõpet kasutada

Kui kasutate ML-i, kasutavad masinad enda programmeerimiseks statistilisi tehnikaid ja ajaloolist teavet. See tähendab, et saame arendada avaldise või võrrandi struktuuri ja seda samal ajal lahendada. See kiirendab teaduslikku meetodit ja on veel üks põhjus, miks mulle meeldib seda kasutada.

Minu kasutatavad ML-i tehnikad on mitmekesised. ML-i on palju erinevaid maitseid ja tüüpe, nagu on palju erinevaid arvutusfüüsika või eksperimentaalfüüsika meetodeid. Kasutan järelevalveta õppimist, mis põhineb täielikult sisendmuutujatel ja mille eesmärk on "peidetud mustrite" väljatöötamine või representatiivsete andmete leidmine. See on kasulik nanoteaduse materjalide puhul, kui me pole katseid teinud, et ehk mõõta omadust, kuid teame üsna vähe sisendtingimustest, mille me materjali väljatöötamiseks kasutame.

Järelevalveta õppimine võib olla kasulik struktuurirühmade, mida nimetatakse klastriteks, leidmisel, millel on kõrgmõõtmelises ruumis sarnasusi, või puhtaid ja esinduslikke struktuure (arhetüüpe või prototüüpe), mis kirjeldavad andmekogumit tervikuna. Samuti saame andmeid teisendada, et kaardistada need madalama mõõtmega ruumiga ja paljastada rohkem sarnasusi, mis varem ei olnud ilmsed, sarnasel viisil, mida võiksime füüsikas muuta vastastikuseks ruumiks.

Samuti kasutan juhendatud ML-i, et leida seoseid ja trende, näiteks struktuuri-omaduste seoseid, mis on olulised materjalide ja nanoteaduse vallas. See hõlmab klassifitseerimist, kus meil on diskreetne silt. Oletame, et meil on juba erinevad nanoosakeste kategooriad ja nende omaduste põhjal tahame need automaatselt kas ühte või teise kategooriasse määrata ning veenduda, et saame need klassid lihtsalt sisendandmete põhjal eraldada.

Kasutan ka statistilist õpet ja pool-superviseeritud õpet. Statistiline õpe on eriti kasulik teaduses, kuigi seda veel laialdaselt ei kasutata. Peame seda põhjuslikuks järelduseks, mida meditsiinidiagnostikas palju kasutatakse, ja seda saab kasutada näiteks materjali loomise tõhusaks diagnoosimiseks, mitte ainult selle loomise põhjuseks.

Teie uurimisrühma kuuluvad väga erinevate teaduslike huvidega inimesed. Kas saate anda meile aimu mõnest asjast, mida nad õpivad?

Kui ma füüsikaga alustasin, ei osanud ma kunagi arvata, et mind ümbritseb nii hämmastav seltskond nutikaid inimesi erinevatest teadusvaldkondadest. Austraalia riikliku ülikooli arvutusteaduste klastrisse kuuluvad keskkonnateadlased, maateadlased, arvutusbioloogid ja bioinformaatikud. Samuti on teadlased, kes uurivad genoomikat, arvutuslikku neuroteadust, kvantkeemiat, materjaliteadust, plasmafüüsikat, astrofüüsikat, astronoomiat, inseneriteadusi ja – mina – nanotehnoloogiat. Nii et me oleme mitmekesine kamp.

Meie rühma kuuluvad Giuseppe Barca, kes töötab välja algoritme, mis on aluseks kogu maailmas kasutatavatele kvantkeemia tarkvarapakettidele. Tema uurimistöö keskendub sellele, kuidas saaksime kasutada uusi protsessoreid, näiteks kiirendeid, ja kuidas saaksime ümber mõelda, kuidas suuri molekule saab jagada ja killustada, et saaksime strateegiliselt kombineerida massiliselt paralleelseid töövooge. Samuti aitab ta meil superarvuteid tõhusamalt kasutada, mis säästab energiat. Ja viimased kaks aastat on ta hoidnud parima skaleeriva kvantkeemia algoritmi maailmarekordit.

Ka väikeses mastaabis – teaduse mõttes – on Minh Bui, kes on bioinformaatik, kes töötab uute statistiliste mudelite väljatöötamisega filogenoomikasüsteemide valdkonnas (multidistsiplinaarne valdkond, mis ühendab evolutsiooniuuringuid süsteemibioloogia ja ökoloogiaga, kasutades võrguteaduse meetodeid). Nende hulka kuuluvad jaotusmudelid, isomorfismi tundvad mudelid ja jaotuspuu mudelid. Selle rakendused hõlmavad fotosünteetiliste ensüümide või sügavate putukate fülogeneesi transkriptsiooniandmete alasid ning ta on uurinud vetikaid, aga ka baktereid ja viirusi, nagu HIV ja SARS-CoV-2 (mis põhjustab COVID-19).

Minh Bui

Skaala suuremas otsas on matemaatik Quanling Deng, mille uurimistöö keskendub matemaatilisele modelleerimisele ja simulatsioonile suuremahuliste meediumite jaoks, nagu ookeanid ja atmosfääri dünaamika, aga ka Antarktika jäätükid.

Parim osa on see, kui avastame, et probleem ühest domeenist on tegelikult teises juba lahendatud, ja veelgi parem, kui avastame, et probleem on mitmes valdkonnas kogenud, et saaksime ülilineaarselt skaleerida. See on suurepärane, kui ühel lahendusel on mitu mõju. Ja kui sageli leiaksite arvutusliku neuroteadlase töötamas koos plasmafüüsikuga? Tavaliselt seda lihtsalt ei juhtu.

Lisaks uurimisrühmaga töötamisele olete ka Austraalia riikliku ülikooli arvutikooli asedirektor. Kas saate meile sellest rollist natuke rääkida?

See on suures osas administratiivne roll. Nii et lisaks sellele, et töötan suure hulga arvutiteadlastega andmeteaduse, keelte, tarkvaraarenduse, küberturvalisuse, arvutinägemise, robootika ja muus muus valdkonnas, saan luua ka võimalusi uutele inimestele kooliga liitumiseks ja õppimiseks. parim versioon endast. Suur osa minu tööst juhirollis on seotud inimestega. See hõlmab ka värbamist, meie ametiaja programmi ja meie professionaalse arengu programmi eest hoolitsemist. Mul on olnud ka võimalus käivitada uusi programme valdkondades, mis minu arvates vajavad tähelepanu.

Üks selline näide oli ülemaailmse COVID-pandeemia ajal. Paljud meist suleti ega pääsenud oma laboritele juurde, mis pani meid mõtlema, mida saaksime teha. Kasutasin võimalust töötada välja programm nimega the juubeli ühine stipendium, mis toetab teadlasi, kes töötavad arvutiteaduse ja mõne muu valdkonna vahelises liideses, kus nad lahendavad oma valdkonna suuri väljakutseid, kuid kasutavad neid teadmisi ka uut tüüpi arvutiteaduse teavitamiseks. Programm toetas 2021. aastal viit sellist teadlast erinevatest valdkondadest.

Olen ka juhatuse esimees Teerajajate naiste programm, millel on stipendiumid, loengukursused ja stipendiumid, et toetada naisi arvutiga alustades ja tagada, et nad on edukad kogu oma karjääri jooksul meie juures.

Ja loomulikult on üks minu muudest ülesannetest asedirektorina hoolitseda meie kooli arvutusseadmete eest. Otsin võimalusi, kuidas saaksime oma ressursse mitmekesistada, et tulla üle rasketest aegadest, näiteks COVID-i ajal, mil me ei saanud uusi seadmeid tellida. Samuti uurin, kuidas saaksime olla energiatõhusamad, sest andmetöötlus kasutab tohutult energiat.

See peab olema väga põnev aeg inimestele, kes tegelevad teadusuuringutega ML-is, kuna tehnoloogia leiab nii palju erinevaid kasutusvõimalusi. Milliseid uusi ML-i rakendusi ootate oma uurimistöös kõige rohkem?

Tõenäoliselt mõned neist, millest olete juba kuulnud, nimelt AI. Kuigi tehisintellektiga kaasnevad riskid, on seal ka tohutud võimalused ja ma arvan, et generatiivne tehisintellekt on lähiaastatel teaduse jaoks eriti oluline – eeldusel, et suudame mõnest probleemist üle saada, kui see „hallutsineerib” [kui AI-süsteem , näiteks suur keelemudel, genereerib valeteavet, mis põhineb kas koolitusandmete kogumil või kontekstuaalsel loogikal või nende mõlema kombinatsioonil].

Olenemata sellest, millises teadusvaldkonnas me tegutseme, piirab meid aeg, raha, ressursid ja seadmed, millele meil on juurdepääs. See tähendab, et me rikume oma teadust, et nende piirangutega kohaneda, selle asemel, et keskenduda nende ületamisele

Kuid olenemata sellest, millises teadusvaldkonnas me tegutseme, olgu see siis arvutuslik või eksperimentaalne, kannatame me kõik mitmete piirangute all. Oleme piiratud aja, raha, ressursside ja varustusega, millele meil on juurdepääs. See tähendab, et me rikume oma teadust, et nende piirangutega kohaneda, selle asemel, et keskenduda nende ületamisele. Usun tõesti, et infrastruktuur ei tohiks dikteerida, mida me teeme, see peaks olema vastupidi.

Ma arvan, et generatiivne tehisintellekt on jõudnud õigel ajal, et võimaldada meil mõnest neist probleemidest lõpuks üle saada, sest sellel on palju potentsiaali täita lünki ja anda meile aimu, mida oleksime saanud teha, kui meil oleks kõik olemas. vajalikud vahendid.

Tõepoolest, tehisintellekt võib võimaldada meil saada rohkem, tehes vähem ja vältida mõningaid lõkse, nagu valiku kallutatus. See on tõesti suur probleem ML-i rakendamisel teaduse andmekogumitele. Peame tegema palju rohkem tööd tagamaks, et generatiivsed meetodid annaksid sisukat teadust, mitte hallutsinatsioone. See on eriti oluline, kui need moodustavad aluse suurte eelkoolitatud mudelite jaoks. Kuid ma arvan, et see saab olema tõeliselt põnev teaduse ajastu, kus me teeme koostööd tehisintellektiga, mitte ei täida lihtsalt meie jaoks ülesannet.

Ajatempel:

Veel alates Füüsika maailm