Alulról fentről lefelé: Amanda Barnard számítástechnikai tudós a szimulációk szépségéről, a gépi tanulásról és a kettő metszéspontjáról – Fizika világa

Alulról fentről lefelé: Amanda Barnard számítástechnikai tudós a szimulációk szépségéről, a gépi tanulásról és a kettő metszéspontjáról – Fizika világa

Amanda Barnard
Interfész specialista Amanda Barnard igazgatóhelyettes és számítástudományi vezető az Ausztrál Nemzeti Egyetem Számítástechnikai Iskolájában. (jóvoltából: Sitthixay Ditthavong/Canberra Times)

A szuperszámítógépek használatától az új típusú anyagok használatához a gépi tanulási modellek képzéséig a nanoméretű komplex tulajdonságok tanulmányozására, Amanda Barnard ausztrál számítástechnikai tudós a számítástechnika és az adattudomány határfelületén dolgozik. A vezető professzor a Számítástechnikai Iskola az Ausztrál Nemzeti Egyetemen, Barnard igazgatóhelyettes és számítástudományi vezető is. Manapság számos számítási módszert használ a fizikai tudományok problémáinak megoldására, de Barnard fizikusként kezdte pályafutását, és 2003-ban szerzett PhD fokozatot elméleti sűrített anyag fizikából.

Miután a következő néhány évet posztdoktorként töltötte a Nanoméretű anyagokkal foglalkozó központ az Argonne Nemzeti Laboratóriumban az Egyesült Államokban elkezdte kiterjeszteni kutatási érdeklődését a számítástechnika számos aspektusára, beleértve a gépi tanulás nanotechnológiában, anyagtudományban, kémiában és gyógyászatban való alkalmazását.

Egy fickó mind a Ausztrál Fizikai Intézet és a Királyi Kémiai Társaság, 2022-ben Barnardot nevezték ki a Az Ausztrál Lovagrend tagja. Számos díjat is nyert, köztük a 2014-es Feynman-díj nanotechnológiában (Elmélet) és a 2019-es érem az Ausztráliai Molekuláris Modellezők Szövetségétől. Hamish Johnstonnal beszél arról, hogy érdeklődik a gépi tanulás alkalmazása iránt számos probléma megoldásában, valamint az egyetemi adminisztráció kihívásairól és előnyeiről.

Mesélne egy kicsit arról, hogy mit csinál számítógépes tudósként?

A számítástudomány magában foglalja a matematikai modellek tervezését és használatát a tudomány és a mérnöki tudomány számos területén a számításigényes problémák elemzésére. Ez magában foglalja a számítási infrastruktúra és az algoritmusok fejlődését, amelyek lehetővé teszik a különböző területek kutatói számára, hogy nagyszabású számítási kísérleteket hajtsanak végre. Bizonyos értelemben a számítástechnika magában foglalja a nagy teljesítményű számítástechnika kutatását, és nem csak egy nagy teljesítményű számítógépet használó kutatást.

Időnk nagy részét algoritmusokkal töltjük, és megpróbáljuk kitalálni, hogyan valósítsuk meg azokat úgy, hogy a legjobban kihasználjuk a fejlett hardvert; és ez a hardver folyamatosan változik. Ez magában foglalja a speciálisan különböző tudományterületeken kifejlesztett matematikai modelleken alapuló hagyományos szimulációkat, legyen szó fizikáról, kémiáról vagy azon túl. Sok időt töltünk módszerekkel is gépi tanulás (ML) és mesterséges intelligencia (AI), amelyek többségét informatikusok fejlesztették ki, így ez nagyon interdiszciplináris kutatás. Ez lehetővé teszi egy csomó új megközelítés alkalmazását ezeken a különböző tudományos területeken.

A gépi tanulás lehetővé teszi számunkra, hogy újra megragadjuk azt a komplexitást, amelyet elvesztettünk, amikor ezeket a gyönyörű elméleteket levezetjük.

A szimuláció az egyes tudományterületek elméleti vonatkozásaiból született, amelyek néhány kényelmes absztrakciós szint mellett lehetővé tették az egyenletek megoldását. Ám amikor ezeket az elméleteket kidolgoztuk, szinte túlzottan leegyszerűsítették a problémát, amit vagy a matematikai elegancia érdekében, vagy csak a gyakorlatiasság kedvéért tettek. Az ML lehetővé teszi számunkra, hogy újra megragadjuk azt a komplexitást, amelyet elvesztettünk, amikor ezeket a gyönyörű elméleteket levezetjük. Sajnos azonban nem minden ML működik jól a tudományban, ezért a számítástechnikai tudósok sok időt töltenek azzal, hogy kitalálják, hogyan alkalmazzák ezeket az algoritmusokat, amelyeket soha nem szántak az ilyen típusú adatkészletekhez használni, hogy megoldjanak bizonyos problémákat, amelyek felületen tapasztalt. És ez az egyik izgalmas terület, amit szeretek.

Pályafutását fizikusként kezdte. Mi késztetett arra, hogy a számítástudomány felé mozdulj?

A fizika remek kiindulópont gyakorlatilag bármihez. De mindig a számítástechnika felé haladtam anélkül, hogy észrevettem volna. Diákként végzett első kutatási projektem során számítástechnikai módszereket használtam, és azonnal elakadtam. Imádtam a kódolást, egészen a kód megírásától a végeredményig, így azonnal tudtam, hogy a szuperszámítógépek a tudományos műszereim lesznek. Izgalmas volt belegondolni, mit tehetne egy anyagtudós, ha minden alkalommal tökéletes mintákat tudna készíteni. Vagy mit tehetne egy vegyész, ha el tudná távolítani az összes szennyeződést, és tökéletes lenne a reakciója. Mit tehetnénk, ha zord vagy veszélyes környezetet fedezhetnénk fel anélkül, hogy bárki megsérülne? És ami még fontosabb, mi lenne, ha ezeket a dolgokat egyszerre, igény szerint megtehetnénk, minden alkalommal, amikor megpróbáljuk?

A szuperszámítógépek szépsége abban rejlik, hogy ők az egyetlen olyan eszköz, amely lehetővé teszi számunkra, hogy elérjük ezt a szinte tökéletességet. Engem leginkább az ragad meg, hogy nem csak azt tudom reprodukálni, amit a kollégáim a laborban meg tudnak csinálni, hanem azt is, amit ők a laborban nem. Tehát a kezdetektől fogva a számítógépes fizikám a számítógépen volt. A számítástechnikai kémiám ezután az anyagokig, az anyaginformatikáig, és ma már nagyjából kizárólag az ML-ig fejlődött. De mindig is az egyes területeken alkalmazott módszerekre összpontosítottam, és úgy gondolom, hogy a fizika alapjai lehetővé teszik számomra, hogy nagyon kreatívan gondolkodjak arról, hogyan közelítem meg ezeket a többi területet számítástechnikailag.

Miben különbözik a gépi tanulás a klasszikus számítógépes szimulációktól?

Kutatásaim nagy része ma már ML, valószínűleg 80%-a. Még mindig csinálok néhány hagyományos szimulációt, mivel ezek valami egészen mást adnak nekem. A szimulációk alapvetően alulról felfelé építkeznek. Egy rendszer vagy probléma megértésével kezdjük, lefuttatunk egy szimulációt, majd a végén kapunk néhány adatot. Ezzel szemben az ML felülről lefelé irányuló megközelítés. Kezdjük az adatokkal, lefuttatunk egy modellt, majd végül jobban megértjük a rendszert vagy a problémát. A szimuláció a megalapozott tudományos elméleteink által meghatározott szabályokon alapul, míg az ML tapasztalatokon és történelemen alapul. A szimulációk gyakran nagyrészt determinisztikusak, bár van néhány példa a sztochasztikus módszerekre, mint például a Monte Carlo. Az ML nagyrészt sztochasztikus, bár vannak olyan példák is, amelyek determinisztikusak is.

A szimulációkkal nagyon jó extrapolációt tudok végezni. A szimulációkat alátámasztó elméletek nagy része lehetővé teszi számunkra, hogy feltárjuk a „konfigurációs tér” területeit (a rendszer összes lehetséges állapotát meghatározó koordinátákat), vagy olyan problématerületeket, amelyekre vonatkozóan nincs adatunk vagy információnk. Másrészt az ML nagyon jó az interpolációban és a hiányosságok kitöltésében, és nagyon jó következtetésekre.

Adatfolyam koncepció

Valójában a két módszer nagyon eltérő logikán alapul. A szimuláció egy „ha-akkor-más” logikán alapul, ami azt jelenti, hogy ha van egy bizonyos problémám vagy egy bizonyos feltételrendszer, akkor determinisztikus választ fogok kapni, vagy számításilag valószínűleg összeomlik, ha megkapod. az rossz. Ezzel szemben az ML a „becslés-javítás-ismétlés” logikán alapul, ami azt jelenti, hogy mindig választ ad. Ez a válasz mindig javítható, de lehet, hogy nem mindig helyes, szóval ez egy másik különbség.

A szimulációk intradiszciplinárisak: nagyon szoros kapcsolatban állnak a területi tudással, és az emberi intelligenciára támaszkodnak. Másrészt az ML interdiszciplináris: az eredeti tartományon kívül kifejlesztett modelleket használva agnosztikus a tudásterülettel szemben, és erősen támaszkodik a mesterséges intelligenciára. Ezért szeretem kombinálni a két megközelítést.

Mondana egy kicsit többet arról, hogyan használja a gépi tanulást kutatásai során?

Az ML megjelenése előtt a tudósoknak nagyjából meg kellett érteniük a bemenetek és a kimenetek közötti kapcsolatokat. Előre meg kellett határoznunk a modell szerkezetét, mielőtt meg tudtuk volna oldani. Ez azt jelentette, hogy fogalmunk kell a válaszról, mielőtt kereshetnénk egyet.

Egy kifejezés vagy egyenlet szerkezetét kidolgozhatjuk és egyben megoldhatjuk is. Ez felgyorsítja a tudományos módszert, és ez egy másik ok, amiért szeretem a gépi tanulást használni

Amikor ML-t használ, a gépek statisztikai technikákat és történelmi információkat használnak, hogy alapvetően programozzák magukat. Ez azt jelenti, hogy egy kifejezés vagy egyenlet szerkezetét kidolgozhatjuk és egyben megoldhatjuk. Ez felgyorsítja a tudományos módszert, és ez egy másik ok, amiért szeretem használni.

Az általam használt ML technikák sokfélék. Az ML-nek nagyon sokféle íze és típusa létezik, csakúgy, mint a számítási fizika vagy a kísérleti fizika módszerei. Felügyelet nélküli tanulást használok, amely teljes mértékben bemeneti változókon alapul, és „rejtett minták” kialakítását vagy reprezentatív adatok keresését vizsgálja. Ez hasznos a nanotudományban használt anyagok esetében, amikor még nem végeztük el a kísérleteket egy tulajdonság mérésére, de elég keveset tudunk azokról a bemeneti feltételekről, amelyeket az anyag kifejlesztéséhez alkalmazunk.

A felügyelet nélküli tanulás hasznos lehet olyan struktúracsoportok, úgynevezett klaszterek megtalálásában, amelyek hasonlóságot mutatnak a nagy dimenziós térben, vagy olyan tiszta és reprezentatív struktúrákat (archetípusokat vagy prototípusokat), amelyek az adatkészlet egészét írják le. Átalakíthatjuk az adatokat is, hogy leképezzük őket egy alacsonyabb dimenziós térre, és több hasonlóságot tárjunk fel, amelyek korábban nem voltak nyilvánvalóak, hasonló módon, ahogyan a fizikában reciprok térré változtathatunk.

Felügyelt ML-t is használok olyan összefüggések és trendek felkutatására, mint például a szerkezet-tulajdonság összefüggések, amelyek fontosak az anyagokban és a nanotudományban. Ez magában foglalja az osztályozást is, ahol külön címkével rendelkezünk. Tegyük fel, hogy már vannak különböző kategóriájú nanorészecskék, és jellemzőik alapján szeretnénk automatikusan besorolni őket egyik vagy másik kategóriába, és gondoskodni kell arról, hogy ezeket az osztályokat egyszerűen el tudjuk különíteni pusztán a bemeneti adatok alapján.

Használok statisztikai tanulást és félig felügyelt tanulást is. A statisztikai tanulás különösen hasznos a tudományban, bár még nem használják széles körben. Ezt ok-okozati következtetésnek tekintjük, amelyet az orvosi diagnosztikában gyakran használnak, és ez felhasználható arra, hogy hatékonyan diagnosztizálják például egy anyag létrejöttének módját, nem pedig azt, hogy miért.

Kutatócsoportjában sokféle tudományos érdeklődési körrel rendelkező emberek vannak. Tudsz ízelítőt adni néhány dologról, amit tanulnak?

Amikor elkezdtem a fizikát, soha nem gondoltam volna, hogy ilyen csodálatos okos emberek vesznek körül különböző tudományos területekről. Az Ausztrál Nemzeti Egyetem számítástechnikai klaszterébe környezettudósok, földkutatók, számítástechnikai biológusok és bioinformatikusok tartoznak. Vannak kutatók, akik genomikát, számítógépes idegtudományt, kvantumkémiát, anyagtudományt, plazmafizikát, asztrofizikát, csillagászatot, mérnököt és – én – nanotechnológiát is tanulmányoznak. Szóval sokszínű csoport vagyunk.

Csoportunkba tartozik Giuseppe Barca, aki olyan algoritmusokat fejleszt, amelyek a világ minden táján használatos kvantumkémiai szoftvercsomagokat támasztják alá. Kutatásai arra irányulnak, hogyan tudjuk kihasználni az új processzorokat, például a gyorsítókat, és hogyan gondolhatjuk újra, hogyan lehet nagy molekulákat felosztani és fragmentálni, hogy stratégiailag kombinálhassuk a párhuzamos munkafolyamatokat. Ő is segít a szuperszámítógépek hatékonyabb használatában, amivel energiát takaríthatunk meg. Az elmúlt két évben pedig ő tartotta a világrekordot a legjobb skálázó kvantumkémiai algoritmusban.

Kis léptékben is – tudományos szempontból – az Minh Bui, aki bioinformatikus, aki új statisztikai modellek kidolgozásán dolgozik a filogenomikai rendszerek területén [olyan multidiszciplináris terület, amely az evolúciós kutatást rendszerbiológiával és ökológiával ötvözi a hálózattudomány módszereit használva]. Ide tartoznak a particionálási modellek, az izomorfizmus-tudatos modellek és az elosztási fa modellek. Ennek alkalmazásai közé tartoznak a fotoszintetikus enzimek vagy a mély rovarok filogenetikai transzkripciós adatai, és dolgozott algák, valamint baktériumok és vírusok, például HIV és SARS-CoV-2 (ami COVID-19-et okoz) kutatásával.

Minh Bui

A skála nagyobbik végén a matematikus Quanling Deng, amelynek kutatásai a matematikai modellezésre és szimulációra összpontosítanak nagyszabású médiákhoz, mint például az óceánok és a légkör dinamikája, valamint az antarktiszi jégtáblák.

A legjobb az egészben az, amikor rájövünk, hogy az egyik tartomány problémáját egy másikban már megoldották, és még jobb, ha felfedezünk egyet, amely több területen is tapasztalt, így szuperlineárisan skálázhatunk. Nagyszerű, ha egy megoldás több területre is hatással van. És milyen gyakran találna számítógépes idegtudóst egy plazmafizikus mellett? Egyszerűen nem történik meg általában.

Amellett, hogy a kutatócsoportjával dolgozik, Ön az Ausztrál Nemzeti Egyetem Számítástechnikai Karának igazgatóhelyettese is. Mesélnél egy kicsit erről a szerepről?

Ez nagyrészt adminisztratív szerepkör. Így amellett, hogy egy csodálatos informatikus csoporttal dolgozom az adattudományok, a nyelvek, a szoftverfejlesztés, a kiberbiztonság, a számítógépes látás, a robotika stb. alapterületein, lehetőséget teremtek új emberek számára, hogy csatlakozzanak az iskolához, és önmaguk legjobb verziója. A vezetői szerepkörben végzett munkám nagy része az emberekről szól. Ebbe beletartozik a toborzás, a pályafutási programunk gondozása és a szakmai fejlesztési programunk is. Lehetőségem nyílt néhány új program elindítására is olyan területeken, amelyekről úgy gondoltam, hogy figyelmet kell fordítani.

Az egyik ilyen példa a globális COVID-járvány idején volt. Sokunkat leállítottak, és nem tudtunk hozzáférni laborjainkhoz, ami miatt elgondolkodtunk, mit tehetünk. Megragadtam az alkalmat, hogy kidolgozzam a programot jubileumi közös ösztöndíj, amely a számítástechnika és egy másik tartomány közötti interfészen dolgozó kutatókat támogatja, ahol nagy kihívásokat oldanak meg saját területükön, de ezen tartományi ismereteket is felhasználják az informatika új típusainak megismertetésére. A program 2021-ben öt ilyen kutatót támogatott különböző területeken.

Én is vagyok az elnöke Úttörő Nők Program, amely ösztöndíjakat, előadásokat és ösztöndíjakat kínál, hogy támogassa a nőket a számítástechnika megkezdésében, és biztosítsa, hogy sikeresek legyenek nálunk a karrierjük során.

És természetesen az egyik másik feladatom igazgatóhelyettesként az iskolánk számítástechnikai létesítményeinek gondozása. Olyan módszereket keresek, amelyek segítségével diverzifikálhatjuk erőforrásainkat, hogy átvészeljük a nehéz időszakokat, például a COVID idején, amikor nem tudtunk új felszerelést rendelni. Azt is megvizsgálom, hogyan lehetünk energiahatékonyabbak, mert a számítástechnika óriási mennyiségű energiát használ fel.

Ez egy nagyon izgalmas időszak az ML-ben kutatók számára, mivel a technológia nagyon sokféle felhasználási területet talál. Az ML mely új alkalmazásait várja a legjobban kutatásai során?

Nos, valószínűleg azok közül, amelyekről már hallottál, nevezetesen az AI. Bár a mesterséges intelligencia kockázatokat rejt magában, óriási lehetőségek is vannak, és úgy gondolom, hogy a generatív mesterséges intelligencia különösen fontos lesz az elkövetkező években a tudomány számára – feltéve, hogy sikerül legyőznünk néhány problémát azzal, hogy „hallucinál” [amikor egy mesterséges intelligencia rendszer , mint például egy nagy nyelvi modell, hamis információkat generál, vagy egy betanítási adathalmaz, vagy kontextuális logika, vagy ezek kombinációja alapján].

Nem számít, hogy a tudomány melyik területén járunk, korlátoz minket a rendelkezésünkre álló idő, a pénz, az erőforrások és a felszerelés, amelyhez hozzáférhetünk. Ez azt jelenti, hogy kompromittáljuk a tudományunkat, hogy megfeleljünk ezeknek a korlátoknak, ahelyett, hogy leküzdjük őket

De nem számít, hogy a tudomány melyik területén járunk, legyen az számítástechnikai vagy kísérleti, mindannyian számos korlátozástól szenvedünk. Korlátozunk a rendelkezésünkre álló idő, pénz, erőforrások és felszerelések miatt, amelyekhez hozzáférünk. Ez azt jelenti, hogy kompromittáljuk a tudományunkat, hogy megfeleljünk ezeknek a korlátoknak, ahelyett, hogy leküzdjük őket. Őszintén hiszem, hogy nem az infrastruktúrának kell megszabnia, hogy mit csinálunk, hanem fordítva.

Úgy gondolom, hogy a generatív mesterséges intelligencia a megfelelő időben jött el, hogy lehetővé tegye számunkra, hogy végre leküzdjük ezeket a problémákat, mert rengeteg lehetőség rejlik benne a hiányosságok pótlására, és ötletet ad nekünk arról, hogy milyen tudományt csinálhattunk volna, ha mindennel rendelkezünk. a szükséges erőforrásokat.

Valójában a mesterséges intelligencia lehetővé tehetné, hogy többet érjünk el, ha kevesebbet teszünk, és elkerüljük az olyan buktatókat, mint a kiválasztási torzítás. Ez valóban nagy probléma, amikor az ML-t tudományos adatkészletekre alkalmazzuk. Sokkal többet kell tennünk annak érdekében, hogy a generatív módszerek értelmes tudományt hozzanak létre, ne hallucinációkat. Ez különösen fontos, ha nagyméretű, előre betanított modellek alapját képezik. De úgy gondolom, hogy ez a tudomány egy igazán izgalmas korszaka lesz, ahol az AI-val együttműködve dolgozunk, ahelyett, hogy csak egy feladatot látna el helyettünk.

Időbélyeg:

Még több Fizika Világa