Løfter og fallgruver Oppsummering – del én » CCC-blogg

Løfter og fallgruver Oppsummering – del én » CCC-blogg

CCC støttet tre vitenskapelige sesjoner på årets AAAS årlige konferanse, og i tilfelle du ikke var i stand til å delta personlig, vil vi oppsummere hver økt. Denne uken vil vi oppsummere høydepunktene fra økten, "Generativ AI i vitenskap: løfter og fallgruver." I del én vil vi oppsummere introduksjonen og presentasjonen av Dr. Rebecca Willett.

CCCs første AAAS-panel for årsmøtet i 2024 fant sted fredag ​​16. februar, den andre dagen av konferansen. Panelet, moderert av CCCs egne Dr. Matthew Turk, president for Toyota Technological Institute i Chicago, var sammensatt av eksperter som bruker kunstig intelligens på en rekke vitenskapelige felt. Dr. Rebecca Willett, professor i statistikk og informatikk ved University of Chicago, fokuserte presentasjonen sin på hvordan generative modeller kan brukes i vitenskapene og hvorfor hyllemodeller ikke er tilstrekkelige til å brukes på vitenskapelig forskning. Dr. Markus Buehler, professor i ingeniørfag ved Massachusetts Institute of Technology, snakket om generative modeller brukt på materialvitenskap, og Dr. Duncan Watson-Parris, assisterende professor ved Scripps Institution of Oceanography og Halıcıoğlu Data Science Institute ved UC San Diego, diskutert hvordan generative modeller kan brukes til å studere klimavitenskapene.

Dr. Turk, en ekspert på datasyn og interaksjon mellom mennesker og datamaskiner, begynte panelet med å skille Generativ AI fra all AI. "I kjernen av generative AI-applikasjoner er generative modeller sammensatt av dype nevrale nettverk som lærer strukturen til deres omfangsrike treningsdata og deretter genererer nye data basert på det de har lært."

Dr. Turk skisserte også populære bekymringer med generative systemer, både på grunn av feil i systemene selv, for eksempel de som siterer ikke-eksisterende juridiske briefer, og også på grunn av deres bruk av dårlige skuespillere for å generere falskt innhold, som for eksempel falsk lyd eller video av politikere eller kjendiser.

"Spesielt," sa Dr. Turk, "vil denne økten fokusere på bruken av generativ AI i vitenskapen, både som en transformativ kraft i jakten på vitenskap og også som en potensiell risiko for forstyrrelser."

Dr. Rebecca Willett begynte presentasjonen sin med å skissere hvordan generativ kunstig intelligens kan utnyttes for å støtte den vitenskapelige oppdagelsesprosessen. Hun fokuserte først på hvordan generative modeller fungerer. Bildet nedenfor fra Dr. Willetts lysbilder viser hvordan en språkmodell, for eksempel ChatGPT, vurderer sannsynligheten for at et ord skal forekomme, gitt et tidligere sett med ord, og hvordan en bildegenereringsmodell, for eksempel DALL-E 2, genererer et bilde fra en gitt forespørsel ved hjelp av sannsynlighetsfordelinger lært fra milliarder av bilder under trening.

Løfter og fallgruver Oppsummering – del én » CCC-blogg PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

«Ved å bruke dette prinsippet om sannsynlighetsfordelinger, som ligger til grunn for alle generative modeller, kan disse modellene brukes til månebildeideer i vitenskapene, for eksempel å generere mulige klimascenarier gitt dagens klima og potensielle retningslinjer, eller generere nye mikrobiomer med målrettet funksjonalitet, som f.eks. en som er spesielt effektiv til å bryte ned plast, sier Dr. Willett.

Det er imidlertid ikke tilstrekkelig å bruke hyllevaregenerative verktøy, som ChatGPT eller DALL-E 2 for vitenskapelig forskning. Disse verktøyene ble laget i en setting som er veldig forskjellig fra konteksten forskerne opererer i. En åpenbar forskjell mellom en generativ modell og en vitenskapelig modell er dataene. I vitenskapen er det ofte svært lite data å basere hypoteser på. Vitenskapelige data kommer vanligvis ut av simuleringer og eksperimenter, som begge ofte er dyre og tidkrevende. På grunn av disse begrensningene må forskere nøye velge hvilke eksperimenter de skal kjøre og hvordan de kan maksimere effektiviteten og nytten av disse systemene. Hyllemodeller, derimot, legger langt mindre vekt på hvor data kommer fra fremfor å maksimere mengden data de kan operere på. I vitenskapen er nøyaktigheten av datasett og deres opprinnelse utrolig viktig, fordi forskere må rettferdiggjøre forskningen sin med robuste empiriske bevis.

"I tillegg er målene våre i vitenskapen annerledes enn å bare produsere ting som er plausible", sier Dr. Willett. "Vi må forstå hvordan ting fungerer utenfor rekkevidden av det vi har observert så langt." Denne tilnærmingen er i strid med generative AI-modeller som behandler data som representative for hele spekteret av sannsynlige observasjoner. Å inkludere fysiske modeller og begrensninger i generativ AI bidrar til å sikre at den bedre vil representere fysiske fenomener.

Vitenskapelige modeller må også være i stand til å fange opp sjeldne hendelser. "Vi kan trygt ignorere mange sjeldne hendelser når vi trener ChatGPT, men i motsetning til dette er sjeldne hendelser ofte det vi bryr oss mest om i vitenskapssammenheng, for eksempel i en klimamodell som forutsier sjeldne værhendelser. Hvis vi bruker en generativ modell som unngår sjeldne hendelser og for eksempel aldri forutsier en orkan, vil denne modellen ikke være særlig nyttig i praksis.»

En relatert utfordring er å utvikle generative AI-modeller for kaotiske prosesser, som er følsomme for startforhold. Dr. Willett viste videoen nedenfor, som viser to partikler som beveger seg i rommet i henhold til Lorenz 63-ligningene. Disse ligningene er deterministiske, ikke tilfeldige, men gitt to litt forskjellige startplasseringer, kan du se at til enhver tid kan de to partiklene være på svært forskjellige steder. Å utvikle generative AI-modeller som forutsier det nøyaktige forløpet til slike prosesser, som oppstår innen klimavitenskap, turbulens og nettverksdynamikk, er grunnleggende vanskelig, men nye tilnærminger til generativ modellering kan sikre at genererte prosesser deler viktige statistiske egenskaper med ekte vitenskapelige data.

[Innebygd innhold]

Til slutt tok Dr. Willett opp det faktum at vitenskapelige data ofte spenner over et enormt spekter av romlige og tidsmessige skalaer. For eksempel innen materialvitenskap studerer forskere materialer på nanometerskala for monymer helt opp til storskalasystemet, for eksempel et helt fly. "Dette utvalget av skalaer er veldig forskjellig fra data som brukes i hyllemodeller, og vi må vurdere hvordan vi bygger opp disse generative modellene på en måte som nøyaktig påvirker disse interaksjonene mellom skalaer."

"Generative modeller er vitenskapens fremtid", sier Dr. Willett, "men for å sikre at de brukes effektivt, må vi gjøre grunnleggende fremskritt innen AI og gå lenger enn å koble data til ChatGPT".

Tusen takk for at du leste, og følg med i morgen for å lese oppsummeringen av Dr. Markus Buehlers presentasjon om Generative AI in Mechanobiology.

Tidstempel:

Mer fra CCC-bloggen