Løfter og faldgruber Opsummering – del 1 » CCC-blog

Løfter og faldgruber Opsummering – del 1 » CCC-blog

CCC støttede tre videnskabelige sessioner på dette års AAAS årlige konference, og hvis du ikke var i stand til at deltage personligt, vil vi opsummere hver session. I denne uge vil vi opsummere højdepunkterne fra sessionen, "Generativ AI i videnskab: løfter og faldgruber." I første del vil vi opsummere introduktionen og præsentationen af ​​Dr. Rebecca Willett.

CCC's første AAAS-panel på årsmødet i 2024 fandt sted fredag ​​den 16. februar, konferencens anden dag. Panelet, modereret af CCC's egne Dr. Matthew Turk, præsident for Toyota Technological Institute i Chicago, var sammensat af eksperter, der anvender kunstig intelligens til en række videnskabelige områder. Dr. Rebecca Willett, professor i statistik og datalogi ved University of Chicago, fokuserede sin præsentation på, hvordan generative modeller kan bruges i videnskaben, og hvorfor hyldemodeller ikke er tilstrækkelige til at blive anvendt til videnskabelig forskning. Dr. Markus Buehler, professor i ingeniørvidenskab ved Massachusetts Institute of Technology, talte om generative modeller som anvendt på materialevidenskab, og Dr. Duncan Watson-Parris, assisterende professor ved Scripps Institution of Oceanography og Halıcıoğlu Data Science Institute ved UC San Diego, diskuteret, hvordan generative modeller kan bruges til at studere klimavidenskaberne.

Dr. Turk, en ekspert i computersyn og menneske-computer-interaktion, indledte panelet med at skelne Generativ AI fra al AI. "Kernen i generative AI-applikationer er generative modeller sammensat af dybe neurale netværk, der lærer strukturen af ​​deres omfangsrige træningsdata og derefter genererer nye data baseret på det, de har lært."

Dr. Turk skitserede også populære bekymringer med generative systemer, både på grund af fejl i selve systemerne, såsom dem, der citerer ikke-eksisterende juridiske briefs, og også på grund af deres brug af dårlige skuespillere til at generere falsk indhold, såsom falsk lyd eller video af politikere eller berømtheder.

"Specifikt," sagde Dr. Turk, "vil denne session fokusere på brugen af ​​generativ AI i videnskaben, både som en transformativ kraft i jagten på videnskab og også som en potentiel risiko for forstyrrelse."

Dr. Rebecca Willett indledte sin præsentation med at skitsere, hvordan generativ kunstig intelligens kan udnyttes til at understøtte den videnskabelige opdagelsesproces. Hun fokuserede først på, hvordan generative modeller fungerer. Billedet nedenfor fra Dr. Willetts slides viser, hvordan en sprogmodel, såsom ChatGPT, vurderer sandsynligheden for, at et ord forekommer, givet et tidligere sæt ord, og hvordan en billedgenereringsmodel, såsom DALL-E 2, genererer et billede fra en given prompt ved hjælp af sandsynlighedsfordelinger lært fra milliarder af billeder under træning.

Promises and Pitfalls Recap – Part One » CCC Blog PlatoBlockchain Data Intelligence. Vertical Search. Ai.

”Ved at bruge dette princip om sandsynlighedsfordelinger, som ligger til grund for alle generative modeller, kan disse modeller anvendes til måneskudideer i videnskaberne, såsom generering af mulige klimascenarier givet de nuværende klima- og potentielle politikker, eller generering af nye mikrobiomer med målrettet funktionalitet, som f.eks. en, der er særlig effektiv til at nedbryde plastik”, siger Dr. Willett.

Det er dog ikke tilstrækkeligt at bruge off-the-shelf generative værktøjer, såsom ChatGPT eller DALL-E 2 til videnskabelig forskning. Disse værktøjer blev skabt i en kontekst, der er meget forskellig fra den kontekst, som videnskabsmænd opererer i. En indlysende forskel mellem en off-the-shelf generativ model og en videnskabelig model er dataene. I videnskaben er der ofte meget få data at basere hypoteser på. Videnskabelige data kommer typisk ud af simuleringer og eksperimenter, som begge ofte er dyre og tidskrævende. På grund af disse begrænsninger er forskere nødt til omhyggeligt at vælge, hvilke eksperimenter der skal køres, og hvordan de kan maksimere effektiviteten og anvendeligheden af ​​disse systemer. Hyldemodeller lægger derimod langt mindre vægt på, hvor data kommer fra, frem for at maksimere mængden af ​​data, de kan operere på. I videnskaben er nøjagtigheden af ​​datasæt og deres oprindelse utrolig vigtig, fordi videnskabsmænd skal retfærdiggøre deres forskning med robust empirisk evidens.

"Derudover er vores mål i videnskaben anderledes end blot at producere ting, der er plausible", siger Dr. Willett. "Vi skal forstå, hvordan tingene fungerer uden for rækkevidden af, hvad vi har observeret indtil nu." Denne tilgang er i modstrid med generative AI-modeller, der behandler data som repræsentative for hele rækken af ​​sandsynlige observationer. Inkorporering af fysiske modeller og begrænsninger i generativ AI hjælper med at sikre, at den bedre repræsenterer fysiske fænomener.

Videnskabelige modeller skal også være i stand til at fange sjældne hændelser. "Vi kan roligt ignorere en masse sjældne hændelser, når vi træner ChatGPT, men i modsætning hertil er sjældne hændelser ofte det, vi bekymrer os mest om i videnskabssammenhæng, såsom i en klimamodel, der forudsiger sjældne vejrbegivenheder. Hvis vi bruger en generativ model, som undgår sjældne hændelser og for eksempel aldrig forudsiger en orkan, så vil denne model ikke være særlig brugbar i praksis."

En relateret udfordring er at udvikle generative AI-modeller for kaotiske processer, som er følsomme over for initiale forhold. Dr. Willett viste videoen nedenfor, som viser to partikler, der bevæger sig i rummet ifølge Lorenz 63-ligningerne. Disse ligninger er deterministiske, ikke tilfældige, men givet to lidt forskellige startsteder, kan du se, at de to partikler på ethvert givet tidspunkt kan være meget forskellige. At udvikle generative AI-modeller, der forudsiger det nøjagtige forløb af sådanne processer, som opstår inden for klimavidenskab, turbulens og netværksdynamik, er grundlæggende svært, men nye tilgange til generativ modellering kan sikre, at genererede processer deler vigtige statistiske karakteristika med reelle videnskabelige data.

[Indlejret indhold]

Endelig adresserede Dr. Willett det faktum, at videnskabelige data ofte spænder over et enormt udvalg af rumlige og tidsmæssige skalaer. For eksempel i materialevidenskab studerer forskere materialer på nanometerskala for monymer helt op til det store system, såsom et helt fly. "Denne række af skalaer er meget forskellig fra data, der bruges i hyldemodeller, og vi er nødt til at overveje, hvordan vi opbygger disse generative modeller på en måde, der præcist påvirker disse interaktioner mellem skalaer".

"Generative modeller er videnskabens fremtid", siger Dr. Willett, "men for at sikre, at de bliver brugt effektivt, er vi nødt til at gøre grundlæggende fremskridt inden for kunstig intelligens og gå videre end at tilslutte data til ChatGPT".

Tusind tak fordi du læste med, og hør venligst ind i morgen for at læse opsummeringen af ​​Dr. Markus Buehlers præsentation om Generativ AI i Mechanobiology.

Tidsstempel:

Mere fra CCC blog