Hvordan bygge en GPT-3 for Science PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hvordan bygge en GPT-3 for vitenskap

Ønsker å lage et bilde av velociraptorer som jobber på en skyskraper, i stil med "Lunch Atop A Skyscraper" fra 1932? Bruk DALL-E. Ønsker å lage en imaginær standup-komedieshow av Peter Thiel, Elon Musk og Larry Page? Bruk GPT-3. Vil du ha en dyp forståelse av COVID-19-forskningen og svare på spørsmålene dine basert på bevis? Lær hvordan du gjør et boolsk søk, les vitenskapelige artikler og kanskje få en doktorgrad, fordi det ikke er noen generative AI-modeller som er trent på den enorme mengden av vitenskapelige forskningspublikasjoner. Hvis det var det, ville det være en av de enkleste fordelene å få evidensstøttede, klarspråklige svar på vitenskapelige spørsmål. Generativ AI for vitenskap kan bidra til å reversere nedbremsing av innovasjon innen vitenskap by gjør det enklere og billigere å finne nye ideer. Slike modeller kan også gi datastøttede advarsler om terapeutiske hypoteser som garantert vil mislykkes, motvekt menneskelig skjevhet og unngår milliarder dollar, tiår lange blindgater. Endelig kunne slike modeller bekjempe reproduserbarhetskrisen ved å kartlegge, veie og kontekstualisere forskningsresultater, og gi en score på pålitelighet.

Så hvorfor har vi ikke en DALL-E eller GPT-3 for vitenskap? Årsaken er at selv om vitenskapelig forskning er verdens mest verdifulle innhold, det er også verdens minst tilgjengelige og forståelige innhold. Jeg skal forklare hva som kreves for å låse opp vitenskapelige data i stor skala for å gjøre generativ AI for vitenskap mulig, og hvordan det vil forandre måten vi engasjerer oss i forskning. 

Hva gjør vitenskapelige forskningsdata utfordrende

Forskningspublikasjoner er noen av verdens viktigste depoter for innhold og informasjon som noen gang er laget. De knytter ideer og funn sammen på tvers av tid og disipliner, og er for alltid bevart av et nettverk av biblioteker. De støttes av bevis, analyser, ekspertinnsikt og statistiske sammenhenger. De er ekstremt verdifulle, men de er i stor grad skjult fra nettet og brukes svært ineffektivt. Nettet er fullt av søte, kosete kattevideoer, men stort sett blottet for banebrytende kreftforskning. Som et eksempel Web of Science er en av de mest omfattende indeksene for vitenskapelig kunnskap. Det har eksistert i flere tiår, men det er sannsynligvis noe de fleste lesere aldri har hørt om, enn si interaksjon med. De fleste av oss har ikke tilgang til forskningsartikler, og selv når vi gjør det, er de tette, vanskelige å forstå og pakket som en PDF - et format designet for utskrift, ikke for nettet.

Fordi vitenskapelige artikler ikke er lett tilgjengelige, kan vi ikke enkelt bruke dataene til å trene generative modeller som GPT-3 eller DALL-E. Kan du tenk om en forsker kunne foreslå et eksperiment og en AI-modell umiddelbart kunne fortelle dem om det hadde blitt gjort før (og enda bedre, gi dem resultatet)? Så, når de har data fra et nytt eksperiment, kan AI foreslå et oppfølgingseksperiment basert på resultatet. Til slutt, forestill deg tiden som kan spares hvis forskeren kunne laste opp resultatene sine og AI-modellen kunne skrive det resulterende manuskriptet for dem. Det nærmeste vi noen gang har kommet en DALL-E av vitenskap er Google Scholar, men det er ikke en bærekraftig eller skalerbar løsning. IBM Watson satte seg også for å oppnå mye av det jeg beskriver her, men det meste av arbeidet kom i forkant av nyere fremskritt innen store språkmodeller og brukte ikke passende eller tilstrekkelige data for å matche markedsføringshypen.

For den typen verdiopplåsing jeg beskriver, trenger vi langsiktige investeringer, engasjement og visjon. Som foreslått nylig in Future, må vi behandle vitenskapelige publikasjoner som substrater som skal kombineres og analyseres i skala. Når vi fjerner barrierene, vil vi kunne bruke vitenskap til å mate datahungrige generative AI-modeller. Disse modellene har et enormt potensial til å akselerere vitenskapen og øke vitenskapelig kompetanse, for eksempel gjennom å trene dem til å generere nye vitenskapelige ideer, hjelpe forskere med å administrere og navigere i den enorme vitenskapelige litteraturen, hjelpe til med å identifisere feil eller til og med forfalsket forskning, og syntetisere og oversette komplekse forskningsresultater til vanlig menneskelig tale.

Hvordan får vi en DALL-E eller GPT-3 for vitenskap?

Hvis du er i teknologi, viser en venn utdata fra generative AI-modeller som DALL-E or GPT-3 er som å vise dem magi. Disse verktøyene representerer neste generasjon av nettet. De stammer fra syntesen av enorme mengder informasjon, utover en enkel kobling, for å lage verktøy med generativ kapasitet. Så hvordan kan vi skape en tilsvarende magisk opplevelse i vitenskapen, der hvem som helst kan stille et spørsmål til den vitenskapelige litteraturen på et klart språk og få et forståelig svar støttet av bevis? Hvordan kan vi hjelpe forskere med å lage, utvikle, foredle og teste hypotesene deres? Hvordan kan vi potensielt unngå å kaste bort milliarder av dollar på sviktende hypoteser i Alzheimers forskning og feilaktige sammenhenger mellom genetikk og depresjon

Løsningene på disse spørsmålene kan høres ut som science fiction, men det er bevis på at vi kan gjøre fantastiske og utenkelige ting når vitenskapelig arbeid brukes til mer enn bare summen av delene. Faktisk, ved å bruke nesten 200,000 XNUMX proteinstrukturer i Proteindatabank har gitt AlphaFold evnen å forutsi proteinstrukturer nøyaktig, noe som nettopp ble gjort for hvert protein som noen gang er dokumentert (over 200 millioner!). Å utnytte forskningsartikler på en måte som ligner på proteinstrukturer vil være et naturlig neste skritt. 

Dekomponer papirer til deres minimale komponenter

Forskningsartikler er fulle av verdifull informasjon, inkludert figurer, diagrammer, statistiske sammenhenger og referanser til andre artikler. Å bryte dem ned i ulike komponenter og bruke dem i stor skala kan hjelpe oss med å trene maskiner for ulike typer vitenskapsrelaterte jobber, forespørsler eller forespørsler. Enkle spørsmål kan besvares med opplæring på én komponenttype, men mer komplekse spørsmål eller spørsmål vil kreve inkorporering av flere komponenttyper, og en forståelse av deres forhold til hverandre.  

Noen eksempler på komplekse potensielle spørsmål er:

"Fortell meg hvorfor denne hypotesen er feil"
"Fortell meg hvorfor behandlingsideen min ikke fungerer"
"Generer en ny behandlingsidé"
"Hvilke bevis er det for å støtte sosialpolitikk X?"
"Hvem har publisert den mest pålitelige forskningen på dette feltet?"
"Skriv meg en vitenskapelig artikkel basert på dataene mine"

Noen grupper gjør fremskritt med denne visjonen. For eksempel, Fremkalle bruker GPT-3 på millioner av papirtitler og sammendrag for å hjelpe til med å svare på forskernes spørsmål - omtrent som Alexa, men for vitenskap. System trekker ut statistiske relasjoner mellom enheter som viser hvordan ulike konsepter og enheter henger sammen. primer fokuserer ikke på forskningsartikler i seg selv, men det fungerer med arXiv og gir et dashbord med informasjon som brukes av selskaper og myndigheter for å syntetisere og forstå store mengder data fra mange kilder. 

Få tilgang til alle komponentene

Dessverre er disse gruppene først og fremst avhengige av kun titler og sammendrag, ikke fulltekstene, siden omtrent fem av seks artikler ikke er fritt eller lett tilgjengelige. For gruppene som Web of Science og Google som har dataene eller papirene, er deres lisenser og bruksomfang begrenset eller udefinert. Når det gjelder Google, er det uklart hvorfor det ikke har vært noen offentlig annonsert innsats for å trene AI-modeller på fulltekstvitenskapelig forskning i Google Scholar. Utrolig nok endret ikke dette seg engang midt i COVID-19-pandemien, som brakte verden i stå. Google AI-teamet trappet opp, og utviklet en måte for publikum å spørre om COVID-19. Men - og her er kickeren - de gjorde det ved å bruke bare åpen tilgangsartikler fra PubMed, ikke Google Scholar. 

Spørsmålet om å få tilgang til papirer og bruke dem til mer enn bare å lese dem én om gangen er noe grupper har tatt til orde for i flere tiår. Jeg har personlig jobbet med det i nesten et tiår selv, og lansert en publiseringsplattform med åpen tilgang kalt Vinneren i løpet av det siste året av doktorgraden min, og jobber deretter med å bygge opp fremtidens artikkel ved en annen oppstart kalt Authorea. Selv om ingen av disse initiativene fungerte helt slik jeg ønsket at de skulle, førte de meg til mitt nåværende arbeid på scite, som i det minste delvis har løst tilgangsproblemet ved å jobbe direkte med utgivere. 

Koble sammen komponentene og definer relasjoner

Målet vårt er scite er å introdusere neste generasjon sitater – kalt Smart Citations – som viser hvordan og hvorfor enhver artikkel, forsker, tidsskrift eller emne har blitt sitert og mer generelt diskutert i litteraturen. Ved å samarbeide med utgivere trekker vi ut setningene direkte fra fulltekstartikler der de bruker referansene sine i teksten. Disse setningene gir et kvalitativt innblikk i hvordan artikler ble sitert av nyere arbeid. Det er litt som Rotten Tomatoes for forskning.

Dette krever tilgang til fulltekstartikler, og samarbeid med utgivere, slik at vi kan bruke maskinlæring til å trekke ut og analysere sitatutsagn i stor skala. Fordi det var nok Open Access-artikler til å komme i gang, var vi i stand til å bygge ut proof of concept, og en etter en demonstrerte vi for utgivere den økte oppdagbarheten til artikler indeksert i systemet vårt og ga dem et system for å vise bedre beregninger for mer ansvarlig forskningsvurdering. Det vi så som ekspertuttalelser, så de på som forhåndsvisninger av artiklene deres. Utgivere har nå signert massevis og vi har indeksert over 1.1 milliarder smarte sitater fra mer enn halvparten av alle publiserte artikler.

Bruk relasjonsdata for å trene AI-modeller

Komponentene og relasjonene hentet fra artikler kan brukes til å trene nye store språkmodeller for forskning. GPT-3, selv om det er veldig kraftig, ble ikke bygget for å fungere på vitenskap og svarer dårlig på spørsmål du kan se på SAT. Da GPT-2 (en tidligere versjon av GPT-3) var tilpasset ved å trene den på millioner av forskningsartikler, fungerte det bedre enn GPT-2 alene på spesifikke kunnskapsoppgaver. Dette fremhever at dataene som brukes til å trene modellene er ekstremt viktige. 

 Noen grupper har nylig brukte GPT-3 til å skrive akademiske oppgaver, og selv om dette er imponerende, kan fakta eller argumenter de kan påstå å vise være veldig feil. Hvis modellen ikke kan få enkle spørsmål i SAT-stil riktig, kan vi stole på at den skriver en fullstendig oppgave? SCIgen, som er nesten 3 år før GPT-20, viste at det er relativt enkelt å generere papirer som ser ekte ut. Systemet deres, selv om det var mye enklere, genererte papirer som var det tatt opp på ulike konferanser. Vi trenger en modell som ikke bare ser vitenskapelig ut, men som er vitenskapelig, og som krever et system for å verifisere påstander for maskiner og mennesker. Meta introduserte nylig en system for å bekrefte Wikipedia-siteringer, noe noen forlag har vokalt skulle ønske de hadde for vitenskapelige publikasjoner.

Nåværende fremgang

Igjen, en nøkkelblokkering for å få dette systemet til å realiseres er mangel på tilgang til papirene og ressursene for å lage det. Hvor papirer eller informasjon blir tilgjengelig for bruk i stor skala, ser vi verktøy og nye modeller blomstrer. Google Patent-teamet brukte 100 millioner patenter for å trene et system for hjelp med patentanalyse, faktisk en GooglePatentBERT. Andre har introdusert modeller som BioBERT og SciBERT, og til tross for at de kun har blitt trent på omtrent 1 % av vitenskapelige tekster i bare spesifikke fagdomener, er de imponerende på vitenskapelige oppgaver, inkludert vårt siteringsklassifiseringssystem på scite. 

Mer nylig, a ScholarBERT modell har blitt utgitt, som effektivt bruker all vitenskapelig litteratur for å trene BERT. De overvinner tilgangsproblemet, men er spesielt mor på hvordan, ganske enkelt understreker bruken deres for å være "ikke-konsumptiv." Denne brukssaken kan åpne dørene for andre bruker artikler uten uttrykkelig tillatelse fra utgivere og kan være et viktig skritt i å skape en DALL-E av vitenskap. Overraskende nok gjorde imidlertid ScholarBERT det dårligere med ulike spesialiserte kunnskapsoppgaver enn mindre naturvitenskapelige språkmodeller som SciBERT. 

Viktigere er at modeller i BERT-stil er mye mindre skala enn de store språkmodellene som GPT-3, og de tillater ikke den samme typen generiske spørsmål og læring i kontekst som har drevet mye av GPT-3-hypen. Spørsmålet gjenstår: hva om vi brukte de samme dataene fra ScholarBERT for å trene opp en oppskalert generativ modell som GPT-3? Hva om vi på en eller annen måte kunne vise hvor svarene fra maskinen ble hentet, kanskje knyttet dem direkte til litteraturen (som Smart Citations)?

Hvorfor nå?

Heldigvis blir papirene mer åpne og maskinene blir kraftigere. Vi kan nå begynne å bruke dataene i papirer og tilknyttede depoter for å trene maskiner til å svare på spørsmål og syntetisere nye ideer basert på forskning. Dette kan være transformerende for helsevesen, politikk, teknologi og alt rundt oss. Tenk deg, hvis vi ikke søkte bare etter dokumenttitler, men spesifikt etter svar, hvordan det ville påvirke forskning og arbeidsflyter på tvers av alle disipliner. 

 Å frigjøre verdens vitenskapelige kunnskap fra de to barrierene for tilgjengelighet og forståelighet vil bidra til å drive overgangen fra et nett fokusert på klikk, visninger, likes og oppmerksomhet til et nett fokusert på bevis, data og sannhet. Pharma er tydelig motivert til å bringe dette ut i livet, derav det økende antallet startups som identifiserer potensielle narkotikamål ved bruk av AI – men jeg tror at publikum, myndigheter og alle som bruker Google kan være villige til å gi avkall på gratis søk i et forsøk på tillit og tid – sparing. Verden trenger desperat et slikt system, og den trenger det raskt. 


 

 

Lagt ut 18. august 2022

Teknologi, innovasjon og fremtiden, som fortalt av de som bygger den.

Takk for at du registrerte deg.

Sjekk innboksen din for et velkomstbrev.

Tidstempel:

Mer fra Andreessen Horowitz