Sådan bygger du en GPT-3 til Science PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Sådan bygger du en GPT-3 til videnskab

Ønsker at skabe et billede af velociraptorer arbejder på en skyskraber i stil med "Lunch Atop A Skyscraper" fra 1932? Brug DALL-E. Ønsker at skabe en imaginær standup comedy show af Peter Thiel, Elon Musk og Larry Page? Brug GPT-3. Vil du dybt forstå COVID-19-forskning og besvare dine spørgsmål baseret på beviser? Lær, hvordan du laver en boolsk søgning, læser videnskabelige artikler og får måske en ph.d., fordi der ikke er nogen generative AI-modeller, der er trænet i den store mængde videnskabelige forskningspublikationer. Hvis der var, ville det være blandt de enkleste fordele at få evidensunderbyggede, almindelige svar på videnskabelige spørgsmål. Generativ AI til videnskab kunne hjælpe med at vende situationen opbremsning af innovation inden for videnskab by gør det lettere , billigere at finde nye ideer. Sådanne modeller kunne også give data-understøttede advarsler om terapeutiske hypoteser, der med sikkerhed vil mislykkes, opveje menneskelig skævhed og undgå milliarder dollars, årtier lange blindgyder. Endelig kunne sådanne modeller bekæmpe reproducerbarhedskrisen ved at kortlægge, veje og kontekstualisere forskningsresultater, hvilket giver en score på troværdighed.

Så hvorfor har vi ikke en DALL-E eller GPT-3 til videnskab? Årsagen er, at selvom videnskabelig forskning er verdens mest værdifulde indhold, det er også verdens mindst tilgængelige og forståelige indhold. Jeg vil forklare, hvad det ville tage at låse op for videnskabelige data i stor skala for at gøre generativ AI for videnskab mulig, og hvordan det ville ændre den måde, vi engagerer os i forskning på. 

Hvad gør videnskabelige forskningsdata udfordrende

Forskningspublikationer er nogle af verdens vigtigste depoter for indhold og information, der nogensinde er skabt. De binder ideer og fund sammen på tværs af tid og discipliner og er for evigt bevaret af et netværk af biblioteker. De understøttes af evidens, analyser, ekspertindsigt og statistiske sammenhænge. De er ekstremt værdifulde, men alligevel er de stort set skjult fra nettet og bruges meget ineffektivt. Nettet er fyldt med søde, nuttede kattevideoer, men stort set blottet for banebrydende kræftforskning. Som et eksempel er Web of Science er et af de mest omfattende indekser for videnskabelig viden. Det har eksisteret i årtier, men det er nok noget, de fleste læsere aldrig har hørt om, endsige interageret med. De fleste af os har ikke adgang til forskningsartikler, og selv når vi gør det, er de tætte, svære at forstå og pakket som en PDF - et format designet til udskrivning, ikke til internettet.

Fordi videnskabelige artikler ikke er let tilgængelige, kan vi ikke nemt bruge dataene til at træne generative modeller som GPT-3 eller DALL-E. Kan du tænk, hvis en forsker kunne foreslå et eksperiment, og en AI-model øjeblikkeligt kunne fortælle dem, om det var blevet gjort før (og endnu bedre, give dem resultatet)? Så, når de har data fra et nyt eksperiment, kunne AI foreslå et opfølgende eksperiment baseret på resultatet. Forestil dig endelig den tid, der kunne spares, hvis forskeren kunne uploade deres resultater, og AI-modellen kunne skrive det resulterende manuskript til dem. Det tætteste, vi nogensinde er kommet på en DALL-E af videnskab, er Google Scholar, men det er ikke en bæredygtig eller skalerbar løsning. IBM Watson satte sig også for at opnå meget af det, jeg beskriver her, men det meste af arbejdet kom forud for de seneste fremskridt inden for store sprogmodeller og brugte ikke passende eller tilstrækkelige data til at matche marketinghypen.

For den slags værdifrigørelse, jeg beskriver, har vi brug for langsigtede investeringer, engagement og vision. Som foreslået for nylig in Fremtid, er vi nødt til at behandle videnskabelige publikationer som substrater, der skal kombineres og analyseres i skala. Når vi fjerner barriererne, vil vi være i stand til at bruge videnskaben til at fodre datahungrende generative AI-modeller. Disse modeller har et enormt potentiale til at accelerere videnskaben og øge den videnskabelige læsefærdighed, såsom ved at træne dem til at generere nye videnskabelige ideer, hjælpe videnskabsmænd med at styre og navigere i den store videnskabelige litteratur, hjælpe med at identificere fejlbehæftet eller endda forfalsket forskning og syntetisere og omsætte komplekse forskningsresultater til almindelig menneskelig tale.

Hvordan får vi en DALL-E eller GPT-3 til videnskab?

Hvis du er i teknologi, viser en ven output fra generative AI-modeller som DALL-E or GPT-3 er som at vise dem magi. Disse værktøjer repræsenterer den næste generation af nettet. De stammer fra syntesen af ​​enorme mængder information, ud over en simpel kobling, for at skabe værktøjer med generativ kapacitet. Så hvordan kan vi skabe en tilsvarende magisk oplevelse i videnskaben, hvor enhver kan stille et spørgsmål til den videnskabelige litteratur i almindeligt sprog og få et forståeligt svar understøttet af beviser? Hvordan kan vi hjælpe forskere med at skabe, udvikle, forfine og teste deres hypoteser? Hvordan kan vi potentielt undgå at spilde milliarder af dollars på fejlagtige hypoteser i Alzheimers forskning , fejlagtige sammenhænge mellem genetik og depression

Løsningerne på disse spørgsmål lyder måske som science fiction, men der er bevis på, at vi kan gøre fantastiske og utænkelige ting, når videnskabeligt arbejde bruges til mere end blot summen af ​​dets dele. Faktisk ved at bruge næsten 200,000 proteinstrukturer i Protein Databank har givet AlphaFold evnen at præcist forudsige proteinstrukturer, noget der netop blev gjort for hvert eneste protein, der nogensinde er dokumenteret (over 200 mio.!). At udnytte forskningsartikler på en måde, der ligner proteinstrukturer, ville være et naturligt næste skridt. 

Nedbryd papirer til deres minimale komponenter

Forskningsartikler er fulde af værdifuld information, herunder figurer, diagrammer, statistiske sammenhænge og referencer til andre artikler. At opdele dem i forskellige komponenter og bruge dem i stor skala kan hjælpe os med at træne maskiner til forskellige typer videnskabsrelaterede job, prompter eller forespørgsler. Simple spørgsmål kan besvares med træning i én komponenttype, men mere komplekse spørgsmål eller prompter ville kræve inkorporering af flere komponenttyper og en forståelse af deres relation til hinanden.  

Nogle eksempler på komplekse potentielle prompter er:

"Fortæl mig, hvorfor denne hypotese er forkert"
"Fortæl mig, hvorfor min behandlingsidé ikke virker"
"Generer en ny behandlingsidé"
"Hvilke beviser er der for at understøtte socialpolitik X?"
"Hvem har offentliggjort den mest pålidelige forskning på dette område?"
"Skriv en videnskabelig artikel til mig baseret på mine data"

Nogle grupper gør fremskridt med denne vision. For eksempel, Fremkalde anvender GPT-3 på millioner af papirtitler og abstracts for at hjælpe med at besvare forskernes spørgsmål - lidt ligesom Alexa, men for videnskaben. Systemkrav udtrækker statistiske relationer mellem enheder, der viser, hvordan forskellige begreber og entiteter er forbundet. Primer fokuserer ikke på forskningsartikler i sig selv, men det fungerer med arXiv og giver et dashboard med information, der bruges af virksomheder og regeringer til at syntetisere og forstå store mængder data fra mange kilder. 

Få adgang til alle komponenter

Desværre er disse grupper primært afhængige af titler og abstracts, ikke de fulde tekster, da omkring fem ud af seks artikler ikke er frit eller let tilgængelige. For grupper som Web of Science og Google, der har dataene eller papirerne, er deres licenser og anvendelsesområde begrænset eller udefineret. I tilfældet Google er det uklart, hvorfor der ikke har været nogen offentligt annonceret bestræbelser på at træne AI-modeller på fuldtekst videnskabelig forskning i Google Scholar. Utroligt nok ændrede dette sig ikke engang midt i COVID-19-pandemien, som bragte verden i stå. Google AI-teamet rykkede op og lavede en prototype for offentligheden at spørge om COVID-19. Men - og her er kickeren - de gjorde det ved kun at bruge open access-artikler fra PubMed, ikke Google Scholar. 

Spørgsmålet om at få adgang til papirer og bruge dem til mere end blot at læse dem én ad gangen er noget, grupper har slået til lyd for i årtier. Jeg har selv arbejdet på det i næsten et årti og lanceret en open access publiceringsplatform kaldet Vinderen i løbet af det sidste år af min ph.d., og derefter arbejde på at opbygge fremtidens artikel ved en anden opstart kaldet Authorea. Selvom ingen af ​​disse initiativer lykkedes fuldt ud, som jeg ville have dem til, førte de mig til mit nuværende arbejde på skidt, som i det mindste delvist har løst adgangsproblemet ved at arbejde direkte med udgivere. 

Forbind komponenterne og definer relationer

Vores mål mod skidt er at introducere næste generation af citater - kaldet Smart Citations - som viser, hvordan og hvorfor enhver artikel, forsker, tidsskrift eller emne er blevet citeret og mere generelt diskuteret i litteraturen. Ved at arbejde med forlag udtrækker vi sætningerne direkte fra fuldtekstartikler, hvor de bruger deres referencer i teksten. Disse sætninger giver et kvalitativt indblik i, hvordan artikler blev citeret af nyere værker. Det er lidt ligesom Rotten Tomatoes til forskning.

Dette kræver adgang til fuldtekstartikler og samarbejde med udgivere, så vi kan bruge maskinlæring til at udtrække og analysere citatudsagn i stor skala. Fordi der var nok Open Access-artikler til at komme i gang, var vi i stand til at opbygge proof of concept, og en efter en demonstrerede vi over for udgivere den øgede synlighed af artikler indekseret i vores system og forsynede dem med et system til at vise bedre målinger for mere ansvarlig forskningsvurdering. Hvad vi så som ekspertudtalelser, så de som forhåndsvisninger af deres artikler. Udgivere har nu skrevet under på en masse, og vi har indekseret over 1.1 milliarder Smart Citations fra mere end halvdelen af ​​alle publicerede artikler.

Brug relationelle data til at træne AI-modeller

Komponenterne og relationerne udtrukket fra papirer kunne bruges til at træne nye store sprogmodeller til forskning. Selvom GPT-3 er meget kraftfuld, blev den ikke bygget til at arbejde på videnskab og klarer sig dårligt til at besvare spørgsmål, du kan se på SAT. Da GPT-2 (en tidligere version af GPT-3) var tilpasset ved at træne det på millioner af forskningsartikler, det fungerede bedre end GPT-2 alene på specifikke vidensopgaver. Dette understreger, at de data, der bruges til at træne modellerne, er overordentlig vigtige. 

 Nogle grupper har for nylig brugte GPT-3 til at skrive akademiske artikler, og selvom dette er imponerende, kan de fakta eller argumenter, de kan foregive at vise, være meget forkerte. Hvis modellen ikke kan besvare simple spørgsmål i SAT-stil rigtigt, kan vi så stole på, at den skriver en hel opgave? SCIgen, som er næsten 3 år før GPT-20, viste, at det er relativt nemt at generere papirer, der ser ægte ud. Deres system, selv om det var meget enklere, genererede papirer, der var optaget til forskellige konferencer. Vi har brug for en model, der ikke bare ser videnskabelig ud, men som er videnskabelig, og som kræver et system til at verificere påstande for maskiner og mennesker. Meta introducerede for nylig en system til at verificere Wikipedia-citater, noget nogle forlag har vokalt ville ønske, de havde til videnskabelige publikationer.

Nuværende fremskridt

Igen, en vigtig blokering for at bringe dette system til virkelighed er mangel på adgang til papirer og ressourcer til at skabe det. Hvor papirer eller information bliver tilgængelige til brug i stor skala, ser vi værktøjer og nye modeller blomstrer. Google Patent-teamet brugte 100 millioner patenter til at træne et system til hjælp til patentanalyse, faktisk en GooglePatentBERT. Andre har introduceret modeller som BioBERT , SciBERT, og på trods af at de kun er blevet trænet på omkring ~1% af videnskabelige tekster i kun specifikke fagdomæner, er de imponerende til videnskabelige opgaver, herunder vores citationsklassificeringssystem på scite. 

Mere for nylig a ScholarBERT model er blevet frigivet, som effektivt bruger al den videnskabelige litteratur til at træne BERT. De overvinder adgangsproblemet, men er især mor til hvordan, blot understreger deres brug for at være "ikke-forbrugende." Denne use case kan åbne dørene til andre bruger artikler uden udtrykkelig tilladelse fra udgivere og kunne være et vigtigt skridt i at skabe en DALL-E af videnskab. Overraskende nok klarede ScholarBERT sig dog dårligere til forskellige specialiserede vidensopgaver end mindre videnskabelige sprogmodeller som SciBERT. 

Det er vigtigt, at modeller i BERT-stil er meget mindre end de store sprogmodeller som GPT-3, og de tillader ikke den samme form for generisk tilskyndelse og læring i kontekst, som har drevet meget af GPT-3-hypen. Spørgsmålet står tilbage: hvad nu hvis vi anvendte de samme data fra ScholarBERT til at træne en opskaleret generativ model som GPT-3? Hvad hvis vi på en eller anden måde kunne vise, hvor svarene fra maskinen er hentet, måske binde dem direkte til litteraturen (som Smart Citations)?

Hvorfor nu?

Heldigvis bliver papirer mere åbne, og maskiner bliver mere kraftfulde. Vi kan nu begynde at bruge de data, der er indeholdt i papirer og tilsluttede depoter til at træne maskiner til at besvare spørgsmål og syntetisere nye ideer baseret på forskning. Dette kan være transformerende for sundhedspleje, politik, teknologi og alt omkring os. Forestil dig, hvordan det ville påvirke forskning og arbejdsgange på tværs af alle discipliner, hvis vi ikke kun søgte efter dokumenttitler, men specifikt efter svar. 

 At frigøre verdens videnskabelige viden fra de to barrierer af tilgængelighed og forståelighed vil hjælpe med at drive overgangen fra et web, der er fokuseret på klik, visninger, likes og opmærksomhed til et, der fokuserer på beviser, data og sandfærdighed. Pharma er klart tilskyndet til at bringe dette ud i livet, og derfor det voksende antal startups, der identificerer potentielle lægemiddelmål ved hjælp af AI - men jeg tror, ​​offentligheden, regeringer og alle, der bruger Google, kan være villige til at give afkald på gratis søgninger i et forsøg på tillid og tid - besparelse. Verden har desperat brug for et sådant system, og den har brug for det hurtigt. 


 

 

Offentliggjort 18. august 2022

Teknologi, innovation og fremtiden, som fortalt af dem, der bygger den.

Tak for din tilmelding.

Tjek din indbakke for en velkomstbesked.

Tidsstempel:

Mere fra Andreessen Horowitz