Hur man bygger en GPT-3 för Science PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Hur man bygger en GPT-3 för vetenskap

Vill du skapa en bild av velociraptorer som arbetar på en skyskrapa, i stil med "Lunch Atop A Skyscraper" från 1932? Använd DALL-E. Vill skapa en imaginär komedishow av Peter Thiel, Elon Musk och Larry Page? Använd GPT-3. Vill du förstå forskningen om covid-19 på djupet och svara på dina frågor baserat på bevis? Lär dig hur du gör en boolesk sökning, läser vetenskapliga artiklar och kanske tar en doktorsexamen, eftersom det inte finns några generativa AI-modeller som tränas i den stora mängden vetenskapliga forskningspublikationer. Om det fanns skulle det vara en av de enklaste fördelarna att få evidensstödda, klarspråkiga svar på vetenskapliga frågor. Generativ AI för vetenskap kan hjälpa till att vända inbromsning av innovation inom vetenskap by gör det lättare och billigare att hitta nya idéer. Sådana modeller kan också ge dataunderstödda varningar om terapeutiska hypoteser som säkert kommer att misslyckas, motverka mänsklig fördom och undvika miljarder dollar, decennier långa återvändsgränder. Slutligen kan sådana modeller bekämpa reproducerbarhetskrisen genom att kartlägga, väga och kontextualisera forskningsresultat, vilket ger poäng på tillförlitlighet.

Så varför har vi inte en DALL-E eller GPT-3 för vetenskap? Anledningen är att även om vetenskaplig forskning är världens mest värdefulla innehåll, det är också världens minst tillgängliga och begripliga innehåll. Jag ska förklara vad som krävs för att låsa upp vetenskaplig data i stor skala för att göra generativ AI för vetenskap möjlig, och hur det skulle förändra vårt sätt att engagera oss i forskning. 

Vad gör vetenskaplig forskningsdata utmanande

Forskningspublikationer är några av världens viktigaste arkiv för innehåll och information som någonsin skapats. De knyter ihop idéer och fynd över tid och discipliner, och bevaras för alltid av ett nätverk av bibliotek. De stöds av bevis, analys, expertinsikt och statistiska samband. De är extremt värdefulla, men de är till stor del dolda från webben och används mycket ineffektivt. Webben är full av söta, gosiga kattvideor men saknar i stort sett banbrytande cancerforskning. Som ett exempel Web of Science är ett av de mest omfattande indexen för vetenskaplig kunskap. Det har funnits i decennier, men det är förmodligen något de flesta läsare aldrig ens har hört talas om, än mindre interagerat med. De flesta av oss har inte tillgång till forskningsartiklar, och även när vi gör det är de täta, svåra att förstå och förpackade som en PDF - ett format som är utformat för utskrift, inte för webben.

Eftersom vetenskapliga artiklar inte är lättillgängliga kan vi inte enkelt använda data för att träna generativa modeller som GPT-3 eller DALL-E. Kan du tänk om en forskare kunde föreslå ett experiment och en AI-modell omedelbart kunde berätta för dem om det hade gjorts tidigare (och ännu bättre, ge dem resultatet)? Sedan, när de väl har data från ett nytt experiment, kan AI föreslå ett uppföljande experiment baserat på resultatet. Föreställ dig slutligen den tid som skulle kunna sparas om forskaren kunde ladda upp sina resultat och AI-modellen kunde skriva det resulterande manuskriptet för dem. Det närmaste vi någonsin har kommit en DALL-E av vetenskap är Google Scholar, men det är inte en hållbar eller skalbar lösning. IBM Watson siktade också på att uppnå mycket av det jag beskriver här, men det mesta av arbetet kom före de senaste framstegen inom stora språkmodeller och använde inte lämplig eller tillräcklig data för att matcha marknadsföringshypen.

För den typ av värdeupplåsning jag beskriver behöver vi långsiktiga investeringar, engagemang och vision. Som föreslagits nyligen in Framtida, måste vi behandla vetenskapliga publikationer som substrat som ska kombineras och analyseras i stor skala. När vi väl tar bort barriärerna kommer vi att kunna använda vetenskap för att mata datahungriga generativa AI-modeller. Dessa modeller har en enorm potential att påskynda vetenskapen och öka den vetenskapliga läskunnigheten, till exempel genom att utbilda dem för att generera nya vetenskapliga idéer, hjälpa forskare att hantera och navigera i den omfattande vetenskapliga litteraturen, hjälpa till att identifiera bristfällig eller till och med förfalskad forskning och syntetisera och översätta komplexa forskningsresultat till vanligt mänskligt tal.

Hur får vi en DALL-E eller GPT-3 för vetenskap?

Om du är i teknik, visar en vän utdata från generativa AI-modeller som DALL-E or GPT-3 är som att visa dem magi. Dessa verktyg representerar nästa generation av webben. De härrör från syntesen av enorma mängder information, bortom en enkel koppling, för att skapa verktyg med generativ kapacitet. Så hur kan vi skapa en liknande magisk upplevelse inom vetenskapen, där vem som helst kan ställa en fråga om den vetenskapliga litteraturen i klartext och få ett begripligt svar uppbackat av bevis? Hur kan vi hjälpa forskare att skapa, utveckla, förfina och testa sina hypoteser? Hur kan vi eventuellt undvika att slösa bort miljarder dollar på misslyckade hypoteser i Alzheimers forskning och felaktiga samband mellan genetik och depression

Lösningarna på dessa frågor kan låta som science fiction, men det finns bevis på att vi kan göra fantastiska och otänkbara saker när vetenskapligt arbete används för mer än bara summan av dess delar. Faktum är att använda nästan 200,000 XNUMX proteinstrukturer i Proteindatabank har gett AlphaFold förmågan att exakt förutsäga proteinstrukturer, något som bara gjordes för varje protein som någonsin dokumenterats (över 200 miljoner!). Att utnyttja forskningsartiklar på ett sätt som liknar proteinstrukturer skulle vara ett naturligt nästa steg. 

Bryt upp papper till sina minimala komponenter

Forskningsartiklar är fulla av värdefull information, inklusive siffror, diagram, statistiska samband och referenser till andra artiklar. Att dela upp dem i olika komponenter och använda dem i stor skala kan hjälpa oss att träna maskiner för olika typer av vetenskapsrelaterade jobb, uppmaningar eller frågor. Enkla frågor kan besvaras med träning på en komponenttyp, men mer komplexa frågor eller uppmaningar skulle kräva inkorporering av flera komponenttyper och en förståelse för deras relation till varandra.  

Några exempel på komplexa potentiella uppmaningar är:

"Berätta varför denna hypotes är fel"
"Berätta varför min behandlingsidé inte fungerar"
"Generera en ny behandlingsidé"
"Vilka bevis finns det för att stödja socialpolitik X?"
"Vem har publicerat den mest tillförlitliga forskningen på detta område?"
"Skriv en vetenskaplig artikel till mig baserat på mina data"

Vissa grupper gör framsteg med denna vision. Till exempel, Framkalla tillämpar GPT-3 på miljontals papperstitlar och sammanfattningar för att hjälpa till att svara på forskarnas frågor - ungefär som Alexa, men för vetenskap. Systemkrav extraherar statistiska relationer mellan entiteter som visar hur olika begrepp och entiteter är kopplade. Primer fokuserar inte på forskningsartiklar i sig, men det fungerar med arXiv och tillhandahåller en instrumentpanel med information som används av företag och regeringar för att syntetisera och förstå stora mängder data från många källor. 

Få tillgång till alla komponenter

Tyvärr förlitar sig dessa grupper enbart på titlar och sammanfattningar, inte de fullständiga texterna, eftersom ungefär fem av sex artiklar inte är fritt eller lättillgängliga. För grupper som Web of Science och Google som har data eller papper är deras licenser och användningsområde begränsad eller odefinierad. När det gäller Google är det oklart varför det inte har gjorts några offentligt tillkännagivna ansträngningar för att träna AI-modeller på den vetenskapliga forskningen i fulltext i Google Scholar. Otroligt nog förändrades detta inte ens mitt under covid-19-pandemin, som fick världen att stanna. Google AI-teamet steg upp och tog fram ett sätt för allmänheten att fråga om COVID-19. Men - och här är kickern - de gjorde det med endast öppen tillgång från PubMed, inte Google Scholar. 

Frågan om att få tillgång till tidningar och använda dem för mer än att bara läsa dem en i taget är något som grupper har förespråkat i årtionden. Jag har personligen arbetat med det i nästan ett decennium själv och lanserat en publiceringsplattform med öppen tillgång som heter Vinnaren under det sista året av min doktorsexamen, och sedan arbetade med att bygga upp framtidens artikel vid en annan startup som heter Authorea. Även om inget av dessa initiativ lyckades helt som jag ville att de skulle, ledde de mig till mitt nuvarande arbete på läskigt, som åtminstone delvis har löst åtkomstproblemet genom att arbeta direkt med utgivare. 

Koppla samman komponenterna och definiera relationer

Vårt mål till läskigt är att introducera nästa generations citat — kallade Smart Citations — som visar hur och varför någon artikel, forskare, tidskrift eller ämne har citerats och mer allmänt diskuterats i litteraturen. Genom att arbeta med förlag extraherar vi meningarna direkt från fulltextartiklar där de använder sina referenser i text. Dessa meningar ger en kvalitativ inblick i hur artiklar citerades av nyare verk. Det är lite som Rotten Tomatoes för forskning.

Detta kräver tillgång till fulltextartiklar och samarbete med publicister, så att vi kan använda maskininlärning för att extrahera och analysera citatuttalanden i stor skala. Eftersom det fanns tillräckligt med Open Access-artiklar för att komma igång kunde vi bygga ut proof of concept och en efter en visade vi för utgivare den ökade upptäckbarheten av artiklar som indexerades i vårt system och försåg dem med ett system för att visa bättre mätvärden för mer ansvarsfull forskningsbedömning. Det vi såg som expertutlåtanden såg de som förhandsvisningar av sina artiklar. Publishers har nu skrivit på en masse och vi har indexerat över 1.1 miljarder Smart Citations från mer än hälften av alla publicerade artiklar.

Använd relationsdata för att träna AI-modeller

Komponenterna och relationerna som utvinns från uppsatser skulle kunna användas för att träna nya stora språkmodeller för forskning. GPT-3, även om det är mycket kraftfullt, byggdes inte för att fungera på vetenskap och svarar dåligt på frågor du kan se på SAT. När GPT-2 (en tidigare version av GPT-3) var anpassas genom att träna den på miljontals forskningsartiklar, det fungerade bättre än GPT-2 enbart på specifika kunskapsuppgifter. Detta understryker att den data som används för att träna modellerna är oerhört viktig. 

 Vissa grupper har nyligen använde GPT-3 för att skriva akademiska uppsatser, och även om detta är imponerande, kan de fakta eller argument som de kan påstå sig visa vara mycket felaktiga. Om modellen inte kan få enkla frågor i SAT-stil rätt, kan vi lita på att den skriver en fullständig uppsats? SCIgen, som föregår GPT-3 med nästan 20 år, visade att det är relativt enkelt att skapa papper som ser verkliga ut. Deras system, även om mycket enklare, genererade papper som var antagen till olika konferenser. Vi behöver en modell som inte bara ser vetenskaplig ut utan är vetenskaplig, och som kräver ett system för att verifiera påståenden för maskiner och människor. Meta introducerade nyligen en system för att verifiera Wikipedia-citat, något som vissa förlag har sångmässigt önskade att de hade för vetenskapliga publikationer.

Nuvarande framsteg

Återigen, en viktig blockerare för att få detta system att förverkligas är bristen på tillgång till papper och resurser för att skapa det. Var papper eller information blir tillgänglig att använda i stor skala, ser vi verktyg och nya modeller frodas. Google Patent-teamet använde 100 miljoner patent för att träna ett system för hjälp med patentanalys, faktiskt ett GooglePatentBERT. Andra har introducerat modeller som BioBERT och SciBERT, och trots att de bara har tränats på omkring ~1% av vetenskapliga texter inom endast specifika ämnesområden, är de imponerande på vetenskapliga uppgifter, inklusive vårt citeringsklassificeringssystem på scite. 

Mer nyligen, a ScholarBERT modell har släppts, som effektivt använder all vetenskaplig litteratur för att träna BERT. De övervinner åtkomstproblemet men är särskilt mamma på hur de helt enkelt betonar att deras användning är "icke-konsumerande." Detta användningsfall kan öppna dörrarna till andra använder artiklar utan uttryckligt tillstånd från förlag och kan vara ett viktigt steg i att skapa en DALL-E av vetenskap. Överraskande nog gick ScholarBERT dock sämre på olika specialiserade kunskapsuppgifter än mindre naturvetenskapliga språkmodeller som SciBERT. 

Viktigt är att modeller i BERT-stil är mycket mindre skala än de stora språkmodellerna som GPT-3, och de tillåter inte samma typ av generiska uppmaningar och inlärning i sammanhanget som har drivit mycket av GPT-3-hypen. Frågan kvarstår: vad händer om vi tillämpade samma data från ScholarBERT för att träna en uppskalad generativ modell som GPT-3? Tänk om vi på något sätt kunde visa var svaren från maskinen kom, kanske koppla dem direkt till litteraturen (som Smart Citations)?

Varför nu?

Lyckligtvis blir papper mer öppna och maskiner blir kraftfullare. Vi kan nu börja använda data som finns i papper och anslutna arkiv för att träna maskiner att svara på frågor och syntetisera nya idéer baserade på forskning. Detta kan vara omvälvande för sjukvård, politik, teknik och allt runt omkring oss. Föreställ dig, om vi inte bara sökte efter dokumenttitlar utan specifikt efter svar, hur det skulle påverka forskning och arbetsflöden inom alla discipliner. 

 Att frigöra världens vetenskapliga kunskap från de dubbla barriärerna tillgänglighet och förståelighet kommer att hjälpa till att driva övergången från en webb som fokuserar på klick, visningar, gilla-markeringar och uppmärksamhet till en som fokuserar på bevis, data och sanningsenlighet. Pharma är helt klart motiverade att förverkliga detta, därav det växande antalet nystartade företag som identifierar potentiella läkemedelsmål med hjälp av AI - men jag tror att allmänheten, regeringar och alla som använder Google kan vara villiga att avstå från gratis sökningar i ett försök för förtroende och tid - sparande. Världen behöver desperat ett sådant system, och den behöver det snabbt. 


 

 

Upplagt 18 augusti 2022

Teknik, innovation och framtiden, som berättas av dem som bygger den.

Tack för att du registrerade dig.

Kolla din inkorg för ett välkomstmeddelande.

Tidsstämpel:

Mer från Andreessen Horowitz