Cum să construiți un GPT-3 pentru știință PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Cum să construiți un GPT-3 pentru știință

Doriți să creați o imagine a velociraptori care lucrează la un zgârie-nori, în stilul „Lunch Atop A Skyscraper” din 1932? Folosiți DALL-E. Vrei să creezi un imaginar Spectacol de comedie standup de Peter Thiel, Elon Musk și Larry Page? Utilizați GPT-3. Doriți să înțelegeți profund cercetarea COVID-19 și să răspundeți la întrebările dvs. pe baza dovezilor? Aflați cum să faceți o căutare booleană, să citiți lucrări științifice și, poate, să obțineți un doctorat, pentru că nu există modele AI generative antrenate pe corpul vast de publicații de cercetare științifică. Dacă ar exista, obținerea de răspunsuri clare și susținute de dovezi la întrebări științifice ar fi printre cele mai simple beneficii. AI generativă pentru știință ar putea ajuta la inversarea încetinirea inovației în știință by făcându-l mai ușor și mai ieftin pentru a găsi idei noi. Astfel de modele ar putea oferi, de asemenea, avertismente susținute de date cu privire la ipotezele terapeutice care sigur vor eșua, contrabalansând părtinirea umană și evitând miliarde de dolari, alei nevăzute de zeci de ani. În cele din urmă, astfel de modele ar putea lupta criza de reproductibilitate prin cartografierea, cântărirea și contextualizarea rezultatelor cercetării, oferind un scor pentru încredere.

Deci, de ce nu avem un DALL-E sau GPT-3 pentru știință? Motivul este că, deși cercetarea științifică este cea conținutul cel mai valoros din lume, este și cel mai puțin accesibil și mai ușor de înțeles conținut din lume. Voi explica ce ar fi nevoie pentru a debloca datele științifice la scară pentru a face posibilă IA generativă pentru știință și cum ar transforma aceasta modul în care ne angajăm în cercetare. 

Ceea ce face ca datele cercetării științifice să fie provocatoare

Publicațiile de cercetare sunt unele dintre cele mai importante depozite de conținut și informații create vreodată din lume. Ele leagă ideile și descoperirile împreună în timp și discipline și sunt păstrate pentru totdeauna de o rețea de biblioteci. Ele sunt susținute de dovezi, analize, înțelegeri ale experților și relații statistice. Sunt extrem de valoroase, dar sunt în mare parte ascunse de web și utilizate foarte ineficient. Web-ul este plin de videoclipuri drăguțe și drăgălașe cu pisici, dar în mare parte lipsit de cercetări de ultimă oră privind cancerul. Ca exemplu, cel Web of Science este unul dintre cei mai cuprinzători indici ai cunoștințelor științifice. Există de zeci de ani, dar este probabil ceva despre care cei mai mulți cititori nici măcar nu au auzit, darămite să interacționeze. Cei mai mulți dintre noi nu au acces la lucrări de cercetare și, chiar și atunci când o facem, ele sunt dense, greu de înțeles și ambalate ca PDF - un format conceput pentru tipărire, nu pentru web.

Deoarece lucrările științifice nu sunt ușor accesibile, nu putem folosi cu ușurință datele pentru a antrena modele generative precum GPT-3 sau DALL-E. Poţi imaginați-vă dacă un cercetător ar putea propune un experiment și un model AI le-ar putea spune instantaneu dacă a fost făcut înainte (și mai bine, să le dea rezultatul)? Apoi, odată ce au date dintr-un experiment nou, AI ar putea sugera un experiment de urmărire bazat pe rezultat. În cele din urmă, imaginați-vă timpul care ar putea fi economisit dacă cercetătorul și-ar putea încărca rezultatele și modelul AI ar putea scrie manuscrisul rezultat pentru lor. Cel mai aproape ne-am apropiat vreodată de un DALL-E al științei este Google Scholar, dar nu este o soluție durabilă sau scalabilă. IBM Watson și-a propus, de asemenea, să realizeze o mare parte din ceea ce descriu aici, dar cea mai mare parte a muncii a venit înaintea progreselor recente în modelele mari de limbaj și nu a folosit date adecvate sau suficiente pentru a se potrivi cu hype-ul de marketing.

Pentru genul de deblocare a valorii pe care îl descriu, avem nevoie de investiții pe termen lung, angajament și viziune. Așa cum s-a propus recent in Viitor, trebuie să tratăm publicațiile științifice ca substraturi care să fie combinate și analizate la scară. Odată ce înlăturăm barierele, vom putea folosi știința pentru a alimenta modele AI generative avide de date. Aceste modele au un potențial imens de a accelera știința și de a crește cunoștințele științifice, cum ar fi prin instruirea lor pentru a genera noi idei științifice, ajutând oamenii de știință să gestioneze și să navigheze în vasta literatură științifică, să ajute la identificarea cercetărilor defecte sau chiar falsificate și să sintetizeze și să traducă rezultatele cercetării complexe în vorbirea umană obișnuită.

Cum obținem un DALL-E sau GPT-3 pentru știință?

Dacă sunteți în tehnologie, arătați unui prieten rezultate din modele AI generative, cum ar fi DALĂ or GPT-3 este ca și cum le-ai arăta magia. Aceste instrumente reprezintă următoarea generație de web. Ele derivă din sinteza unor cantități masive de informații, dincolo de o simplă legătură, pentru a crea instrumente cu capacitate generativă. Deci, cum putem crea o experiență magică similară în știință, în care oricine poate pune o întrebare a literaturii științifice într-un limbaj simplu și poate obține un răspuns ușor de înțeles susținut de dovezi? Cum îi putem ajuta pe cercetători să creeze, să dezvolte, să perfecționeze și să își testeze ipotezele? Cum putem evita potențial să risipim miliarde de dolari ipoteze eșuate în cercetarea Alzheimer și legături eronate între genetică și depresie

Soluțiile la aceste întrebări ar putea suna ca științifico-fantasție, dar există dovezi că putem face lucruri uimitoare și de neconceput atunci când munca științifică este folosită pentru mai mult decât pentru suma părților sale. Într-adevăr, utilizând aproape 200,000 de structuri proteice în Banca de date de proteine a dat AlphaFold capacitatea pentru a prezice cu exactitate structurile proteinelor, ceva pentru care tocmai a fost făcut fiecare proteină documentată vreodată (peste 200 de milioane!). Utilizarea lucrărilor de cercetare într-o manieră similară cu structurile proteinelor ar fi un următor pas natural. 

Descompuneți hârtiile în componentele lor minime

Lucrările de cercetare sunt pline de informații valoroase, inclusiv cifre, diagrame, relații statistice și referințe la alte lucrări. Împărțirea lor în diverse componente și utilizarea lor la scară ne-ar putea ajuta să pregătim mașini pentru diferite tipuri de joburi, solicitări sau interogări legate de știință. Întrebările simple s-ar putea răspunde prin instruire pe un tip de componentă, dar întrebările sau solicitările mai complexe ar necesita încorporarea mai multor tipuri de componente și o înțelegere a relației dintre ele.  

Câteva exemple de solicitări potențiale complexe sunt:

„Spune-mi de ce această ipoteză este greșită”
„Spune-mi de ce ideea mea de tratament nu funcționează”
„Generează o nouă idee de tratament”
„Ce dovezi există pentru a susține politica socială X?”
„Cine a publicat cea mai fiabilă cercetare în acest domeniu?”
„Scrieți-mi o lucrare științifică bazată pe datele mele”

Unele grupuri fac progrese în această viziune. De exemplu, Obține aplică GPT-3 la milioane de titluri de hârtie și rezumate pentru a ajuta la răspunsul la întrebările cercetătorilor - un fel ca Alexa, dar pentru știință. Sistem extrage relații statistice dintre entități arătând modul în care diferitele concepte și entități sunt legate. Grund nu se concentrează pe lucrările de cercetare în sine, dar funcționează cu arXiv și oferă un tablou de bord cu informații utilizate de corporații și guverne pentru a sintetiza și înțelege cantități mari de date din mai multe surse. 

Accesați toate componentele

Din păcate, aceste grupuri se bazează în principal pe titluri și rezumate, nu pe textele complete, deoarece aproximativ cinci din șase articole nu sunt liber sau ușor accesibile. Pentru grupuri precum Web of Science și Google care au datele sau lucrările, licențele și domeniul de utilizare ale acestora sunt limitat sau nedefinit. În cazul Google, nu este clar de ce nu au existat eforturi anunțate public pentru a instrui modele AI pe cercetarea științifică full-text din Google Scholar. În mod uimitor, acest lucru nici măcar nu s-a schimbat în mijlocul pandemiei de COVID-19, care a blocat lumea. Echipa Google AI a intensificat, creând o modalitate prin care publicul să întrebe despre COVID-19. Dar – și iată care este decizia – au făcut-o folosind doar documente cu acces deschis de la PubMed, nu Google Scholar. 

Problema obținerii accesului la lucrări și a le folosi pentru mai mult decât pentru a le citi pe rând este ceva ce au susținut grupurile de zeci de ani. Eu personal am lucrat la el timp de aproape un deceniu, lansând o platformă de publicare cu acces deschis numită Winnower în ultimul an de doctorat și apoi lucrez la construirea articol al viitorului la un alt startup numit Authorea. Deși niciuna dintre aceste inițiative nu s-a desfășurat pe deplin așa cum mi-am dorit, ele m-au condus la munca mea actuală la scite, care a rezolvat, cel puțin parțial, problema accesului lucrând direct cu editorii. 

Conectați componentele și definiți relațiile

Scopul nostru către scite este de a introduce următoarea generație de citate — numite Smart Citations — care arată cum și de ce orice articol, cercetător, jurnal sau subiect a fost citat și discutat mai general în literatură. Lucrând cu editorii, extragem propozițiile direct din articolele cu text integral, unde aceștia își folosesc referințele în text. Aceste propoziții oferă o perspectivă calitativă asupra modului în care lucrările au fost citate de lucrări mai noi. Este un pic ca Rotten Tomatoes pentru cercetare.

Acest lucru necesită acces la articole cu text integral și cooperare cu editorii, astfel încât să putem folosi învățarea automată pentru a extrage și analiza declarațiile de citare la scară. Deoarece au existat suficiente articole cu acces deschis pentru a începe, am putut construi dovada conceptului și, unul câte unul, le-am demonstrat editorilor capacitatea de descoperire crescută a articolelor indexate în sistemul nostru și le-am oferit un sistem de arătați valori mai bune pentru o evaluare mai responsabilă a cercetării. Ceea ce noi am văzut ca declarații ale experților, ei au văzut ca previzualizări ale articolelor lor. Editorii s-au semnat acum în masă și am indexat peste 1.1 miliarde de citate inteligente din mai mult de jumătate din toate articolele publicate.

Utilizați date relaționale pentru a antrena modele AI

Componentele și relațiile extrase din lucrări ar putea fi folosite pentru a pregăti noi modele de limbaj mari pentru cercetare. GPT-3, deși foarte puternic, nu a fost construit pentru a lucra pe știință și răspunde prost la întrebările pe care le-ați putea vedea pe SAT. Când GPT-2 (o versiune anterioară a GPT-3) a fost adaptat prin instruirea lui pe milioane de lucrări de cercetare, a funcționat mai bine decât GPT-2 singur pentru sarcini specifice de cunoștințe. Acest lucru evidențiază faptul că datele utilizate pentru antrenarea modelelor sunt extrem de importante. 

 Unele grupuri au făcut recent a folosit GPT-3 pentru a scrie lucrări academiceși, deși acest lucru este impresionant, faptele sau argumentele pe care ar putea pretinde să le arate ar putea fi foarte greșite. Dacă modelul nu poate obține corect întrebări simple în stil SAT, putem avea încredere în el pentru a scrie o lucrare completă? SCIgen, care este anterioară GPT-3 cu aproape 20 de ani, a arătat că generarea de lucrări care par reale este relativ ușoară. Sistemul lor, deși mult mai simplu, a generat lucrări care au fost acceptat în diferite conferințe. Avem nevoie de un model care nu arată doar științific, ci este științific și care necesită un sistem de verificare a afirmațiilor pentru mașini și oameni. Meta a introdus recent a sistem de verificare a citărilor Wikipedia, ceva ce au unii editori vocal și-ar fi dorit să aibă pentru publicații academice.

Progresul actual

Din nou, un blocaj esențial pentru realizarea acestui sistem este lipsa accesului la documentele și resursele necesare pentru a-l crea. Acolo unde documentele sau informațiile devin disponibile pentru utilizare la scară, vedem instrumentele și modelele noi înfloresc. Echipa Google Patent a folosit 100 de milioane de brevete pentru a instrui un sistem de ajutor în analiza brevetelor, efectiv un GooglePatentBERT. Alții au introdus modele precum BioBERT și SciBERTși, în ciuda faptului că au fost instruiți doar pe aproximativ ~ 1% din textele științifice doar în domenii specifice, ei sunt impresionanți la sarcinile academice, inclusiv sistemul nostru de clasificare a citărilor de la scite. 

Mai recent, a Învățatul BERT a fost lansat modelul care folosește efectiv toată literatura științifică pentru a instrui BERT. Aceștia depășesc problema accesului, dar sunt în special mamă despre cum, subliniind pur și simplu utilizarea lor ca fiind „neconsumativă”. Acest caz de utilizare ar putea deschide ușile către alții folosesc articole fără permisiunea expresă a editorilor și ar putea fi un pas important în crearea unui DALL-E al științei. În mod surprinzător, însă, ScholarBERT s-a descurcat mai rău la diferite sarcini de cunoștințe specializate decât modelele mai mici de limbaj științific precum SciBERT. 

Important este că modelele în stil BERT sunt la scară mult mai mică decât modelele de limbaj mari precum GPT-3 și nu permit același tip de îndemnare generică și învățare în context care a alimentat o mare parte din hype-ul GPT-3. Întrebarea rămâne: ce se întâmplă dacă am aplica aceleași date de la ScholarBERT pentru a antrena un model generativ extins precum GPT-3? Ce se întâmplă dacă am putea arăta cumva de unde au fost provenite răspunsurile de la mașină, poate legându-le direct de literatură (cum ar fi Smart Citations)?

De ce acum?

Din fericire, hârtiile devin din ce în ce mai deschise, iar mașinile devin mai puternice. Acum putem începe să folosim datele conținute în lucrări și în depozitele conectate pentru a instrui mașinile pentru a răspunde la întrebări și a sintetiza idei noi bazate pe cercetare. Acest lucru ar putea fi transformator pentru sănătate, politici, tehnologie și tot ce ne înconjoară. Imaginați-vă, dacă nu am căuta doar titluri de documente, ci în special răspunsuri, cum ar avea impact asupra cercetării și fluxurilor de lucru în toate disciplinele. 

 Eliberarea cunoștințelor științifice ale lumii de barierele duble ale accesibilității și înțelegerii va contribui la tranziția de la un web axat pe clicuri, vizualizări, aprecieri și atenție la unul concentrat pe dovezi, date și veridicitate. Pharma este în mod clar încurajată să realizeze acest lucru, de unde și numărul tot mai mare de startup-uri care identifică potențiale ținte de droguri folosind inteligența artificială – dar cred că publicul, guvernele și oricine care folosește Google ar putea fi dispus să renunțe la căutări gratuite într-un efort pentru încredere și timp. economisire. Lumea are nevoie disperată de un astfel de sistem și are nevoie de el rapid. 


 

 

Postat pe 18 august 2022

Tehnologie, inovație și viitor, așa cum au spus cei care o construiesc.

Vă mulțumim pentru înscriere.

Verificați-vă căsuța de e-mail pentru o notă de bun venit.

Timestamp-ul:

Mai mult de la Andreessen Horowitz