Come costruire un GPT-3 per la scienza dei dati PlatoBlockchain. Ricerca verticale. Ai.

Come costruire un GPT-3 per la scienza

Vuoi creare un'immagine di velociraptor al lavoro su un grattacielo, nello stile di “Lunch Atop A Skyscraper” del 1932? Usa DALL-E. Vuoi creare un immaginario spettacolo di cabaret di Peter Thiel, Elon Musk e Larry Page? Usa GPT-3. Vuoi comprendere a fondo la ricerca COVID-19 e rispondere alle tue domande sulla base di prove? Impara come eseguire una ricerca booleana, leggere articoli scientifici e magari ottenere un dottorato di ricerca, perché non esistono modelli di IA generativa addestrati sul vasto corpus di pubblicazioni di ricerca scientifica. Se ci fosse, ottenere risposte in chiaro e supportate da prove a domande scientifiche sarebbe uno dei vantaggi più semplici. L'IA generativa per la scienza potrebbe aiutare a invertire la tendenza decelerazione dell'innovazione nella scienza by realizzandolo più facile ed più economico per trovare nuove idee. Tali modelli potrebbero anche fornire avvertenze basate sui dati di ipotesi terapeutiche che sicuramente falliranno, controbilanciando i pregiudizi umani ed evitando miliardi di dollari, vicoli ciechi lunghi decenni. Infine, tali modelli potrebbero combattere la crisi della riproducibilità mappando, soppesando e contestualizzando i risultati della ricerca, fornendo un punteggio sull'affidabilità.

Allora perché non abbiamo un DALL-E o GPT-3 per la scienza? Il motivo è che sebbene la ricerca scientifica sia il il contenuto più prezioso del mondo, è anche il contenuto meno accessibile e comprensibile del mondo. Spiegherò cosa ci vorrebbe per sbloccare i dati scientifici su larga scala per rendere possibile l'IA generativa per la scienza e come trasformerebbe il modo in cui ci impegniamo con la ricerca. 

Ciò che rende i dati della ricerca scientifica impegnativi

Le pubblicazioni di ricerca sono alcuni dei più importanti archivi mondiali di contenuti e informazioni mai creati. Uniscono idee e scoperte nel tempo e nelle discipline e sono preservate per sempre da una rete di biblioteche. Sono supportati da prove, analisi, intuizioni di esperti e relazioni statistiche. Sono estremamente preziosi, ma sono in gran parte nascosti dal web e utilizzati in modo molto inefficiente. Il web è pieno di video di gatti carini e coccolosi, ma in gran parte privi di ricerche sul cancro all'avanguardia. A titolo di esempio, il Web of Science è uno degli indici più completi della conoscenza scientifica. È in circolazione da decenni, ma probabilmente è qualcosa di cui la maggior parte dei lettori non ha mai nemmeno sentito parlare, per non parlare con cui ha interagito. La maggior parte di noi non ha accesso ai documenti di ricerca e, anche quando lo facciamo, sono densi, difficili da capire e impacchettati come PDF, un formato progettato per la stampa, non per il Web.

Poiché i documenti scientifici non sono facilmente accessibili, non possiamo utilizzare facilmente i dati per addestrare modelli generativi come GPT-3 o DALL-E. Potete immaginate se un ricercatore potesse proporre un esperimento e un modello di intelligenza artificiale potesse dire loro all'istante se era stato fatto prima (e meglio ancora, dare loro il risultato)? Quindi, una volta che hanno i dati di un nuovo esperimento, l'IA potrebbe suggerire un esperimento di follow-up basato sul risultato. Infine, immagina il tempo che potrebbe essere risparmiato se il ricercatore potesse caricare i propri risultati e il modello AI potesse scrivere il manoscritto risultante loro. Il più vicino che siamo mai arrivati ​​a un DALL-E della scienza è Google Scholar, ma non è una soluzione sostenibile o scalabile. Anche IBM Watson si è prefissato di ottenere gran parte di ciò che descrivo qui, ma la maggior parte del lavoro ha preceduto i recenti progressi nei modelli linguistici di grandi dimensioni e non ha utilizzato dati appropriati o sufficienti per corrispondere al clamore del marketing.

Per il tipo di valore sbloccato che sto descrivendo, abbiamo bisogno di investimenti, impegno e visione a lungo termine. Come proposto recentemente in Futuro, dobbiamo trattare le pubblicazioni scientifiche come substrati da combinare e analizzare su larga scala. Una volta rimosse le barriere, saremo in grado di utilizzare la scienza per alimentare modelli di IA generativa affamati di dati. Questi modelli hanno un potenziale immenso per accelerare la scienza e aumentare l'alfabetizzazione scientifica, ad esempio attraverso la loro formazione per generare nuove idee scientifiche, aiutare gli scienziati a gestire e navigare nella vasta letteratura scientifica, aiutare a identificare ricerche imperfette o addirittura falsificate e sintetizzare e tradurre risultati di ricerca complessi in linguaggio umano ordinario.

Come otteniamo un DALL-E o GPT-3 per la scienza?

Se sei in tecnologia, mostrare a un amico i risultati di modelli di IA generativa come DALL-E or GPT-3 è come mostrare loro la magia. Questi strumenti rappresentano la prossima generazione del web. Derivano dalla sintesi di enormi quantità di informazioni, al di là di un semplice collegamento, per creare strumenti con capacità generativa. Quindi, come possiamo creare un'esperienza altrettanto magica nella scienza, in cui chiunque può porre una domanda sulla letteratura scientifica in un linguaggio semplice e ottenere una risposta comprensibile supportata da prove? Come possiamo aiutare i ricercatori a creare, sviluppare, perfezionare e testare le loro ipotesi? Come possiamo potenzialmente evitare di sprecare miliardi di dollari ipotesi fallimentari nella ricerca sull'Alzheimer ed connessioni errate tra genetica e depressione

Le soluzioni a queste domande potrebbero sembrare fantascienza, ma ci sono prove che possiamo fare cose incredibili e impensabili quando il lavoro scientifico viene utilizzato per qualcosa di più della semplice somma delle sue parti. Infatti, utilizzando quasi 200,000 strutture proteiche nel Banca dati proteica ha dato AlphaFold la capacità per prevedere con precisione le strutture proteiche, qualcosa per cui è stato appena fatto ogni proteina mai documentata (oltre 200 milioni!). Sfruttare i documenti di ricerca in un modo simile alle strutture proteiche sarebbe un passo successivo naturale. 

Scomponi le carte nei loro componenti minimi

I documenti di ricerca sono pieni di informazioni preziose, inclusi dati, grafici, relazioni statistiche e riferimenti ad altri documenti. La loro scomposizione in vari componenti e il loro utilizzo su larga scala potrebbe aiutarci ad addestrare le macchine per diversi tipi di lavori, richieste o domande relative alla scienza. È possibile rispondere a domande semplici con la formazione su un tipo di componente, ma domande o suggerimenti più complessi richiederebbero l'incorporazione di più tipi di componenti e la comprensione della loro relazione reciproca.  

Alcuni esempi di potenziali prompt complessi sono:

“Dimmi perché questa ipotesi è sbagliata”
"Dimmi perché la mia idea di trattamento non funzionerà"
"Genera una nuova idea di trattamento"
"Quali prove ci sono a sostegno della politica sociale X?"
"Chi ha pubblicato la ricerca più affidabile in questo campo?"
“Scrivimi un articolo scientifico basato sui miei dati”

Alcuni gruppi stanno facendo progressi su questa visione. Per esempio, suscitare applica GPT-3 a milioni di titoli di articoli e abstract per aiutare a rispondere alle domande dei ricercatori, un po' come Alexa, ma per la scienza. Sistema estrae le relazioni statistiche tra entità mostrando come diversi concetti ed entità sono collegati. Primer non si concentra sui documenti di ricerca di per sé, ma funziona con arXiv e fornisce un dashboard di informazioni utilizzate da aziende e governi per sintetizzare e comprendere grandi quantità di dati da molte fonti. 

Accedi a tutti i componenti

Sfortunatamente, questi gruppi si basano principalmente solo su titoli e abstract, non sui testi completi, poiché circa cinque articoli su sei non sono liberamente o facilmente accessibili. Per i gruppi come Web of Science e Google che dispongono dei dati o dei documenti, le loro licenze e l'ambito di utilizzo lo sono limitato o indefinito. Nel caso di Google, non è chiaro il motivo per cui non sono stati annunciati pubblicamente gli sforzi per addestrare modelli di intelligenza artificiale sulla ricerca scientifica full-text in Google Scholar. Sorprendentemente, questo non è nemmeno cambiato nel mezzo della pandemia di COVID-19, che ha bloccato il mondo. Il team di Google AI si è fatto avanti, prototipando un modo per chiedere al pubblico sul COVID-19. Ma - ed ecco il kicker - lo hanno fatto utilizzando solo documenti ad accesso aperto di PubMed, non Google Scholar. 

La questione dell'accesso ai documenti e del loro utilizzo per qualcosa di più della semplice lettura uno alla volta è qualcosa che i gruppi hanno sostenuto per decenni. Ci ho lavorato personalmente per quasi un decennio, lanciando una piattaforma di pubblicazione ad accesso aperto chiamata Il Vincitore durante l'ultimo anno del mio dottorato, e poi lavorando per costruire il articolo del futuro in un'altra startup chiamata Authorea. Sebbene nessuna di queste iniziative sia andata completamente nel modo in cui volevo, mi hanno portato al mio attuale lavoro scite, che ha, almeno in parte, risolto il problema dell'accesso collaborando direttamente con gli editori. 

Collega i componenti e definisci le relazioni

Il nostro obiettivo di scite è introdurre il prossima generazione di citazioni — denominate Smart Citations — che mostrano come e perché qualsiasi articolo, ricercatore, rivista o argomento è stato citato e più in generale discusso in letteratura. Lavorando con gli editori, estraiamo le frasi direttamente dagli articoli full-text in cui usano i loro riferimenti nel testo. Queste frasi offrono una visione qualitativa di come i documenti sono stati citati da lavori più recenti. È un po' come Rotten Tomatoes per la ricerca.

Ciò richiede l'accesso ad articoli full-text e la cooperazione con gli editori, in modo da poter utilizzare l'apprendimento automatico per estrarre e analizzare le citazioni su larga scala. Poiché c'erano abbastanza articoli Open Access per iniziare, siamo stati in grado di costruire la prova del concetto e, uno per uno, abbiamo dimostrato agli editori la maggiore rilevabilità degli articoli indicizzati nel nostro sistema e fornito loro un sistema per mostra metriche migliori per una valutazione della ricerca più responsabile. Quelle che vedevamo come dichiarazioni di esperti, vedevano come anteprime dei loro articoli. Gli editori hanno ora firmato in massa e abbiamo indicizzato oltre 1.1 miliardi di Smart Citation da più della metà di tutti gli articoli pubblicati.

Usa i dati relazionali per addestrare i modelli di IA

Le componenti e le relazioni estratte dagli articoli potrebbero essere utilizzate per addestrare nuovi modelli linguistici di grandi dimensioni per la ricerca. GPT-3, sebbene molto potente, non è stato costruito per funzionare sulla scienza e risponde male alle domande che potresti vedere sul SAT. Quando lo era GPT-2 (una versione precedente di GPT-3). adattato addestrandolo su milioni di documenti di ricerca, ha funzionato meglio del solo GPT-2 su specifiche attività di conoscenza. Ciò evidenzia che i dati utilizzati per addestrare i modelli sono estremamente importanti. 

 Alcuni gruppi hanno recentemente usato GPT-3 per scrivere documenti accademici, e sebbene ciò sia impressionante, i fatti o le argomentazioni che potrebbero pretendere di mostrare potrebbero essere molto sbagliati. Se il modello non riesce a rispondere correttamente a semplici domande in stile SAT, possiamo fidarci che scriva un articolo completo? SCIgen, che precede il GPT-3 di quasi 20 anni, ha dimostrato che generare documenti che sembrano reali è relativamente facile. Il loro sistema, sebbene molto più semplice, ha generato documenti che erano accettato in vari convegni. Abbiamo bisogno di un modello che non sembri solo scientifico, ma sia scientifico e che richieda un sistema per verificare le affermazioni per macchine e esseri umani. Meta ha recentemente introdotto a sistema per la verifica delle citazioni di Wikipedia, qualcosa che alcuni editori hanno vocalmente avrebbe voluto avere per le pubblicazioni accademiche.

Progresso corrente

Ancora una volta, uno dei principali ostacoli alla realizzazione di questo sistema è la mancanza di accesso ai documenti e alle risorse per crearlo. Laddove documenti o informazioni diventano disponibili per l'uso su larga scala, lo vediamo fioriscono strumenti e nuovi modelli. Il team di Google Brevetti utilizzato 100 milioni di brevetti per formare un sistema di aiuto con l'analisi dei brevetti, effettivamente un GooglePatentBERT. Altri hanno introdotto modelli come BioBERT ed SciBERT, e nonostante il fatto che siano stati formati solo su circa l'1% dei testi scientifici solo in domini specifici, sono impressionanti nei compiti accademici, incluso il nostro sistema di classificazione delle citazioni su scite. 

Più recentemente, uno Studioso BERT è stato rilasciato il modello, che utilizza effettivamente tutta la letteratura scientifica per formare BERT. Superano il problema dell'accesso, ma in particolare non sanno come, sottolineando semplicemente che il loro uso è "non di consumo". Questo caso d'uso potrebbe aprire le porte a altri utilizzano articoli senza il permesso esplicito degli editori e potrebbero essere un passo importante nella creazione di una DALL-E della scienza. Sorprendentemente, tuttavia, ScholarBERT ha fatto peggio in vari compiti di conoscenza specialistica rispetto a modelli linguistici scientifici più piccoli come SciBERT. 

È importante sottolineare che i modelli in stile BERT sono su scala molto più piccola rispetto ai modelli linguistici di grandi dimensioni come GPT-3 e non consentono lo stesso tipo di suggerimenti generici e apprendimento contestuale che ha alimentato gran parte del clamore di GPT-3. La domanda rimane: e se applicassimo gli stessi dati di ScholarBERT per addestrare un modello generativo su larga scala come GPT-3? E se potessimo in qualche modo mostrare da dove provengono le risposte dalla macchina, magari collegandole direttamente alla letteratura (come Smart Citations)?

Perché ora?

Fortunatamente, le carte stanno diventando più aperte e le macchine stanno diventando più potenti. Ora possiamo iniziare a utilizzare i dati contenuti nei documenti e negli archivi collegati per addestrare macchine a rispondere a domande e sintetizzare nuove idee basate sulla ricerca. Questo potrebbe essere trasformativo per l'assistenza sanitaria, le politiche, la tecnologia e tutto ciò che ci circonda. Immagina, se non cercassimo solo i titoli dei documenti ma in particolare le risposte, in che modo ciò avrebbe un impatto sulla ricerca e sui flussi di lavoro in tutte le discipline. 

 Liberare la conoscenza scientifica mondiale dalle doppie barriere di accessibilità e comprensibilità aiuterà a guidare la transizione da un Web incentrato su clic, visualizzazioni, Mi piace e attenzione a uno incentrato su prove, dati e veridicità. Il settore farmaceutico è chiaramente incentivato a realizzare tutto ciò, da qui il numero crescente di startup che identificano potenziali bersagli farmacologici utilizzando l'IA, ma credo che il pubblico, i governi e chiunque utilizzi Google potrebbero essere disposti a rinunciare alle ricerche gratuite nel tentativo di ottenere fiducia e tempo. Salvataggio. Il mondo ha un disperato bisogno di un tale sistema e ne ha bisogno in fretta. 


 

 

Inserito il 18 agosto 2022

Tecnologia, innovazione e futuro, raccontato da chi lo costruisce.

Grazie per esserti iscritto.

Controlla la tua casella di posta per una nota di benvenuto.

Timestamp:

Di più da Andreessen Horowitz