Kuinka rakentaa GPT-3 tieteelle

Julkaissut Platon

seuraajia: 0

Haluatko luoda kuvan pilvenpiirtäjällä työskentelevät velociraptorit vuoden 1932 "Lunch Atop Atop A Skyscraper" -tyyliin? Käytä DALL-E:tä. Haluat luoda mielikuvituksen Peter Thielin, Elon Muskin ja Larry Pagen standup-komediaesitys? Käytä GPT-3:a. Haluatko ymmärtää syvällisesti COVID-19-tutkimusta ja vastata kysymyksiisi todisteiden perusteella? Opi tekemään Boolean-hakua, lukemaan tieteellisiä artikkeleita ja ehkä hankkimaan tohtorintutkintoa, koska ei ole olemassa generatiivisia tekoälymalleja, jotka on koulutettu valtavaan joukkoon tieteellisiä tutkimusjulkaisuja. Jos olisi, todisteilla tuetut, selkeät vastaukset tieteellisiin kysymyksiin olisi yksi yksinkertaisimmista eduista. Tieteen luova tekoäly voisi auttaa kääntämään tilanteen tieteen innovaatioiden hidastuminen by tehdä se helpompaa ja halvempaa löytää uusia ideoita. Tällaiset mallit voisivat myös tarjota tietoon perustuvia varoituksia terapeuttisista hypoteeseista, jotka varmasti epäonnistuvat, tasapainottaen inhimillistä ennakkoluulottomuutta ja välttäen miljardin dollarin vuosikymmeniä kestäneet sokeat kujat. Lopuksi tällaiset mallit voisivat taistella uusittavuuskriisi kartoittamalla, punnitsemalla ja kontekstualisoimalla tutkimustuloksia, mikä antaa pisteet luotettavuudesta.

Joten miksi meillä ei ole DALL-E:tä tai GPT-3:a tieteelle? Syynä on se, että vaikka tieteellinen tutkimus on maailman arvokkain sisältö, se on myös maailman vähiten saatavilla oleva ja ymmärrettävä sisältö. Selitän, mitä tarvitaan tieteellisen tiedon avaamiseen laajassa mittakaavassa, jotta tieteen generoiva tekoäly olisi mahdollista, ja kuinka se muuttaisi tapaamme osallistua tutkimukseen.

Mikä tekee tieteellisestä tutkimustiedosta haastavaa

Tutkimusjulkaisut ovat maailman tärkeimpiä koskaan luodun sisällön ja tiedon arkistoja. Ne yhdistävät ajatuksia ja löydöksiä ajan ja tieteenalojen välillä, ja kirjastoverkosto säilyttää ne ikuisesti. Niitä tukevat todisteet, analyysit, asiantuntijan näkemykset ja tilastolliset suhteet. Ne ovat erittäin arvokkaita, mutta ne ovat suurelta osin piilossa verkosta ja niitä käytetään erittäin tehottomasti. Verkko on täynnä söpöjä, pehmoisia kissavideoita, mutta valtaosin vailla huippuluokan syöpätutkimusta. Esimerkkinä on Web of Science on yksi kattavimmista tieteellisen tiedon indekseistä. Se on ollut olemassa vuosikymmeniä, mutta se on luultavasti jotain, josta useimmat lukijat eivät ole koskaan edes kuulleet, puhumattakaan vuorovaikutuksesta. Useimmilla meistä ei ole pääsyä tutkimuspapereihin, ja vaikka meillä olisikin, ne ovat tiheitä, vaikeasti ymmärrettäviä ja pakattu PDF-muotoon – muotoon, joka on suunniteltu tulostamiseen, ei verkkokäyttöön.

Koska tieteelliset artikkelit eivät ole helposti saatavilla, emme voi helposti käyttää tietoja generatiivisten mallien, kuten GPT-3 tai DALL-E, kouluttamiseen. Voitko kuvittele, jos tutkija voisi ehdottaa koetta ja tekoälymalli voisi välittömästi kertoa heille, onko se tehty aiemmin (ja mikä vielä parempi, antaa heille tulos)? Sitten kun heillä on tietoja uudesta kokeesta, tekoäly voi ehdottaa seurantakoetta tuloksen perusteella. Lopuksi kuvittele, kuinka paljon aikaa voitaisiin säästää, jos tutkija voisi ladata tulokset ja tekoälymalli voisi kirjoittaa tuloksena olevan käsikirjoituksen niitä. Lähimpänä tieteen DALL-E:tä, jonka olemme koskaan tulleet, on Google Scholar, mutta se ei ole kestävä tai skaalautuva ratkaisu. IBM Watson pyrki myös saavuttamaan suuren osan siitä, mitä tässä kuvailen, mutta suurin osa työstä tapahtui suurten kielimallien viimeaikaisten edistysten edellä, eikä siinä käytetty asianmukaisia tai riittäviä tietoja vastaamaan markkinointihypeen.

Kuvailemaani arvonvapauttamiseen tarvitsemme pitkän aikavälin investointeja, sitoutumista ja visiota. Kuten ehdotettu äskettäin in Tulevaisuus, meidän on käsiteltävä tieteellisiä julkaisuja substraatteina, jotka yhdistetään ja analysoidaan mittakaavassa. Kun olemme poistaneet esteet, voimme käyttää tiedettä syöttääksemme datanhimoisia generatiivisia tekoälymalleja. Näillä malleilla on valtava potentiaali nopeuttaa tiedettä ja lisätä tieteellistä lukutaitoa, esimerkiksi kouluttamalla niitä luomaan uusia tieteellisiä ideoita, auttamalla tutkijoita hallitsemaan ja navigoimaan laajassa tieteellisessä kirjallisuudessa, auttamaan tunnistamaan virheellistä tai jopa väärennettyä tutkimusta sekä syntetisoimaan ja kääntämään monimutkaisia tutkimustuloksia tavallinen ihmisen puhe.

Kuinka saamme DALL-E:n tai GPT-3:n tieteeseen?

Jos olet tekniikan alalla, näytä ystävällesi generatiivisten tekoälymallien tuloksia, kuten DALL-E or GPT-3 on kuin näyttäisi heille taikuutta. Nämä työkalut edustavat seuraavan sukupolven verkkoa. Ne syntetisoidaan valtavien tietomäärien yksinkertaisen linkin lisäksi luodakseen työkaluja, joilla on tuotantokapasiteettia. Joten kuinka voimme luoda samanlaisen maagisen kokemuksen tieteessä, jossa kuka tahansa voi esittää kysymyksen tieteellisestä kirjallisuudesta selkeällä kielellä ja saada ymmärrettävän vastauksen todisteiden tukemana? Kuinka voimme auttaa tutkijoita luomaan, kehittämään, tarkentamaan ja testaamaan hypoteesejaan? Kuinka voimme mahdollisesti välttää miljardien dollarien tuhlaamisen? epäonnistuneet hypoteesit Alzheimerin tutkimuksessa ja virheelliset yhteydet genetiikan ja masennuksen välillä?

Ratkaisut näihin kysymyksiin saattavat kuulostaa tieteiskirjallisuudesta, mutta on todisteita siitä, että voimme tehdä hämmästyttäviä ja käsittämättömiä asioita, kun tieteellistä työtä käytetään muuhunkin kuin osiensa summaan. Käytännössä lähes 200,000 XNUMX proteiinirakennetta vuonna Proteiinitietopankki on antanut AlphaFold kyky ennustaa tarkasti proteiinirakenteita, mikä on juuri tehty jokainen koskaan dokumentoitu proteiini (yli 200 miljoonaa!). Tutkimuspapereiden hyödyntäminen proteiinirakenteiden kaltaisella tavalla olisi luonnollinen seuraava askel.

Pilko paperit niiden minimaalisiksi komponenteiksi

Tutkimuspaperit ovat täynnä arvokasta tietoa, kuten lukuja, kaavioita, tilastollisia suhteita ja viittauksia muihin tutkimuksiin. Niiden jakaminen eri osiin ja niiden laajamittainen käyttö voisi auttaa meitä kouluttamaan koneita erilaisiin tieteeseen liittyviin töihin, kehotteisiin tai kyselyihin. Yksinkertaisiin kysymyksiin voidaan vastata yhden komponenttityypin koulutuksella, mutta monimutkaisemmat kysymykset tai kehotteet edellyttäisivät useiden komponenttityyppien yhdistämistä ja niiden välisen suhteen ymmärtämistä.

Joitakin esimerkkejä monimutkaisista mahdollisista kehotteista ovat:

"Kerro minulle, miksi tämä hypoteesi on väärä"
"Kerro minulle, miksi hoitoideani ei toimi"
"Luo uusi hoitoidea"
"Mitä todisteita on sosiaalipolitiikan X tueksi?"
"Kuka on julkaissut luotettavimman tutkimuksen tällä alalla?"
"Kirjoita minulle tieteellinen artikkeli tietojeni perusteella"

Jotkut ryhmät edistyvät tässä visiossa. Esimerkiksi, Saavuta soveltaa GPT-3:a miljooniin paperinimikkeisiin ja tiivistelmiin auttaakseen vastaamaan tutkijoiden kysymyksiin – kuten Alexa, mutta tieteelle. järjestelmä poimii tilastollisia suhteita entiteettien välillä, mikä osoittaa, kuinka eri käsitteet ja kokonaisuudet liittyvät toisiinsa. Pohjamaali ei keskity tutkimuspapereihin sinänsä, mutta se toimii arXivin kanssa ja tarjoaa kojetaulun tietoihin, joita yritykset ja hallitukset käyttävät syntetisoidakseen ja ymmärtääkseen suuria tietomääriä monista lähteistä.

Pääsy kaikkiin komponentteihin

Valitettavasti nämä ryhmät luottavat pääasiassa vain otsikoihin ja tiivistelmiin, eivät koko tekstiin, koska noin viisi kuudesta artikkelista ei ole vapaasti tai helposti saatavilla. Ryhmille, kuten Web of Sciencelle ja Googlelle, joilla on tiedot tai paperit, niiden lisenssit ja käyttöalue ovat rajoitettu tai määrittelemätön. Googlen tapauksessa on epäselvää, miksi ei ole julkisesti ilmoitettu pyrkimyksiä kouluttaa tekoälymalleja Google Scholarin kokotekstitieteelliseen tutkimukseen. Hämmästyttävää kyllä, tämä ei muuttunut edes keskellä COVID-19-pandemiaa, joka pysäytti maailman. Googlen tekoälytiimi lisäsi toimintaansa ja loi tavan, jolla yleisö voi kysyä COVID-19: stä. Mutta - ja tässä on kicker - he tekivät sen käyttämällä vain PubMedin avoimen pääsyn papereita, eivät Google Scholaria.

Ryhmät ovat kannattaneet vuosikymmeniä kysymystä papereiden saamisesta ja niiden käyttämisestä muuhun kuin vain yksitellen lukemiseen. Olen itse työskennellyt sen parissa lähes vuosikymmenen ajan käynnistäen avoimen julkaisualustan nimeltä Voittaja Tohtorintutkintoni viimeisen vuoden aikana ja työskentelin sitten tulevaisuuden artikkeli toisessa käynnistyksessä nimeltään Authorea. Vaikka kumpikaan näistä aloitteista ei toteutunut täysin haluamallani tavalla, ne johtivat minut nykyiseen työhöni scite, joka on ainakin osittain ratkaissut käyttöoikeusongelman tekemällä yhteistyötä suoraan julkaisijoiden kanssa.

Yhdistä komponentit ja määritä suhteet

Tavoitteenamme on scite on esitellä seuraavan sukupolven lainaukset - nimeltään Smart Citations - jotka osoittavat, kuinka ja miksi mitä tahansa artikkelia, tutkijaa, lehteä tai aihetta on lainattu ja yleisemmin käsitelty kirjallisuudessa. Työskentelemällä julkaisijoiden kanssa poimimme lauseet suoraan kokotekstiartikkeleista, joissa he käyttävät viittauksiaan tekstissä. Nämä lauseet tarjoavat laadullisen käsityksen siitä, kuinka uudemmat työt siteerasivat papereita. Se on vähän kuin Rotten Tomatoes tutkimuksen kannalta.

Tämä edellyttää pääsyä kokotekstisiin artikkeleihin ja yhteistyötä julkaisijoiden kanssa, jotta voimme käyttää koneoppimista poimia ja analysoida lainauslauseita laajasti. Koska Open Access -artikkeleita oli tarpeeksi aloittamiseen, pystyimme rakentamaan konseptin todisteet ja yksi kerrallaan osoitimme julkaisijoille järjestelmäämme indeksoitujen artikkelien paremman löydettävyyden ja tarjosimme heille järjestelmän näyttää parempia mittareita vastuullisempaan tutkimuksen arviointiin. Se, mitä pidimme asiantuntijalausunnoina, he pitivät artikkeleidensa esikatseluina. Julkaisijat ovat nyt liittyneet joukkoon, ja olemme indeksoineet yli 1.1 miljardia Smart Citationia yli puolesta kaikista julkaistuista artikkeleista.

Käytä relaatiodataa AI-mallien kouluttamiseen

Papereista poimittujen komponenttien ja suhteiden avulla voitaisiin kouluttaa uusia suuria kielimalleja tutkimukseen. Vaikka GPT-3 on erittäin tehokas, sitä ei rakennettu toimimaan tieteessä ja vastaa huonosti kysymyksiin, joita saatat nähdä SAT:ssa. Kun GPT-2 (GPT-3:n aikaisempi versio) oli mukautettu kouluttamalla se miljooniin tutkimuspapereihin, se toimi paremmin kuin pelkkä GPT-2 tietyissä tietotehtävissä. Tämä korostaa, että mallien kouluttamiseen käytetyt tiedot ovat erittäin tärkeitä.

Jotkut ryhmät ovat viime aikoina käytti GPT-3:a akateemisten kirjoitusten kirjoittamiseen, ja vaikka tämä on vaikuttavaa, tosiasiat tai perustelut, joita he saattavat esittää, voivat olla hyvinkin vääriä. Jos malli ei saa yksinkertaisia SAT-tyylisiä kysymyksiä oikein, voimmeko luottaa siihen, että se kirjoittaa täydellisen paperin? SCIgen, joka on GPT-3:a edeltänyt lähes 20 vuotta, osoitti, että aidolta näyttävien papereiden luominen on suhteellisen helppoa. Heidän järjestelmänsä, vaikkakin paljon yksinkertaisempi, tuotti papereita, jotka olivat hyväksytty erilaisiin konferensseihin. Tarvitsemme mallin, joka ei vain näytä tieteelliseltä, vaan on tieteellinen, ja joka vaatii järjestelmän koneita ja ihmisiä koskevien väitteiden tarkistamiseksi. Meta esitteli äskettäin a järjestelmä Wikipedian viittausten tarkistamiseen, jota joillakin kustantajilla on äänekkäästi toivoivat heillä tieteellisiä julkaisuja.

Tämänhetkinen edistyminen

Jälleen yksi keskeinen este tämän järjestelmän toteuttamiselle on pääsyn puute papereihin ja resursseihin sen luomiseksi. Näemme, missä paperit tai tiedot tulevat saataville laajamittaiseen käyttöön työkalut ja uudet mallit kukoistavat. Google-patenttitiimi käytti 100 miljoonaa patenttia järjestelmän kouluttamiseksi patenttianalyysien avuksi, käytännössä GooglePatentBERT. Muut ovat esitelleet malleja, kuten BioBERT ja SciBERT, ja huolimatta siitä, että heitä on koulutettu vain noin 1 prosenttiin tieteellisistä teksteistä vain tietyillä aihealueilla, he ovat vaikuttavia tieteellisissä tehtävissä, mukaan lukien scite-viittausten luokittelujärjestelmämme.

Viime aikoina a ScholarBERT malli on julkaistu, joka käytännössä käyttää kaikkea tieteellistä kirjallisuutta BERT:n kouluttamiseen. He selviävät pääsyongelmasta, mutta ovat erityisen äitejä siitä, kuinka he yksinkertaisesti korostavat, että heidän käyttönsä on "ei-kulutusta". Tämä käyttötapaus saattaa avata oven toiset käyttävät artikkeleita ilman julkaisijoiden nimenomaista lupaa ja voivat olla tärkeä askel tieteen DALL-E:n luomisessa. Yllättäen ScholarBERT onnistui kuitenkin huonommin erilaisissa erikoistuneissa tietotehtävissä kuin pienemmät tiedekielimallit, kuten SciBERT.

Tärkeää on, että BERT-tyyliset mallit ovat paljon pienempiä kuin suuret kielimallit, kuten GPT-3, eivätkä ne salli samanlaista yleistä kehotusta ja kontekstin sisäistä oppimista, joka on johtanut suureen osaan GPT-3-hypeä. Kysymys jää: entä jos käyttäisimme samoja ScholarBERT:n tietoja kouluttaaksemme skaalattua generatiivista mallia, kuten GPT-3? Entä jos voisimme jotenkin näyttää, mistä koneen vastaukset ovat peräisin, kenties yhdistämällä ne suoraan kirjallisuuteen (kuten Smart Citations)?

Miksi nyt?

Onneksi paperit avautuvat ja koneet ovat yhä tehokkaampia. Voimme nyt alkaa käyttää papereiden ja yhdistettyjen tietovarastojen sisältämää dataa koneiden kouluttamiseen vastaamaan kysymyksiin ja syntetisoimaan tutkimukseen perustuvia uusia ideoita. Tämä voi muuttaa terveydenhuollon, politiikan, teknologian ja kaiken ympärillämme. Kuvittele, jos emme etsi vain asiakirjojen otsikoita vaan erityisesti vastauksia, kuinka se vaikuttaisi tutkimukseen ja työnkulkuihin kaikilla tieteenaloilla.

Maailman tieteellisen tiedon vapauttaminen saavutettavuuden ja ymmärrettävyyden kahdesta esteestä auttaa siirtymään klikkauksiin, katseluihin, tykkäyksiin ja huomioihin keskittyvästä verkosta näyttöön, dataan ja totuuteen keskittyvään verkkoon. Pharmalla on selkeä kannustin toteuttaa tämä, minkä vuoksi kasvava määrä uusia yrityksiä, jotka tunnistavat mahdollisia lääkekohteita tekoälyn avulla – mutta uskon, että yleisö, hallitukset ja kaikki Googlea käyttävät voivat olla halukkaita luopumaan ilmaisista hauista saadakseen luottamusta ja aikaa. tallentaa. Maailma tarvitsee kipeästi tällaista järjestelmää, ja se tarvitsee sitä nopeasti.

Julkaistu 18. elokuuta 2022

Tekniikka, innovaatiot ja tulevaisuus, kuten sitä rakentajat kertovat.

Kiitos rekisteröitymisestä.

Tarkista postilaatikostasi tervetuliaisviesti.

Aikaleima: Elokuu 18, 2022Elokuu 18, 2022

Aikaleima: Lokakuu 18, 2022

Kuinka rakentaa GPT-3 tieteelle

Julkaissut Platon

Mikä tekee tieteellisestä tutkimustiedosta haastavaa

Kuinka saamme DALL-E:n tai GPT-3:n tieteeseen?

Pilko paperit niiden minimaalisiksi komponenteiksi

Pääsy kaikkiin komponentteihin

Yhdistä komponentit ja määritä suhteet

Käytä relaatiodataa AI-mallien kouluttamiseen

Tämänhetkinen edistyminen

Miksi nyt?

Kiitos rekisteröitymisestä.

Lisää aiheesta Andreessen Horowitz

Kaupungeissamme on API-ongelma. Startupit voivat korjata sen.

Sijoittaminen Svixiin

Kyse on rahasta (liikkeestä): rajat ylittävien maksujen yksinkertaistaminen

Söimmekö liikaa ohjelmistoista?

Sijoittaminen Radiantiin

Hinta ei ole oikea: 3 hinnoittelu- ja pakkausongelmaa, jotka on vältettävä

Crypto Startup School: käynnistetty uudelleen ja laajennettu

Investointi menetelmään

Miksi koneoppimisen soveltaminen biologiaan on vaikeaa – mutta sen arvoista

Brasilian yllättävä Fintech Tailwind

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili