GPT-3 készítése a Science PlatoBlockchain adatintelligenciához. Függőleges keresés. Ai.

Hogyan készítsünk GPT-3-at a tudomány számára

Képet szeretne létrehozni róla Velociraptorok egy felhőkarcolón dolgoznak, az 1932-es „Ebéd a felhőkarcolón” stílusában? Használja a DALL-E-t. Képzeletet szeretne létrehozni Peter Thiel, Elon Musk és Larry Page standup comedy show-ja? Használja a GPT-3-at. Szeretné mélyen megérteni a COVID-19-kutatást, és bizonyítékok alapján válaszolni kérdéseire? Tanuljon meg Boole-féle keresést végezni, tudományos cikkeket olvasson, és esetleg doktori fokozatot szerezzen, mert nincsenek generatív mesterséges intelligencia-modellek, amelyek a tudományos kutatási publikációk hatalmas tömegén alapulnak. Ha lenne, a legegyszerűbb előnyök közé tartozna, ha tudományos kérdésekre bizonyítékokkal alátámasztott, közérthető válaszokat kapnánk. A generatív mesterséges intelligencia a tudomány számára segíthet megfordítani a a tudomány innovációjának lassulása by így csinálják könnyebb és a olcsóbb új ötleteket találni. Az ilyen modellek adatokkal alátámasztott figyelmeztetéseket is nyújthatnak azokra a terápiás hipotézisekre, amelyek biztosan kudarcot vallanak, ellensúlyozva az emberi elfogultságot és elkerülve a milliárd dollárt, évtizedes zsákutcák. Végül az ilyen modellek harcolhatnak a reprodukálhatósági válság a kutatási eredmények feltérképezésével, mérlegelésével és kontextusba helyezésével, a megbízhatóság pontszámát biztosítva.

Akkor miért nincs DALL-E vagy GPT-3 a tudomány számára? Ennek az az oka, hogy bár a tudományos kutatás a a világ legértékesebb tartalma, egyben a világ legkevésbé hozzáférhető és érthető tartalma is. Elmagyarázom, mire lenne szükség a tudományos adatok széles körű feltárásához, hogy lehetővé váljon a generatív mesterséges intelligencia a tudomány számára, és hogyan változtatná meg a kutatással való részvételünket. 

Mi teszi kihívássá a tudományos kutatási adatokat

A kutatási publikációk a világ legjelentősebb tartalom- és információforrásai közé tartoznak. Időben és tudományágban összekapcsolják az ötleteket és az eredményeket, és örökre megőrzi őket a könyvtárak hálózata. Ezeket bizonyítékok, elemzések, szakértői betekintés és statisztikai összefüggések támasztják alá. Rendkívül értékesek, mégis nagyrészt el vannak rejtve az internet elől, és nem hatékonyan használják őket. Az internet tele van aranyos, bújós macskás videókkal, de nagyrészt nélkülözik az élvonalbeli rákkutatást. Példaként a Web of Science a tudományos ismeretek egyik legátfogóbb mutatója. Évtizedek óta létezik, de valószínűleg ez az, amiről a legtöbb olvasó még csak nem is hallott, nem is beszélve vele. Legtöbbünknek nincs hozzáférése a kutatási dokumentumokhoz, és ha igen, akkor is sűrűek, nehezen érthetőek, és PDF formátumban vannak csomagolva – ez a formátum nyomtatásra készült, nem az internetre.

Mivel a tudományos közlemények nem könnyen hozzáférhetők, nem tudjuk könnyen felhasználni az adatokat olyan generatív modellek képzésére, mint a GPT-3 vagy a DALL-E. Tudsz Képzeld el, ha egy kutató javasolhatna egy kísérletet, és egy AI-modell azonnal meg tudná mondani nekik, hogy korábban megtörtént-e (és még jobb, ha megadná az eredményt)? Ezután, ha egy új kísérlet adataival rendelkeznek, az AI javasolhat egy nyomon követési kísérletet az eredmény alapján. Végül képzeljük el, mennyi időt lehetne megspórolni, ha a kutató feltölthetné eredményeit, és az AI-modell meg tudná írni a kapott kéziratot őket. A tudomány DALL-E-jéhez a Google Scholar a legközelebb, de ez nem fenntartható vagy méretezhető megoldás. Az IBM Watson szintén arra törekedett, hogy elérje az itt leírtak nagy részét, de a munka nagy része megelőzte a nagy nyelvi modellek közelmúltbeli fejlődését, és nem használt megfelelő vagy elegendő adatot a marketingfelhajtáshoz.

Az általam leírt értékfeloldáshoz hosszú távú befektetésre, elkötelezettségre és jövőképre van szükségünk. A javaslat szerint nemrég in Jövő, a tudományos publikációkat olyan szubsztrátumokként kell kezelnünk, amelyeket kombinálni és skálán kell elemezni. Ha elhárítjuk az akadályokat, a tudomány segítségével táplálhatjuk majd az adatéhes generatív mesterséges intelligencia modelleket. Ezek a modellek óriási lehetőségeket rejtenek a tudomány felgyorsításában és a tudományos műveltség növelésében, például azáltal, hogy új tudományos ötletek létrehozására tanítják őket, segítik a tudósokat a hatalmas tudományos irodalom kezelésében és navigálásában, segítenek azonosítani a hibás vagy akár meghamisított kutatásokat, valamint szintetizálni és lefordítani a komplex kutatási eredményeket. hétköznapi emberi beszéd.

Hogyan szerezzünk DALL-E-t vagy GPT-3-at a tudomány számára?

Ha technikával foglalkozik, mutasson meg egy barátjának olyan generatív AI-modelleket, mint pl DALL-E or GPT-3 olyan, mint varázslatot mutatni nekik. Ezek az eszközök a web következő generációját képviselik. Hatalmas mennyiségű információ szintéziséből származnak, az egyszerű összekapcsoláson túl, hogy generatív kapacitással rendelkező eszközöket hozzanak létre. Hogyan teremthetünk tehát egy hasonlóan varázslatos élményt a tudományban, ahol bárki közérthetően feltehet egy kérdést a tudományos irodalomnak, és érthető, bizonyítékokkal alátámasztott választ kaphat? Hogyan segíthetünk a kutatóknak hipotéziseik létrehozásában, fejlesztésében, finomításában és tesztelésében? Hogyan kerülhetjük el, hogy több milliárd dollárt pazaroljunk erre? sikertelen hipotézisek az Alzheimer-kutatásban és a téves összefüggések a genetika és a depresszió között

Ezekre a kérdésekre adott megoldások tudományos-fantasztikusnak tűnhetnek, de van bizonyíték arra, hogy elképesztő és elképzelhetetlen dolgokra vagyunk képesek, ha a tudományos munkát nem csupán a részek összegére használjuk. Valójában közel 200,000 XNUMX fehérjeszerkezet felhasználásával a Protein Data Bank adott AlphaFold a képesség hogy pontosan megjósolhassák a fehérjeszerkezeteket, amiért éppen megtették minden valaha dokumentált fehérje (több mint 200 millió!). Természetes következő lépés lenne, ha a kutatási dokumentumokat a fehérjeszerkezetekhez hasonló módon hasznosítanák. 

Bontsa fel a papírokat minimális komponenseikre

A kutatási cikkek tele vannak értékes információkkal, beleértve az ábrákat, diagramokat, statisztikai összefüggéseket és hivatkozásokat más tanulmányokra. Különböző komponensekre bontásuk és nagyarányú felhasználásuk segíthet a gépek képzésében a különféle természettudományos munkákra, felszólításokra vagy lekérdezésekre. Az egyszerű kérdésekre egy-egy komponenstípus oktatásával meg lehet válaszolni, de az összetettebb kérdésekhez vagy felszólításokhoz több komponenstípus beépítése és egymáshoz való viszonyuk megértése szükséges.  

Néhány példa az összetett lehetséges felszólításokra:

"Mondd el, miért rossz ez a hipotézis"
"Mondd el, miért nem működik a kezelési ötletem"
„Új kezelési ötlet generálása”
„Milyen bizonyítékok vannak az X szociálpolitika alátámasztására?”
– Ki publikálta a legmegbízhatóbb kutatást ezen a területen?
„Írj nekem egy tudományos dolgozatot az adataim alapján”

Egyes csoportok haladnak előre ezen a vízión. Például, Kiváltani A GPT-3-at több millió papírcímre és kivonatra alkalmazza, hogy segítsen megválaszolni a kutatók kérdéseit – olyan, mint az Alexa, de a tudomány számára. rendszer statisztikai kapcsolatokat bont ki az entitások között, bemutatva, hogy a különböző fogalmak és entitások hogyan kapcsolódnak egymáshoz. Primer önmagában nem a kutatási cikkekre összpontosít, de működik az arXiv-vel, és a vállalatok és a kormányok által felhasznált információk irányítópultját biztosítja a sok forrásból származó nagy mennyiségű adat szintéziséhez és megértéséhez. 

Hozzáférés az összes összetevőhöz

Sajnos ezek a csoportok elsősorban csak a címekre és a kivonatokra támaszkodnak, nem a teljes szövegekre, mivel hat cikkből nagyjából öt nem szabadon vagy könnyen hozzáférhető. Az olyan csoportok esetében, mint a Web of Science és a Google, amelyek rendelkeznek az adatokkal vagy a papírokkal, licenceik és felhasználási körük a következő korlátozott vagy meghatározatlan. A Google esetében nem világos, hogy miért nem történtek nyilvánosan bejelentett erőfeszítések a mesterséges intelligencia modellek képzésére a Google Scholar teljes szövegű tudományos kutatására. Meglepő módon ez még a COVID-19 világjárvány közepette sem változott, amely megtorpant a világban. A Google mesterséges intelligencia csapata feljebb lépett, és olyan prototípust dolgozott ki, amellyel a nyilvánosság kérdezhet a COVID-19-ről. De – és itt van a kicker – ezt csak a PubMed nyílt hozzáférésű papírjaival tették, nem a Google Scholartól. 

A csoportok évtizedek óta szorgalmazzák a papírokhoz való hozzáférést és azok többre való felhasználását, mint egyenkénti elolvasását. Magam is közel egy évtizeden át dolgoztam ezen, és elindítottam egy nyílt hozzáférésű publikációs platformot A Winnower PhD tanulmányaim utolsó évében, majd azon dolgoztam, hogy a a jövő cikke hívott másik startupnál Authorea. Bár egyik kezdeményezés sem úgy alakult, ahogy szerettem volna, a jelenlegi munkámhoz vezettek scite, amely a kiadókkal való közvetlen együttműködés révén legalább részben megoldotta a hozzáférési problémát. 

Kösse össze a komponenseket és határozzon meg kapcsolatokat

Célunk: scite az, hogy bemutassuk a az idézetek következő generációja Intelligens idézetek, amelyek megmutatják, hogy a szakirodalom hogyan és miért hivatkozott és általánosabban tárgyalt bármely cikkre, kutatóra, folyóiratra vagy témára. A kiadókkal együttműködve a mondatokat közvetlenül a teljes szövegű cikkekből nyerjük ki, ahol szövegben használják hivatkozásaikat. Ezek a mondatok minőségi betekintést nyújtanak abba, hogy az újabb munkák hogyan idézték a dolgozatokat. Kicsit olyan, mint a Rotten Tomatoes a kutatás szempontjából.

Ehhez hozzá kell férni a teljes szövegű cikkekhez, és együttműködni a kiadókkal, hogy a gépi tanulás segítségével kinyerhessük és elemezhessük a hivatkozási nyilatkozatokat. Mivel elég nyílt hozzáférésű cikk állt rendelkezésre a kezdéshez, ki tudtuk építeni a koncepció bizonyítékát, és egyenként bemutattuk a kiadóknak a rendszerünkben indexelt cikkek megnövekedett felfedezhetőségét, és rendszert biztosítottunk számukra jobb mutatókat mutatni felelősségteljesebb kutatásértékelésért. Amit mi szakértői nyilatkozatoknak láttunk, azt ők cikkeik előzetesének tekintették. A kiadók mára tömegesen iratkoztak fel, és több mint 1.1 milliárd intelligens idézetet indexeltünk az összes megjelent cikk több mint feléből.

Használjon relációs adatokat az AI-modellek betanításához

A dolgozatokból kinyert komponensek és relációk felhasználhatók új nagy nyelvi modellek kutatási célú képzésére. A GPT-3, bár nagyon erős, nem úgy készült, hogy a tudományon és a gyengén válaszol a SAT-on megjelenő kérdésekre. Amikor a GPT-2 (a GPT-3 egy korábbi verziója) volt átdolgozva több millió kutatási dokumentumon, jobban működött, mint a GPT-2 önmagában bizonyos tudásfeladatokon. Ez rávilágít arra, hogy a modellek betanításához felhasznált adatok rendkívül fontosak. 

 Néhány csoport a közelmúltban a GPT-3-at használta tudományos dolgozatok írásához, és bár ez lenyűgöző, az általuk bemutatni kívánt tények vagy érvek nagyon tévesek lehetnek. Ha a modell nem tud helyesen feltenni az egyszerű SAT-stílusú kérdéseket, akkor megbízhatunk benne, hogy egy teljes dolgozatot ír? SCIgen, amely közel 3 évvel megelőzi a GPT-20-at, megmutatta, hogy a valódinak tűnő papírok előállítása viszonylag egyszerű. A rendszerük, bár sokkal egyszerűbb, olyan papírokat generált, amelyek voltak felvették a különböző konferenciákra. Olyan modellre van szükségünk, amely nemcsak tudományosnak tűnik, hanem tudományos is, és ehhez egy olyan rendszerre van szükség, amely igazolja a gépekre és az emberekre vonatkozó állításokat. A Meta nemrégiben bemutatta a rendszer a Wikipédia hivatkozásainak ellenőrzésére, amit egyes kiadók hangosan is elmondanak bárcsak kapnának tudományos publikációkat.

Jelenlegi folyamat

A rendszer megvalósításának egyik kulcsfontosságú akadálya ismét a létrehozásához szükséges papírokhoz és erőforrásokhoz való hozzáférés hiánya. Azt látjuk, hogy hol válnak elérhetővé papírok vagy információk nagyarányú felhasználásra eszközök és új modellek virágoznak. A Google Patent csapata használt 100 millió szabadalom a szabadalomelemzést segítő rendszer képzésére, gyakorlatilag egy GooglePatentBERT. Mások olyan modelleket vezettek be, mint pl BioBERT és a SciBERT, és annak ellenére, hogy csak a tudományos szövegek kb. 1%-ára képezték ki őket csak meghatározott tématerületeken, lenyűgözőek a tudományos feladatokban, beleértve a scite hivatkozási osztályozási rendszerét is. 

A közelmúltban, egy ScholarBERT modellt adtak ki, amely gyakorlatilag az összes tudományos irodalmat felhasználja a BERT képzésére. Leküzdik a hozzáférési problémát, de különösen anyukájuk, hogy hogyan, egyszerűen csak hangsúlyozzák, hogy használatukat „nem fogyasztják”. Ez a használati eset kinyithatja az ajtókat mások a kiadók kifejezett engedélye nélkül használnak cikkeket, és ez fontos lépés lehet a tudomány DALL-E létrehozásában. Meglepő módon azonban a ScholarBERT rosszabbul teljesített a különböző speciális tudásfeladatokban, mint a kisebb tudományos nyelvi modellek, mint a SciBERT. 

Fontos, hogy a BERT-stílusú modellek sokkal kisebb léptékűek, mint a nagy nyelvi modellek, mint például a GPT-3, és nem teszik lehetővé ugyanazt a fajta általános felszólítást és a kontextuson belüli tanulást, mint ami a GPT-3 felhajtás nagy részét hajtotta. A kérdés továbbra is fennáll: mi lenne, ha a ScholarBERT ugyanazokat az adatokat alkalmaznánk egy felnagyított generatív modell képzésére, mint a GPT-3? Mi lenne, ha valahogy megmutatnánk, honnan származnak a válaszok a gépből, esetleg közvetlenül a szakirodalomhoz (például a Smart Citations) kötve?

Miért most?

Szerencsére a papírok egyre nyitottabbak, a gépek pedig egyre erősebbek. Mostantól elkezdhetjük felhasználni a papírokban és a csatlakoztatott adattárakban található adatokat arra, hogy gépeket képezzenek kérdések megválaszolására és a kutatáson alapuló új ötletek szintetizálására. Ez átalakíthatja az egészségügyet, a politikát, a technológiát és mindent, ami körülvesz bennünket. Képzelje el, ha nem csak a dokumentumok címére, hanem kifejezetten a válaszokra keresnénk, az milyen hatással lenne a kutatásra és a munkafolyamatokra az összes tudományterületen. 

 A világ tudományos ismereteinek felszabadítása a hozzáférhetőség és az érthetőség kettős akadálya alól elősegíti az átmenetet a kattintásokra, megtekintésekre, tetszésnyilvánításokra és figyelemre összpontosító internetről a bizonyítékokra, adatokra és valódiságra összpontosító webről. A Pharma egyértelműen arra ösztönöz, hogy ezt megvalósítsa, ezért egyre több induló vállalkozás azonosítja a lehetséges gyógyszercélpontokat mesterséges intelligencia segítségével – de úgy gondolom, hogy a közvélemény, a kormányok és bárki, aki a Google-t használja, hajlandó lehet lemondani az ingyenes keresésekről, hogy bizalmat és időt nyerjen. megtakarítás. A világnak égetően szüksége van egy ilyen rendszerre, és gyorsan szüksége van rá. 


 

 

Feladás dátuma: 18. augusztus 2022

Technológia, innováció és a jövő, ahogy azt az építők elmondták.

Köszönjük a feliratkozást.

Nézze meg a beérkezett üzeneteket, hogy van-e üdvözlő üzenet.

Időbélyeg:

Még több Andreessen Horowitz