Cara Membangun GPT-3 untuk Kecerdasan Data PlatoBlockchain Sains. Pencarian Vertikal. Ai.

Cara Membangun GPT-3 untuk Sains

Ingin membuat gambar dari velociraptors bekerja di gedung pencakar langit, dengan gaya "Makan Siang Di Atas Pencakar Langit" tahun 1932? Gunakan DALL-E. Ingin membuat imajiner acara komedi standup oleh Peter Thiel, Elon Musk, dan Larry Page? Gunakan GPT-3. Ingin memahami penelitian COVID-19 secara mendalam dan menjawab pertanyaan Anda berdasarkan bukti? Pelajari cara melakukan pencarian Boolean, membaca makalah ilmiah, dan mungkin mendapatkan gelar PhD, karena tidak ada model AI generatif yang dilatih di banyak publikasi penelitian ilmiah. Jika ada, mendapatkan jawaban yang didukung bukti dan bahasa sederhana untuk pertanyaan ilmiah akan menjadi salah satu manfaat paling sederhana. AI generatif untuk sains dapat membantu membalikkan keadaan perlambatan inovasi dalam sains by membuatnya mudah dan murah untuk menemukan ide-ide baru. Model semacam itu juga dapat memberikan peringatan yang didukung data tentang hipotesis terapeutik yang pasti akan gagal, mengimbangi bias manusia dan menghindari miliaran dolar, gang buntu selama puluhan tahun. Akhirnya, model seperti itu bisa bertarung krisis reproduksibilitas dengan memetakan, menimbang, dan mengontekstualisasikan hasil penelitian, memberikan skor kepercayaan.

Jadi mengapa kita tidak memiliki DALL-E atau GPT-3 untuk sains? Alasannya adalah bahwa meskipun penelitian ilmiah adalah konten paling berharga di dunia, juga konten yang paling tidak dapat diakses dan dimengerti di dunia. Saya akan menjelaskan apa yang diperlukan untuk membuka data ilmiah dalam skala besar untuk memungkinkan AI generatif untuk sains, dan bagaimana hal itu akan mengubah cara kita terlibat dalam penelitian. 

Apa yang membuat data penelitian ilmiah menantang?

Publikasi penelitian adalah beberapa repositori terpenting di dunia untuk konten dan informasi yang pernah dibuat. Mereka mengikat ide dan temuan bersama lintas waktu dan disiplin ilmu, dan selamanya dilestarikan oleh jaringan perpustakaan. Mereka didukung oleh bukti, analisis, wawasan ahli, dan hubungan statistik. Mereka sangat berharga, namun sebagian besar tersembunyi dari web dan digunakan dengan sangat tidak efisien. Web penuh dengan video kucing yang lucu dan suka diemong tetapi sebagian besar tanpa penelitian kanker mutakhir. Sebagai contoh, Web of Science adalah salah satu indeks pengetahuan ilmiah yang paling komprehensif. Sudah ada selama beberapa dekade, tetapi mungkin sesuatu yang sebagian besar pembaca belum pernah dengar, apalagi berinteraksi. Sebagian besar dari kita tidak memiliki akses ke makalah penelitian, dan bahkan ketika kita memilikinya, makalah itu padat, sulit dipahami, dan dikemas sebagai PDF โ€” format yang dirancang untuk dicetak, bukan untuk web.

Karena makalah ilmiah tidak mudah diakses, kami tidak dapat dengan mudah menggunakan data untuk melatih model generatif seperti GPT-3 atau DALL-E. Dapatkah Anda bayangkan jika seorang peneliti dapat mengusulkan percobaan dan model AI dapat langsung memberi tahu mereka jika itu telah dilakukan sebelumnya (dan lebih baik lagi, beri mereka hasilnya)? Kemudian, begitu mereka memiliki data dari eksperimen baru, AI dapat menyarankan eksperimen lanjutan berdasarkan hasilnya. Terakhir, bayangkan waktu yang dapat dihemat jika peneliti dapat mengunggah hasilnya dan model AI dapat menulis naskah yang dihasilkan untuk mereka. Yang paling dekat dengan DALL-E sains adalah Google Cendekia, tetapi ini bukan solusi yang berkelanjutan atau skalabel. IBM Watson juga berangkat untuk mencapai banyak hal yang saya jelaskan di sini, tetapi sebagian besar pekerjaan datang di depan kemajuan terbaru dalam model bahasa besar dan tidak menggunakan data yang sesuai atau cukup untuk mencocokkan hype pemasaran.

Untuk jenis pembukaan nilai yang saya jelaskan, kita membutuhkan investasi, komitmen, dan visi jangka panjang. Seperti yang diusulkan baru-baru ini in Masa depan, kita perlu memperlakukan publikasi ilmiah sebagai substrat untuk digabungkan dan dianalisis dalam skala besar. Setelah kami menghilangkan hambatan, kami akan dapat menggunakan sains untuk memberi makan model AI generatif yang haus data. Model-model ini memiliki potensi besar untuk mempercepat sains dan meningkatkan literasi sains, seperti melalui pelatihan mereka untuk menghasilkan ide-ide ilmiah baru, membantu para ilmuwan mengelola dan menavigasi literatur ilmiah yang luas, membantu mengidentifikasi penelitian yang cacat atau bahkan dipalsukan, dan mensintesis dan menerjemahkan temuan penelitian yang kompleks ke dalam ucapan manusia biasa.

Bagaimana kita mendapatkan DALL-E atau GPT-3 untuk sains?

Jika Anda di bidang teknologi, tunjukkan output dari model AI generatif kepada teman seperti DALL-E or GPT-3 seperti menunjukkan sihir kepada mereka. Alat-alat ini mewakili generasi web berikutnya. Mereka berasal dari sintesis sejumlah besar informasi, di luar hubungan sederhana, untuk menciptakan alat dengan kapasitas generatif. Jadi bagaimana kita bisa menciptakan pengalaman magis yang sama dalam sains, di mana siapa pun dapat mengajukan pertanyaan tentang literatur ilmiah dalam bahasa sederhana dan mendapatkan jawaban yang dapat dimengerti yang didukung oleh bukti? Bagaimana kita dapat membantu peneliti membuat, mengembangkan, menyempurnakan, dan menguji hipotesis mereka? Bagaimana kita berpotensi menghindari pemborosan miliaran dolar? hipotesis gagal dalam penelitian Alzheimer dan hubungan yang salah antara genetika dan depresi

Solusi untuk pertanyaan-pertanyaan ini mungkin terdengar seperti fiksi ilmiah, tetapi ada bukti bahwa kita dapat melakukan hal-hal yang menakjubkan dan tidak terpikirkan ketika karya ilmiah digunakan untuk lebih dari sekadar jumlah bagian-bagiannya. Memang, memanfaatkan hampir 200,000 struktur protein dalam Bank Data Protein telah diberikan Lipatan Alfa kemampuan untuk secara akurat memprediksi struktur protein, sesuatu yang baru saja dilakukan untuk setiap protein yang pernah didokumentasikan (lebih dari 200 juta!). Memanfaatkan makalah penelitian dengan cara yang mirip dengan struktur protein akan menjadi langkah alami berikutnya. 

Dekomposisi kertas menjadi komponen minimalnya

Makalah penelitian penuh dengan informasi berharga, termasuk angka, bagan, hubungan statistik, dan referensi ke makalah lain. Memecahnya menjadi berbagai komponen dan menggunakannya dalam skala besar dapat membantu kami melatih mesin untuk berbagai jenis pekerjaan, permintaan, atau pertanyaan terkait sains. Pertanyaan sederhana dapat dijawab dengan pelatihan pada satu jenis komponen, tetapi pertanyaan atau petunjuk yang lebih kompleks akan memerlukan penggabungan beberapa jenis komponen, dan pemahaman tentang hubungannya satu sama lain.  

Beberapa contoh permintaan potensial yang kompleks adalah:

"Beri tahu saya mengapa hipotesis ini salah"
โ€œBeri tahu saya mengapa ide perawatan saya tidak berhasilโ€
โ€œHasilkan ide perawatan baruโ€
โ€œBukti apa yang ada untuk mendukung kebijakan sosial X?โ€
"Siapa yang telah menerbitkan penelitian paling andal di bidang ini?"
โ€œTuliskan saya makalah ilmiah berdasarkan data sayaโ€

Beberapa kelompok membuat kemajuan dalam visi ini. Sebagai contoh, Memperoleh menerapkan GPT-3 ke jutaan judul makalah dan abstrak untuk membantu menjawab pertanyaan peneliti โ€” seperti Alexa, tetapi untuk sains. System mengekstrak hubungan statistik antara entitas yang menunjukkan bagaimana konsep dan entitas yang berbeda dihubungkan. cat dasar tidak fokus pada makalah penelitian semata, tetapi bekerja dengan arXiv dan menyediakan dasbor informasi yang digunakan oleh perusahaan dan pemerintah untuk mensintesis dan memahami sejumlah besar data dari banyak sumber. 

Akses semua komponen

Sayangnya, kelompok-kelompok ini terutama mengandalkan judul dan abstrak saja, bukan teks lengkap, karena kira-kira lima dari enam artikel tidak dapat diakses secara bebas atau mudah. Untuk grup seperti Web of Science dan Google yang memiliki data atau makalah, lisensi dan ruang lingkup penggunaannya adalah terbatas atau tidak terdefinisi. Dalam kasus Google, tidak jelas mengapa tidak ada upaya yang diumumkan secara publik untuk melatih model AI pada penelitian ilmiah teks lengkap di Google Cendekia. Hebatnya, hal ini bahkan tidak berubah di tengah pandemi COVID-19 yang membuat dunia terhenti. Tim Google AI melangkah, membuat prototipe cara bagi publik untuk bertanya tentang COVID-19. Tapi - dan inilah kickernya - mereka melakukannya hanya dengan menggunakan kertas akses terbuka dari PubMed, bukan Google Cendekia. 

Masalah mendapatkan akses ke makalah dan menggunakannya untuk lebih dari sekadar membacanya satu per satu adalah sesuatu yang telah dianjurkan oleh kelompok selama beberapa dekade. Saya sendiri telah mengerjakannya selama hampir satu dekade, meluncurkan platform penerbitan akses terbuka yang disebut Pemenang selama tahun terakhir PhD saya, dan kemudian bekerja untuk membangun artikel masa depan di startup lain bernama Authorea. Sementara tak satu pun dari inisiatif tersebut sepenuhnya berjalan seperti yang saya inginkan, mereka membawa saya ke pekerjaan saya saat ini di mengutip, yang, setidaknya sebagian, telah memecahkan masalah akses dengan bekerja sama secara langsung dengan penerbit. 

Hubungkan komponen dan tentukan hubungan

Tujuan kami di mengutip adalah untuk memperkenalkan kutipan generasi berikutnya โ€” disebut Smart Citations โ€” yang menunjukkan bagaimana dan mengapa artikel, peneliti, jurnal, atau topik telah dikutip dan dibahas secara lebih umum dalam literatur. Dengan bekerja sama dengan penerbit, kami mengekstrak kalimat langsung dari artikel teks lengkap di mana mereka menggunakan referensi mereka dalam teks. Kalimat-kalimat ini menawarkan wawasan kualitatif tentang bagaimana makalah dikutip oleh karya yang lebih baru. Ini seperti Rotten Tomatoes untuk penelitian.

Ini memerlukan akses ke artikel teks lengkap, dan kerja sama dengan penerbit, sehingga kami dapat menggunakan pembelajaran mesin untuk mengekstrak dan menganalisis pernyataan kutipan dalam skala besar. Karena ada cukup artikel Akses Terbuka untuk memulai, kami dapat membangun bukti konsep dan satu per satu, kami menunjukkan kepada penerbit peningkatan kemampuan menemukan artikel yang diindeks dalam sistem kami dan memberi mereka sistem untuk tampilkan metrik yang lebih baik untuk penilaian penelitian yang lebih bertanggung jawab. Apa yang kami lihat sebagai pernyataan ahli, mereka lihat sebagai pratinjau artikel mereka. Penerbit sekarang telah menandatangani secara massal dan kami telah mengindeks lebih dari 1.1 miliar Kutipan Cerdas dari lebih dari setengah dari semua artikel yang diterbitkan.

Gunakan data relasional untuk melatih model AI

Komponen dan hubungan yang diambil dari makalah dapat digunakan untuk melatih model bahasa besar baru untuk penelitian. GPT-3, meskipun sangat kuat, tidak dibuat untuk bekerja pada sains dan tidak menjawab pertanyaan yang mungkin Anda lihat di SAT. Ketika GPT-2 (versi sebelumnya dari GPT-3) adalah diadaptasi dengan melatihnya di jutaan makalah penelitian, ini bekerja lebih baik daripada GPT-2 saja pada tugas pengetahuan tertentu. Ini menyoroti bahwa data yang digunakan untuk melatih model sangat penting. 

 Beberapa grup baru-baru ini menggunakan GPT-3 untuk menulis makalah akademis, dan meskipun ini mengesankan, fakta atau argumen yang mungkin ingin mereka tunjukkan bisa jadi sangat salah. Jika model tidak bisa mendapatkan pertanyaan gaya SAT sederhana dengan benar, dapatkah kita mempercayainya untuk menulis makalah lengkap? generasi ilmiah, yang mendahului GPT-3 hampir 20 tahun, menunjukkan bahwa menghasilkan kertas yang terlihat nyata relatif mudah. Sistem mereka, meski jauh lebih sederhana, menghasilkan kertas yang diterima di berbagai konferensi. Kami membutuhkan model yang tidak hanya terlihat ilmiah tetapi ilmiah, dan itu membutuhkan sistem untuk memverifikasi klaim untuk mesin dan manusia. Meta baru-baru ini memperkenalkan sistem untuk memverifikasi kutipan Wikipedia, sesuatu yang dimiliki beberapa penerbit secara vokal berharap mereka memiliki untuk publikasi ilmiah.

Kemajuan saat ini

Sekali lagi, satu penghambat utama untuk mewujudkan sistem ini adalah kurangnya akses ke makalah dan sumber daya untuk membuatnya. Di mana kertas atau informasi tersedia untuk digunakan dalam skala besar, kami melihat alat dan model baru berkembang. Tim Paten Google menggunakan 100 juta paten untuk melatih sistem bantuan dengan analisis paten, secara efektif merupakan GooglePatentBERT. Yang lain telah memperkenalkan model seperti BioBERT dan SciBERT, dan terlepas dari kenyataan bahwa mereka hanya dilatih tentang ~1% teks ilmiah hanya dalam domain subjek tertentu, mereka mengesankan dalam tugas-tugas ilmiah, termasuk sistem klasifikasi kutipan kami di scite. 

Baru-baru ini, sebuah CendekiaBERT model telah dirilis, yang secara efektif menggunakan semua literatur ilmiah untuk melatih BERT. Mereka mengatasi masalah akses tetapi terutama tidak tahu bagaimana caranya, hanya menekankan penggunaannya untuk menjadi "non-konsumtif." Kasus penggunaan ini mungkin membuka pintu untuk orang lain menggunakan artikel tanpa izin tertulis dari penerbit dan bisa menjadi langkah penting dalam menciptakan DALL-E sains. Anehnya, bagaimanapun, ScholarBERT melakukan lebih buruk di berbagai tugas pengetahuan khusus daripada model bahasa sains yang lebih kecil seperti SciBERT. 

Yang penting, model gaya BERT memiliki skala yang jauh lebih kecil daripada model bahasa besar seperti GPT-3, dan model tersebut tidak mengizinkan jenis dorongan umum yang sama dan pembelajaran dalam konteks yang telah mendorong banyak hype GPT-3. Pertanyaannya tetap: bagaimana jika kita menerapkan data yang sama dari ScholarBERT untuk melatih model generatif yang ditingkatkan seperti GPT-3? Bagaimana jika kita entah bagaimana bisa menunjukkan dari mana jawaban dari mesin itu bersumber, mungkin mengikatnya langsung ke literatur (seperti Smart Citations)?

Mengapa baru sekarang?

Untungnya, kertas menjadi lebih terbuka dan mesin menjadi lebih bertenaga. Kita sekarang dapat mulai menggunakan data yang terkandung dalam makalah dan repositori yang terhubung untuk melatih mesin menjawab pertanyaan dan mensintesis ide-ide baru berdasarkan penelitian. Ini bisa menjadi transformatif untuk perawatan kesehatan, kebijakan, teknologi, dan segala sesuatu di sekitar kita. Bayangkan, jika kita tidak mencari hanya untuk judul dokumen tetapi secara khusus untuk jawaban, bagaimana hal itu akan berdampak pada penelitian dan alur kerja di semua disiplin ilmu. 

 Membebaskan pengetahuan ilmiah dunia dari hambatan kembar aksesibilitas dan pemahaman akan membantu mendorong transisi dari web yang berfokus pada klik, tampilan, suka, dan perhatian ke web yang berfokus pada bukti, data, dan kebenaran. Pharma jelas diberi insentif untuk mewujudkan hal ini, oleh karena itu semakin banyak perusahaan rintisan yang mengidentifikasi target obat potensial menggunakan AI โ€” tetapi saya yakin masyarakat, pemerintah, dan siapa pun yang menggunakan Google mungkin bersedia mengabaikan pencarian gratis demi kepercayaan dan waktu- penghematan. Dunia sangat membutuhkan sistem seperti itu, dan membutuhkannya dengan cepat. 


 

 

Diposting Agustus 18, 2022

Teknologi, inovasi, dan masa depan, seperti yang diceritakan oleh mereka yang membangunnya.

Terima kasih telah mendaftar.

Periksa kotak masuk Anda untuk pesan selamat datang.

Stempel Waktu:

Lebih dari Andreessen Horowitz