विज्ञान प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के लिए GPT-3 का निर्माण कैसे करें। लंबवत खोज। ऐ.

विज्ञान के लिए GPT-3 का निर्माण कैसे करें

की एक छवि बनाना चाहते हैं 1932 के "लंच एटॉप ए स्काईस्क्रेपर" की शैली में एक गगनचुंबी इमारत पर काम करने वाले वेलोसिरैप्टर? डेल-ई का प्रयोग करें। एक कल्पना बनाना चाहते हैं पीटर थिएल, एलोन मस्क और लैरी पेज द्वारा स्टैंडअप कॉमेडी शो? जीपीटी-3 का प्रयोग करें। COVID-19 शोध को गहराई से समझना चाहते हैं और सबूतों के आधार पर अपने सवालों का जवाब देना चाहते हैं? बूलियन खोज करना सीखें, वैज्ञानिक पत्र पढ़ें, और शायद पीएचडी प्राप्त करें, क्योंकि वैज्ञानिक अनुसंधान प्रकाशनों के विशाल निकाय पर प्रशिक्षित कोई जनरेटिव एआई मॉडल नहीं हैं। यदि होते, तो वैज्ञानिक प्रश्नों के साक्ष्य-समर्थित, सरल भाषा में उत्तर प्राप्त करना सबसे सरल लाभों में से एक होता। विज्ञान के लिए जनरेटिव एआई रिवर्स में मदद कर सकता है विज्ञान में नवाचार की मंदी by इसे बना रहे हैं आसान और सस्ता नए विचारों को खोजने के लिए। ऐसे मॉडल चिकित्सीय परिकल्पनाओं की डेटा-समर्थित चेतावनियां भी प्रदान कर सकते हैं जो विफल होने के लिए निश्चित हैं, मानव पूर्वाग्रह को संतुलित करने और अरबों डॉलर से बचने के लिए, दशकों पुरानी अंधी गलियां. अंत में, ऐसे मॉडल मुकाबला कर सकते हैं प्रजनन क्षमता संकट भरोसेमंदता पर एक अंक प्रदान करते हुए, शोध परिणामों का मानचित्रण, वजन और प्रासंगिक बनाना।

तो हमारे पास विज्ञान के लिए DALL-E या GPT-3 क्यों नहीं है? इसका कारण यह है कि यद्यपि वैज्ञानिक अनुसंधान दुनिया की सबसे मूल्यवान सामग्री, यह दुनिया की सबसे कम सुलभ और समझने योग्य सामग्री भी है। मैं समझाऊंगा कि विज्ञान के लिए जनरेटिव एआई को संभव बनाने के लिए वैज्ञानिक डेटा को बड़े पैमाने पर अनलॉक करने में क्या लगेगा, और यह कैसे अनुसंधान के साथ जुड़ने के तरीके को बदल देगा। 

वैज्ञानिक अनुसंधान डेटा को क्या चुनौतीपूर्ण बनाता है

अनुसंधान प्रकाशन दुनिया के कुछ सबसे महत्वपूर्ण भंडार हैं जो अब तक बनाई गई सामग्री और जानकारी के लिए हैं। वे समय और विषयों में विचारों और निष्कर्षों को एक साथ जोड़ते हैं, और पुस्तकालयों के नेटवर्क द्वारा हमेशा के लिए संरक्षित किए जाते हैं। वे साक्ष्य, विश्लेषण, विशेषज्ञ अंतर्दृष्टि और सांख्यिकीय संबंधों द्वारा समर्थित हैं। वे अत्यंत मूल्यवान हैं, फिर भी वे बड़े पैमाने पर वेब से छिपे हुए हैं और बहुत ही अक्षम तरीके से उपयोग किए जाते हैं। वेब पर क्यूट, कडली कैट वीडियो की भरमार है लेकिन बड़े पैमाने पर अत्याधुनिक कैंसर अनुसंधान से रहित है। एक उदाहरण के रूप में, वेब ऑफ़ साइंस वैज्ञानिक ज्ञान के सबसे व्यापक सूचकांकों में से एक है। यह लगभग दशकों से है, लेकिन यह शायद कुछ ऐसा है जिसके बारे में अधिकांश पाठकों ने कभी सुना भी नहीं है, इसके साथ बातचीत की तो बात ही दूर है। हम में से अधिकांश के पास शोध पत्रों तक पहुंच नहीं है, और यहां तक ​​कि जब हम करते हैं, तो वे घने, समझने में कठिन और पीडीएफ के रूप में पैक किए जाते हैं - मुद्रण के लिए डिज़ाइन किया गया प्रारूप, वेब के लिए नहीं।

क्योंकि वैज्ञानिक कागजात आसानी से उपलब्ध नहीं हैं, हम GPT-3 या DALL-E जैसे जनरेटिव मॉडल को प्रशिक्षित करने के लिए डेटा का आसानी से उपयोग नहीं कर सकते हैं। आप कर सकते हैं कल्पना कीजिए कि क्या एक शोधकर्ता एक प्रयोग का प्रस्ताव दे सकता है और एक एआई मॉडल उन्हें तुरंत बता सकता है कि क्या यह पहले किया गया था (और बेहतर अभी तक, उन्हें परिणाम दें)? फिर, एक बार जब उनके पास एक नए प्रयोग का डेटा हो, तो AI परिणाम के आधार पर एक अनुवर्ती प्रयोग का सुझाव दे सकता है। अंत में, उस समय की कल्पना करें जिसे बचाया जा सकता है यदि शोधकर्ता अपने परिणाम अपलोड कर सकता है और एआई मॉडल परिणामी पांडुलिपि को लिख सकता है उन्हें। हम विज्ञान के DALL-E के अब तक के सबसे करीब Google विद्वान हैं, लेकिन यह एक स्थायी या स्केलेबल समाधान नहीं है। आईबीएम वाटसन ने भी जो कुछ मैंने यहां वर्णित किया है, उसे हासिल करने के लिए निर्धारित किया है, लेकिन अधिकांश काम बड़े भाषा मॉडल में हालिया प्रगति से आगे आया और मार्केटिंग प्रचार से मेल खाने के लिए उपयुक्त या पर्याप्त डेटा का उपयोग नहीं किया।

मैं जिस प्रकार के मूल्य अनलॉक का वर्णन कर रहा हूं, उसके लिए हमें दीर्घकालिक निवेश, प्रतिबद्धता और दूरदृष्टि की आवश्यकता है। प्रस्तावित हाल ही में in भविष्य बनाओ, हमें बड़े पैमाने पर संयुक्त और विश्लेषण करने के लिए वैज्ञानिक प्रकाशनों को सब्सट्रेट के रूप में मानने की आवश्यकता है। एक बार जब हम बाधाओं को हटा देते हैं, तो हम डेटा-भूखे जनरेटिव एआई मॉडल को खिलाने के लिए विज्ञान का उपयोग करने में सक्षम होंगे। इन मॉडलों में विज्ञान में तेजी लाने और वैज्ञानिक साक्षरता बढ़ाने की अपार संभावनाएं हैं, जैसे कि उन्हें नए वैज्ञानिक विचारों को उत्पन्न करने के लिए प्रशिक्षण देना, वैज्ञानिकों को विशाल वैज्ञानिक साहित्य को प्रबंधित करने और नेविगेट करने में मदद करना, त्रुटिपूर्ण या यहां तक ​​​​कि गलत शोध की पहचान करने में मदद करना, और जटिल शोध निष्कर्षों का संश्लेषण और अनुवाद करना। साधारण मानव भाषण।

हम विज्ञान के लिए DALL-E या GPT-3 कैसे प्राप्त कर सकते हैं?

यदि आप तकनीक में हैं, तो किसी मित्र को जनरेटिव एआई मॉडल से आउटपुट दिखा रहा है जैसे DALL-E or GPT-3 उन्हें जादू दिखाने जैसा है। ये उपकरण वेब की अगली पीढ़ी का प्रतिनिधित्व करते हैं। वे बड़ी मात्रा में सूचनाओं के संश्लेषण से प्राप्त होते हैं, एक साधारण जुड़ाव से परे, उत्पादक क्षमता वाले उपकरण बनाने के लिए। तो हम विज्ञान में एक समान जादुई अनुभव कैसे बना सकते हैं, जहां कोई भी वैज्ञानिक साहित्य का एक प्रश्न सरल भाषा में पूछ सकता है और साक्ष्य द्वारा समर्थित समझने योग्य उत्तर प्राप्त कर सकता है? हम शोधकर्ताओं को उनकी परिकल्पना बनाने, विकसित करने, परिष्कृत करने और परीक्षण करने में कैसे मदद कर सकते हैं? हम संभावित रूप से अरबों डॉलर बर्बाद करने से कैसे बच सकते हैं अल्जाइमर अनुसंधान में असफल परिकल्पना और आनुवंशिकी और अवसाद के बीच गलत संबंध

इन सवालों के समाधान विज्ञान कथा की तरह लग सकते हैं, लेकिन इस बात के प्रमाण हैं कि हम आश्चर्यजनक और अकल्पनीय चीजें कर सकते हैं जब वैज्ञानिक कार्यों का उपयोग केवल इसके भागों के योग से अधिक के लिए किया जाता है। वास्तव में, लगभग 200,000 प्रोटीन संरचनाओं का उपयोग में प्रोटीन डाटा बैंक दिया गया है अल्फाफोल्ड योग्यता प्रोटीन संरचनाओं की सटीक भविष्यवाणी करने के लिए, कुछ ऐसा जो अभी-अभी किया गया था हर प्रोटीन कभी प्रलेखित (200 मिलियन से अधिक!) प्रोटीन संरचनाओं के समान शोध पत्रों का लाभ उठाना एक स्वाभाविक अगला कदम होगा। 

कागजों को उनके न्यूनतम घटकों में विघटित करें

शोध पत्र मूल्यवान सूचनाओं से भरे हुए हैं, जिनमें आंकड़े, चार्ट, सांख्यिकीय संबंध और अन्य कागजात के संदर्भ शामिल हैं। उन्हें विभिन्न घटकों में तोड़कर और उन्हें बड़े पैमाने पर उपयोग करने से हमें विभिन्न प्रकार के विज्ञान से संबंधित नौकरियों, संकेतों या प्रश्नों के लिए मशीनों को प्रशिक्षित करने में मदद मिल सकती है। एक घटक प्रकार पर प्रशिक्षण के साथ सरल प्रश्नों का उत्तर दिया जा सकता है, लेकिन अधिक जटिल प्रश्नों या संकेतों के लिए कई घटक प्रकारों को शामिल करने और एक दूसरे से उनके संबंध की समझ की आवश्यकता होगी।  

जटिल संभावित संकेतों के कुछ उदाहरण हैं:

"मुझे बताएं कि यह परिकल्पना गलत क्यों है"
"मुझे बताएं कि मेरा उपचार विचार क्यों काम नहीं करेगा"
"एक नया उपचार विचार उत्पन्न करें"
"सामाजिक नीति X का समर्थन करने के लिए क्या सबूत हैं?"
"इस क्षेत्र में सबसे विश्वसनीय शोध किसने प्रकाशित किया है?"
"मेरे डेटा के आधार पर मुझे एक वैज्ञानिक पेपर लिखें"

कुछ समूह इस विजन पर आगे बढ़ रहे हैं। उदाहरण के लिए, प्रकाश में लाना शोधकर्ताओं के सवालों के जवाब देने में मदद करने के लिए लाखों पेपर टाइटल और एब्सट्रैक्ट पर GPT-3 लागू करता है - एलेक्सा की तरह, लेकिन विज्ञान के लिए। प्रणाली विभिन्न अवधारणाओं और संस्थाओं को कैसे जोड़ा जाता है, यह दिखाते हुए संस्थाओं के बीच सांख्यिकीय संबंधों को निकालता है। भजन की पुस्तक शोध पत्रों पर ध्यान केंद्रित नहीं करता है, लेकिन यह arXiv के साथ काम करता है और कई स्रोतों से बड़ी मात्रा में डेटा को संश्लेषित करने और समझने के लिए निगमों और सरकारों द्वारा उपयोग की जाने वाली जानकारी का एक डैशबोर्ड प्रदान करता है। 

सभी घटकों तक पहुंचें

दुर्भाग्य से, ये समूह मुख्य रूप से केवल शीर्षक और सार पर भरोसा करते हैं, न कि पूर्ण ग्रंथों पर, क्योंकि छह में से लगभग पांच लेख स्वतंत्र रूप से या आसानी से उपलब्ध नहीं हैं। वेब ऑफ साइंस और Google जैसे समूहों के लिए जिनके पास डेटा या कागजात हैं, उनके लाइसेंस और उपयोग का दायरा है सीमित या अपरिभाषित. Google के मामले में, यह स्पष्ट नहीं है कि Google विद्वान में पूर्ण-पाठ वैज्ञानिक अनुसंधान पर AI मॉडल को प्रशिक्षित करने के लिए सार्वजनिक रूप से घोषित प्रयास क्यों नहीं किए गए हैं। आश्चर्यजनक रूप से, यह COVID-19 महामारी के बीच भी नहीं बदला, जिसने दुनिया को एक ठहराव में ला दिया। जनता के लिए पूछने का एक तरीका प्रोटोटाइप करते हुए, Google AI टीम ने कदम बढ़ाया COVID-19 . के बारे में. लेकिन - और यहाँ किकर है - उन्होंने ऐसा PubMed के केवल ओपन एक्सेस पेपर्स का उपयोग करके किया, न कि Google स्कॉलर का। 

कागजात तक पहुंच प्राप्त करने और उन्हें एक समय में सिर्फ एक बार पढ़ने से ज्यादा उपयोग करने का मुद्दा कुछ समूहों ने दशकों से वकालत की है। मैंने व्यक्तिगत रूप से इस पर लगभग एक दशक तक खुद काम किया है, एक ओपन एक्सेस पब्लिशिंग प्लेटफॉर्म लॉन्च किया है, जिसका नाम है विनोवर मेरे पीएचडी के अंतिम वर्ष के दौरान, और फिर निर्माण के लिए काम कर रहा था भविष्य का लेख नामक एक अन्य स्टार्टअप पर Authorea. जबकि उन पहलों में से कोई भी पूरी तरह से उस तरह से प्रतिबंधित नहीं हुआ जैसा मैं चाहता था, उन्होंने मुझे मेरे वर्तमान काम पर ले जाया: डराना, जिसने कम से कम आंशिक रूप से प्रकाशकों के साथ सीधे काम करके पहुंच की समस्या का समाधान किया है। 

घटकों को कनेक्ट करें और संबंधों को परिभाषित करें

हमारा उद्देश्य डराना परिचय देना है उद्धरणों की अगली पीढ़ी - स्मार्ट उद्धरण कहलाते हैं - जो दिखाते हैं कि कैसे और क्यों किसी लेख, शोधकर्ता, पत्रिका, या विषय का हवाला दिया गया है और साहित्य में अधिक आम तौर पर चर्चा की गई है। प्रकाशकों के साथ काम करके, हम सीधे पूर्ण-पाठ लेखों से वाक्य निकालते हैं जहाँ वे अपने संदर्भों का पाठ में उपयोग करते हैं। ये वाक्य एक गुणात्मक अंतर्दृष्टि प्रदान करते हैं कि कैसे नए काम द्वारा कागजात का हवाला दिया गया। यह शोध के लिए सड़े हुए टमाटर जैसा है।

इसके लिए पूर्ण-पाठ लेखों तक पहुंच और प्रकाशकों के साथ सहयोग की आवश्यकता होती है, ताकि हम बड़े पैमाने पर उद्धरण कथनों को निकालने और उनका विश्लेषण करने के लिए मशीन लर्निंग का उपयोग कर सकें। चूंकि आरंभ करने के लिए पर्याप्त ओपन एक्सेस लेख थे, हम अवधारणा के प्रमाण का निर्माण करने में सक्षम थे और एक-एक करके, हमने प्रकाशकों को हमारे सिस्टम में अनुक्रमित लेखों की बढ़ी हुई खोज क्षमता का प्रदर्शन किया और उन्हें एक प्रणाली प्रदान की बेहतर मेट्रिक्स दिखाएं अधिक जिम्मेदार अनुसंधान मूल्यांकन के लिए। जिसे हमने विशेषज्ञ बयानों के रूप में देखा, उन्होंने अपने लेखों के पूर्वावलोकन के रूप में देखा। प्रकाशकों ने अब सामूहिक रूप से हस्ताक्षर किए हैं और हमने प्रकाशित सभी लेखों के आधे से अधिक से 1.1 बिलियन से अधिक स्मार्ट उद्धरणों को अनुक्रमित किया है।

AI मॉडल को प्रशिक्षित करने के लिए रिलेशनल डेटा का उपयोग करें

शोध के लिए नए बड़े भाषा मॉडल को प्रशिक्षित करने के लिए कागजात से निकाले गए घटकों और संबंधों का उपयोग किया जा सकता है। GPT-3, बहुत शक्तिशाली होते हुए भी, विज्ञान पर काम करने के लिए नहीं बनाया गया था और SAT . पर आपके द्वारा देखे जा सकने वाले प्रश्नों के उत्तर देने में खराब प्रदर्शन करता है. जब GPT-2 (GPT-3 का एक पुराना संस्करण) था इसे लाखों शोध पत्रों पर प्रशिक्षण देकर अनुकूलित किया गया, इसने विशिष्ट ज्ञान कार्यों पर अकेले GPT-2 से बेहतर काम किया। यह इस बात पर प्रकाश डालता है कि मॉडल को प्रशिक्षित करने के लिए उपयोग किया जाने वाला डेटा अत्यधिक महत्वपूर्ण है। 

 कुछ समूहों ने हाल ही में अकादमिक पेपर लिखने के लिए GPT-3 का इस्तेमाल किया, और जबकि यह प्रभावशाली है, वे जिन तथ्यों या तर्कों को दिखाना चाहते हैं वे बहुत गलत हो सकते हैं। यदि मॉडल को SAT-शैली के सरल प्रश्न सही नहीं मिल पाते हैं, तो क्या हम उस पर पूरा पेपर लिखने के लिए भरोसा कर सकते हैं? विज्ञान, जो लगभग 3 वर्षों से GPT-20 से पहले है, ने दिखाया कि वास्तविक दिखने वाले कागजात बनाना अपेक्षाकृत आसान है। उनकी प्रणाली, जबकि बहुत सरल, उत्पन्न कागजात जो थे विभिन्न सम्मेलनों में स्वीकार किया गया. हमें एक ऐसे मॉडल की आवश्यकता है जो न केवल वैज्ञानिक दिखे बल्कि वैज्ञानिक भी हो, और जिसके लिए मशीनों और मनुष्यों के दावों को सत्यापित करने के लिए एक प्रणाली की आवश्यकता हो। मेटा ने हाल ही में पेश किया विकिपीडिया उद्धरणों के सत्यापन के लिए प्रणाली, कुछ प्रकाशकों ने मुखर रूप से काश उनके पास विद्वानों के प्रकाशन होते.

वर्तमान प्रगति

फिर से, इस प्रणाली को अमल में लाने में एक प्रमुख अवरोधक इसे बनाने के लिए कागजात और संसाधनों तक पहुंच की कमी है। जहाँ कागज़ या जानकारी बड़े पैमाने पर उपयोग के लिए उपलब्ध हो जाती है, हम देखते हैं उपकरण और नए मॉडल फलते-फूलते हैं। Google पेटेंट टीम ने इस्तेमाल किया पेटेंट विश्लेषण में मदद के लिए एक प्रणाली को प्रशिक्षित करने के लिए 100 मिलियन पेटेंट, प्रभावी रूप से एक GooglePatentBERT। दूसरों ने जैसे मॉडल पेश किए हैं बायोबर्ट और साइबर्ट, और इस तथ्य के बावजूद कि उन्हें केवल विशिष्ट विषय डोमेन में लगभग ~ 1% वैज्ञानिक ग्रंथों पर प्रशिक्षित किया गया है, वे हमारे उद्धरण वर्गीकरण प्रणाली सहित विद्वानों के कार्यों में प्रभावशाली हैं। 

हाल ही में, एक स्कॉलरबर्ट मॉडल जारी किया गया है, जो BERT को प्रशिक्षित करने के लिए सभी वैज्ञानिक साहित्य का प्रभावी ढंग से उपयोग करता है। वे पहुंच के मुद्दे को दूर करते हैं, लेकिन विशेष रूप से इस बात पर मौन हैं कि कैसे "गैर-उपभोग्य" होने के लिए उनके उपयोग पर जोर दिया जाता है। यह उपयोग का मामला द्वार खोल सकता है अन्य प्रकाशकों की स्पष्ट अनुमति के बिना लेखों का उपयोग कर रहे हैं और विज्ञान का DALL-E बनाने में एक महत्वपूर्ण कदम हो सकते हैं। आश्चर्यजनक रूप से, हालांकि, स्कॉलरबर्ट ने विभिन्न विशिष्ट ज्ञान कार्यों में SciBERT जैसे छोटे विज्ञान भाषा मॉडल की तुलना में खराब प्रदर्शन किया। 

महत्वपूर्ण रूप से, बीईआरटी-शैली मॉडल जीपीटी -3 जैसे बड़े भाषा मॉडल की तुलना में बहुत छोटे पैमाने पर हैं, और वे उसी तरह के सामान्य प्रोत्साहन और संदर्भ में सीखने की अनुमति नहीं देते हैं जिसने जीपीटी -3 प्रचार को बहुत अधिक संचालित किया है। प्रश्न बना रहता है: क्या होगा यदि हम GPT-3 जैसे स्केल-अप जनरेटिव मॉडल को प्रशिक्षित करने के लिए स्कॉलरबर्ट के समान डेटा को लागू करते हैं? क्या होगा अगर हम किसी तरह दिखा सकते हैं कि मशीन से उत्तर कहाँ से प्राप्त किए गए थे, शायद उन्हें सीधे साहित्य (जैसे स्मार्ट उद्धरण) से जोड़ रहे थे?

अब क्यों?

सौभाग्य से, कागज अधिक खुले होते जा रहे हैं और मशीनें अधिक शक्तिशाली होती जा रही हैं। अब हम प्रश्नों के उत्तर देने और अनुसंधान के आधार पर नए विचारों को संश्लेषित करने के लिए मशीनों को प्रशिक्षित करने के लिए कागजात और जुड़े भंडारों के भीतर निहित डेटा का उपयोग शुरू कर सकते हैं। यह स्वास्थ्य सेवा, नीति, प्रौद्योगिकी और हमारे आस-पास की हर चीज़ के लिए परिवर्तनकारी हो सकता है। कल्पना कीजिए, अगर हमने केवल दस्तावेज़ शीर्षकों के लिए नहीं बल्कि विशेष रूप से उत्तरों के लिए खोज की, तो यह सभी विषयों में अनुसंधान और वर्कफ़्लो को कैसे प्रभावित करेगा। 

 दुनिया के वैज्ञानिक ज्ञान को सुलभता और समझ की दोहरी बाधाओं से मुक्त करने से क्लिक, दृश्य, पसंद और ध्यान पर केंद्रित वेब से संक्रमण को साक्ष्य, डेटा और सत्यता पर केंद्रित वेब की ओर ले जाने में मदद मिलेगी। फार्मा को स्पष्ट रूप से इसे लागू करने के लिए प्रोत्साहित किया गया है, इसलिए एआई का उपयोग करके संभावित दवा लक्ष्यों की पहचान करने वाले स्टार्टअप की संख्या बढ़ रही है - लेकिन मेरा मानना ​​​​है कि जनता, सरकारें और Google का उपयोग करने वाला कोई भी व्यक्ति विश्वास और समय के प्रयास में मुफ्त खोजों को छोड़ने के लिए तैयार हो सकता है- बचत। दुनिया को इस तरह की प्रणाली की सख्त जरूरत है, और इसे इसकी तेजी से जरूरत है। 


 

 

अगस्त 18, 2022 पोस्ट किया गया

प्रौद्योगिकी, नवाचार और भविष्य, जैसा कि इसे बनाने वालों ने बताया।

साइन अप करने के लिए धन्यवाद।

स्वागत नोट के लिए अपना इनबॉक्स देखें।

समय टिकट:

से अधिक आंद्रेसेन होरोविट्ज़