كيفية بناء GPT-3 للعلوم

أعاد نشره أفلاطون

المتابعون: 0

تريد إنشاء صورة من فيلوسيرابتور يعمل على ناطحة سحاب ، بأسلوب "غداء على قمة ناطحة سحاب" عام 1932؟ استخدم DALL-E. تريد إنشاء خيال عرض الكوميديا الاحتياطية لبيتر ثيل وإيلون موسك ولاري بيدج؟ استخدم GPT-3. هل تريد أن تفهم بعمق أبحاث COVID-19 والإجابة على أسئلتك بناءً على الأدلة؟ تعرف على كيفية إجراء بحث منطقي ، وقراءة الأوراق العلمية ، وربما الحصول على درجة الدكتوراه ، لأنه لا توجد نماذج توليدية للذكاء الاصطناعي مدربة على مجموعة كبيرة من منشورات البحث العلمي. إذا كان الأمر كذلك ، فإن الحصول على إجابات مدعومة بالأدلة ، بلغة واضحة على الأسئلة العلمية سيكون من بين أبسط الفوائد. يمكن أن يساعد الذكاء الاصطناعي التوليدي في العلوم في عكس مسار تباطؤ الابتكار في العلوم by أصنعه أسهل و أرخص للعثور على أفكار جديدة. يمكن أن توفر مثل هذه النماذج أيضًا تحذيرات مدعومة بالبيانات لفرضيات علاجية من المؤكد أنها ستفشل ، وتوازن التحيز البشري وتجنب مليار دولار ، عقود طويلة من الأزقة العمياء. أخيرًا ، يمكن أن تقاتل مثل هذه النماذج أزمة التكاثر من خلال تخطيط نتائج البحث وقياسها ووضعها في سياقها ، مما يوفر درجة موثوقية.

فلماذا لا نملك DALL-E أو GPT-3 للعلوم؟ والسبب هو أنه على الرغم من أن البحث العلمي هو المحتوى الأكثر قيمة في العالم ، وهو أيضًا أقل محتوى يسهل الوصول إليه وفهمه في العالم. سأشرح ما الذي يتطلبه الأمر لإلغاء تأمين البيانات العلمية على نطاق واسع لجعل الذكاء الاصطناعي التوليدي للعلوم ممكنًا ، وكيف سيغير الطريقة التي نتعامل بها مع البحث.

ما الذي يجعل بيانات البحث العلمي صعبة

تعد المنشورات البحثية من أهم المستودعات في العالم للمحتوى والمعلومات التي تم إنشاؤها على الإطلاق. إنهم يربطون الأفكار والنتائج معًا عبر الزمن والتخصصات ، ويتم الحفاظ عليها إلى الأبد بواسطة شبكة من المكتبات. وهي مدعومة بالأدلة والتحليل ورؤية الخبراء والعلاقات الإحصائية. إنها قيمة للغاية ، ومع ذلك فهي مخفية إلى حد كبير عن الويب وتستخدم بشكل غير فعال للغاية. تمتلئ شبكة الويب بمقاطع فيديو لطيفة ومحبوبة للقطط ولكنها خالية إلى حد كبير من أحدث أبحاث السرطان. على سبيل المثال ، شبكة العلوم هو أحد أكثر فهارس المعرفة العلمية شمولاً. لقد كان موجودًا منذ عقود ، ولكن من المحتمل أنه شيء لم يسمع به معظم القراء من قبل ، ناهيك عن التفاعل معه. لا يستطيع معظمنا الوصول إلى الأوراق البحثية ، وحتى عندما نفعل ذلك ، فهي كثيفة ، ويصعب فهمها ، ومعبأة كملف PDF - تنسيق مصمم للطباعة ، وليس للويب.

نظرًا لأنه لا يمكن الوصول إلى الأوراق العلمية بسهولة ، لا يمكننا بسهولة استخدام البيانات لتدريب النماذج التوليدية مثل GPT-3 أو DALL-E. يمكنك تخيل ما إذا كان يمكن للباحث اقتراح تجربة ويمكن لنموذج الذكاء الاصطناعي أن يخبرهم على الفور ما إذا كان قد تم إجراؤه من قبل (والأفضل من ذلك ، إعطائهم النتيجة)؟ بعد ذلك ، بمجرد حصولهم على بيانات من تجربة جديدة ، يمكن أن يقترح الذكاء الاصطناعي تجربة متابعة بناءً على النتيجة. أخيرًا ، تخيل الوقت الذي يمكن توفيره إذا تمكن الباحث من تحميل نتائجه ويمكن لنموذج الذكاء الاصطناعي كتابة المخطوطة الناتجة لـ هم. أقرب ما توصلنا إليه في DALL-E للعلوم هو Google Scholar ، ولكنه ليس حلاً مستدامًا أو قابلًا للتطوير. شرع IBM Watson أيضًا في تحقيق الكثير مما أصفه هنا ، لكن معظم العمل جاء قبل التطورات الحديثة في نماذج اللغات الكبيرة ولم يستخدم البيانات المناسبة أو الكافية لمطابقة الضجيج التسويقي.

بالنسبة لنوع فتح القيمة الذي أصفه ، نحتاج إلى استثمار طويل الأجل والتزام ورؤية. على النحو المقترح مؤخرا in Future، نحتاج إلى التعامل مع المنشورات العلمية على أنها ركائز يجب دمجها وتحليلها على نطاق واسع. بمجرد إزالة الحواجز ، سنكون قادرين على استخدام العلم لإطعام نماذج الذكاء الاصطناعي التوليدية المتعطشة للبيانات. تتمتع هذه النماذج بإمكانيات هائلة لتسريع العلم وزيادة المعرفة العلمية ، مثل تدريبها لتوليد أفكار علمية جديدة ، ومساعدة العلماء على إدارة الأدبيات العلمية الواسعة والتنقل فيها ، والمساعدة في تحديد البحوث المعيبة أو حتى المزيفة ، وتوليف وترجمة نتائج البحوث المعقدة إلى الكلام البشري العادي.

كيف نحصل على DALL-E أو GPT-3 للعلوم؟

إذا كنت في مجال التكنولوجيا ، فعرض على صديق مخرجات من نماذج الذكاء الاصطناعي التوليدية مثل لوح or GPT-3 هو مثل إظهار السحر لهم. تمثل هذه الأدوات الجيل القادم من الويب. وهي مستمدة من توليف كميات هائلة من المعلومات ، بخلاف الربط البسيط ، لإنشاء أدوات ذات قدرة إنتاجية. إذن كيف يمكننا إنشاء تجربة سحرية مماثلة في العلوم ، حيث يمكن لأي شخص أن يسأل سؤالاً عن المؤلفات العلمية بلغة واضحة ويحصل على إجابة مفهومة مدعومة بالأدلة؟ كيف يمكننا مساعدة الباحثين على وضع فرضياتهم وتطويرها وصقلها واختبارها؟ كيف يمكننا تجنب إهدار مليارات الدولارات الفرضيات الفاشلة في أبحاث مرض الزهايمر و الروابط الخاطئة بين الجينات والاكتئاب?

قد تبدو الحلول لهذه الأسئلة مثل الخيال العلمي ، ولكن هناك دليل على أنه يمكننا القيام بأشياء مذهلة وغير متوقعة عندما يتم استخدام العمل العلمي لأكثر من مجرد مجموع أجزائه. في الواقع ، باستخدام ما يقرب من 200,000 بنية بروتينية في ال بنك بيانات البروتين وقد أعطى AlphaFold القدرة للتنبؤ بدقة بتراكيب البروتين ، وهو أمر تم القيام به للتو كل بروتين موثق على الإطلاق (أكثر من 200 مليون!). ستكون الاستفادة من الأوراق البحثية بطريقة مشابهة لتركيبات البروتين خطوة طبيعية تالية.

حلل الأوراق إلى مكوناتها الدنيا

الأوراق البحثية مليئة بالمعلومات القيمة ، بما في ذلك الأرقام والرسوم البيانية والعلاقات الإحصائية والمراجع إلى الأوراق الأخرى. يمكن أن يساعدنا تقسيمها إلى مكونات مختلفة واستخدامها على نطاق واسع في تدريب الآلات على أنواع مختلفة من الوظائف أو المطالبات أو الاستفسارات المتعلقة بالعلوم. يمكن الإجابة على أسئلة بسيطة من خلال التدريب على نوع مكون واحد ، ولكن الأسئلة أو المطالبات الأكثر تعقيدًا تتطلب دمج أنواع متعددة من المكونات ، وفهم علاقتها ببعضها البعض.

بعض الأمثلة على المطالبات المحتملة المعقدة هي:

"أخبرني لماذا هذه الفرضية خاطئة"
"أخبرني لماذا لم تنجح فكرة العلاج الخاصة بي"
"ابتكر فكرة علاج جديدة"
"ما الدليل الموجود لدعم السياسة الاجتماعية X؟"
"من نشر أكثر الأبحاث موثوقية في هذا المجال؟"
"اكتب لي ورقة علمية بناءً على بياناتي"

بعض الجماعات تحرز تقدما في هذه الرؤية. فمثلا، يستنبط يطبق GPT-3 على ملايين العناوين الورقية والملخصات للمساعدة في الإجابة على أسئلة الباحثين - مثل Alexa ، ولكن للعلم. System مقتطفات من العلاقات الإحصائية بين الكيانات توضح كيفية ارتباط المفاهيم والكيانات المختلفة. برايمر لا تركز على الأوراق البحثية في حد ذاتها ، ولكنها تعمل مع arXiv وتوفر لوحة معلومات من المعلومات التي تستخدمها الشركات والحكومات لتجميع وفهم كميات كبيرة من البيانات من العديد من المصادر.

الوصول إلى جميع المكونات

لسوء الحظ ، تعتمد هذه المجموعات بشكل أساسي على العناوين والملخصات فقط ، وليس على النصوص الكاملة ، حيث لا يمكن الوصول إلى ما يقرب من خمس مقالات من أصل ستة مجانًا أو بسهولة. بالنسبة لمجموعات مثل Web of Science و Google التي لديها البيانات أو الأوراق ، فإن تراخيصها ونطاق استخدامها هي محدودة أو غير محددة. في حالة Google ، من غير الواضح سبب عدم وجود جهود معلنة لتدريب نماذج الذكاء الاصطناعي على النص الكامل للبحث العلمي في Google Scholar. بشكل مثير للدهشة ، لم يتغير هذا حتى في خضم جائحة COVID-19 ، الذي تسبب في توقف العالم. صعد فريق الذكاء الاصطناعي في Google ، ووضع نموذجًا أوليًا لطريقة يسألها الجمهور حول COVID-19. ولكن - وإليك السبب - فعلوا ذلك باستخدام أوراق الوصول المفتوح فقط من PubMed ، وليس الباحث العلمي من Google.

إن مسألة الوصول إلى الأوراق واستخدامها لأكثر من مجرد قراءتها واحدة تلو الأخرى هو أمر دافعت عنه المجموعات لعقود. لقد عملت عليها شخصيًا منذ ما يقرب من عقد من الزمان ، حيث أطلقت منصة نشر مفتوحة الوصول تسمى وينوير خلال السنة الأخيرة من دراستي للدكتوراه ، ثم أعمل على بناء مقال المستقبل عند بدء تشغيل آخر يسمى Authorea. في حين أن أيا من هاتين المبادرتين لم تتحقق بشكل كامل بالطريقة التي أردتها ، فقد قادوني إلى عملي الحالي في حقد، والذي أدى ، جزئيًا على الأقل ، إلى حل مشكلة الوصول من خلال العمل مباشرةً مع الناشرين.

ربط المكونات وتحديد العلاقات

هدفنا في حقد هو تقديم الجيل القادم من الاستشهادات - تسمى الاقتباسات الذكية - والتي توضح كيف ولماذا تم الاستشهاد بأي مقال أو باحث أو مجلة أو موضوع ومناقشته بشكل عام في الأدبيات. من خلال العمل مع الناشرين ، نستخرج الجمل مباشرة من النصوص الكاملة للمقالات حيث يستخدمون مراجعهم في النص. تقدم هذه الجمل نظرة نوعية ثاقبة حول كيفية اقتباس الأوراق من خلال الأعمال الجديدة. إنها تشبه إلى حد ما Rotten Tomatoes للبحث.

يتطلب هذا الوصول إلى النصوص الكاملة للمقالات ، والتعاون مع الناشرين ، حتى نتمكن من استخدام التعلم الآلي لاستخراج بيانات الاقتباس وتحليلها على نطاق واسع. نظرًا لوجود عدد كافٍ من المقالات ذات الوصول المفتوح للبدء ، فقد تمكنا من بناء دليل على المفهوم واحدًا تلو الآخر ، فقد أظهرنا للناشرين زيادة قابلية اكتشاف المقالات المفهرسة في نظامنا وتزويدهم بنظام عرض مقاييس أفضل لمزيد من تقييم البحث المسؤول. ما رأيناه على أنه بيانات الخبراء ، رأوه بمثابة معاينات لمقالاتهم. لقد قام الناشرون الآن بالتوقيع بشكل جماعي وقمنا بفهرسة أكثر من 1.1 مليار اقتباس ذكي من أكثر من نصف جميع المقالات المنشورة.

استخدم البيانات العلائقية لتدريب نماذج الذكاء الاصطناعي

يمكن استخدام المكونات والعلاقات المستخرجة من الأوراق لتدريب نماذج لغوية كبيرة جديدة للبحث. بالرغم من أن GPT-3 قوي جدًا ، إلا أنه لم يتم إنشاؤه للعمل على العلوم و أداء ضعيف في الإجابة على الأسئلة التي قد تراها في SAT. عندما كان GPT-2 (إصدار سابق من GPT-3) تم تكييفه من خلال تدريبه على ملايين الأوراق البحثية، لقد عملت بشكل أفضل من GPT-2 وحدها في مهام معرفية محددة. هذا يسلط الضوء على أن البيانات المستخدمة لتدريب النماذج مهمة للغاية.

قامت بعض المجموعات مؤخرًا استخدم GPT-3 لكتابة الأوراق الأكاديمية، وعلى الرغم من أن هذا مثير للإعجاب ، إلا أن الحقائق أو الحجج التي قد يزعمون إظهارها قد تكون خاطئة جدًا. إذا لم يتمكن النموذج من الحصول على أسئلة بسيطة على غرار اختبار SAT بشكل صحيح ، فهل يمكننا الوثوق به لكتابة بحث كامل؟ علم، التي سبقت GPT-3 بحوالي 20 عامًا ، أظهرت أن إنشاء أوراق بحثية تبدو حقيقية أمر سهل نسبيًا. على الرغم من أن نظامهم أبسط بكثير ، إلا أنه أنتج أوراقًا قبلت في مؤتمرات مختلفة. نحتاج إلى نموذج لا يبدو علميًا فحسب ، بل علميًا ، وهذا يتطلب نظامًا للتحقق من المطالبات للآلات والبشر. قدمت Meta مؤخرًا ملف نظام للتحقق من اقتباسات ويكيبيديا، وهو شيء يتحدث عنه بعض الناشرين تمنى لو كان لديهم منشورات علمية.

التقدم الحالي

مرة أخرى ، أحد العوائق الرئيسية لتحقيق هذا النظام هو الافتقار إلى الوصول إلى الأوراق والموارد اللازمة لإنشائه. عندما تصبح الأوراق أو المعلومات متاحة للاستخدام على نطاق واسع ، نرى ذلك تزدهر الأدوات والنماذج الجديدة. استخدم فريق Google براءات الاختراع 100 مليون براءة اختراع لتدريب نظام للمساعدة في تحليل براءات الاختراع، بفاعلية GooglePatentBERT. قدم آخرون نماذج مثل بيوبيرت و سيبيرت، وعلى الرغم من حقيقة أنهم قد تم تدريبهم على حوالي 1٪ فقط من النصوص العلمية في مجالات موضوعية محددة فقط ، إلا أنهم مثيرون للإعجاب في المهام العلمية ، بما في ذلك نظام تصنيف الاقتباس لدينا في scite.

وفي الآونة الأخيرة، وهو سكولاربيرت تم إصدار النموذج ، والذي يستخدم بشكل فعال جميع المؤلفات العلمية لتدريب BERT. لقد تغلبوا على مشكلة الوصول ولكنهم يتعاملون بشكل خاص مع الكيفية ، ويؤكدون ببساطة على استخدامها ليكون "غير استهلاكي". قد تفتح حالة الاستخدام هذه الأبواب ل يستخدم الآخرون مقالات بدون إذن صريح من الناشرين ويمكن أن يكون خطوة مهمة في إنشاء DALL-E للعلوم. لكن المثير للدهشة أن أداء ScholarBERT كان أسوأ في مهام المعرفة المتخصصة المختلفة مقارنة بنماذج لغة العلوم الأصغر مثل SciBERT.

الأهم من ذلك ، أن النماذج ذات النمط BERT أصغر بكثير من النماذج اللغوية الكبيرة مثل GPT-3 ، ولا تسمح بنفس النوع من التحفيز العام والتعلم في السياق الذي أدى إلى الكثير من الضجيج GPT-3. يبقى السؤال: ماذا لو طبقنا نفس البيانات من ScholarBERT لتدريب نموذج توليدي موسع مثل GPT-3؟ ماذا لو تمكنا بطريقة ما من إظهار مصدر الإجابات من الجهاز ، وربما ربطها مباشرة بالأدبيات (مثل الاستشهادات الذكية)؟

لماذا الآن؟

لحسن الحظ ، أصبحت الأوراق أكثر انفتاحًا وأصبحت الآلات أكثر قوة. يمكننا الآن البدء في استخدام البيانات الموجودة في الأوراق والمستودعات المتصلة لتدريب الآلات على الإجابة على الأسئلة وتوليف الأفكار الجديدة بناءً على البحث. يمكن أن يكون هذا تحويليًا للرعاية الصحية والسياسة والتكنولوجيا وكل شيء من حولنا. تخيل ، إذا لم نبحث فقط عن عناوين المستندات ولكن على وجه التحديد عن الإجابات ، فكيف سيؤثر ذلك على البحث وسير العمل عبر جميع التخصصات.

سيساعد تحرير المعرفة العلمية في العالم من العوائق المزدوجة المتمثلة في إمكانية الوصول والفهم في دفع الانتقال من شبكة الويب التي تركز على النقرات ووجهات النظر والإعجابات والانتباه إلى شبكة تركز على الأدلة والبيانات والصدق. من الواضح أن Pharma لديها حافز لتحقيق هذا الأمر ، ومن هنا جاء العدد المتزايد من الشركات الناشئة التي تحدد أهدافًا محتملة للعقاقير باستخدام الذكاء الاصطناعي - لكنني أعتقد أن الجمهور والحكومات وأي شخص يستخدم Google قد يكون على استعداد للتخلي عن عمليات البحث المجانية في محاولة للثقة والوقت- إنقاذ. العالم بحاجة ماسة إلى مثل هذا النظام ، وهو بحاجة إليه بسرعة.

تاريخ النشر أغسطس 18 ، 2022

التكنولوجيا والابتكار والمستقبل كما يرويها أولئك الذين يبنونها.