چگونه یک GPT-3 برای علم بسازیم

بازنشر افلاطون

دنبال: 0

می خواهم یک تصویر از سرعت‌گیرهایی که بر روی یک آسمان‌خراش کار می‌کنند، به سبک «ناهار بالای آسمان‌خراش» در سال 1932? از DALL-E استفاده کنید. می خواهید یک خیالی بسازید برنامه کمدی استندآپ توسط پیتر تیل، ایلان ماسک و لری پیج? از GPT-3 استفاده کنید. آیا می خواهید عمیقاً تحقیقات COVID-19 را درک کنید و به سؤالات خود بر اساس شواهد پاسخ دهید؟ بیاموزید که چگونه یک جستجوی بولی انجام دهید، مقالات علمی بخوانید و شاید مدرک دکترا بگیرید، زیرا هیچ مدل هوش مصنوعی مولد آموزش دیده بر روی حجم وسیعی از انتشارات تحقیقات علمی وجود ندارد. اگر وجود داشت، دریافت پاسخ‌های مبتنی بر شواهد و به زبان ساده برای سؤالات علمی یکی از ساده‌ترین مزایا بود. هوش مصنوعی مولد برای علم می تواند به معکوس کردن آن کمک کند کاهش سرعت نوآوری در علم by ساختنش آسان تر و ارزان تر برای یافتن ایده های جدید چنین مدل‌هایی همچنین می‌توانند هشدارهای مبتنی بر داده‌ها در مورد فرضیه‌های درمانی که قطعاً شکست می‌خورند، ارائه دهند، و تعصبات انسانی را متعادل کنند و از میلیاردها دلار جلوگیری کنند. کوچه های کور چند ده ساله. در نهایت، چنین مدل هایی می توانند مبارزه کنند بحران تکرارپذیری با نگاشت، سنجیدن، و زمینه سازی نتایج تحقیقات، امتیازی در مورد قابلیت اعتماد ارائه می کند.

پس چرا ما DALL-E یا GPT-3 برای علم نداریم؟ دلیل آن این است که اگرچه تحقیقات علمی است با ارزش ترین محتوای جهان، همچنین کم دسترسی ترین و قابل فهم ترین محتوای جهان است. من توضیح خواهم داد که برای باز کردن قفل داده های علمی در مقیاس برای امکان پذیر ساختن هوش مصنوعی مولد برای علم، چه چیزی لازم است و چگونه می تواند نحوه تعامل ما با تحقیق را تغییر دهد.

چه چیزی داده های تحقیقات علمی را چالش برانگیز می کند

انتشارات تحقیقاتی برخی از مهم ترین مخازن در جهان برای محتوا و اطلاعاتی هستند که تاکنون ایجاد شده اند. آنها ایده ها و یافته ها را در طول زمان و رشته ها به هم گره می زنند و برای همیشه توسط شبکه ای از کتابخانه ها حفظ می شوند. آنها توسط شواهد، تجزیه و تحلیل، بینش متخصص و روابط آماری پشتیبانی می شوند. آنها بسیار ارزشمند هستند، اما تا حد زیادی از وب پنهان هستند و بسیار ناکارآمد استفاده می شوند. وب مملو از ویدیوهای بامزه و نوازش گربه ها است، اما عمدتاً فاقد تحقیقات پیشرفته سرطان است. به عنوان مثال، وب علوم یکی از جامع ترین نمایه های دانش علمی است. ده‌ها سال است که وجود داشته است، اما احتمالاً چیزی است که اکثر خوانندگان هرگز درباره آن نشنیده‌اند، چه رسد به اینکه با آن تعامل داشته باشند. بسیاری از ما به مقالات تحقیقاتی دسترسی نداریم، و حتی زمانی که دسترسی داریم، آنها متراکم هستند، درک آنها سخت است و به صورت PDF بسته بندی می شوند - فرمتی که برای چاپ طراحی شده است، نه برای وب.

از آنجایی که مقالات علمی به راحتی قابل دسترسی نیستند، ما نمی توانیم به راحتی از داده ها برای آموزش مدل های تولیدی مانند GPT-3 یا DALL-E استفاده کنیم. شما هم می توانید تصور کنید اگر یک محقق بتواند آزمایشی را پیشنهاد کند و یک مدل هوش مصنوعی بتواند فوراً به آنها بگوید که آیا قبلاً انجام شده است (و بهتر است نتیجه را به آنها ارائه دهد)؟ سپس، هنگامی که آنها داده‌هایی از یک آزمایش جدید داشته باشند، هوش مصنوعی می‌تواند یک آزمایش بعدی را بر اساس نتیجه پیشنهاد دهد. در نهایت، تصور کنید که اگر محقق بتواند نتایج خود را آپلود کند و مدل هوش مصنوعی بتواند دستنوشته به دست آمده را برای آن بنویسد، چه زمانی می‌توان ذخیره کرد. آنها نزدیکترین چیزی که تا به حال به DALL-E علم رسیده ایم Google Scholar است، اما راه حلی پایدار یا مقیاس پذیر نیست. IBM Watson همچنین تصمیم گرفت تا به بسیاری از آنچه در اینجا توضیح می‌دهم دست یابد، اما بیشتر کارها پیش از پیشرفت‌های اخیر در مدل‌های زبان بزرگ انجام شد و از داده‌های مناسب یا کافی برای مطابقت با تبلیغات بازاریابی استفاده نکرد.

برای نوع بازگشایی ارزشی که من توضیح می‌دهم، ما به سرمایه‌گذاری بلندمدت، تعهد و چشم‌انداز نیاز داریم. همانطور که پیشنهاد شد تازه in آینده، ما باید با انتشارات علمی به عنوان بسترهایی برای ترکیب و تجزیه و تحلیل در مقیاس رفتار کنیم. زمانی که موانع را برطرف کنیم، می‌توانیم از علم برای تغذیه مدل‌های هوش مصنوعی مولد تشنه داده استفاده کنیم. این مدل‌ها پتانسیل بسیار زیادی برای سرعت بخشیدن به علم و افزایش سواد علمی دارند، مانند آموزش آنها برای تولید ایده‌های علمی جدید، کمک به دانشمندان در مدیریت و هدایت ادبیات علمی گسترده، کمک به شناسایی تحقیقات ناقص یا حتی جعلی، و ترکیب و ترجمه یافته‌های تحقیقاتی پیچیده به گفتار معمولی انسان

چگونه یک DALL-E یا GPT-3 برای علم دریافت کنیم؟

اگر اهل فناوری هستید، خروجی‌های مدل‌های هوش مصنوعی مولد را به دوستان نشان دهید SLAB or GPT-3 مثل نشان دادن جادو به آنهاست این ابزارها نشان دهنده نسل بعدی وب هستند. آنها از ترکیب مقادیر انبوه اطلاعات، فراتر از یک پیوند ساده، برای ایجاد ابزارهایی با ظرفیت تولید به دست می‌آیند. پس چگونه می‌توانیم تجربه‌ای جادویی مشابه در علم ایجاد کنیم، جایی که هر کسی می‌تواند سؤالی از ادبیات علمی به زبان ساده بپرسد و پاسخی قابل فهم با پشتوانه شواهد دریافت کند؟ چگونه می توانیم به محققان کمک کنیم تا فرضیه های خود را ایجاد، توسعه دهند، اصلاح کنند و آزمایش کنند؟ چگونه می توانیم به طور بالقوه از هدر دادن میلیاردها دلار در آن جلوگیری کنیم فرضیه های ناموفق در تحقیقات آلزایمر و ارتباط اشتباه بین ژنتیک و افسردگی?

راه‌حل‌های این پرسش‌ها ممکن است شبیه داستان‌های علمی تخیلی به نظر برسند، اما شواهدی وجود دارد که نشان می‌دهد وقتی کار علمی برای چیزی بیش از مجموع اجزای آن استفاده می‌شود، می‌توانیم کارهای شگفت‌انگیز و غیرقابل تصوری انجام دهیم. در واقع، با استفاده از نزدیک به 200,000 ساختار پروتئین در بانک اطلاعات پروتئین داده است آلفافولد توانایی برای پیش‌بینی دقیق ساختارهای پروتئین، چیزی که فقط برای آن انجام شد هر پروتئینی که تاکنون ثبت شده است (بیش از 200 میلیون!). استفاده از مقالات تحقیقاتی به روشی مشابه ساختارهای پروتئینی گام بعدی طبیعی خواهد بود.

کاغذها را به حداقل اجزای آنها تجزیه کنید

مقالات پژوهشی مملو از اطلاعات ارزشمند از جمله ارقام، نمودارها، روابط آماری و ارجاع به مقالات دیگر هستند. تجزیه آنها به اجزای مختلف و استفاده از آنها در مقیاس می تواند به ما کمک کند ماشین ها را برای انواع مختلف مشاغل مرتبط با علم، درخواست ها یا پرس و جوها آموزش دهیم. سؤالات ساده ممکن است با آموزش در مورد یک نوع مؤلفه پاسخ داده شوند، اما سؤالات یا سؤالات پیچیده تر نیاز به ترکیب انواع مؤلفه های متعدد و درک ارتباط آنها با یکدیگر دارند.

چند نمونه از اعلان‌های بالقوه پیچیده عبارتند از:

"به من بگو چرا این فرضیه اشتباه است"
"به من بگو چرا ایده درمانی من کار نمی کند"
"ایجاد یک ایده درمانی جدید"
چه شواهدی برای حمایت از سیاست اجتماعی X وجود دارد؟
چه کسی معتبرترین تحقیق را در این زمینه منتشر کرده است؟
"بر اساس داده های من یک مقاله علمی برای من بنویسید"

برخی از گروه ها در حال پیشرفت در این چشم انداز هستند. مثلا، برانگیختن GPT-3 را برای میلیون‌ها عنوان مقاله و چکیده به کار می‌برد تا به پرسش‌های محققان پاسخ دهد - مانند الکسا، اما برای علم. سیستم روابط آماری بین موجودیت ها را استخراج می کند که نشان می دهد چگونه مفاهیم و موجودیت های مختلف به هم مرتبط هستند. بتونه به خودی خود بر روی مقالات تحقیقاتی تمرکز نمی کند، اما با arXiv کار می کند و داشبوردی از اطلاعاتی را ارائه می دهد که توسط شرکت ها و دولت ها برای ترکیب و درک مقادیر زیادی از داده ها از بسیاری از منابع استفاده می شود.

دسترسی به تمام اجزا

متأسفانه، این گروه ها عمدتاً تنها بر عناوین و چکیده ها تکیه می کنند، نه متون کامل، زیرا تقریباً از هر شش مقاله، پنج مقاله آزادانه یا به راحتی قابل دسترسی نیستند. برای گروه هایی مانند Web of Science و Google که دارای داده ها یا مقالات هستند، مجوزها و دامنه استفاده آنها محدود یا تعریف نشده. در مورد گوگل، مشخص نیست که چرا هیچ تلاشی برای آموزش مدل‌های هوش مصنوعی در زمینه تحقیقات علمی کامل متن در Google Scholar انجام نشده است. به طرز شگفت انگیزی، این حتی در بحبوحه همه گیری COVID-19 که جهان را به بن بست کشاند، تغییری نکرد. تیم هوش مصنوعی گوگل پا به عرصه وجود گذاشت و روشی را طراحی کرد که عموم مردم بخواهند درباره COVID-19. اما - و نکته مهم اینجاست - آنها این کار را فقط با استفاده از مقالات دسترسی باز PubMed انجام دادند، نه Google Scholar.

موضوع دسترسی به مقالات و استفاده از آنها برای فراتر از خواندن آنها در یک زمان، چیزی است که گروه ها برای دهه ها از آن حمایت می کنند. من شخصاً نزدیک به یک دهه روی آن کار کرده‌ام و یک پلتفرم انتشار با دسترسی آزاد به نام راه‌اندازی کردم برنده در سال آخر دکتری ام، و سپس برای ساختن آن کار کردم مقاله آینده در استارتاپ دیگری به نام Authorea. در حالی که هیچ یک از این ابتکارات به طور کامل آنطور که من می خواستم انجام نشد، آنها من را به کار فعلی من در سوت، که حداقل تا حدی مشکل دسترسی را با همکاری مستقیم با ناشران حل کرده است.

کامپوننت ها را به هم متصل کنید و روابط را تعریف کنید

هدف ما در سوت معرفی است نسل بعدی نقل قول ها - استنادهای هوشمند نامیده می شود - که نشان می دهد چگونه و چرا هر مقاله، محقق، مجله یا موضوعی مورد استناد قرار گرفته و به طور کلی در ادبیات مورد بحث قرار گرفته است. با کار با ناشران، جملات را مستقیماً از مقالات تمام متن استخراج می کنیم که در آن از منابع خود در متن استفاده می کنند. این جملات بینشی کیفی در مورد چگونگی استناد به مقالات توسط آثار جدیدتر ارائه می دهند. برای تحقیق کمی شبیه به Rotten Tomatoes است.

این مستلزم دسترسی به مقالات متن کامل و همکاری با ناشران است تا بتوانیم از یادگیری ماشینی برای استخراج و تجزیه و تحلیل عبارات نقل قول در مقیاس استفاده کنیم. از آنجایی که مقالات دسترسی آزاد به اندازه کافی برای شروع وجود داشت، توانستیم اثبات مفهوم را بسازیم و یک به یک، افزایش قابلیت کشف مقالات نمایه شده در سیستم خود را به ناشران نشان دادیم و سیستمی را برای آنها ارائه کردیم تا معیارهای بهتری را نشان دهد برای ارزیابی تحقیق مسئولانه تر آنچه ما به عنوان اظهارات کارشناسی می دیدیم، آنها به عنوان پیش نمایش مقالات خود می دیدند. ناشران اکنون به طور انبوه امضا کرده اند و ما بیش از 1.1 میلیارد نقل قول هوشمند از بیش از نیمی از مقالات منتشر شده را نمایه کرده ایم.

از داده های رابطه ای برای آموزش مدل های هوش مصنوعی استفاده کنید

مولفه ها و روابط استخراج شده از مقالات می توانند برای آموزش مدل های زبان بزرگ جدید برای تحقیق مورد استفاده قرار گیرند. GPT-3 اگرچه بسیار قدرتمند است، اما برای کار بر روی علم و در پاسخ به سوالاتی که ممکن است در SAT ببینید ضعیف عمل می کند. زمانی که GPT-2 (نسخه قبلی GPT-3) بود با آموزش آن بر روی میلیون ها مقاله تحقیقاتی اقتباس شده است، بهتر از GPT-2 به تنهایی روی وظایف دانشی خاص کار می کرد. این نشان می دهد که داده های مورد استفاده برای آموزش مدل ها بسیار مهم است.

برخی از گروه ها اخیرا از GPT-3 برای نوشتن مقالات دانشگاهی استفاده کردو اگرچه این قابل توجه است، اما حقایق یا استدلال هایی که ممکن است نشان دهند ممکن است بسیار اشتباه باشد. اگر مدل نتواند سوالات ساده به سبک SAT را به درستی دریافت کند، آیا می توانیم به آن اعتماد کنیم تا یک مقاله کامل بنویسد؟ SCIgenکه نزدیک به 3 سال قبل از GPT-20 است، نشان داد که تولید کاغذهایی که واقعی به نظر می رسند نسبتا آسان است. سیستم آنها، در حالی که بسیار ساده تر بود، مقالاتی را تولید کرد که چنین بودند در کنفرانس های مختلف پذیرفته شد. ما به مدلی نیاز داریم که نه تنها علمی به نظر برسد، بلکه علمی باشد و به سیستمی برای تأیید ادعاهای ماشین‌ها و انسان‌ها نیاز دارد. متا اخیرا a سیستم تأیید استنادهای ویکی پدیا، چیزی که برخی ناشران به طور صوتی دارند ای کاش برای انتشارات علمی داشتند.

پیشرفت فعلی

باز هم، یکی از موانع کلیدی برای به ثمر رساندن این سیستم، عدم دسترسی به مقالات و منابع برای ایجاد آن است. جایی که مقالات یا اطلاعات برای استفاده در مقیاس در دسترس می شوند، ما می بینیم ابزارها و مدل های جدید شکوفا می شوند. تیم Google Patent استفاده کرد 100 میلیون پتنت برای آموزش سیستمی برای کمک به تجزیه و تحلیل پتنت، در واقع یک GooglePatentBERT است. دیگران مدل هایی مانند BioBERT و سایبرتو علیرغم این واقعیت که آنها فقط در حدود 1٪ از متون علمی فقط در حوزه های موضوعی خاص آموزش دیده اند، آنها در کارهای علمی، از جمله سیستم طبقه بندی استنادی ما در سایت، چشمگیر هستند.

اخیرا، یک ScholarBERT مدلی منتشر شده است که به طور موثر از تمام ادبیات علمی برای آموزش BERT استفاده می کند. آن‌ها بر مشکل دسترسی غلبه می‌کنند، اما به‌طور مشخص در مورد چگونگی استفاده از آن‌ها به سادگی تأکید می‌کنند که «غیر مصرف‌کننده» هستند. این مورد استفاده ممکن است درها را باز کند دیگران از مقالات بدون اجازه صریح ناشران استفاده می کنند و می تواند گام مهمی در ایجاد DALL-E علم باشد. با این حال، با کمال تعجب، ScholarBERT در کارهای مختلف دانش تخصصی بدتر از مدل های زبان علمی کوچکتر مانند SciBERT عمل کرد.

نکته مهم این است که مدل‌های سبک BERT مقیاس بسیار کوچک‌تری نسبت به مدل‌های زبان بزرگ مانند GPT-3 دارند، و اجازه نمی‌دهند همان نوع پیام‌های عمومی و یادگیری درون زمینه‌ای که بخش عمده‌ای از تبلیغات GPT-3 را تقویت کرده است. سوال باقی می ماند: اگر ما همان داده های ScholarBERT را برای آموزش یک مدل مولد بزرگ شده مانند GPT-3 اعمال کنیم، چه؟ اگر می‌توانستیم به نحوی نشان دهیم که پاسخ‌های دستگاه از کجا آمده‌اند، چه می‌شود، شاید آنها را مستقیماً به ادبیات مرتبط کنیم (مانند استنادات هوشمند)؟

چرا الآن؟

خوشبختانه کاغذها بازتر می شوند و ماشین ها قدرتمندتر می شوند. اکنون می‌توانیم از داده‌های موجود در مقالات و مخازن متصل برای آموزش ماشین‌ها برای پاسخ به سؤالات و ترکیب ایده‌های جدید بر اساس تحقیقات استفاده کنیم. این می‌تواند برای مراقبت‌های بهداشتی، سیاست‌گذاری، فناوری و هر چیزی که در اطراف ما قرار دارد، دگرگون‌کننده باشد. تصور کنید، اگر فقط عناوین اسناد را جست‌وجو نمی‌کردیم، بلکه به طور خاص برای پاسخ‌ها جستجو می‌کردیم، چگونه بر تحقیقات و گردش کار در همه رشته‌ها تأثیر می‌گذاشت.

رهایی دانش علمی جهان از موانع دوگانه دسترسی و قابل درک به انتقال از وب متمرکز بر کلیک‌ها، بازدیدها، لایک‌ها و توجه به وب متمرکز بر شواهد، داده‌ها و صحت کمک می‌کند. فارما به وضوح انگیزه دارد تا این را به ثمر برساند، از این رو تعداد فزاینده استارت آپ هایی که اهداف دارویی بالقوه را با استفاده از هوش مصنوعی شناسایی می کنند – اما من معتقدم که عموم مردم، دولت ها و هر کسی که از گوگل استفاده می کند ممکن است مایل باشد از جستجوی رایگان صرف نظر کند تا برای اعتماد و زمان تلاش کند. صرفه جویی در. جهان به شدت به چنین سیستمی نیاز دارد و به سرعت به آن نیاز دارد.

ارسال شده در 18 آگوست 2022

فناوری، نوآوری و آینده، همانطور که توسط کسانی که آن را می سازند گفته اند.