如何为科学构建 GPT-3

由柏拉图重新发布

关注： 0

想创建一个图像以 1932 年“摩天大楼上的午餐”的风格在摩天大楼上工作的迅猛龙? 使用 DALL-E。想创造一个想象彼得·泰尔、埃隆·马斯克和拉里·佩奇的单口喜剧表演? 使用 GPT-3。想深入了解 COVID-19 研究并根据证据回答您的问题吗？学习如何进行布尔搜索、阅读科学论文，甚至可能获得博士学位，因为没有针对大量科学研究出版物进行训练的生成 AI 模型。如果有的话，获得有证据支持的、通俗易懂的科学问题答案将是最简单的好处之一。用于科学的生成式人工智能可以帮助扭转科学创新减速 by 进行中更容易和便宜寻找新的想法。这样的模型还可以提供数据支持的治疗假设警告，这些假设肯定会失败，抵消人类偏见并避免数十亿美元，数十年的死胡同. 最后，这样的模型可以对抗再现性危机通过映射、权衡和情境化研究结果，提供可信度分数。

那么为什么我们没有用于科学的 DALL-E 或 GPT-3 呢？原因是，虽然科学研究是世界上最有价值的内容，它也是世界上最难访问和理解的内容。我将解释如何大规模解锁科学数据以使生成人工智能成为可能，以及它将如何改变我们参与研究的方式。

是什么让科学研究数据具有挑战性

研究出版物是世界上最重要的内容和信息库之一。它们将跨时间和跨学科的想法和发现联系在一起，并由图书馆网络永久保存。它们得到证据、分析、专家洞察力和统计关系的支持。它们非常有价值，但它们在很大程度上隐藏在网络之外并且使用效率非常低。网络上充斥着可爱的猫咪视频，但基本上没有前沿的癌症研究。例如，科学网是科学知识最全面的指标之一。它已经存在了几十年，但它可能是大多数读者甚至从未听说过的东西，更不用说与之互动了。我们中的大多数人都无法访问研究论文，即使我们这样做了，它们也很密集，难以理解，并且被打包为 PDF——一种专为打印而非网络设计的格式。

因为科学论文不容易获得，我们不能轻易地使用这些数据来训练像 GPT-3 或 DALL-E 这样的生成模型。你能想象一下，如果研究人员可以提出一个实验，并且人工智能模型可以立即告诉他们之前是否已经做过（更好的是，给他们结果）？然后，一旦他们从一个新颖的实验中获得数据，人工智能就可以根据结果提出后续实验。最后，想象一下如果研究人员可以上传他们的结果并且 AI 模型可以为他们。我们最接近 DALL-E 科学的是 Google Scholar，但它不是一个可持续或可扩展的解决方案。 IBM Watson 还着手实现我在这里描述的大部分工作，但大部分工作都领先于大型语言模型的最新进展，并且没有利用适当或足够的数据来匹配营销炒作。

对于我所描述的那种价值解锁，我们需要长期投资、承诺和愿景。正如提议的那样最近 in 未来，我们需要将科学出版物视为要进行大规模组合和分析的基质。一旦我们消除了障碍，我们将能够利用科学来为需要大量数据的生成 AI 模型提供数据。这些模型具有加速科学和提高科学素养的巨大潜力，例如通过培训他们产生新的科学思想，帮助科学家管理和浏览大量科学文献，帮助识别有缺陷甚至是伪造的研究，以及综合复杂的研究结果并将其转化为普通的人类语言。

我们如何获得用于科学的 DALL-E 或 GPT-3？

如果您从事科技行业，请向朋友展示生成 AI 模型的输出，例如 DALL-E or GPT-3 就像向他们展示魔法一样。这些工具代表了下一代网络。它们源自海量信息的综合，超越了简单的联系，以创建具有生成能力的工具。那么，我们如何才能在科学中创造一种类似的神奇体验，让任何人都可以用通俗易懂的语言向科学文献提出问题，并得到有证据支持的可理解答案呢？我们如何帮助研究人员创建、发展、完善和检验他们的假设？我们如何才能避免浪费数十亿美元阿尔茨海默病研究中的假设失败和遗传与抑郁症之间的错误联系?

这些问题的解决方案可能听起来像科幻小说，但有证据表明，当科学工作不仅仅用于其部分的总和时，我们可以做出惊人而不可思议的事情。事实上，利用近 200,000 种蛋白质结构，在蛋白质数据库已经给 AlphaFold 能力，技能准确预测蛋白质结构有记载的每一种蛋白质（超过 200 亿！）。以类似于蛋白质结构的方式利用研究论文将是自然的下一步。

将论文分解成最小的组件

研究论文充满了有价值的信息，包括数字、图表、统计关系以及对其他论文的引用。将它们分解成各种组件并大规模使用它们可以帮助我们训练机器处理不同类型的科学相关工作、提示或查询。简单的问题可以通过对一种组件类型的培训来回答，但更复杂的问题或提示需要结合多种组件类型，并了解它们之间的关系。

一些复杂的潜在提示示例如下：

“告诉我为什么这个假设是错误的”
“告诉我为什么我的治疗想法行不通”
“产生新的治疗理念”
“有什么证据支持社会政策 X？”
“谁发表了该领域最可靠的研究？”
“根据我的数据给我写一篇科学论文”

一些团体正在朝着这一愿景迈进。例如，引出将 GPT-3 应用于数百万篇论文标题和摘要，以帮助回答研究人员的问题——有点像 Alexa，但用于科学。系统提取实体之间的统计关系，显示不同的概念和实体是如何链接的。底漆它本身并不专注于研究论文，但它确实与 arXiv 合作，并提供了一个信息仪表板，供企业和政府用来综合和理解来自多个来源的大量数据。

访问所有组件

不幸的是，这些团体主要只依赖标题和摘要，而不是全文，因为大约六分之五的文章不是免费或容易获得的。对于拥有数据或论文的 Web of Science 和 Google 等团体，他们的许可和使用范围是有限或未定义. 就 Google 而言，目前尚不清楚为什么没有公开宣布在 Google Scholar 的全文科学研究中训练 AI 模型的努力。令人惊讶的是，在导致世界陷入停顿的 COVID-19 大流行期间，这种情况甚至没有改变。谷歌人工智能团队挺身而出，为公众提出了一种询问方式的原型关于 COVID-19. 但是——这是踢球者——他们这样做只使用来自 PubMed 的开放获取论文，而不是 Google Scholar。

几十年来，团体一直在倡导获取论文并使用它们不仅仅是一次阅读一篇的问题。我本人亲自研究了近十年，推出了一个名为的开放获取发布平台风选在我博士的最后一年，然后努力建立未来的文章在另一家名为 Authorea. 虽然这些举措都没有完全按照我想要的方式进行，但它们引导我进入了我目前的工作赛特，通过直接与出版商合作，至少部分解决了访问问题。

连接组件并定义关系

我们的目标是赛特是介绍下一代引用 — 称为智能引用 — 显示任何文章、研究人员、期刊或主题在文献中被引用和更广泛讨论的方式和原因。通过与出版商合作，我们直接从全文文章中提取句子，他们在文本中使用参考文献。这些句子提供了关于论文如何被新作品引用的定性见解。这有点像用于研究的烂番茄。

这需要访问全文文章，并与出版商合作，以便我们可以使用机器学习来大规模提取和分析引文陈述。因为有足够多的开放获取文章可供开始，我们能够构建概念验证，并一一向出版商展示在我们的系统中索引的文章增加的可发现性，并为他们提供了一个系统显示更好的指标进行更负责任的研究评估。我们看到的专家陈述，他们看到的是他们文章的预览。出版商现在已经集体签约，我们已经从超过一半的已发表文章中索引了超过 1.1 亿条智能引用。

使用关系数据训练 AI 模型

从论文中提取的组件和关系可用于训练新的大型语言模型进行研究。 GPT-3 虽然非常强大，但并不是为科学和在回答你可能会在 SAT 上看到的问题时表现不佳. 当 GPT-2（GPT-3 的早期版本）推出时通过对数百万篇研究论文进行训练来适应，它在特定的知识任务上比单独的 GPT-2 效果更好。这凸显了用于训练模型的数据非常重要。

一些团体最近使用 GPT-3 撰写学术论文，虽然这令人印象深刻，但他们可能声称显示的事实或论点可能是非常错误的。如果模型不能正确回答简单的 SAT 式问题，我们可以相信它可以写出一篇完整的论文吗？科学基因比 GPT-3 早了近 20 年，表明生成看起来真实的论文相对容易。他们的系统虽然简单得多，但生成的论文接受各种会议. 我们需要一个不仅看起来科学而且科学的模型，并且需要一个系统来验证机器和人类的声明。 Meta 最近推出了一款用于验证维基百科引文的系统，一些出版商口头上说的希望他们有学术出版物.

目前的进展

同样，使该系统取得成果的一个关键障碍是无法获得创建它的文件和资源。如果论文或信息可以大规模使用，我们确实看到工具和新模式蓬勃发展。谷歌专利团队使用 100亿个专利训练一个专利分析帮助系统，实际上是一个 GooglePatentBERT。其他人已经推出了像生物BERT 和科学伯特，尽管事实上他们只接受了大约 1% 的特定学科领域的科学文本的培训，但他们在学术任务中令人印象深刻，包括我们在 scite 的引文分类系统。

最近，学者BERT 模型已经发布，它有效地使用了所有的科学文献来训练 BERT。他们克服了访问问题，但特别是对如何解决问题保持沉默，只是强调它们的使用是“非消费性的”。这个用例可能会打开大门其他人在未经出版商明确许可的情况下使用文章，这可能是创建 DALL-E 科学的重要一步。然而，令人惊讶的是，ScholarBERT 在各种专业知识任务上的表现不如 SciBERT 等较小的科学语言模型。

重要的是，BERT 风格的模型比 GPT-3 等大型语言模型的规模要小得多，而且它们不允许与 GPT-3 大肆宣传的相同类型的通用提示和上下文学习。问题仍然存在：如果我们应用来自 ScholarBERT 的相同数据来训练像 GPT-3 这样的放大生成模型会怎样？如果我们能以某种方式显示来自机器的答案的来源，或者将它们直接与文献（如智能引用）联系起来，那会怎样？

为什么是现在？

幸运的是，论文变得越来越开放，机器变得越来越强大。我们现在可以开始使用论文和连接存储库中包含的数据来训练机器回答问题并根据研究综合新想法。这可能对医疗保健、政策、技术和我们周围的一切产生变革性影响。想象一下，如果我们不仅搜索文档标题，还专门搜索答案，这将如何影响所有学科的研究和工作流程。

将世界的科学知识从可访问性和可理解性的双重障碍中解放出来，将有助于推动从专注于点击、视图、喜欢和关注的网络向专注于证据、数据和真实性的网络转变。制药公司显然有动力实现这一目标，因此越来越多的初创公司使用人工智能识别潜在的药物目标——但我相信公众、政府和任何使用谷歌的人都可能愿意放弃免费搜索，以争取信任和时间——保存。世界迫切需要这样一个系统，而且需要很快。

发表于 18 年 2022 月 XNUMX 日

正如那些建造它的人所说的那样，技术、创新和未来。