下一代人工智能蛋白质文件夹可以帮助科学吗？元有好处

由柏拉图重新发布

关注： 0

Meta 的人工智能研究人员表示，他们已经开发出迄今为止最大的蛋白质折叠模型，并且能够预测超过 600 亿种蛋白质的结构。

团队发布基于 15 亿参数的 ESM-2 变压器模型及其蛋白质结构预测数据库，称为 ESM宏基因组图谱，星期二。该数据库包括科学家尚未观察到的蛋白质形状。

蛋白质是复杂的生物分子，含有多达 20 种氨基酸，在生物体内发挥着各种生物功能。至关重要的是，它们折叠成错综复杂的 3D 结构，其形状对它们的运作方式至关重要；了解它们的形状有助于科学家了解它们的功能，并由此帮助他们找出模仿、改变或对抗这种行为的方法。

不幸的是，您不能只采用氨基酸配方并立即计算出最终结构。您可以进行模拟或实验以潜在地找出答案，但这很耗时。如今，您可以向经过适当训练的机器学习软件提供蛋白质的化学成分，并且该模型将相对而言快速准确地预测结构。

事实上，DeepMind 的 AlphaFold 模型也证明了这一点，韩元 2020 年两年一度的国际计算蛋白质折叠 CASP 竞赛。给定输入的一串氨基酸，AlphaFold 和其他机器学习软件可以生成其对应的三维结构。

此后，总部位于伦敦的 DeepMind 的研究人员改进了他们的系统，预测科学已知的超过 200 亿种蛋白质的结构。 Meta 最新的 ESM 系统走得更远，在对数百万个蛋白质序列进行训练后，可以预测数亿个。

Meta 团队的预印本论文——Lin 等人——解释了 ESM-2 的设计可以在这里找到. 有趣的是，根据研究人员，该系统实际上是一个大型语言模型，旨在“直接从蛋白质序列中学习进化模式并生成端到端的准确结构预测”。一方面，AlphaFold 不是一种语言模型，而是使用了不同的方法。

正如研究人员在他们的论文中指出的那样，这些大型语言模型不仅可以用于处理人类语言：“包含数百到数千亿参数的现代语言模型开发了诸如小样本语言翻译、常识推理和数学等能力。解决问题，所有这些都没有明确的监督。

“这些观察结果提出了一种可能性，即在蛋白质序列上训练的语言模型可能表现出一种平行的出现形式。”

结果是 ESM-2，尽管已经教授了一种语言模型来从代表其氨基酸的文本字符串中预测蛋白质的物理形状。

ESM-2 是同类模型中最大的模型，显然比类似系统更快地预测结构；根据 Meta 的说法，它比以前最先进的系统（如 AlphaFold 或 Rosetta）快 60 倍，后者可能需要十多分钟才能生成输出。

该模型能够创建 ESM 宏基因组图谱，预测超过 600 亿个结构 MGnify90 在短短两周内，在 2,000 个 GPU 上运行蛋白质数据库。在单个 Nvidia V100 GPU 上，模拟由 14.2 个氨基酸组成的蛋白质仅需 384 秒。从论文中可以看出，Meta 表示它的系统在准确度上大部分但不完全匹配 AlphaFold，尽管它的速度是关键，使其能够预测更多的蛋白质。

“使用当前最先进的计算工具，在实际时间范围内预测数亿蛋白质序列的结构可能需要数年时间，即使使用主要研究机构的资源也是如此。要在宏基因组规模上进行预测，预测速度的突破至关重要，”Facebook 所有者说。

Meta 希望 ESM-2 和 ESM 宏基因组图谱将通过帮助科学家研究进化史或应对疾病和气候变化来帮助推进科学。 “为了进一步扩展这项工作，我们正在研究如何使用语言模型来设计新的蛋白质，并有助于解决健康、疾病和环境方面的挑战，”该 biz 总结道。 ®

时间戳记： 2022 年 11 月 2 日2022 年 11 月 2 日