这台人工智能超级计算机拥有 13.5 万个核心，仅用三天就建成

由柏拉图重新发布

关注： 0

人工智能正在热泪盈眶。机器可以说话、写作、玩游戏，并生成原始图像、视频和音乐。但随着 AI 能力的增长，它的算法也在增长。

十年前，机器学习算法依赖于数千万的内部连接, 或参数。今天的算法经常达到数千亿和甚至数万亿个参数. 研究人员表示，扩大规模仍然会带来性能提升，具有数万亿参数的模型可能会在短时间内出现。

要训练那么大的模型，您需要功能强大的计算机。尽管 2010 年代初期的 AI 运行在少数图形处理单元上——计算机芯片擅长对 AI 至关重要的并行处理——计算需求成倍增长，而顶级模型现在需要数百或数千。开放人工智能，微软, 元和其他人正在建造专用的超级计算机来处理这项任务，他们说这些人工智能机器是地球上最快的机器之一。

但即使 GPU 对 AI 扩展至关重要——例如，Nvidia 的 A100 仍然是 AI 集群中最快、最常用的芯片之一——近年来出现了专门为 AI 设计的更奇怪的替代品。

Cerebras 提供了一种这样的替代方案。

用人工智能做一顿饭

餐盘的大小——边长约 8.5 英寸——该公司的 Wafer Scale Engine 是世界上最大的硅芯片，拥有 2.6 万亿个晶体管和 850,000 个核心蚀刻在单个硅晶片上。每个 Wafer Scale Engine 都是公司 CS-2 计算机的核心。

独自一人，CS-2 是一头野兽，但去年 Cerebras 公布了一项计划将 CS-2 与称为 MemoryX 的外部存储器系统以及连接 CS-2 的系统称为 SwarmX。该公司表示，这项新技术可以连接多达 192 个芯片，并训练比当今最大、最先进的 AI 大两个数量级的模型。

Cerebras 首席执行官兼联合创始人 Andrew Feldman 表示：“该行业正在超越 1 万亿参数模型，我们正在将该边界扩展两个数量级，使大脑规模的神经网络具有 120 万亿参数。”

当时，这一切都是理论上的。但上周，公司宣布他们将 16 台 CS-2 连接在一起，组成了一台世界级的 AI 超级计算机。

认识仙女座

这台名为 Andromeda 的新机器拥有 13.5 万个内核，能够以 16 位半精度运行 exaflop（每秒五亿次运算）。由于其核心的独特芯片，与运行在更传统的 CPU 和 GPU 上的超级计算机相比，Andromeda 并不容易，但费尔德曼告诉 HPC线 仙女座大致相当于阿贡国家实验室的北极星超级计算机，排名世界第 17 快，根据最新的Top500榜单。

除了性能之外，Andromeda 的快速构建时间、成本和占地面积也值得注意。阿贡开始安装北极星 2021年夏天，超级计算机大约一年后上线. 它占据了 40 个机架，类似文件柜的外壳容纳了超级计算机组件。相比之下，Andromeda 的成本为 35 万美元——对于具有其强大功能的机器来说是一个适中的价格—— 只需三天组装, 并仅使用 16 个机架。

Cerebras 通过训练 OpenAI 的大型语言模型 GPT-3 以及 Eleuther AI 的开源 GPT-J 和 GPT-NeoX 的五个版本来测试该系统。根据 Cerebras 的说法，也许最重要的发现是 Andromeda 展示了他们所谓的大型语言模型的人工智能工作负载的“近乎完美的线性扩展”。简而言之，这意味着随着额外的 CS-2 的添加，训练时间会成比例地减少。

该公司表示，通常情况下，随着您添加更多芯片，性能提升会逐渐减弱。另一方面，Cerebras 的 WSE 芯片可能被证明可以更有效地扩展，因为它的 850,000 个内核在同一块硅片上相互连接。更重要的是，每个核心的隔壁都有一个内存模块。总而言之，该芯片减少了在核心和内存之间穿梭数据所花费的时间。

“线性扩展意味着当你从一个系统变成两个系统时，完成工作需要一半的时间。这是计算中一个非常不寻常的属性，”费尔德曼告诉 HPC线. 而且，他说，它可以扩展到超过 16 个连接的系统。

除了 Cerebras 自己的测试之外，在阿贡国家实验室的工作期间也展示了线性缩放结果，研究人员使用 Andromeda 在 Covid-3 基因组的长序列上训练 GPT-19-XL 大型语言算法。

当然，尽管系统可以扩展到超过 16 个 CS-2，但线性扩展能持续到什么程度还有待观察。此外，我们还不知道 Cerebras 如何与其他 AI 芯片进行正面交锋。英伟达和英特尔等人工智能芯片制造商已经开始参与定期的第三方基准测试由 MLperf 之类的人。 Cerebras 尚未参与其中。

备用空间

尽管如此，该方法似乎确实在超级计算领域开辟了自己的利基市场，并且继续扩展大型语言 AI 是一个主要用例。的确，费尔德曼告诉接线去年该公司已经在与 OpenAI 的工程师交谈，OpenAI 是大型语言模型的领导者。（OpenAI 创始人 Sam Altman 也是 Cerebras 的投资者。）

OpenAI 的大型语言模型 GPT-2020 在 3 年发布时，在性能和大小方面都改变了游戏规则。它包含 175 亿个参数，是当时最大的 AI 模型，其能力令研究人员感到惊讶。从那时起，语言模型已经达到数万亿个参数，并且可能会出现更大的模型。有传言——就目前而言——OpenAI 将在不久的将来发布 GPT-4，这将是 GPT-3 的又一次飞跃。（我们将不得不拭目以待。）

也就是说，尽管它们具有强大的功能，但大型语言模型既不完美也不广为人知。他们的缺陷包括可能是错误的、有偏见的和冒犯性的输出。 Meta 的 Galactica 是受过科学文本训练的最近的一个例子. 尽管人们可能认为数据集比在开放互联网上训练更不容易产生毒性，但该模型很容易被激发生成有害和不准确的文本，并在短短三天内被撤下。研究人员能否解决语言人工智能的缺点仍不确定。

但是，在收益递减开始出现之前，扩大规模似乎很可能会持续下去。下一次飞跃可能指日可待——我们可能已经拥有实现这一目标的硬件。

图片来源：大脑

时间戳记： 2022 年 11 月 22 日2022 年 11 月 22 日