对于普通的 AI 商店来说,稀疏模型和廉价内存将赢得 PlatoBlockchain 数据智能。 垂直搜索。 哎。

对于一般的 AI 商店来说,稀疏模型和廉价内存将胜出

尽管领先的大规模语言模型可能很引人注目,但事实仍然是,只有最大的公司才有资源以有意义的规模实际部署和训练它们。

对于渴望利用人工智能获得竞争优势的企业来说,更便宜、更精简的替代方案可能更合适,特别是如果它可以针对特定行业或领域进行调整。

这就是一群新兴的 AI 初创公司希望开拓利基市场的地方:通过构建稀疏的、量身定制的模型,这些模型可能不如 GPT-3,对于企业用例来说已经足够好了,并且可以在硬件上运行,从而为商品 DDR 抛弃昂贵的高带宽内存 (HBM)。

德国人工智能初创公司 Aleph Alpha 就是这样一个例子。 这家总部位于德国海德堡的公司成立于 2019 年 夜光 自然语言模型拥有许多与 OpenAI 的 GPT-3 相同的引人注目的功能:文案、分类、摘要和翻译,仅举几例。

模型初创公司与 Graphcore 合作,在英国探索和开发稀疏语言模型 芯片制造商的硬件.

“Graphcore 的 IPU 为评估条件稀疏等先进技术方法提供了机会,”Aleph Alpha 首席执行官 Jonas Andrulius 在 声明. “这些架构无疑将在 Aleph Alpha 的未来研究中发挥作用。”

Graphcore 在稀疏性上的大赌注

条件稀疏模型(有时称为专家混合模型或路由模型)仅根据适用参数处理数据,这可以显着减少运行它们所需的计算资源。

例如,如果一个语言模型用互联网上的所有语言进行了训练,然后被问到一个俄语问题,那么在整个模型中运行该数据是没有意义的,只有与俄语相关的参数, Graphcore 首席技术官 Simon Knowles 在接受采访时解释说 注册.

“这很明显。 这就是你的大脑的工作方式,也是人工智能应该如何工作的方式,”他说。 “我已经说过很多次了,但如果人工智能可以做很多事情,它不需要访问所有知识来做一件事。”

Knowles 的公司为这类模型量身定制加速器,毫不奇怪地认为它们是人工智能的未来。 “如果到明年,有人正在构建密集语言模型,我会感到惊讶,”他补充道。

HBM-2 贵吗? 改为缓存在 DDR 上

稀疏语言模型并非没有挑战。 据诺尔斯说,最紧迫的问题之一与记忆有关。 高端 GPU 中用于实现这些模型所需的必要带宽和容量的 HBM 非常昂贵,并且连接到更昂贵的加速器。

他解释说,对于可能需要所有计算和内存的密集语言模型来说,这不是问题,但它给稀疏模型带来了问题,因为稀疏模型有利于内存而不是计算。

互连技术,如 Nvidia 的 NVLink,可用于跨多个 GPU 汇集内存,但如果模型不需要所有计算,GPU 可能会闲置。 “这是购买内存的一种非常昂贵的方式,”Knowles 说。

Graphcore 的加速器试图通过借用与计算本身一样古老的技术来回避这一挑战:缓存。 每个 IPU 都具有一个相对较大的 SRAM 缓存 — 1GB — 以满足这些模型的带宽要求,而原始容量是使用大型廉价 DDR4 内存池实现的。

“你拥有的 SRAM 越多,你需要的 DRAM 带宽就越少,这就是我们不使用 HBM 的原因,”Knowles 说。

通过将内存与加速器分离,企业支持更大的 AI 模型的成本要低得多——几个商品 DDR 模块的成本。

除了支持更便宜的内存外,Knowles 声称该公司的 IPU 还具有优于 GPU 的架构优势,至少在稀疏模型方面是这样。

Graphcore 的芯片不是在少量大型矩阵乘法器上运行(就像您在张量处理单元中找到的那样),而是具有大量可以独立寻址内存的较小矩阵数学单元。

这为稀疏模型提供了更大的粒度,其中“您需要获取相关子集的自由度,并且您必须获取的单元越小,您拥有的自由度就越大,”他解释说。

判决仍未出来

综上所述,Knowles 认为这种方法使其 IPU 能够以比 GPU 低得多的成本训练具有数千亿甚至数万亿参数的大型 AI/ML 模型。

然而,企业 AI 市场仍处于起步阶段,Graphcore 在这一领域面临着来自更大、更成熟的竞争对手的激烈竞争。

因此,尽管人工智能的超稀疏、低成本语言模型的开发不太可能很快减弱,但最终为企业人工智能工作负载提供动力的是 Graphcore 的 IPU 还是其他人的加速器还有待观察。 ®

时间戳记:

更多来自 注册