对于人工智能,您需要看到更大的硬件和软件图景 PlatoBlockchain 数据智能。垂直搜索。人工智能。

借助 AI,您需要看到更大的硬件和软件图景

赞助功能 十五年前,研究人员展示了图形处理单元可用于显着加速关键人工智能操作,令科技界眼花缭乱。

这种认识继续抓住企业的想象力。 IDC 报告称,在基础架构方面,GPU 加速计算和 HPC(如扩展)是寻求构建 AI 基础架构的技术领导者和架构师的首要考虑因素。

但对于所有已成功将 AI 应用于现实世界问题的组织,还有更多的组织难以超越实验或试验阶段。 IDC 的 2021 年研究 发现只有不到三分之一的受访者将他们的人工智能项目投入生产,其中只有三分之一达到了“生产的成熟阶段”。

提到的障碍包括数据处理和准备方面的问题,以及加强基础设施以支持企业规模的人工智能。 IDC 表示,企业需要投资于“专门建造且规模合适的基础设施”。

这里的人工智能问题是什么?

那么这些组织在 AI 方面出了什么问题? 一个因素可能是技术领导者和 AI 专家未能全面审视更广泛的 AI 管道,而与其他计算引擎(尤其是古老的 CPU)相比,他们过于关注 GPU。

因为归根结底,这不是支持 CPU、GPU 还是 ASIC 的问题。 相反,它是关于找到构建 AI 管道的最佳方法,该管道可以让您从想法、数据和模型构建到部署和推理。 这意味着了解不同处理器架构的各自优势,以便您可以在正确的时间应用正确的计算引擎。

正如英特尔数据中心 AI 战略和执行高级总监 Shardul Brahmbhatt 解释的那样,“CPU 已用于云中的微服务和传统计算实例。 GPU 已用于并行计算,例如媒体流、游戏和 AI 工作负载。”

因此,随着超大规模企业和其他云玩家将注意力转向人工智能,很明显他们正在利用这些相同的优势来完成不同的任务。

例如,GPU 围绕并行计算的能力使其非常适合训练 AI 算法。 同时,CPU 在低批次、低延迟实时推理以及使用这些算法分析实时数据并提供结果和预测方面具有优势。

同样,有一些警告,Brahmbhatt 解释说,“有些地方你想做更多的批量推理。 批量推理也是通过 GPU 或 ASIC 完成的事情。”

向下看管道

但 AI 管道超出了训练和推理的范围。 在管道的左侧,必须对数据进行预处理,并开发算法。 多面手 CPU 在这里扮演着重要的角色。

事实上,根据英特尔的说法,GPU 在整个 AI 流水线的总处理器活动中所占比例相对较小,CPU 驱动的“数据阶段”工作负载占总体的三分之二(您可以阅读解决方案简介 – 使用英特尔 CPU 技术优化推理 这里)。

Brahmbhatt 提醒我们,CPU 架构还有其他优势,包括可编程性。

“由于 CPU 的使用如此广泛,因此已经有一个现有的开发人员和应用程序生态系统,以及为通用计算提供易用性和可编程性的工具,”他说。

“其次,CPU 可以更快地访问更大的内存空间。 然后第三件事是它更多的是非结构化计算,而 GPU [后者] 是更多的并行计算。 由于这些原因,CPU 作为数据移动器运行,为 GPU 提供数据,从而帮助推荐系统模型以及不断发展的工作负载,如图形神经网络。”

人工智能开发的开放计划

那么,在规划 AI 开发流水线时,我们应该如何分别看待 CPU 和 GPU 的角色,无论是在本地、云端,还是两者兼而有之?

GPU 彻底改变了 AI 开发,因为它们提供了一种加速方法,可以卸载 CPU 的操作。 但这并不意味着这是给定工作最明智的选择。

正如英特尔平台架构师 Sharath Raghava 所解释的那样,“AI 应用程序具有矢量化计算。 矢量计算是可并行化的。 为了高效地运行 AI 工作负载,可以利用 CPU 和 GPU 的功能,考虑向量计算的大小、卸载延迟、并行性和许多其他因素”。 但他继续说道,对于“较小”的任务,卸载的“成本”会过高,在 GPU 或加速器上运行它可能没有意义。

CPU 还可以受益于与其他系统组件的更紧密集成,从而使它们能够更快地完成 AI 工作。 从 AI 部署中获得最大价值不仅仅涉及运行模型本身——所寻求的洞察力取决于高效的预处理、推理和后处理操作。 预处理要求在输入数据以生成推理之前准备好数据以匹配训练模型的输入期望。 然后在后处理阶段从推理结果中提取有用信息。

例如,如果我们考虑数据中心入侵检测系统 (IDS),重要的是根据模型的输出采取行动以及时保护和防止网络攻击造成的任何损害。 通常,预处理和后处理步骤在主机系统 CPU 上执行时效率更高,因为它们与架构生态系统的其余部分集成得更紧密。

首发订单下的性能提升

那么,这是否意味着完全放弃 GPU 加速的好处? 不必要。 多年来,英特尔一直在其至强可扩展 CPU 中构建人工智能加速。 该系列已经包括用于在深度学习模型上进行高性能推理的 Deep Learning Boost,而英特尔的 Advanced Vector Extensions 512 (AVX 512) 和 Vector Neural Network Extensions (VNNI) 可加快 INT8 推理性能。 但 DL Boost 还使用大脑浮点格式 (BF16) 来提高不需要高精度的训练工作负载的性能。

英特尔即将推出的至强可扩展第四代 CPU 将添加高级矩阵乘法或 AMX。 根据英特尔的计算,这将比早期处理器中实施的 AVX-8 VNNI x512 扩展进一步提升 86 倍,并允许第四代英特尔至强可扩展处理器“像 GPU 一样处理训练工作负载和 DL 算法”。 但这些相同的加速器也可以应用于 AI 和非 AI 工作负载的通用 CPU 计算。

这并不意味着英特尔期望 AI 管道从头到尾都是 x86。 当完全卸载将从并行化中受益的训练工作负载更有意义时,英特尔提供了其 Habana Gaudi AI 训练处理器。 基准测试表明,后者为 Amazon EC2 DL1 实例提供动力,与同样托管在云中的同类基于 Nvidia GPU 的训练实例相比,它可以提供高达 40% 的性价比。

与此同时,英特尔的数据中心 GPU Flex 系列适用于受益于并行化的工作负载和操作,例如 AI 推理,不同的实现针对“更轻”和更复杂的 AI 模型。 另一个代号为 Ponte Vecchio (PVC) 的英特尔® 数据中心 GPU 将很快开始为阿贡国家实验室的 Aurora 超级计算机提供动力。

我们可以首尾相连吗?

那么,英特尔的芯片可能会支撑整个人工智能管道,同时最大限度地减少在不同计算引擎之间不必要地卸载数据的需要。 该公司的处理器——无论是 GPU 还是 CPU——还支持基于开源工具和框架的通用软件模型,并通过其 OneAPI 程序进行了英特尔优化。

Brahmbhatt 将英特尔在构建基于社区和开源的 x86 软件生态系统方面的传统作为另一个优势。 “英特尔的理念是……‘让生态系统推动采用’。 我们需要确保我们对生态系统是公平和开放的,我们将我们的任何秘方都提供给生态系统。”

“我们正在使用一个通用的软件堆栈,基本上确保开发人员不必担心 AI 的 CPU 和 GPU 之间 IP 的潜在差异。”

这种通用软件堆栈与专注于为正确的任务使用正确的计算引擎的组合在企业中更为重要。 企业依靠人工智能来帮助他们解决一些最紧迫的问题,无论是在云端还是在本地。 但是混合工作负载需要全功能软件,以及系统堆栈的维护和管理,以运行加速器内核中未包含的代码。

因此,在回答“我们如何让 AI 达到企业规模”这个问题时,答案可能取决于放眼大局,并确保您使用可供您使用的全套硬件和软件套件。

由英特尔赞助。

时间戳记:

更多来自 注册