英伟达不砍吗? 谷歌和亚马逊最新的人工智能芯片已经到达 PlatoBlockchain Data Intelligence。 垂直搜索。 哎。

英伟达不砍吗? 谷歌和亚马逊最新的人工智能芯片已经到来

本周,亚马逊网络服务 (AWS) 和谷歌云宣布全面推出最新的定制人工智能加速器后,基于云的人工智能培训变得更加多样化。

与 Amazon 合作后,这家云提供商的 Trainium 芯片现已在 AWS 上全面上市。第一的 预览 在去年的 AWS re:Invent 大会上,Amazon 由 Trainium 驱动的 Trn1n 实例旨在训练大型机器学习模型,例如用于自然语言处理和图像识别的模型。

亚马逊声称,根据亚马逊的内部基准测试,这些实例在 BF40 和 250 位 TensorFlow 工作负载中的性能比采用 Nvidia A16 的 P32d 实例高出 100% 到 4%。该加速器还支持 FP32、FP16、UINT8 和可配置的 FP8 数据类型。 FP8有 变得流行 近年来在人工智能领域被视为一种以准确性换取原始性能的手段。

这些实例有两种大小:Amazon 的 trn1.2xlarge 将 64 个 vCPU 与单个 Trainium 芯片配对、在 CPU 和加速器之间均匀分配 12.5GB 内存、500Gbit/秒网络和 1.32GB 本地 SSD 存储。同时,对于更大的工作负载,trn16xlarge 增大了 128 倍,每个实例包含 16 个 vCPU、1 个 Trainium 芯片、800TB 组合内存以及 XNUMXGbit/秒的网络带宽。

对于大规模模型训练,可以使用 Amazon 的 FSx Lustre 存储服务和“petabit 级”非阻塞架顶交换机对多个 trn1.32xlarge 实例进行集群。

该加速器使用与亚马逊之前发布的 Inferentia 推理芯片相同的 Neuron SDK,该芯片附带编译器、框架扩展、运行时库和开发人员工具。亚马逊声称,用流行的 ML 框架(例如 PyTorch 和 TensorFlow)编写的工作负载可以通过最少的重构在 Trainium 上运行。

Trn1n 实例本周在亚马逊美国东部和美国西部地区推出。

谷歌 TPU v4 现已全面上市

谷歌还在本周的 Cloud Next 活动中推出了一系列硬件更新,包括 一般情况 其第四代张量处理单元(TPU)。

Google Cloud 的 TPU v4 支持虚拟机的配置范围从四个芯片(单个 TPU 模块)到包含多达 4,096 个芯片的 Pod(全部通过高速结构连接)。

对于那些不熟悉的人来说,Google 的 TPU 加速器是专门为加速硬件大型机器学习模型而设计的,例如用于自然语言处理、推荐系统和计算机视觉的模型。

从高层次来看,加速器本质上是一堆称为 MXU 的大型 bfloat 矩阵数学引擎,由一些高带宽内存和一些 CPU 内核支持以使其可编程; CPU 内核被指示将工作负载的 AI 数学运算输入 MXU 中以进行高速处理。每个TPU VM由四个芯片组成,每个芯片有两个处理核心,总共有128GB内存。

如需了解 Google 最新 TPU 架构的完整详细信息,我们建议 检查我们的 姐妹网站 下一个平台.

定制加速器旨在加速 Google 自己的 AI 工作负载,但后来在 GCP 上向客户开放。正如您所期望的,TPU 支持各种流行的 ML 框架,包括 JAX、PyTorch 和 TensorFlow。据 Google 称,TPU v4 的速度是其前身的两倍多,同时性价比也提高了 40%。

TPU v4 Pod 切片现已在 GCP 的俄克拉荷马地区上市,价格为每芯片每小时 0.97 美元至 3.22 美元。对于 Google 最小的实例,如果承诺一年,每月费用为 5,924 美元。

谷歌展示了英特尔的下一代 CPU、smartNIC

英特尔的 Sapphire Rapids CPU 和 Mount Evans IPU 本周也以私人预览的形式出现在 Google Cloud 中。

部分客户现在可以向英特尔提供 拖延已久的 Sapphire Rapids CPU 是一个旋转,然而,今天的公告几乎没有提供任何关于我们对微处理器的期望的暗示。相反,该公司大力宣传其与英特尔共同开发的 Mount Evans IPU。

英特尔网络负责人 Nick McKeown 表示:“C3 虚拟机在公有云中尚属首次,它将在第四代英特尔至强可扩展处理器上运行工作负载,同时以 4Gbit/秒的线速安全地将可编程数据包处理释放给 IPU。”和边缘组,在a中说 声明.

Mount Evans 在去年英特尔架构日上宣布,现已更名为 E2000,是英特尔首款 IPU ASIC。 IPU 是一个基础设施处理单元,基本上是另一个用于网络和存储任务的硬件加速器。

smartNIC级芯片将用于加速谷歌的云基础设施工作负载。第一个是存储。该云提供商声称,当使用其 IPU 增强型 C3 实例时,其传出 C10 实例的 IOPS 提高了 4 倍,吞吐量提高了 2 倍。 最近公布的 超级磁盘服务。

IPU、数据处理单元和智能网卡在云世界中并不是什么新现象。亚马逊、微软 Azure 和阿里云还使用 SmartNIC 来卸载基础设施任务,例如主机的网络、存储和安全性,从而释放 CPU 周期供租户工作负载在此过程中使用。

英特尔的 Sapphire Rapids 仍停留在云端

尽管戏弄 C3 实例是由 Sapphire Rapids 提供支持的“公共云中的第一个虚拟机”,但“公共”在这里可能是错误的词。 Google 的 C3 实例仍然仅限于按应用程序选择的客户,大概是在严格的保密协议下。

截至本周,英特尔尚未宣布 Sapphire Rapids 处理器系列的发布日期,这已经比计划晚了一年多。然而,随着 AMD 第四代 Epyc 处理器定于今年秋天推出,英特尔似乎比以往任何时候都更渴望将其下一代数据中心芯片交到一些客户手中——至少是虚拟的。

Google 是英特尔最新的合作伙伴,以某种方式向客户提供基于 Sapphire Rapids 的资源。虽然谷歌提供云虚拟机, 超微 和英特尔均提供对裸机系统的远程访问,为客户提供探索芯片新功能的机会。

英特尔已开始向一些 OEM、云伙伴和政府机构提供由 Sapphire-Rapids 驱动的第四代 Xeon 可扩展处理器。然而,目前尚不清楚 x86 巨头已成功向客户提供了多少芯片。 ®

时间戳记:

更多来自 注册