英特尔为中国准备低功耗Gaudi 3芯片

英特尔为中国准备低功耗Gaudi 3芯片

英特尔为中国柏拉图区块链数据智能准备低功耗Gaudi 3芯片。垂直搜索。人工智能。

英特尔将推出两款中国独家型号的 Gaudi 3 AI 加速器,它们将受到严重削弱,以适应美国的制裁。

批准在中国销售的两种型号的详细信息参见 英特尔 Gaudi 3 白皮书。这两款专为中国制造的处理器分别为 HL-328 和 HL-388,分别采用 OAM 和 PCIe 外形规格,前者于 3 月推出,后者于 XNUMX 月推出,与其他 PCIe 外形规格的 Gaudi XNUMX 一起推出。

总体而言,HL-328 和 HL-388 看起来或多或少与其他产品相同,具有相同的 128GB HBM2e VRAM,带宽为 3.7TB/s、96MB 缓存、PCIe 5.0 x16 接口和解码标准。

唯一的区别在于热设计功耗,OAM 和 PCIe 卡型号均为 450 瓦。这与其他型号相比大幅减少。非中国 PCIe HL-338 的 TDP 为 600 瓦,OAM 外形规格 HL-325L 和 HL-335 的 TDP 为 900 瓦。 China Gaudi 3 型号的 TDP 相对较低,这可能是没有液冷版本的原因。

虽然白皮书中没有明确说明,但几乎肯定有必要进行更改以遵守 美国政府的出口管制 处理器方面,根据性能禁止美国公司向中国出口芯片。 

我们无法真正知道英特尔对 Gaudi 3 做了什么来使其兼容,以及这些批准用于中国的芯片在这些变化中的执行速度有多快,但有一些线索。与其他 Gaudi 328 变体一样,HL-388 和 HL-3 仍然使用两个芯片,因为内存和缓存配置未更改。使用两个芯片而不是一个芯片有助于降低性能密度,从而使芯片能够达到 4,800 总处理能力 (TPP) 的更高出口限制。

4,800 TPP 限制意味着没有芯片可以拥有 150 TFLOPS 或更高的 16 位性能,并且由于 Gaudi 3 在 BF1,835 下可以达到 16 TFLOPS,因此英特尔需要大幅降低性能。这必须通过真正大规模削减核心数量和时钟速度或其他一些性能限制方法来实现。

我们已要求英特尔对中国独家的 Gaudi 3 型号进行澄清,但尚未收到回复。如果英特尔披露任何信息,我们将进行更新。

我们或许可以预期 HL-328 和 HL-388 的性能与 英伟达的 H20,这是硅巨头最快的 GPU,已获准在中国销售。它具有 148 TFLOPS 的 FB16 和 FP16 性能,略低于 150 TFLOPS 限制。

由于 H20 和 Gaudi 3 中国型号之间的原始核心性能大致相同,因此主要区别将归结为内存(英特尔的容量更大但带宽略少)和软件(这一直是卖点)适用于 Nvidia 芯片。 ®

时间戳记:

更多来自 注册