Intel prepara chips Gaudi 3 de menor potencia para China

Intel prepara chips Gaudi 3 de menor potencia para China

Intel preps lower-power Gaudi 3 chips for China PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Intel está a punto de lanzar dos modelos exclusivos de China de su acelerador de IA Gaudi 3, y estarán sustancialmente limitados para adaptarse a las sanciones de Estados Unidos.

La existencia de dos modelos homologados para su venta en el Reino Medio se detalla en Informe técnico de Intel sobre Gaudí 3. Llamados HL-328 y HL-388, los procesadores hechos para China tienen los factores de forma OAM y PCIe respectivamente, el primero se lanzó en junio y el segundo en septiembre, junto con el otro factor de forma PCIe Gaudi 3.

En general, el HL-328 y el HL-388 se ven más o menos iguales que los demás, con los mismos 128 GB de VRAM HBM2e con 3.7 TB/s de ancho de banda, 96 MB de caché, interfaz PCIe 5.0 x16 y estándares de decodificación.

La única diferencia es con respecto a la potencia de diseño térmico, que es de 450 vatios para los modelos de tarjeta OAM y PCIe. Esta es una reducción sustancial con respecto a los otros modelos. El PCIe HL-338 que no es de China tiene un TDP de 600 vatios, y el factor de forma OAM HL-325L y HL-335 transportan 900 vatios. El TDP relativamente bajo de los modelos China Gaudi 3 es probablemente la razón por la que no hay una versión refrigerada por líquido.

Si bien no se indica explícitamente en el documento técnico, es casi seguro que realizar los cambios fue necesario para cumplir con los Los controles de exportación del gobierno de EE. UU. sobre procesadores, que prohíben a las empresas estadounidenses exportar chips a China en función del rendimiento. 

Realmente no podemos saber qué ha hecho Intel con Gaudi 3 para hacerlo compatible y qué tan rápido se desempeñan estos chips aprobados para China con estos cambios, pero hay algunas pistas. El HL-328 y el HL-388 todavía usan dos matrices, como las otras variantes de Gaudi 3, ya que la configuración de memoria y caché no cambia. El uso de dos troqueles en lugar de uno ayuda a reducir la densidad de rendimiento, lo que permite que el chip alcance el límite de exportación más alto de 4,800 potencia de procesamiento total (TPP).

Lo que significa ese límite de 4,800 TPP es que ningún chip puede tener 150 TFLOPS o más de rendimiento de 16 bits, y dado que Gaudi 3 puede alcanzar hasta 1,835 TFLOPS en BF16, Intel necesitaría reducir drásticamente el rendimiento. Esto tendría que lograrse mediante un recorte verdaderamente masivo en el número de núcleos y la velocidad del reloj, o algún otro método que limite el rendimiento.

Le hemos pedido a Intel una aclaración sobre los modelos Gaudi 3 exclusivos de China y aún no hemos recibido respuesta. Actualizaremos si Intel revela alguna información.

Probablemente podamos esperar que el HL-328 y el HL-388 funcionen de manera similar a Nvidia H20, la GPU más rápida del titán del silicio aprobada para su venta en China. Tiene 148 TFLOPS de rendimiento FB16 y FP16, justo por debajo del límite de 150 TFLOPS.

Dado que el rendimiento bruto del núcleo será más o menos igual entre los modelos H20 y China de Gaudi 3, la principal diferencia se reducirá a la memoria, donde Intel tiene más capacidad pero un poco menos de ancho de banda, y al software, que siempre ha sido un punto de venta. Para chips Nvidia. ®

Sello de tiempo:

Mas de El registro