¿Nvidia no lo corta? Los últimos chips de IA de Google y Amazon han llegado a PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

¿Nvidia no lo corta? Llegan los últimos chips de IA de Google y Amazon

La capacitación en IA basada en la nube se volvió un poco más diversa esta semana después de que Amazon Web Services (AWS) y Google Cloud anunciaran la disponibilidad general de sus últimos aceleradores de IA personalizados.

Comenzando con Amazon, los chips Trainium del proveedor de la nube ahora están disponibles en general en AWS. Primero vista preliminar en AWS re:Invent el año pasado, las instancias Trn1n con tecnología Trainium de Amazon están diseñadas para entrenar grandes modelos de aprendizaje automático, como los que se usan en el procesamiento del lenguaje natural y el reconocimiento de imágenes.

Amazon afirma que las instancias tienen un rendimiento entre un 40 % y un 250 % mayor en cargas de trabajo BF16 y TensorFlow de 32 bits que sus instancias P100d con Nvidia A4, según los puntos de referencia internos de Amazon. El acelerador también es compatible con FP32, FP16, UINT8 y un tipo de datos FP8 configurable. FP8 tiene convertirse en popular en el mundo de la IA en los últimos años como un medio para intercambiar precisión por rendimiento bruto.

Las instancias están disponibles en dos tamaños: trn1.2xlarge de Amazon empareja ocho vCPU con un solo chip Trainium, 64 GB de memoria dividida equitativamente entre la CPU y el acelerador, red de 12.5 Gbit/seg y 500 GB de almacenamiento SSD local. Mientras tanto, para cargas de trabajo más grandes, el trn1.32xlarge es 16 veces más grande y contiene 128 vCPU, 16 chips Trainium, 1 TB de memoria combinada y 800 Gbit/s de ancho de banda de red por instancia.

Para el entrenamiento de modelos a gran escala, se pueden agrupar varias instancias trn1.32xlarge mediante el servicio de almacenamiento FSx Lustre de Amazon y los conmutadores de la parte superior del bastidor sin bloqueo de "clase petabit".

El acelerador utiliza el mismo Neuron SDK que el chip de inferencia Inferentia anunciado anteriormente por Amazon, que viene con un compilador, extensiones de marco, una biblioteca de tiempo de ejecución y herramientas para desarrolladores. En conjunto, las cargas de trabajo de reclamos de Amazon escritas en marcos de ML populares, como PyTorch y TensorFlow, se pueden adaptar para ejecutarse en Trainium con una refactorización mínima.

Las instancias de Trn1n están disponibles esta semana en las regiones EE. UU. Este y EE. UU. Oeste de Amazon.

TPU v4 de Google ya está disponible para el público en general

Google también presentó un paquete de actualizaciones de hardware en su evento Cloud Next esta semana, incluido el disponibilidad general de sus unidades de procesamiento de tensores (TPU) de cuarta generación.

Las máquinas virtuales impulsadas por TPU v4 de Google Cloud están disponibles en configuraciones que van desde cuatro chips, un solo módulo de TPU, hasta un módulo con hasta 4,096 chips, todos conectados a través de un tejido de alta velocidad.

Para aquellos que no están familiarizados, los aceleradores de TPU de Google se diseñaron específicamente para acelerar en el hardware los grandes modelos de aprendizaje automático, como los que se utilizan en el procesamiento del lenguaje natural, los sistemas de recomendación y la visión por computadora.

En un nivel alto, el acelerador es esencialmente un grupo de grandes motores matemáticos de matriz bfloat llamados MXU, respaldados por una memoria de alto ancho de banda y algunos núcleos de CPU para que sea programable; los núcleos de la CPU reciben instrucciones para alimentar las operaciones matemáticas de IA de una carga de trabajo en las MXU para un procesamiento de alta velocidad. Cada máquina virtual de TPU consta de cuatro chips, cada uno con dos núcleos de procesamiento y un total de 128 GB de memoria.

Para obtener un desglose completo de la última arquitectura de TPU de Google, recomendamos revisando nuestro sitio hermano La próxima plataforma.

Los aceleradores personalizados se diseñaron para acelerar las cargas de trabajo de IA de Google, pero luego se abrieron a los clientes en GCP. Como era de esperar, las TPU admiten una variedad de marcos de ML populares, incluidos JAX, PyTorch y TensorFlow. Y según Google, la TPU v4 es más del doble de rápida que su predecesora, al mismo tiempo que ofrece un 40 % más de rendimiento por dólar.

Las porciones de TPU v4 Pod están disponibles ahora en la región de Oklahoma de GCP, a una tarifa de entre $ 0.97 y $ 3.22 por chip, por hora. Para la instancia más pequeña de Google, eso equivale a $ 5,924 por mes con un compromiso de un año.

Google ofrece un vistazo a las CPU de próxima generación de Intel, smartNIC

Las CPU Sapphire Rapids de Intel y las IPU Mount Evans también aparecieron en Google Cloud como una vista previa privada esta semana.

Los clientes selectos ahora pueden dar Intel's largamente retrasado Las CPU Sapphire Rapids son un giro, sin embargo, el anuncio de hoy ofrece algunas pistas sobre lo que podemos esperar de los microprocesadores. En cambio, el negocio jugó con las IPU de Mount Evans que desarrolló conjuntamente con Intel.

“Las máquinas virtuales C3, las primeras de su tipo en cualquier nube pública, ejecutarán cargas de trabajo en procesadores escalables Intel Xeon de cuarta generación mientras liberan el procesamiento de paquetes programables a las IPU de forma segura a velocidades de línea de 4 Gbit/seg”, Nick McKeown, líder de la red Intel. y edge group, dicho en un ambiental.

Anunciado en el Día de la Arquitectura de Intel el año pasado, Mount Evans, ahora renombrado como E2000, es el primer IPU ASIC de Intel. IPU es una Unidad de procesamiento de infraestructura, básicamente otro acelerador de hardware para tareas de red y almacenamiento.

El chip de clase smartNIC se utilizará para acelerar las cargas de trabajo de la infraestructura en la nube de Google. Uno de los primeros será el almacenamiento. El proveedor de la nube afirma que sus instancias C3 impulsadas por IPU ofrecen IOPS 10 veces más altas y 4 veces el rendimiento de sus instancias C2 salientes, cuando se utiliza su anunció recientemente Servicio de hiperdisco.

Las IPU, las unidades de procesamiento de datos y las SmartNIC no son un fenómeno nuevo en el mundo de la nube. Amazon, Microsoft Azure y Alibaba Cloud también están utilizando SmartNIC para descargar tareas de infraestructura, como redes, almacenamiento y seguridad del host, liberando ciclos de CPU para que los usen las cargas de trabajo de los inquilinos en el proceso.

Sapphire Rapids de Intel sigue atascado en la nube

A pesar de burlarse de las instancias C3 como la "primera VM en la nube pública" impulsada por Sapphire Rapids, "público" es probablemente la palabra incorrecta aquí. Las instancias C3 de Google siguen estando limitadas a clientes selectos por aplicación, presumiblemente bajo un NDA estricto.

A partir de esta semana, Intel aún no ha anunciado una fecha de lanzamiento para su familia de procesadores Sapphire Rapids, que ya tiene más de un año de retraso. Sin embargo, con el lanzamiento de los procesadores Epyc de cuarta generación de AMD programado para este otoño, Intel parece más ansioso que nunca por poner sus chips de centro de datos de próxima generación en manos de algunos clientes, al menos virtualmente.

Google es solo el último socio de Intel en poner a disposición de los clientes recursos basados ​​en Sapphire Rapids en cierta medida. Si bien Google ofrece máquinas virtuales en la nube, Supermicro e Intel ofrecen acceso remoto a sistemas completos para brindar a los clientes la oportunidad de explorar las nuevas capacidades habilitadas por los chips.

Intel ha comenzado a enviar procesadores escalables Xeon de cuarta generación con tecnología Sapphire-Rapids a algunos OEM, amigos de la nube y agencias gubernamentales. Sin embargo, no está claro cuántos chips ha logrado entregar el titán x86 a los clientes. ®

Sello de tiempo:

Mas de El registro