Nvidia não está cortando? Os mais recentes chips de IA do Google e da Amazon chegaram ao PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Nvidia não corta? Chegaram os mais recentes chips de IA do Google e da Amazon

O treinamento de IA baseado em nuvem ficou um pouco mais diversificado esta semana depois que Amazon Web Services (AWS) e Google Cloud anunciaram a disponibilidade geral de seus mais recentes aceleradores de IA personalizados.

Começando com a Amazon, os chips Trainium do provedor de nuvem agora estão disponíveis na AWS. Primeiro visualizado no AWS re:Invent do ano passado, as instâncias Trn1n da Amazon com tecnologia Trainium foram projetadas para treinar grandes modelos de aprendizado de máquina, como aqueles usados ​​em processamento de linguagem natural e reconhecimento de imagem.

A Amazon afirma que as instâncias têm desempenho entre 40% e 250% maior em cargas de trabalho BF16 e TensorFlow de 32 bits do que suas instâncias P100d com Nvidia A4, de acordo com benchmarks internos da Amazon. O acelerador também suporta FP32, FP16, UINT8 e um tipo de dados FP8 configurável. O 8º PQ tem tornar-se popular no mundo da IA ​​nos últimos anos como um meio de trocar precisão por desempenho bruto.

As instâncias estão disponíveis em dois tamanhos: o trn1.2xlarge da Amazon combina oito vCPUs com um único chip Trainium, 64 GB de memória dividida igualmente entre a CPU e o acelerador, rede de 12.5 Gbit/s e 500 GB de armazenamento SSD local. Enquanto isso, para cargas de trabalho maiores, o trn1.32xlarge é 16 vezes maior, com 128 vCPUs, 16 chips Trainium, 1 TB de memória combinada e 800 Gbit/s de largura de banda de rede por instância.

Para treinamento de modelo em larga escala, várias instâncias trn1.32xlarge podem ser agrupadas usando o serviço de armazenamento FSx Lustre da Amazon e switches topo de rack sem bloqueio de “classe petabit”.

O acelerador usa o mesmo Neuron SDK do chip de inferência Inferentia anunciado anteriormente pela Amazon, que vem com um compilador, extensões de estrutura, uma biblioteca de tempo de execução e ferramentas de desenvolvedor. Juntos, a Amazon afirma que cargas de trabalho escritas em estruturas de ML populares, como PyTorch e TensorFlow, podem ser adaptadas para execução no Trainium com refatoração mínima.

As instâncias Trn1n estão disponíveis esta semana nas regiões Leste e Oeste dos EUA da Amazon.

TPU v4 do Google agora disponível para o público geral

O Google também revelou um pacote de atualizações de hardware em seu evento Cloud Next esta semana, incluindo o disponibilidade geral de suas unidades de processamento de tensor (TPU) de quarta geração.

As máquinas virtuais com tecnologia TPU v4 do Google Cloud estão disponíveis em configurações que variam de quatro chips – um único módulo TPU – a um pod com até 4,096 chips, todos conectados em uma malha de alta velocidade.

Para quem não conhece, os aceleradores TPU do Google foram projetados especificamente para acelerar grandes modelos de aprendizado de máquina em hardware, como aqueles usados ​​em processamento de linguagem natural, sistemas de recomendação e visão computacional.

Em um nível superior, o acelerador é essencialmente um monte de grandes mecanismos matemáticos de matriz bfloat chamados MXUs, suportados por alguma memória de alta largura de banda e alguns núcleos de CPU para torná-lo programável; os núcleos da CPU são instruídos a alimentar as operações matemáticas de IA de uma carga de trabalho nas MXUs para processamento em alta velocidade. Cada VM TPU consiste em quatro chips, cada um com dois núcleos de processamento e um total de 128 GB de memória.

Para uma análise completa da arquitetura TPU mais recente do Google, recomendamos verificando nosso site irmão A próxima plataforma.

Os aceleradores personalizados foram projetados para acelerar as cargas de trabalho de IA do próprio Google, mas posteriormente foram abertos aos clientes no GCP. Como seria de esperar, as TPUs oferecem suporte a uma variedade de estruturas de ML populares, incluindo JAX, PyTorch e TensorFlow. E de acordo com o Google, o TPU v4 é duas vezes mais rápido que seu antecessor, ao mesmo tempo que oferece desempenho 40% maior por dólar.

Fatias de Pod TPU v4 já estão disponíveis na região de Oklahoma do GCP, a uma taxa entre US$ 0.97 e US$ 3.22 por chip, por hora. Para a menor instância do Google, isso equivale a US$ 5,924 por mês, com compromisso de um ano.

O Google oferece uma olhada nas CPUs de próxima geração da Intel, smartNICs

As CPUs Sapphire Rapids da Intel e as IPUs Mount Evans também apareceram no Google Cloud como uma prévia privada esta semana.

Clientes selecionados agora podem oferecer recursos da Intel demorado As CPUs Sapphire Rapids são um giro, no entanto, o anúncio de hoje oferece algumas dicas sobre o que podemos esperar dos microprocessadores. Em vez disso, o negócio aproveitou as IPUs Mount Evans que co-desenvolveu com a Intel.

“Pela primeira vez em qualquer nuvem pública, as VMs C3 executarão cargas de trabalho em processadores escaláveis ​​Intel Xeon de 4ª geração, ao mesmo tempo em que liberam o processamento de pacotes programáveis ​​para as IPUs com segurança a taxas de linha de 200 Gbit/s”, disse Nick McKeown, que lidera a rede Intel. e grupo de borda, disse em um afirmação.

Anunciado no Dia da Arquitetura da Intel no ano passado, o Mount Evans – agora rebatizado como E2000 – é o primeiro IPU ASIC da Intel. A IPU é uma Unidade de Processamento de Infraestrutura, basicamente outro acelerador de hardware para tarefas de rede e armazenamento.

O chip da classe smartNIC será usado para acelerar as cargas de trabalho de infraestrutura em nuvem do Google. Um dos primeiros será o armazenamento. O provedor de nuvem afirma que suas instâncias C3 otimizadas por IPU oferecem IOPS 10x mais altas e 4x a taxa de transferência de suas instâncias C2 de saída, ao usar seu anunciou recentemente Serviço de hiperdisco.

IPUs, unidades de processamento de dados e SmartNICs não são um fenômeno novo no mundo da nuvem. Amazon, Microsoft Azure e Alibaba Cloud também estão usando SmartNICs para descarregar tarefas de infraestrutura, como rede, armazenamento e segurança do host, liberando ciclos de CPU para uso por cargas de trabalho de locatários no processo.

Sapphire Rapids da Intel ainda preso na nuvem

Apesar de provocar as instâncias C3 como a “primeira VM na nuvem pública” desenvolvida pela Sapphire Rapids, “público” provavelmente é a palavra errada aqui. As instâncias C3 do Google permanecem limitadas a clientes selecionados por aplicativo, presumivelmente sob um NDA estrito.

Nesta semana, a Intel ainda não anunciou uma data de lançamento para sua família de processadores Sapphire Rapids, que já está com mais de um ano de atraso. No entanto, com o lançamento dos processadores Epyc de quarta geração da AMD previsto para este outono, a Intel parece mais ansiosa do que nunca para colocar seus chips de datacenter de próxima geração nas mãos de alguns clientes – pelo menos virtualmente.

O Google é apenas o mais recente parceiro da Intel a disponibilizar recursos baseados em Sapphire Rapids aos clientes de alguma forma. Embora o Google ofereça VMs na nuvem, Supermicro e a Intel estão oferecendo acesso remoto a sistemas bare-metal para oferecer aos clientes a oportunidade de explorar os novos recursos habilitados pelos chips.

A Intel começou a enviar processadores Xeon Scalable de quarta geração com Sapphire-Rapids para alguns OEMs, amigos da nuvem e agências governamentais. No entanto, não está claro quantos chips o titã x86 conseguiu distribuir aos clientes. ®

Carimbo de hora:

Mais de O registro