Nvidia가 자르지 않습니까? Google과 Amazon의 최신 AI 칩이 PlatoBlockchain Data Intelligence에 도착했습니다. 수직 검색. 일체 포함.

Nvidia가 자르지 않습니까? Google과 Amazon의 최신 AI 칩이 도착했습니다.

이번 주에 Amazon Web Services(AWS)와 Google Cloud가 최신 맞춤형 AI 가속기의 일반 공급을 발표한 후 클라우드 기반 AI 교육이 조금 더 다양해졌습니다.

Amazon을 시작으로 클라우드 제공업체의 Trainium 칩이 이제 AWS에서 일반 공급됩니다. 첫 번째 미리 작년 AWS re:Invent에서 Amazon의 Trainium 기반 Trn1n 인스턴스는 자연어 처리 및 이미지 인식에 사용되는 것과 같은 대규모 기계 학습 모델을 교육하도록 설계되었습니다.

Amazon의 내부 벤치마크에 따르면 Amazon은 Nvidia A40 기반 P250d 인스턴스보다 BF16 및 32비트 TensorFlow 워크로드에서 인스턴스가 100~4% 더 높은 성능을 제공한다고 주장합니다. 가속기는 FP32, FP16, UINT8 및 구성 가능한 FP8 데이터 유형도 지원합니다. FP8은 유명 해지다 최근 몇 년 동안 AI 세계에서 원시 성능과 정확성을 교환하는 수단으로 사용되었습니다.

인스턴스는 두 가지 크기로 제공됩니다. Amazon의 trn1.2xlarge는 단일 Trainium 칩이 있는 64개의 vCPU, CPU와 가속기에 균등하게 분할된 12.5GB 메모리, 500Gbit/sec 네트워킹 및 1.32GB 로컬 SSD 스토리지를 제공합니다. 한편 더 큰 워크로드의 경우 trn16xlarge는 128배 더 커서 인스턴스당 16개의 vCPU, 1개의 Trainium 칩, 800TB의 결합 메모리 및 XNUMXGbit/sec의 네트워크 대역폭을 포함합니다.

대규모 모델 교육의 경우 Amazon의 FSx Lustre 스토리지 서비스와 "페타비트급" 비차단 랙 상단형 스위치를 사용하여 여러 trn1.32xlarge 인스턴스를 클러스터링할 수 있습니다.

가속기는 컴파일러, 프레임워크 확장, 런타임 라이브러리 및 개발자 도구와 함께 제공되는 Amazon이 이전에 발표한 Inferentia 추론 칩과 동일한 Neuron SDK를 사용합니다. 종합하면 Amazon은 PyTorch 및 TensorFlow와 같은 인기 있는 ML 프레임워크로 작성된 워크로드를 최소한의 리팩토링으로 Trainium에서 실행하도록 조정할 수 있다고 주장합니다.

Trn1n 인스턴스는 이번 주에 Amazon의 미국 동부 및 미국 서부 지역에서 사용할 수 있습니다.

이제 Google의 TPU v4가 일반 공급됩니다.

Google은 또한 이번 주 Cloud Next 이벤트에서 다음을 포함한 하드웨어 업데이트 번들을 공개했습니다. 정식 출시 XNUMX세대 Tensor Processing Units(TPU).

Google Cloud의 TPU v4 기반 가상 머신은 단일 TPU 모듈인 4,096개의 칩에서 고속 패브릭을 통해 모두 연결된 최대 XNUMX개의 칩이 포함된 포드에 이르기까지 다양한 구성으로 사용할 수 있습니다.

익숙하지 않은 사용자를 위해 Google의 TPU 가속기는 자연어 처리, 추천 시스템 및 컴퓨터 비전에 사용되는 것과 같은 하드웨어 대형 기계 학습 모델에서 속도를 높이도록 특별히 설계되었습니다.

높은 수준에서 가속기는 본질적으로 MXU라고 하는 큰 bfloat 행렬 수학 엔진의 무리이며, 일부 고대역폭 메모리와 프로그래밍 가능하도록 만드는 몇 개의 CPU 코어에 의해 지원됩니다. CPU 코어는 고속 처리를 위해 워크로드의 AI 수학 연산을 MXU에 공급하도록 지시됩니다. 각 TPU VM은 각각 128개의 처리 코어와 총 XNUMXGB의 메모리가 있는 XNUMX개의 칩으로 구성됩니다.

Google의 최신 TPU 아키텍처에 대한 전체 분석을 보려면 다음을 권장합니다. 우리의 자매 사이트 다음 플랫폼.

맞춤형 가속기는 Google의 자체 AI 워크로드 속도를 높이도록 설계되었지만 나중에 GCP에서 고객에게 공개되었습니다. 예상대로 TPU는 JAX, PyTorch 및 TensorFlow를 비롯한 다양한 인기 ML 프레임워크를 지원합니다. 그리고 Google에 따르면 TPU v4는 이전 제품보다 40배 이상 빠르며 XNUMX달러당 XNUMX% 더 높은 성능을 제공합니다.

TPU v4 Pod 슬라이스는 현재 GCP의 오클라호마 지역에서 칩당 시간당 $0.97~$3.22의 요금으로 제공됩니다. Google의 가장 작은 인스턴스의 경우 5,924년 약정으로 월 $XNUMX입니다.

Google은 Intel의 차세대 CPU인 smartNIC를 엿볼 수 있습니다.

Intel의 Sapphire Rapids CPU와 Mount Evans IPU도 이번 주에 비공개 미리 보기로 Google Cloud에 등장했습니다.

일부 고객은 이제 인텔의 오랜 지연 Sapphire Rapids CPU 스핀, 그러나 오늘 발표는 마이크로프로세서에서 기대할 수 있는 것에 대한 힌트를 거의 제공하지 않습니다. 대신, 이 사업은 인텔과 공동 개발한 Mount Evans IPU를 재생했습니다.

인텔 네트워크를 이끄는 닉 맥키운(Nick McKeown)은 “모든 퍼블릭 클라우드에서 최초로 제공되는 C3 VM은 4세대 인텔 제온 스케일러블 프로세서에서 워크로드를 실행하는 동시에 프로그래밍 가능한 패킷 처리를 200Gbit/sec의 회선 속도로 안전하게 IPU에 제공합니다. 및 에지 그룹은 다음과 같이 말했습니다. 성명서.

작년 Intel의 Architecture Day에서 발표된 Mount Evans(현재 E2000으로 이름 변경됨)는 Intel의 첫 번째 IPU ASIC입니다. IPU는 기본적으로 네트워킹 및 스토리지 작업을 위한 또 다른 하드웨어 가속기인 인프라 처리 장치입니다.

smartNIC급 칩은 Google의 클라우드 인프라 워크로드 속도를 높이는 데 사용됩니다. 첫 번째 중 하나는 스토리지가 될 것입니다. 클라우드 제공업체는 IPU로 강화된 C3 인스턴스는 최근 발표 된 하이퍼디스크 서비스.

IPU, 데이터 처리 장치 및 SmartNIC는 클라우드 세계에서 거의 새로운 현상이 아닙니다. Amazon, Microsoft Azure 및 Alibaba Cloud도 SmartNIC를 사용하여 네트워킹, 스토리지 및 보안과 같은 인프라 작업을 호스트에서 오프로드하여 프로세스에서 테넌트 워크로드가 사용할 CPU 주기를 확보합니다.

Intel의 Sapphire Rapids는 여전히 클라우드에 갇혀 있습니다.

C3 인스턴스를 Sapphire Rapids가 제공하는 "퍼블릭 클라우드의 첫 번째 VM"이라고 놀리긴 했지만, 여기서 "퍼블릭"은 아마도 잘못된 단어일 것입니다. Google의 C3 인스턴스는 엄격한 NDA에 따라 애플리케이션별로 선택된 고객으로 제한됩니다.

이번 주 현재 Intel은 예정보다 XNUMX년 이상 늦어진 Sapphire Rapids 프로세서 제품군의 출시 날짜를 아직 발표하지 않았습니다. 그러나 올 가을에 AMD의 XNUMX세대 Epyc 프로세서가 출시됨에 따라 Intel은 적어도 가상으로 일부 고객의 손에 차세대 데이터 센터 칩을 제공하기 위해 그 어느 때보다 열심인 것으로 보입니다.

Google은 Sapphire Rapids 기반 리소스를 일부 용량으로 고객에게 제공하는 최신 Intel 파트너입니다. Google이 클라우드 VM을 제공하는 동안 슈퍼 마이크로 인텔은 각각 베어메탈 시스템에 대한 원격 액세스를 제공하여 고객에게 칩이 지원하는 새로운 기능을 탐색할 수 있는 기회를 제공합니다.

Intel은 Sapphire-Rapids 기반 86세대 Xeon Scalable 프로세서를 일부 OEM, 클라우드 파트너 및 정부 기관에 배송하기 시작했습니다. 그러나 xXNUMX 타이탄이 고객에게 얼마나 많은 칩을 제공했는지는 확실하지 않습니다. ®

타임 스탬프 :

더보기 등록