Amazon SageMaker 이기종 클러스터를 사용하여 모델 교육의 가격 성능 향상

플라톤에 의해 재발행

팔로워 : 0

이 게시물은 Mobileye의 Chaim Rand와 공동으로 작성되었습니다.

컴퓨터 비전 모델 훈련 또는 강화 학습과 같은 특정 기계 학습(ML) 워크로드에는 종종 신경망 모델 훈련의 GPU 또는 가속기 집약적인 작업과 이미지 증강과 같은 데이터 사전 처리의 CPU 집약적인 작업을 결합하는 작업이 포함됩니다. 두 유형의 작업이 동일한 인스턴스 유형에서 실행되면 데이터 사전 처리가 CPU에서 병목 현상을 일으켜 GPU 사용률이 낮아집니다. 이 문제는 새로운 세대의 GPU의 처리량이 CPU의 처리량보다 빠른 속도로 증가함에 따라 시간이 지남에 따라 더욱 악화됩니다.

이 문제를 해결하기 위해 2022년 XNUMX월에 시작 이기종 클러스터 아마존 세이지 메이커 단일 작업에서 다양한 인스턴스 유형을 사용하는 훈련 작업을 시작할 수 있는 모델 훈련. 이를 통해 데이터 전처리 파이프라인의 일부를 다음으로 오프로드할 수 있습니다. 컴퓨팅 최적화 DNN(심층 신경망) 작업은 계속해서 실행되는 인스턴스 유형입니다. GPU 또는 가속 컴퓨팅 인스턴스 유형. 벤치마크는 CPU 기반 TensorFlow 컴퓨터 비전 모델 교육에서 이기종 클러스터를 활성화한 후 최대 46%의 가격 성능 이점을 보여줍니다.

유사한 사용 사례의 경우, Mobileye, 자율 차량 기술 개발 회사는 다음과 같이 말했습니다.

"CPU 기반 딥 러닝 컴퓨터 비전 모델 교육을 여러 인스턴스 유형(CPU 및 GPU/ML 가속기)에서 실행하도록 이동하여 tf.data.service 우리가 구축한 기반 솔루션을 통해 교육 시간을 40% 줄이면서 교육 비용을 30% 줄일 수 있었습니다. Amazon SageMaker에서 이 솔루션을 실행할 수 있는 이기종 클러스터에 대해 기쁘게 생각합니다.”

— AI 엔지니어링, Mobileye

이 게시물에서는 다음 주제에 대해 논의합니다.

이기종 클러스터가 CPU 병목 현상을 제거하는 데 도움이 되는 방법
이기종 클러스터를 사용해야 하는 경우 및 기타 대안
PyTorch 및 TensorFlow의 참조 구현
성능 벤치마크 결과
Mobileye의 이기종 클러스터

AWS의 가속 컴퓨팅 인스턴스 제품군에는 AWS 사용자 지정 칩(AWS 인 페렌 시아, AWS 트레이닝), 엔비디아(GPU), 그리고 가우디 가속기 Habana Labs(Intel 회사)에서. 이 게시물에서는 GPU와 가속기라는 용어를 같은 의미로 사용합니다.

이기종 클러스터가 데이터 처리 병목 현상을 제거하는 방법

딥 러닝 모델을 훈련하는 데이터 과학자는 훈련 비용 효율성을 극대화하고 훈련 시간을 최소화하는 것을 목표로 합니다. 이를 달성하기 위한 기본 최적화 목표 중 하나는 GPU 활용도를 높이는 것입니다. 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 인스턴스. 이는 고전적인 GPU 집약적 신경망 모델의 정방향 및 역방향 전파를 컴퓨터 비전의 데이터 처리 및 증강 또는 강화 학습의 환경 시뮬레이션 실행과 같은 CPU 집약적 작업과 결합하는 ML 워크로드에서 더 어려울 수 있습니다. 이러한 워크로드는 결국 CPU 바운드가 될 수 있으며, CPU가 많을수록 기존 가속기가 부분적으로 유휴 상태이므로 처리량이 증가하고 교육이 더 빠르고 저렴해집니다. 경우에 따라 CPU:GPU 비율이 더 높은 다른 인스턴스 유형으로 전환하여 CPU 병목 현상을 해결할 수 있습니다. 그러나 인스턴스 패밀리의 아키텍처, 스토리지 또는 네트워킹 종속성으로 인해 다른 인스턴스 유형으로 전환할 수 없는 상황이 있습니다.

이러한 상황에서는 인스턴스 유형, 즉 GPU가 있는 인스턴스와 CPU를 혼합하여 CPU 성능을 높여야 합니다. 종합하면 전체적으로 CPU:GPU 비율이 높아집니다. 최근까지 SageMaker 교육 작업은 선택한 단일 인스턴스 유형의 인스턴스로 제한되었습니다. SageMaker 이기종 클러스터를 사용하면 데이터 과학자는 여러 인스턴스 유형으로 교육 작업을 쉽게 실행할 수 있습니다. 이를 통해 기존 CPU 작업 중 일부를 GPU 인스턴스에서 전용 컴퓨팅 최적화 CPU 인스턴스로 오프로드하여 GPU 활용도를 높이고 더 빠르고 비용을 절감할 수 있습니다. 효율적인 훈련. 또한 추가 CPU 성능을 통해 전통적으로 교육의 예비 단계로 오프라인에서 수행되었던 사전 처리 작업이 교육 작업의 일부가 되도록 할 수 있습니다. 이를 통해 데이터 전처리와 DNN 교육 가정 및 하이퍼파라미터 모두를 더 빠르게 반복하고 실험할 수 있습니다.

예를 들어 강력한 GPU 인스턴스 유형 ml.p4d.24xlarge(96 vCPU, 8 x NVIDIA A100 GPU), CPU:GPU 비율이 12:1입니다. 하나의 GPU를 20% 활용하기 위해 충분한 데이터를 사전 처리하기 위해 훈련 작업에 100개의 vCPU가 필요하다고 가정해 보겠습니다. 따라서 8개의 GPU를 모두 100% 활용하려면 160개의 vCPU 인스턴스 유형이 필요합니다. 그러나 ml.p4d.24xlarge는 64개의 vCPU 또는 40%가 부족하여 다음 다이어그램의 왼쪽에 표시된 것처럼 GPU 사용률을 60%로 제한합니다. 다른 ml.p4d.24xlarge 인스턴스를 추가하면 도움이 될까요? 아니요, 작업의 CPU:GPU 비율이 동일하게 유지되기 때문입니다.

이기종 클러스터의 경우 다이어그램 오른쪽에 표시된 것처럼 5.18개의 ml.c72xlarge(210 vCPU)를 추가할 수 있습니다. 이 클러스터의 총 vCPU는 96(2+72*30)이므로 CPU:GPU 비율은 1:5.18이 됩니다. 이러한 각 컴퓨팅 최적화 인스턴스는 데이터 사전 처리 CPU 집약적 작업으로 오프로드되며 효율적인 GPU 활용이 가능합니다. ml.cXNUMXxlarge의 추가 비용에도 불구하고 GPU 활용도가 높으면 처리 속도가 빨라져 가격 대비 성능 이점이 높아집니다.

이기종 클러스터를 사용해야 하는 경우 및 기타 대안

이 섹션에서는 CPU 병목 현상을 식별하는 방법을 설명하고 인스턴스 유형 확장과 이기종 클러스터를 사용하여 해결하는 방법에 대해 설명합니다.

CPU 병목 현상을 식별하는 빠른 방법은 CPU 및 GPU를 모니터링하는 것입니다. 활용도 측정항목 SageMaker 교육 작업의 경우 아마존 클라우드 워치. 다음에서 이러한 보기에 액세스할 수 있습니다. AWS 관리 콘솔 교육 작업 페이지의 인스턴스 메트릭 하이퍼링크 내. 관련 측정항목을 선택하고 5분에서 1분 해결 방법으로 전환합니다. 배율은 vCPU 또는 GPU당 100%이므로 vCPU/GPU가 4개인 인스턴스의 사용률은 최대 400%일 수 있습니다. 다음 그림은 CPU가 약 100% 활용되어 CPU 병목 현상을 나타내는 CloudWatch 지표의 한 예입니다. 반면 GPU는 충분히 활용되지 않습니다.

자세한 진단을 위해 다음을 사용하여 교육 작업을 실행합니다. Amazon SageMaker 디버거 SageMaker Python SDK를 사용하여 SageMaker 추정기를 구성할 때 프로파일러 구성을 추가하여 리소스 사용 상태, 통계 및 프레임워크 작업을 프로파일링합니다. 교육 작업을 제출한 후 결과를 검토합니다. 프로파일러 보고서 CPU 병목 현상을 위해.

더 높은 CPU:GPU 컴퓨팅 비율이 작업에 도움이 될 수 있다고 판단되면 먼저 동일한 인스턴스 패밀리의 다른 인스턴스 유형(가능한 경우)으로 확장하는 것을 고려하십시오. 예를 들어 ml.g5.8xlarge(32 vCPU, 1 GPU)에서 모델을 훈련하는 경우 최대 ml.g5.16xlarge(64 vCPU, 1 GPU)로 확장하는 것을 고려하십시오. 또는 다중 GPU 인스턴스 ml.g5.12xlarge(48개 vCPU, 4개 GPU)를 사용하여 모델을 훈련하는 경우 최대 ml.g5.24xlarge(96개 vCPU, 4개 GPU)로 확장하는 것이 좋습니다. 참조 G5 자세한 내용은 인스턴스 패밀리 사양을 참조하십시오.

동일한 인스턴스 패밀리에 vCPU:GPU 비율이 더 높은 인스턴스 유형이 없기 때문에 확장이 옵션이 아닌 경우가 있습니다. 예를 들어 ml.trn1.32xlarge, ml.p4d.24xlarge 또는 ml.g5.48xlarge의 경우 SageMaker 모델 교육을 위해 이기종 클러스터를 고려해야 합니다.

확장 외에도 NVIDIA와 같은 이기종 클러스터에 대한 추가 대안이 있음을 알려드립니다. 달리, GPU로 이미지 사전 처리를 오프로드합니다. 자세한 내용은 TensorFlow Data Service, NVIDIA DALI 및 기타 방법으로 데이터 사전 처리 병목 현상 극복.

의사 결정을 단순화하려면 다음 순서도를 참조하십시오.

SageMaker 이기종 클러스터 사용 방법

빠르게 시작하려면 이 게시물의 일부로 제공된 TensorFlow 또는 PyTorch 예제로 바로 이동할 수 있습니다.

이 섹션에서는 간단한 예를 통해 SageMaker 이기종 클러스터를 사용하는 방법을 안내합니다. SageMaker Python SDK 및 Estimator 클래스를 사용하여 모델을 교육하는 방법을 이미 알고 있다고 가정합니다. 그렇지 않은 경우 다음을 참조하십시오. SageMaker Python SDK 사용 계속하기 전에.

이 기능을 사용하기 전에 학습 작업의 Estimator 클래스를 다음을 사용하여 초기화했습니다. InstanceCount 및 암시적으로 단일 인스턴스 유형(동종 클러스터)만 있다고 가정하는 InstanceType 매개변수. 이기종 클러스터 출시와 함께 새로운 sagemaker.instance_group.InstanceGroup 수업. 이는 논리적 역할(예: 데이터 처리 또는 신경망 최적화)을 수행하도록 설계된 특정 인스턴스 유형의 하나 이상의 인스턴스 그룹을 나타냅니다. 두 개 이상의 그룹을 가질 수 있으며 각 인스턴스 그룹에 대해 사용자 정의 이름을 지정할 수 있습니다. 각 인스턴스 그룹의 인스턴스 유형 및 개수 자세한 내용은 다음을 참조하세요. SageMaker Python SDK 사용 과 저수준 SageMaker API 사용.

인스턴스 그룹을 정의한 후에는 SageMaker를 읽도록 교육 스크립트를 수정해야 합니다. 훈련 환경 정보 여기에는 이기종 클러스터 구성이 포함됩니다. 구성에는 현재 인스턴스 그룹, 각 그룹의 현재 호스트 및 순위와 함께 현재 호스트가 있는 그룹과 같은 정보가 포함됩니다. 훈련 스크립트에서 로직을 구축하여 특정 훈련 및 데이터 처리 작업에 인스턴스 그룹을 할당할 수 있습니다. 또한 교육 스크립트는 인스턴스 간 그룹 통신 또는 분산 데이터 로드 메커니즘(예: tf.data.service TensorFlow 또는 일반 gRPC 클라이언트-서버) 또는 기타 프레임워크(예: 아파치 스파크).

이기종 훈련 작업을 시작하고 런타임에 환경 구성을 읽는 간단한 예를 살펴보겠습니다.

훈련 작업을 정의하고 시작할 때 SageMaker 추정기에 대한 인수로 사용되는 두 개의 인스턴스 그룹을 구성합니다.

from sagemaker.instance_group import InstanceGroup
data_group = InstanceGroup("data_group", "ml.c5.18xlarge", 2)
dnn_group = InstanceGroup("dnn_group", "ml.p4d.24xlarge", 1)

from sagemaker.pytorch import PyTorch
estimator = PyTorch(...,
    entry_point='launcher.py',
    instance_groups=[data_group, dnn_group]
)

진입점 교육 스크립트( launcher.py), 인스턴스가 전처리 또는 DNN 코드를 실행할지 여부에 대해 이기종 클러스터 구성을 읽습니다.
```
from sagemaker_training import environment
env = environment.Environment()
if env.current_instance_group == 'data_group': ...;
```

이를 통해 SageMaker가 사용자를 대신하여 수행하는 작업과 사용자가 담당하는 작업을 요약해 보겠습니다.

SageMaker는 다음 작업을 수행합니다.

인스턴스 그룹 정의에 따라 다양한 인스턴스 유형을 프로비저닝합니다.
모든 또는 특정 인스턴스 그룹에 입력 채널을 프로비저닝합니다.
교육 스크립트 및 종속성을 인스턴스에 배포합니다.
정의된 경우 특정 인스턴스 그룹에 MPI 클러스터를 설정합니다.

귀하는 다음 작업을 담당합니다.

시작 학습 작업 스크립트를 수정하여 인스턴스 그룹을 지정합니다.
분산 데이터 파이프라인 구현(예: tf.data.service).
진입점 스크립트 수정(참조 launcher.py 예제 노트북에서) 모든 인스턴스에서 실행되는 단일 진입점이 되고, 실행 중인 인스턴스 그룹을 감지하고, 관련 동작(예: 데이터 처리 또는 DNN 최적화)을 트리거합니다.
훈련 루프가 끝나면 모든 인스턴스 그룹의 모든 인스턴스에서 진입점 프로세스가 종료되는지 확인해야 합니다. 이는 SageMaker가 작업을 완료된 것으로 표시하고 청구를 중지하기 전에 모든 인스턴스가 처리를 완료할 때까지 기다리기 때문에 중요합니다. 그만큼 launcher.py TensorFlow 및 PyTorch 예제 노트북의 스크립트는 DNN 그룹 인스턴스가 작업을 완료할 때 종료할 신호 데이터 그룹 인스턴스의 참조 구현을 제공합니다.

SageMaker 이기종 클러스터용 노트북 예시

이 섹션에서는 요약 정보를 제공합니다. 예시 노트북 TensorFlow 및 PyTorch ML 프레임워크 모두에 사용됩니다. 노트북에서 구현 세부 정보, 코드 작동 방식에 대한 연습, 교육 스크립트에서 재사용할 수 있는 코드 조각, 흐름 다이어그램 및 비용 비교 분석을 찾을 수 있습니다.

두 예 모두에서 모델이 의미 있는 방식으로 수렴할 것으로 기대해서는 안 됩니다. 우리의 의도는 epoch/step time으로 표현되는 데이터 파이프라인과 신경망 최적화 처리량을 측정하는 것입니다. 워크로드와 일치하는 가격 대비 성능 이점을 생성하려면 자체 모델 및 데이터 세트로 벤치마킹해야 합니다.

tf.data.service 기반 분산 데이터 로더(TensorFlow)를 사용하는 이기종 클러스터

이 수첩 TensorFlow를 사용하여 SageMaker 교육을 위한 이기종 클러스터를 구현하는 방법을 보여줍니다. tf.data.service 기반 분산 데이터 파이프라인. 우리는 딥 러닝 컴퓨터 비전 모델을 훈련합니다. 레스넷50 CPU를 많이 사용하는 데이터 보강이 필요합니다. 그것은 사용 호르보드 다중 GPU 분산 데이터 병렬 처리를 위해

우리는 두 가지 구성으로 워크로드를 실행합니다. 첫 번째는 표준을 사용하여 동종 클러스터, 단일 ml.p4d.24xlarge 인스턴스로 tf.data CPU 병목 현상을 보여주는 파이프라인으로 GPU 사용률이 낮아집니다. 두 번째 실행에서는 SageMaker 이기종 클러스터를 사용하여 단일 인스턴스 유형에서 두 개의 인스턴스 그룹으로 전환합니다. 이 실행은 데이터 처리의 일부를 추가 CPU 인스턴스로 오프로드합니다(사용 tf.data.service).

그런 다음 동종 및 이종 구성을 비교하고 주요 가격 성능 이점을 찾습니다. 다음 표에서 볼 수 있듯이 이기종 작업(86ms/단계)은 동종 작업(2.2ms/단계)보다 192배 더 빠르게 훈련하여 모델을 훈련하는 데 46% 더 저렴합니다.

실시예 1(TF)	ml.p4d.24xl	ml.c5.18xl	시간당 가격*	평균 단계 시간	단계당 비용	가격 성능 개선
동종의	1	0	$37.688	192 MS	$0.201	.
이기종	1	2	$45.032	86 MS	$0.108	46%

* 시간당 가격은 us-east-1 기준입니다. SageMaker 주문형 가격

이러한 속도 향상은 데이터 그룹에서 제공하는 추가 vCPU와 더 빠른 사전 처리를 활용하여 가능합니다. 참조 수첩 자세한 내용과 그래프는

gRPC 클라이언트-서버 기반 분산 데이터 로더(PyTorch)를 사용하는 이기종 클러스터

이 수첩 gRPC 클라이언트-서버 기반 분산 데이터 로더를 사용하여 SageMaker 교육을 위해 이기종 클러스터를 사용하는 샘플 워크로드를 보여줍니다. 이 예제에서는 단일 GPU를 사용합니다. 다음을 기반으로 PyTorch 모델을 사용합니다. 공식 MNIST 예제. 데이터 전처리를 많이 하도록 훈련 코드를 수정했습니다. 동종 및 이종 클러스터 모드에서 이 모델을 교육하고 가격 성능을 비교합니다.

이 예에서는 워크로드가 여러 GPU의 이점을 얻을 수 없고 특정 GPU 아키텍처(NVIDIA V100). 우리는 동종 및 이종 교육 작업을 모두 실행했으며 다음 표와 같이 주요 가격 성능 이점을 발견했습니다. 이기종 작업(1.19초/단계)은 균질 작업(6.5초/단계)보다 훈련하는 데 0.18배 빠르므로 모델을 훈련하는 비용이 77% 저렴합니다.

실시예 2(PT)	ml.p3.2xl	ml.c5.9xl	시간당 가격*	평균 단계 시간	단계당 비용	가격 성능 개선
동종의	1	0	$3.825	1193 MS	$0.127	.
이기종	1	1	$5.661	184 MS	$0.029	77%

* 시간당 가격은 us-east-1 기준입니다. SageMaker 주문형 가격

이는 CPU 수가 많을수록 32개의 데이터 로더 작업자(ml.p8xlarge의 경우 3.2개)를 사용하여 데이터를 사전 처리하고 GPU를 자주 사용하는 100%에 가깝게 유지할 수 있기 때문에 가능합니다. 참조 수첩 자세한 내용과 그래프는

Mobileye의 이기종 클러스터

인텔 회사인 Mobileye는 교통 산업에 혁명을 일으키고 도로를 더 안전하게 만들고 인명을 구한다는 목표로 첨단 운전자 지원 시스템(ADAS) 및 자율 차량 기술을 개발합니다. 이러한 기술은 SageMaker를 사용하여 저장된 대용량 데이터에 대해 훈련된 정교한 컴퓨터 비전(CV) 모델을 사용하여 활성화됩니다. 아마존 단순 스토리지 서비스 (아마존 S3). 이 모델은 최첨단 딥 러닝 신경망 기술을 사용합니다.

CV 모델 중 하나에서 CPU 병목 현상은 주로 GPU 활용도가 낮은 과도한 데이터 사전 처리로 인해 발생했습니다. 이 특정 워크로드에 대해 우리는 대안 솔루션을 찾기 시작했고 EC2 인스턴스를 기반으로 하는 이기종 클러스터로 분산 데이터 파이프라인 기술을 평가했으며 두 가지 모두에 대한 참조 구현을 제시했습니다. TensorFlow 과 파이 토치. SageMaker 이기종 클러스터의 출시를 통해 SageMaker에서 이와 유사한 워크로드를 실행하여 가격 대비 성능 이점을 개선할 수 있습니다.

고려

이기종 클러스터 기능의 출시로 SageMaker는 훈련 작업 내에서 인스턴스 유형을 혼합하고 일치시키는 데 훨씬 더 많은 유연성을 제공합니다. 그러나 이 기능을 사용할 때 다음 사항을 고려하십시오.

SageMaker를 통해 이기종 클러스터 기능을 사용할 수 있습니다. 파이 토치 과 TensorFlow 프레임워크 추정기 클래스 지원되는 프레임워크는 PyTorch v1.10 이상 및 TensorFlow v2.6 이상입니다.
모든 인스턴스 그룹은 동일한 Docker 이미지를 공유합니다.
모든 인스턴스 그룹은 동일한 학습 스크립트를 공유합니다. 따라서 교육 스크립트는 어떤 인스턴스 그룹에 속하는지 감지하고 그에 따라 포크가 실행되도록 수정해야 합니다.
훈련 인스턴스 호스트 이름(예: alog-1, algo-2 등)은 무작위로 할당되며 그들이 속한 인스턴스 그룹을 나타내지 않습니다. 인스턴스의 역할을 가져오려면 런타임 중에 인스턴스 그룹 멤버십을 가져오는 것이 좋습니다. 이는 로그인을 검토할 때도 관련이 있습니다. 클라우드워치, 로그 스트림 이름 때문에 [training-job-name]/algo-[instance-number-in-cluster]-[epoch_timestamp] 호스트 이름이 있습니다.
분산 교육 전략(일반적으로 MPI 클러스터)은 하나의 인스턴스 그룹에만 적용할 수 있습니다.
세이지 메이커 관리형 웜 풀 및 SageMaker 로컬 모드 현재 이기종 클러스터 교육과 함께 사용할 수 없습니다.

결론

이 게시물에서는 SageMaker 교육의 이기종 클러스터 기능을 사용하는 시기와 방법에 대해 논의했습니다. 실제 사용 사례에서 46% 가격 성능 향상을 시연했으며 분산 데이터 로더(tf.data.service 및 gRPC 클라이언트-서버) 구현. 기존 교육 스크립트에서 최소한의 코드 변경으로 이러한 구현을 사용할 수 있습니다.

시작하려면 예시 노트북. 이 기능에 대한 자세한 내용은 다음을 참조하십시오. 이기종 클러스터를 사용하여 훈련시키기.

저자 소개

길리 나훔 EMEA Amazon Machine Learning 팀의 일원으로 일하는 수석 AI/ML 전문가 솔루션 설계자입니다. Gili는 딥 러닝 모델 교육의 도전과제와 우리가 알고 있는 머신 러닝이 세상을 어떻게 변화시키고 있는지에 대해 열정적입니다. 여가 시간에 Gili는 탁구를 즐깁니다.

흐루시케시 간구르 ML 교육 및 AWS 네트워킹에 대한 전문 지식을 갖춘 AI/ML 신생 기업을 위한 주요 솔루션 설계자입니다. 그는 Autonomous Vehicle, Robotics, CV, NLP, MLOps, ML Platform 및 Robotics Process Automation 기술 분야의 스타트업이 AWS에서 비즈니스를 효율적이고 효과적으로 운영할 수 있도록 지원합니다. AWS에 합류하기 전에 Hrushikesh는 주로 클라우드 및 데이터 플랫폼에 관한 20년 이상의 업계 경험을 쌓았습니다.

갈 오쉬리 Amazon SageMaker 팀의 수석 제품 관리자입니다. 그는 기계 학습 도구, 프레임워크 및 서비스에 대해 7년 동안 작업한 경험이 있습니다.

차임 랜드 Intel Company인 Mobileye에서 자율 주행 차량 솔루션을 위한 딥 러닝 및 컴퓨터 비전 기술을 연구하는 기계 학습 알고리즘 개발자입니다. 그의 체크 아웃 블로그.

타임 스탬프 : 2022 년 10 월 27 일2022 년 10 월 27 일

타임 스탬프 : 31년 2023월 XNUMX일

Amazon SageMaker 이기종 클러스터를 사용하여 모델 교육의 가격 대비 성능 향상

플라톤에 의해 재발행

이기종 클러스터가 데이터 처리 병목 현상을 제거하는 방법

이기종 클러스터를 사용해야 하는 경우 및 기타 대안

SageMaker 이기종 클러스터 사용 방법

SageMaker 이기종 클러스터용 노트북 예시

tf.data.service 기반 분산 데이터 로더(TensorFlow)를 사용하는 이기종 클러스터

gRPC 클라이언트-서버 기반 분산 데이터 로더(PyTorch)를 사용하는 이기종 클러스터

Mobileye의 이기종 클러스터

고려

결론

저자 소개

더보기 AWS 기계 학습

Amazon Comprehend를 사용하여 리뷰에서 더 나은 통찰력 얻기

Amazon SageMaker로 ImmoScout24에서 주거용 부동산 가격 예측

Accenture는 AWS 생성 AI 서비스를 사용하여 규제 문서 작성 솔루션을 만듭니다 | 아마존 웹 서비스

여러 리전을 사용하여 Amazon Rekognition 상태 비저장 API의 확장성 향상

Amazon SageMaker 비동기 엔드포인트를 사용하여 Amazon SageMaker JumpStart 기반 모델의 배포 비용 최적화 | 아마존 웹 서비스

Amazon SageMaker에서 약물 발견을 가속화하기 위한 단백질 폴딩 워크플로 구축 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정