Amazon SageMaker 다중 모델 엔드포인트를 사용하여 GPU에서 여러 딥 러닝 모델 실행

플라톤에 의해 재발행

팔로워 : 0

업계 전반에서 AI 채택이 가속화됨에 따라 고객은 딥 러닝의 새로운 과학적 혁신을 활용하는 정교한 모델을 구축하고 있습니다. 이러한 차세대 모델을 사용하면 자연어 처리(NLP), 컴퓨터 비전, 음성 인식, 의료 연구, 사이버 보안, 단백질 구조 예측 및 기타 여러 분야에서 인간과 같은 최첨단 성능을 달성할 수 있습니다. . 예를 들어, GPT-3, OPT 및 BLOOM과 같은 대형 언어 모델은 인간과 유사한 뉘앙스가 있는 텍스트를 번역, 요약 및 작성할 수 있습니다. 컴퓨터 비전 공간에서 DALL-E 및 Imagen과 같은 텍스트-이미지 확산 모델은 우리 주변 세계의 더 높은 수준의 시각 및 언어 이해를 통해 자연어에서 사실적인 이미지를 생성할 수 있습니다. 이러한 다중 모드 모델은 다양한 다운스트림 작업에 대한 보다 풍부한 기능과 특정 도메인에 대해 이를 미세 조정할 수 있는 기능을 제공하며 고객에게 강력한 비즈니스 기회를 제공합니다.

이러한 딥 러닝 모델은 크기 면에서 계속 성장하고 일반적으로 이미지 생성, 텍스트 요약, 언어 번역 등과 같은 다양한 작업에 대한 모델 성능을 확장하기 위해 수십억 개의 모델 매개변수를 포함합니다. 또한 개인에게 극도로 개인화된 경험을 제공하기 위해 이러한 모델을 사용자 정의해야 합니다. 결과적으로 다양한 다운스트림 작업에 대해 이러한 모델을 미세 조정하여 더 많은 모델이 개발되고 있습니다. AI 애플리케이션의 지연 시간 및 처리량 목표를 충족하기 위해 GPU 인스턴스가 CPU 인스턴스보다 선호됩니다(GPU가 제공하는 연산 능력을 감안할 때). 그러나 GPU 인스턴스는 비싸고 10개 이상의 모델을 배포하는 경우 비용이 추가될 수 있습니다. 이러한 모델은 잠재적으로 영향력 있는 AI 애플리케이션을 가져올 수 있지만 모델의 크기와 수로 인해 이러한 딥 러닝 모델을 비용 효율적인 방식으로 확장하는 것이 어려울 수 있습니다.

아마존 세이지 메이커 MME(다중 모델 끝점)는 많은 수의 딥 러닝 모델을 배포할 수 있는 확장 가능하고 비용 효율적인 방법을 제공합니다. MME는 Zendesk, Veeva, AT&T와 같은 고객 사이에서 수백 개의 CPU 기반 모델을 호스팅하는 인기 있는 호스팅 선택입니다. 이전에는 GPU로 가속화된 컴퓨팅이 필요한 수백 개의 딥 러닝 모델을 배포할 수 있는 옵션이 제한적이었습니다. 오늘 GPU에 대한 MME 지원을 발표합니다. 이제 하나의 SageMaker 엔드포인트 뒤에 수천 개의 딥 러닝 모델을 배포할 수 있습니다. MME는 이제 GPU 코어에서 여러 모델을 실행하고, 여러 모델에서 엔드포인트 뒤의 GPU 인스턴스를 공유하고, 들어오는 트래픽을 기반으로 모델을 동적으로 로드 및 언로드할 수 있습니다. 이를 통해 비용을 크게 절감하고 최고의 가격 대비 성능을 달성할 수 있습니다.

이 게시물에서는 SageMaker MME를 사용하여 GPU에서 여러 딥 러닝 모델을 실행하는 방법을 보여줍니다.

SageMaker MME

SageMaker MME를 사용하면 하나 이상의 인스턴스를 포함할 수 있는 단일 추론 엔드포인트 뒤에 여러 모델을 배포할 수 있습니다. MME를 사용하면 각 인스턴스가 여러 모델을 로드하고 제공하도록 관리됩니다. MME를 사용하면 선형적으로 증가하는 여러 모델을 호스팅하는 비용을 절감하고 모든 모델에서 인프라를 재사용할 수 있습니다.

다음 다이어그램은 SageMaker MME의 아키텍처를 보여줍니다.

SageMaker MME는 다음에서 모델을 동적으로 다운로드합니다. 아마존 단순 스토리지 서비스 (Amazon S3) 호출 시 엔드포인트가 처음 생성될 때 모든 모델을 다운로드하는 대신. 결과적으로 모델에 대한 초기 호출은 짧은 지연 시간으로 완료되는 후속 추론보다 더 긴 추론 지연 시간을 볼 수 있습니다. 모델이 호출될 때 컨테이너에 이미 로드된 경우 다운로드 및 로드 단계를 건너뛰고 모델이 짧은 지연 시간으로 추론을 반환합니다. 예를 들어 하루에 몇 번만 사용되는 모델이 있다고 가정합니다. 요청 시 자동으로 로드되는 반면 자주 액세스하는 모델은 메모리에 유지되고 일관되게 짧은 대기 시간으로 호출됩니다.

GPU를 지원하는 SageMaker MME

GPU가 있는 SageMaker MME는 다음을 사용하여 작동합니다. NVIDIA Triton 추론 서버. NVIDIA Triton Inference Server는 추론 제공 프로세스를 단순화하고 높은 추론 성능을 제공하는 오픈 소스 추론 제공 소프트웨어입니다. Triton은 TensorFlow, NVIDIA® TensorRT™, PyTorch, MXNet, Python, ONNX, XGBoost, Scikit-learn, RandomForest, OpenVINO, 맞춤형 C++ 등과 같은 모든 주요 교육 및 추론 프레임워크를 지원합니다. 동적 일괄 처리, 동시 실행, 훈련 후 양자화 및 최적의 모델 구성을 제공하여 고성능 추론을 달성합니다. 또한 NVIDIA Triton 추론 서버는 다음을 구현하도록 확장되었습니다. MME API 계약, MME와 통합합니다.

다음 다이어그램은 MME 워크플로를 보여줍니다.

워크플로 단계는 다음과 같습니다.

SageMaker MME는 다음을 사용하여 특정 모델에 대한 HTTP 호출 요청을 수신합니다. TargetModel 페이로드와 함께 요청에서.
SageMaker는 대상 모델이 로드되는 엔드포인트 뒤의 올바른 인스턴스로 트래픽을 라우팅합니다. SageMaker는 MME 뒤의 모든 모델에서 트래픽 패턴을 이해하고 스마트하게 요청을 라우팅합니다.
SageMaker는 엔드포인트 뒤에서 모델 관리를 처리하고, 모델을 컨테이너의 메모리에 동적으로 로드하고, GPU 인스턴스의 공유 집합을 기반으로 모델을 언로드하여 최고의 가격 성능을 제공합니다.
SageMaker는 Amazon S3에서 인스턴스의 스토리지 볼륨으로 모델을 동적으로 다운로드합니다. 인스턴스 스토리지 볼륨에서 호출된 모델을 사용할 수 없는 경우 모델이 인스턴스 스토리지 볼륨으로 다운로드됩니다. 인스턴스 스토리지 볼륨이 용량에 도달하면 SageMaker는 스토리지 볼륨에서 사용하지 않는 모델을 삭제합니다.
SageMaker는 GPU 가속 인스턴스의 NVIDIA Triton 컨테이너 메모리에 모델을 로드하고 추론 요청을 제공합니다. GPU 코어는 인스턴스의 모든 모델에서 공유됩니다. 모델이 이미 컨테이너 메모리에 로드된 경우 SageMaker가 모델을 다시 다운로드하고 로드할 필요가 없기 때문에 후속 요청이 더 빠르게 제공됩니다.
SageMaker는 MME 끝점에 대한 트래픽 형성을 처리하고 최고의 가격 성능을 위해 GPU 인스턴스에서 최적의 모델 복사본을 유지합니다. 모델이 로드된 인스턴스로 트래픽을 계속 라우팅합니다. 인스턴스 리소스가 높은 사용률로 인해 용량에 도달하면 SageMaker는 컨테이너에서 가장 적게 사용되는 모델을 언로드하여 리소스를 확보하여 더 자주 사용하는 모델을 로드합니다.

SageMaker MME는 Auto Scaling 정책을 사용하여 수평으로 확장할 수 있으며 MME 엔드포인트에 대한 트래픽 급증을 처리하기 위해 인스턴스당 호출 및 GPU 사용률과 같은 메트릭을 기반으로 추가 GPU 컴퓨팅 인스턴스를 프로비저닝할 수 있습니다.

솔루션 개요

이 게시물에서는 GPU와 함께 SageMaker MME의 새로운 기능을 컴퓨터 비전 사용 사례와 함께 사용하는 방법을 보여줍니다. 데모 목적으로 이미지를 50개 범주로 분류할 수 있는 ResNet-1,000 컨볼루션 신경망 사전 훈련 모델을 사용합니다. 다음을 수행하는 방법에 대해 논의합니다.

PyTorch 및 TensorRT와 같은 다양한 Triton 모델 프레임워크 백엔드를 사용하여 SageMaker MME에서 NVIDIA Triton 추론 컨테이너 사용
ResNet-50 모델을 최적화된 TensorRT 엔진 형식으로 변환하고 SageMaker MME와 함께 배포
MME에 대한 Auto Scaling 정책 설정
다음을 사용하여 인스턴스 및 호출 메트릭에 대한 통찰력 얻기 아마존 클라우드 워치

모델 아티팩트 만들기

이 섹션에서는 Triton Inference Server 모델 구성을 사용하여 SageMaker MME에 배포할 ResNet-50 사전 훈련된 모델을 준비하는 단계를 안내합니다. 단계별 노트북을 사용하여 모든 단계를 재현할 수 있습니다. GitHub의.

이 게시물에서는 두 가지 모델을 사용한 배포를 보여줍니다. 그러나 수백 개의 모델을 준비하고 배포할 수 있습니다. 모델은 동일한 프레임워크를 공유할 수도 있고 공유하지 않을 수도 있습니다.

PyTorch 모델 준비

먼저, torchvision 모델 패키지를 사용하여 사전 훈련된 ResNet50 모델을 로드합니다. 모델을 TorchScript에 최적화되고 직렬화된 형식의 model.pt 파일로 저장합니다. TorchScript는 예시 입력을 사용하여 열심 모드에서 ResNet50 모델의 정방향 패스를 컴파일하므로 차원이 224 x 224인 XNUMX개의 색상 채널이 있는 RGB 이미지의 인스턴스 하나를 전달합니다.

그런 다음 Triton Inference Server용 모델을 준비해야 합니다. 다음 코드는 PyTorch 프레임워크 백엔드에 대한 모델 리포지토리를 보여줍니다. Triton은 모델 리포지토리에 있는 model.pt 파일을 사용하여 예측을 제공합니다.

resnet
├── 1
│   └── model.pt
└── config.pbtxt

모델 구성 파일 config.pbtxt 모델 이름을 지정해야 합니다(resnet), 플랫폼 및 백엔드 속성(pytorch_libtorch), max_batch_size (128), 데이터 유형(TYPE_FP32) 정보. 또한 다음을 지정할 수 있습니다. instance_group 와 dynamic_batching 고성능 추론을 달성하기 위한 속성. 다음 코드를 참조하십시오.

name: "resnet"
platform: "pytorch_libtorch"
max_batch_size: 128
input {
  name: "INPUT__0"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "OUTPUT__0"
  data_type: TYPE_FP32
  dims: 1000
}

TensorRT 모델 준비

엔비디아 텐서RT 고성능 딥 러닝 추론을 위한 SDK이며 추론 애플리케이션을 위한 짧은 대기 시간과 높은 처리량을 제공하는 딥 러닝 추론 옵티마이저 및 런타임을 포함합니다. 우리는 명령줄 도구를 사용합니다 trtexec TensorRT 직렬화된 엔진을 생성하려면 ONNX 모델 형식. ResNet-50 사전 훈련 모델을 NVIDIA TensorRT로 변환하려면 다음 단계를 완료하십시오.

다음을 사용하여 사전 훈련된 ResNet-50 모델을 ONNX 형식으로 내보냅니다. 토치.onnx.이 단계는 모델을 한 번 실행하여 샘플 입력으로 실행을 추적한 다음 추적된 모델을 지정된 파일로 내보냅니다. model.onnx.
trtexec을 사용하여 TensorRT 엔진 계획을 model.onnx 파일. 선택적으로 부동 소수점 계산을 16비트 부동 소수점으로 실행하거나 부동 소수점 값을 양자화하여 8비트 정수를 사용하여 계산을 수행함으로써 부동 소수점 계산의 정밀도를 줄일 수 있습니다.

다음 코드는 TensorRT 모델의 모델 리포지토리 구조를 보여줍니다.

resnet
├── 1
│   └── model.plan
└── config.pbtxt

TensorRT 모델의 경우 다음을 지정합니다. tensorrt_plan 플랫폼으로 색상 채널이 있는 224 x 224 차원 이미지의 Tensor 사양을 입력합니다. 1,000차원의 출력 Tensor는 다음 유형입니다. TYPE_FP32, 다른 개체 범주에 해당합니다. 다음 코드를 참조하십시오.

name: "resnet"
platform: "tensorrt_plan"
max_batch_size: 128
input {
  name: "input"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "output"
  data_type: TYPE_FP32
  dims: 1000
}
model_warmup {
    name: "bs128 Warmup"
    batch_size: 128
    inputs: {
        key: "input"
        value: {
            data_type: TYPE_FP32
            dims: 3
            dims: 224
            dims: 224
            zero_data: false
        }
    }
}

Amazon S3에 모델 아티팩트 저장

SageMaker는 다음에서 모델 아티팩트를 예상합니다. .tar.gz 체재. 또한 모델 이름, 버전, config.pbtxt 파일 등. tar 모델 파일이 포함된 폴더 .tar.gz Amazon S3에 업로드합니다.

!mkdir -p triton-serve-pt/resnet/1/
!mv -f workspace/model.pt triton-serve-pt/resnet/1/
!tar -C triton-serve-pt/ -czf resnet_pt_v0.tar.gz resnet
model_uri_pt = sagemaker_session.upload_data(path="resnet_pt_v0.tar.gz", key_prefix="resnet-mme-gpu")
!mkdir -p triton-serve-trt/resnet/1/
!mv -f workspace/model.plan triton-serve-trt/resnet/1/
!tar -C triton-serve-trt/ -czf resnet_trt_v0.tar.gz resnet
model_uri_trt = sagemaker_session.upload_data(path="resnet_trt_v0.tar.gz", key_prefix="resnet-mme-gpu")

모델 아티팩트를 Amazon S3에 업로드했으므로 이제 SageMaker MME를 생성할 수 있습니다.

MME로 모델 배포

이제 두 개의 서로 다른 프레임워크 백엔드(PyTorch 및 TensorRT)가 있는 ResNet-50 모델을 SageMaker MME에 배포합니다.

수백 개의 모델을 배포할 수 있으며 모델은 동일한 프레임워크를 사용할 수 있습니다. 또한 이 게시물에 표시된 것처럼 다른 프레임워크를 사용할 수도 있습니다.

우리는을 사용하여 Python 용 AWS SDK (Boto3) API create_model, create_endpoint_config및 create_endpoint MME를 생성합니다.

서빙 컨테이너 정의

컨테이너 정의에서 다음을 정의합니다. model_data_url SageMaker MME가 예측을 로드하고 제공하는 데 사용하는 모든 모델이 포함된 S3 디렉토리를 지정합니다. 세트 Mode 에 MultiModel SageMaker가 MME 컨테이너 사양으로 끝점을 생성함을 나타냅니다. GPU가 있는 MME 배포를 지원하는 이미지로 컨테이너를 설정합니다. 다음 코드를 참조하십시오.

container = {
"Image": ,
"ModelDataUrl": ,
"Mode": "MultiModel"
}

다중 모델 객체 생성

SageMaker Boto3 클라이언트를 사용하여 create_model API. 컨테이너 정의를 모델 API 생성에 전달합니다. ModelName 와 ExecutionRoleArn:

create_model_response = sm_client.create_model(
    ModelName=, ExecutionRoleArn=role, PrimaryContainer=container
)

MME 구성 정의

다음을 사용하여 MME 구성 생성 create_endpoint_config 보토3 API. 가속 GPU 컴퓨팅 인스턴스 지정 InstanceType (우리는 g4dn.4xlarge 인스턴스 유형을 사용합니다). 두 개 이상의 인스턴스로 엔드포인트를 구성하는 것이 좋습니다. 이를 통해 SageMaker는 모델에 대해 여러 가용 영역에서 고가용성 예측 세트를 제공할 수 있습니다.

조사 결과에 따르면 단일 GPU 코어가 있는 ML 최적화 인스턴스에서 더 나은 가격 대비 성능을 얻을 수 있습니다. 따라서 GPU 기능에 대한 MME 지원은 단일 GPU 코어 인스턴스에 대해서만 활성화됩니다. 지원되는 전체 인스턴스 목록은 다음을 참조하십시오. 지원되는 GPU 인스턴스 유형.

create_endpoint_config_response = sm_client.create_endpoint_config(
    EndpointConfigName=,
    ProductionVariants=[
        {
            "InstanceType": "ml.g4dn.4xlarge",
            "InitialVariantWeight": 1,
            "InitialInstanceCount": 2,
            "ModelName": ,
            "VariantName": "AllTraffic",
        }
    ],
)

MME 만들기

앞의 엔드포인트 구성으로 다음을 사용하여 SageMaker MME를 생성합니다. create_endpoint API. SageMaker는 MME를 생성하고 ML 컴퓨팅 인스턴스 g4dn.4xlarge를 시작하고 여기에 PyTorch 및 TensorRT ResNet-50 모델을 배포합니다. 다음 코드를 참조하십시오.

create_endpoint_response = sm_client.create_endpoint(
    EndpointName=, EndpointConfigName=
)

MME에서 대상 모델 호출

엔드포인트를 생성한 후 다음을 사용하여 MME에 추론 요청을 보낼 수 있습니다. invoke_enpoint API. 우리는 지정 TargetModel 호출 호출에서 각 모델 유형에 대한 페이로드를 전달합니다. 다음 코드는 PyTorch 모델 및 TensorRT 모델에 대한 샘플 호출입니다.

runtime_sm_client.invoke_endpoint(
    EndpointName=,
    ContentType="application/octet-stream",
    Body=json.dumps(pt_payload),
    TargetModel='resnet_pt_v0.tar.gz', #PyTorch Model
)
runtime_sm_client.invoke_endpoint(
    EndpointName=, 
    ContentType="application/octet-stream", 
    Body=json.dumps(trt_payload),
    TargetModel='resnet_trt_v0.tar.gz' #TensorRT Model
)

GPU MME에 대한 Auto Scaling 정책 설정

SageMaker MME는 호스팅된 모델에 대한 자동 크기 조정을 지원합니다. Auto Scaling은 워크로드의 변화에 따라 모델에 프로비저닝된 인스턴스 수를 동적으로 조정합니다. 워크로드가 증가하면 Auto Scaling이 더 많은 인스턴스를 온라인으로 가져옵니다. 워크로드가 감소하면 Auto Scaling이 불필요한 인스턴스를 제거하므로 사용하지 않는 프로비저닝된 인스턴스에 대해 비용을 지불하지 않아도 됩니다.

다음 조정 정책에서는 사용자 지정 지표를 사용합니다. GPUUtilization FBI 증오 범죄 보고서 TargetTrackingScalingPolicyConfiguration 구성 및 설정 TargetValue of 60.0 해당 측정항목의 목표 값에 대해 이 자동 확장 정책은 최대 추가 인스턴스를 프로비저닝합니다. MaxCapacity GPU 사용률이 60% 이상인 경우.

auto_scaling_client = boto3.client('application-autoscaling')

resource_id='endpoint/' +  + '/variant/' + 'AllTraffic' 
response = auto_scaling_client.register_scalable_target(
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount',
    MinCapacity=1,
    MaxCapacity=5
)

response = auto_scaling_client.put_scaling_policy(
    PolicyName='GPUUtil-ScalingPolicy',
    ServiceNamespace='sagemaker',
    ResourceId=resource_id,
    ScalableDimension='sagemaker:variant:DesiredInstanceCount', 
    PolicyType='TargetTrackingScaling',
    TargetTrackingScalingPolicyConfiguration={
        'TargetValue': 60.0, 
        'CustomizedMetricSpecification':
        {
            'MetricName': 'GPUUtilization',
            'Namespace': '/aws/sagemaker/Endpoints',
            'Dimensions': [
                {'Name': 'EndpointName', 'Value':  },
                {'Name': 'VariantName','Value': 'AllTraffic'}
            ],
            'Statistic': 'Average',
            'Unit': 'Percent'
        },
        'ScaleInCooldown': 600,
        'ScaleOutCooldown': 200 
    }
)

우리는 GPUUtilization or InvocationsPerInstance MME에 대한 Auto Scaling 정책을 구성합니다. 자세한 내용은 다중 모델 엔드포인트 배포에 대한 자동 확장 정책 설정

GPU MME용 CloudWatch 지표

SageMaker MME는 모니터링할 다음 인스턴스 수준 지표를 제공합니다.

로드된 모델 수 – 컨테이너에 적재된 모델 수
GPU 활용 – 컨테이너에서 사용하는 GPU 단위의 비율
GPU메모리 활용 – 컨테이너가 사용하는 GPU 메모리의 비율
디스크 활용도 – 컨테이너가 사용하는 디스크 공간의 백분율

이러한 지표를 통해 GPU 인스턴스 리소스의 효과적인 활용을 계획할 수 있습니다. 다음 그래프에서 우리는 GPUMemoryUtilization 38.3개 이상의 ResNet-16 모델이 컨테이너에 로드되었을 때 50%였습니다. 각 개별 CPU 코어의 사용률 합계(CPUUtilization)는 60.9%, 컨테이너(MemoryUtilization)는 9.36%였다.

SageMaker MME는 모델 호출 수준 통찰력을 얻기 위해 모델 로드 메트릭도 제공합니다.

모델로드대기시간 – 모델이 다운로드 또는 로드되는 시간 간격
모델언로딩시간 – 컨테이너에서 모델을 언로드하는 시간 간격
모델다운로드시간 – Amazon S3에서 모델을 다운로드하는 시간
ModelCache히트 – 컨테이너에 이미 로드된 모델에 대한 호출 수

다음 그래프에서 모델이 추론 요청(ModelLatency), SageMaker 오버헤드(OverheadLatency). 다음과 같은 엔드포인트 API 호출을 호출하는 호출에서 오류 메트릭을 볼 수도 있습니다. Invocation4XXErrors 와 Invocation5XXErrors.

MME CloudWatch 지표에 대한 자세한 내용은 다음을 참조하십시오. 다중 모델 엔드포인트 배포를 위한 CloudWatch 지표.

요약

이 게시물에서는 가속화된 컴퓨팅 하드웨어에서 수백 개의 딥 러닝 모델을 비용 효율적으로 호스팅할 수 있는 GPU에 대한 새로운 SageMaker 다중 모델 지원에 대해 배웠습니다. 다양한 프레임워크 백엔드에 대한 모델 리포지토리 구성을 생성하는 NVIDIA Triton Inference Server를 사용하는 방법과 Auto Scaling으로 MME를 배포하는 방법을 배웠습니다. 이 기능을 사용하면 AI 애플리케이션에서 고유한 최종 사용자 경험을 제공하도록 미세 조정된 수백 개의 초개인화된 모델을 확장할 수 있습니다. 또한 이 기능을 활용하여 부분 GPU를 사용하는 추론 애플리케이션에 필요한 가격 성능을 달성할 수 있습니다.

GPU에 대한 MME 지원을 시작하려면 GPU에 대한 다중 모델 엔드포인트 지원.

저자 소개

다왈 파텔 AWS의 수석 기계 학습 설계자입니다. 그는 분산 컴퓨팅 및 인공 지능과 관련된 문제에 대해 대기업에서 중견 스타트업에 이르는 다양한 조직과 협력했습니다. 그는 NLP 및 컴퓨터 비전 도메인을 포함한 딥 러닝에 중점을 둡니다. 그는 고객이 Amazon SageMaker에서 고성능 모델 추론을 달성하도록 돕습니다.

비크람 엘랑고 미국 버지니아에 위치한 Amazon Web Services의 수석 AI/ML 전문가 솔루션 아키텍트입니다. Vikram은 설계, 구현 및 사고 리더십을 통해 글로벌 금융 및 보험 산업 고객이 기계 학습 애플리케이션을 대규모로 구축 및 배포할 수 있도록 지원합니다. 그는 현재 자연어 처리, 책임 있는 AI, 추론 최적화 및 기업 전반에 걸친 ML 확장에 중점을 두고 있습니다. 여가 시간에는 가족과 함께 여행, 하이킹, 요리, 캠핑을 즐깁니다.

사우라브 트리칸데 Amazon SageMaker Inference의 수석 제품 관리자입니다. 그는 고객과 함께 일하는 데 열정적이며 기계 학습의 민주화라는 목표에 동기를 부여합니다. 그는 복잡한 ML 애플리케이션, 다중 테넌트 ML 모델 배포, 비용 최적화 및 딥 러닝 모델 배포의 접근성 향상과 관련된 핵심 과제에 중점을 둡니다. 여가 시간에 Saurabh는 하이킹, 혁신적인 기술 학습, TechCrunch 팔로우, 가족과 함께 시간 보내기를 즐깁니다.

딥티 라가 Amazon SageMaker 팀의 소프트웨어 개발 엔지니어입니다. 그녀의 현재 작업은 기계 학습 모델을 효율적으로 호스팅하기 위한 기능을 구축하는 데 중점을 두고 있습니다. 여가 시간에는 여행, 하이킹, 식물 재배를 즐깁니다.

니힐 쿨카르니 AWS Machine Learning을 사용하는 소프트웨어 개발자이며, 클라우드에서 기계 학습 워크로드의 성능을 높이는 데 중점을 두고 있으며 교육 및 추론을 위한 AWS Deep Learning Containers의 공동 작성자입니다. 그는 분산 딥 러닝 시스템에 열정적입니다. 일 외에는 책 읽기, 기타 만지작거리기, 피자 만들기를 즐깁니다.

리우 지아 홍 NVIDIA 클라우드 서비스 제공업체 팀의 솔루션 설계자입니다. 그는 교육 및 추론 문제를 해결하기 위해 NVIDIA 가속 컴퓨팅을 활용하는 기계 학습 및 AI 솔루션을 채택하는 고객을 지원합니다. 여가 시간에는 종이접기, DIY 프로젝트, 농구를 즐깁니다.

엘리우스 트리아나 NVIDIA-AWS 팀의 개발자 관계 관리자입니다. 그는 Amazon 및 AWS 제품 리더, 개발자 및 과학자를 NVIDIA 기술자 및 제품 리더와 연결하여 Amazon ML/DL 워크로드, EC2 제품 및 AWS AI 서비스를 가속화합니다. 또한 Eliuth는 열정적인 산악 자전거 타는 사람, 스키 타는 사람, 포커 플레이어입니다.

막시밀리아노 마칸티 현재 DynamoDB에서 근무하는 AWS의 수석 엔지니어입니다. 저는 re:Invent 2017에서 SageMaker 출시 팀에 있었고 다음 5년 동안 모든 종류의 고객이 직면한 기능을 추가하는 호스팅 플랫폼에서 보냈습니다. 여가 시간에는 빈티지 비디오 게임 콘솔을 수집, 수리 및 재생합니다.

타임 스탬프 : 2022 년 10 월 25 일2022 년 10 월 28 일

타임 스탬프 : 14년 2022월 XNUMX일

Amazon SageMaker 다중 모델 엔드포인트를 사용하여 GPU에서 여러 딥 러닝 모델 실행

플라톤에 의해 재발행

SageMaker MME

GPU를 지원하는 SageMaker MME

솔루션 개요

모델 아티팩트 만들기

PyTorch 모델 준비

TensorRT 모델 준비

Amazon S3에 모델 아티팩트 저장

MME로 모델 배포

서빙 컨테이너 정의

다중 모델 객체 생성

MME 구성 정의

MME 만들기

MME에서 대상 모델 호출

GPU MME에 대한 Auto Scaling 정책 설정

GPU MME용 CloudWatch 지표

요약

저자 소개

더보기 AWS 기계 학습

책임감 있는 AI 혁신을 가능하게 하는 새로운 도구 및 기능 발표 | 아마존 웹 서비스

Amazon Comprehend 사용자 지정 분류기로 IT 서비스 요청 분류 자동화

C6i Intel 기반 Amazon EC2 인스턴스로 Amazon SageMaker 추론 가속화

IMDb 지식 그래프를 사용한 강력한 추천 및 검색 - 3부

PyTorch Model Zoo를 사용하여 Amazon SageMaker 모델 생성

Amazon Fraud Detector의 ML 모델과 비즈니스 정의 규칙을 사용하여 모기지 문서 사기 탐지 자동화: 3부 | 아마존 웹 서비스

Amazon Textract IDP CDK 구성으로 종단 간 문서 처리 파이프라인 구축

기계 학습을 사용하여 Amazon Timestream 및 Amazon Lookout for Equipment로 이상 징후를 감지하고 가동 중지 시간을 예측합니다.

Refinitiv Data Library, AWS 서비스 및 Amazon SageMaker로 실시간 뉴스 스트림 강화

데이터 버전 제어 및 Amazon SageMaker 실험으로 ML 실험을 종단 간 추적

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정