Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감

플라톤에 의해 재발행

팔로워 : 0

조직은 모델을 프로덕션에 배포하면서 다음과 같은 최신 액셀러레이터에서 실행되는 기반 모델(FM)의 성능을 최적화하는 방법을 지속적으로 찾고 있습니다. AWS 인 페렌 시아 및 GPU를 사용하여 비용을 절감하고 응답 대기 시간을 줄여 최종 사용자에게 최고의 경험을 제공할 수 있습니다. 그러나 일부 FM은 배포된 인스턴스에서 사용 가능한 가속기를 완전히 활용하지 못하여 하드웨어 리소스를 비효율적으로 사용하게 됩니다. 일부 조직에서는 사용 가능한 모든 가속기를 더 잘 활용하기 위해 동일한 인스턴스에 여러 FM을 배포하지만 이를 위해서는 시간이 많이 걸리고 관리하기 어려운 복잡한 인프라 조정이 필요합니다. 여러 FM이 동일한 인스턴스를 공유하는 경우 각 FM에는 고유한 확장 요구 사항과 사용 패턴이 있으므로 인스턴스를 추가하거나 제거해야 할 시기를 예측하기가 어렵습니다. 예를 들어, 한 모델은 특정 시간 동안 사용량이 급증할 수 있는 사용자 애플리케이션을 구동하는 데 사용될 수 있는 반면, 다른 모델은 보다 일관된 사용 패턴을 가질 수 있습니다. 고객은 비용 최적화 외에도 대기 시간을 줄여 최고의 최종 사용자 경험을 제공하기를 원합니다. 이를 위해 사용자의 현장 요청에 FM의 여러 복사본을 병렬로 배포하는 경우가 많습니다. FM 출력은 한 문장에서 여러 문단까지 다양할 수 있으므로 추론 요청을 완료하는 데 걸리는 시간이 크게 달라지며, 요청이 인스턴스 간에 무작위로 라우팅되는 경우 지연 시간이 예측할 수 없이 급증하게 됩니다. 아마존 세이지 메이커 이제 배포 비용과 대기 시간을 줄이는 데 도움이 되는 새로운 추론 기능을 지원합니다.

이제 추론 구성 요소 기반 엔드포인트를 생성하고 기계 학습(ML) 모델을 SageMaker 엔드포인트에 배포할 수 있습니다. 추론 구성 요소(IC)는 ML 모델을 추상화하고 CPU, GPU 또는 AWS 뉴런 가속기 및 모델별 확장 정책. 추론 구성 요소는 다음과 같은 이점을 제공합니다.

SageMaker는 모델을 ML 인스턴스에 최적으로 배치하고 압축하여 활용도를 극대화하여 비용을 절감합니다.
SageMaker는 ML 애플리케이션 요구 사항을 충족하기 위해 구성에 따라 각 모델을 확장 및 축소합니다.
SageMaker는 유휴 컴퓨팅을 최소한으로 유지하면서 용량을 사용할 수 있도록 동적으로 인스턴스를 추가 및 제거하도록 확장합니다.
모델의 복사본을 XNUMX개로 축소하여 다른 모델에 대한 리소스를 확보할 수 있습니다. 중요한 모델을 항상 로드하고 트래픽을 처리할 준비를 갖추도록 지정할 수도 있습니다.

이러한 기능을 사용하면 모델 배포 비용을 평균 50% 줄일 수 있습니다. 비용 절감 효과는 워크로드와 트래픽 패턴에 따라 달라집니다. 단일 엔드포인트에 여러 모델을 패키징하여 활용도를 극대화하고 비용을 절감할 수 있는 방법을 간단한 예를 통해 살펴보겠습니다. Llama 2의 두 가지 변형을 사용하여 관광객이 지역 관습과 모범 사례를 이해하는 데 도움이 되는 채팅 애플리케이션이 있다고 가정해 보겠습니다. 하나는 유럽 방문자를 위해 미세 조정되고 다른 하나는 미국 방문자를 위해 미세 조정되었습니다. 유럽 모델의 경우 UTC 00:01~11:59 사이, 미국 모델의 경우 UTC 12:00~23:59 사이에 트래픽이 예상됩니다. 이러한 모델을 절반의 시간 동안 유휴 상태로 유지되는 전용 인스턴스에 배포하는 대신 이제 단일 엔드포인트에 배포하여 비용을 절감할 수 있습니다. 유럽 모델의 용량을 확보하는 데 필요하지 않은 경우 미국 모델을 XNUMX으로 축소할 수 있으며 그 반대의 경우도 마찬가지입니다. 이를 통해 하드웨어를 효율적으로 활용하고 낭비를 피할 수 있습니다. 이는 두 가지 모델을 사용하는 간단한 예이지만, 이 아이디어를 쉽게 확장하여 워크로드에 따라 자동으로 확장 및 축소되는 단일 엔드포인트에 수백 개의 모델을 묶을 수 있습니다.

이 게시물에서는 IC 기반 SageMaker 엔드포인트의 새로운 기능을 보여줍니다. 또한 추론 구성 요소와 API를 사용하여 여러 모델을 배포하는 과정을 안내합니다. 마지막으로 몇 가지 새로운 관찰 기능과 모델에 대한 자동 크기 조정 정책을 설정하고 엔드포인트에 대한 인스턴스 크기 조정을 관리하는 방법을 자세히 설명합니다. 또한 새롭고 단순화된 대화형 사용자 환경을 통해 모델을 배포할 수도 있습니다. 또한 추론 워크로드의 지연 시간과 성능을 최적화하기 위한 고급 라우팅 기능도 지원합니다.

빌딩 블록

이러한 새로운 기능이 어떻게 작동하는지 더 자세히 살펴보고 이해해 보겠습니다. 다음은 SageMaker 호스팅에 대한 몇 가지 새로운 용어입니다.

추론 구성요소 – 엔드포인트에 모델을 배포하는 데 사용할 수 있는 SageMaker 호스팅 객체. 다음을 제공하여 추론 구성요소를 생성할 수 있습니다.
- SageMaker 모델 또는 SageMaker 호환 이미지 사양 및 모델 아티팩트입니다.
- CPU 코어, 호스트 메모리 및 가속기 수를 포함하여 모델의 각 복사본에 대한 요구 사항을 지정하는 컴퓨팅 리소스 요구 사항입니다.
모델 카피 – 요청을 처리할 수 있는 추론 구성 요소의 런타임 복사본입니다.
관리형 인스턴스 자동 크기 조정 – 엔드포인트에 사용되는 컴퓨팅 인스턴스 수를 확장하거나 축소하는 SageMaker 호스팅 기능. 인스턴스 크기 조정은 추론 구성 요소의 크기 조정에 반응합니다.

새 추론 구성 요소를 생성하려면 컨테이너 이미지와 모델 아티팩트를 지정하거나 이미 생성했을 수 있는 SageMaker 모델을 사용할 수 있습니다. 또한 호스트 CPU 코어 수, 호스트 메모리 또는 모델을 실행해야 하는 가속기 수와 같은 컴퓨팅 리소스 요구 사항을 지정해야 합니다.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

추론 구성 요소를 배포할 때 다음을 지정할 수 있습니다. MinCopies 모델이 필요한 수량만큼 이미 로드되어 요청을 처리할 준비가 되었는지 확인합니다.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

추론 구성 요소 복사본이 XNUMX으로 조정되도록 정책을 설정할 수도 있습니다. 예를 들어 IC에 대해 실행 중인 로드가 없으면 모델 복사본이 언로드됩니다. 이를 통해 활성 워크로드로 대체할 수 있는 리소스를 확보하여 엔드포인트의 활용도와 효율성을 최적화할 수 있습니다.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

추론 요청이 증가하거나 감소함에 따라 IC의 복사본 수도 Auto Scaling 정책에 따라 확장되거나 축소될 수 있습니다. SageMaker는 가용성과 비용을 위해 모델 패킹을 최적화하기 위해 배치를 처리합니다.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

또한 관리형 인스턴스 자동 조정을 활성화하면 SageMaker는 트래픽을 제공하기 위해 특정 시간에 로드해야 하는 추론 구성 요소 수에 따라 컴퓨팅 인스턴스의 크기를 조정합니다. SageMaker는 인스턴스를 확장하고 인스턴스와 추론 구성 요소를 압축하여 모델 성능을 유지하면서 비용을 최적화합니다. 관리형 인스턴스 조정을 사용하는 것이 좋지만 원하는 경우 애플리케이션 자동 조정을 통해 직접 조정을 관리할 수도 있습니다.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

SageMaker는 추론 구성 요소의 균형을 재조정하고 추론 구성 요소에 더 이상 필요하지 않은 경우 인스턴스를 축소하여 비용을 절감합니다.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

API 둘러보기

SageMaker는 InferenceComponent. 이는 엔드포인트 자체에서 ML 모델 호스팅의 세부 정보를 분리합니다. 그만큼 InferenceComponent 사용하려는 SageMaker 모델이나 컨테이너 세부 정보 및 모델 아티팩트와 같은 모델을 호스팅하기 위한 주요 속성을 지정할 수 있습니다. 또한 배포할 구성 요소 자체의 복사본 수와 필요한 가속기(GPU, Inf 또는 Trn 가속기) 또는 CPU(vCPU) 수를 지정합니다. 이를 통해 향후 배포하려는 모델 수에 관계없이 단일 엔드포인트를 사용할 수 있는 유연성이 향상됩니다.

추론 구성 요소가 포함된 엔드포인트를 생성하기 위한 Boto3 API 호출을 살펴보겠습니다. 이 게시물의 뒷부분에서 다루는 몇 가지 매개 변수가 있습니다.

다음은 예제 코드입니다. CreateEndpointConfig:

sagemaker_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ExecutionRoleArn=role, ProductionVariants=[{ "VariantName": variant_name, "InstanceType": instance_type, "InitialInstanceCount": initial_instance_count, "ModelDataDownloadTimeoutInSeconds": model_data_download_timeout_in_seconds, "ContainerStartupHealthCheckTimeoutInSeconds": container_startup_health_check_timeout_in_seconds, {"ManagedInstanceScaling": { "Status": "ENABLED", "MinInstanceCount": initial_instance_count, "MaxInstanceCount": max_instance_count, } }, }],
)

다음은 예제 코드입니다. CreateEndpoint:

sagemaker_client.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name,
)

다음은 예제 코드입니다. CreateInferenceComponent:

sm_client.create_inference_component( InferenceComponentName=inference_component_name, EndpointName=endpoint_name, VariantName=variant_name, Specification={ "Container": { "Image": inference_image_uri, "ArtifactUrl": s3_code_artifact, }, "StartupParameters": { "ModelDataDownloadTimeoutInSeconds": 300, "ContainerStartupHealthCheckTimeoutInSeconds": 600, }, "ComputeResourceRequirements": {"NumberOfAcceleratorDevicesRequired": 1, "MinMemoryRequiredInMb": 1024} }, RuntimeConfig={"CopyCount": 1},
)

이러한 디커플링은 InferenceComponent 엔드포인트에 유연성을 제공합니다. 동일한 인프라에서 여러 모델을 호스팅하고 요구 사항이 변경됨에 따라 모델을 추가하거나 제거할 수 있습니다. 필요에 따라 각 모델을 독립적으로 업데이트할 수 있습니다. 또한 비즈니스 요구 사항에 따라 모델을 확장할 수 있습니다. InferenceComponent 또한 모델별 용량을 제어할 수 있습니다. 즉, 호스트할 각 모델의 복사본 수를 결정할 수 있습니다. 이러한 예측 가능한 확장은 각 모델의 특정 지연 시간 요구 사항을 충족하는 데 도움이 됩니다. 전반적인, InferenceComponent 호스팅된 모델을 훨씬 더 효과적으로 제어할 수 있습니다.

다음 표에서는 엔드포인트를 생성하고 호출하는 높은 수준의 접근 방식을 나란히 비교합니다. InferenceComponent 와 함께 InferenceComponent. CreateModel()은 이제 IC 기반 엔드포인트의 선택 사항입니다.

단계	모델 기반 엔드포인트	추론 구성 요소 기반 끝점
1	모델 생성(…)	생성엔드포인트구성(…)
2	생성엔드포인트구성(…)	끝점 생성(…)
3	끝점 생성(…)	추론구성요소 생성(…)
4	호출 끝점(…)	InvokeEndpoint(InferneceComponentName='값'…)

의 도입 InferenceComponent 모델 수준에서 확장할 수 있습니다. 보다 인스턴스 및 IC 자동 확장에 대해 자세히 알아보기 방법에 대한 자세한 내용은 InferenceComponent 자동 크기 조정과 함께 작동합니다.

SageMaker 엔드포인트를 호출할 때 이제 새 매개변수를 지정할 수 있습니다. InferenceComponentName 원하는 것을 치기 위해 InferenceComponentName. SageMaker는 요청된 인스턴스를 호스팅하는 인스턴스로 요청 라우팅을 처리합니다. InferenceComponentName. 다음 코드를 참조하십시오.

smr_client = boto3.client("sagemaker-runtime") response_model = smr_client.invoke_endpoint( InferenceComponentName=inference_component_name, EndpointName=endpoint_name, Body=payload, ContentType="application/json", )

기본적으로 SageMaker는 엔드포인트를 지원하는 인스턴스에 대한 요청의 무작위 라우팅을 사용합니다. 최소 미해결 요청 라우팅을 활성화하려면 엔드포인트 구성에서 라우팅 전략을 설정할 수 있습니다. RoutingConfig:

sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ExecutionRoleArn=role, ProductionVariants=[{ "VariantName": variant_name, "InstanceType": instance_type, "InitialInstanceCount": initial_instance_count, ... 'RoutingConfig': { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS' } }],
)

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

최소 미해결 요청 라우팅은 요청을 처리할 수 있는 용량이 더 많은 특정 인스턴스로 라우팅됩니다. 이를 통해 보다 균일한 로드 밸런싱과 리소스 활용이 제공됩니다.

이외에도 CreateInferenceComponent, 이제 다음 API를 사용할 수 있습니다.

DescribeInferenceComponent
DeleteInferenceComponent
UpdateInferenceComponent
ListInferenceComponents

InferenceComponent 로그 및 측정항목

InferenceComponent 로그는 다음 위치에 있습니다. /aws/sagemaker/InferenceComponents/<InferenceComponentName>. 컨테이너의 stderr 및 stdout으로 전송된 모든 로그는 다음 로그로 전송됩니다. 아마존 클라우드 워치.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

IC 기반 엔드포인트가 도입되면서 이제 추가 인스턴스 지표, 추론 구성 요소 지표 및 호출 지표를 볼 수 있습니다.

SageMaker 인스턴스의 경우 이제 GPUReservation 및 CPUReservation 배포한 추론 구성 요소를 기반으로 엔드포인트에 예약된 리소스를 확인하는 지표입니다. 이러한 지표는 엔드포인트 및 Auto Scaling 정책의 규모를 조정하는 데 도움이 될 수 있습니다. 엔드포인트에 배포된 모든 모델과 관련된 집계 지표를 볼 수도 있습니다.

SageMaker는 또한 추론 구성 요소 수준에서 지표를 공개하므로 배포한 추론 구성 요소의 리소스 활용률을 보다 세부적으로 볼 수 있습니다. 이를 통해 다음과 같은 총 리소스 활용도를 확인할 수 있습니다. GPUUtilizationNormalized 및 GPUMemoryUtilizationNormalized 복사본이 없거나 많을 수 있는 배포한 각 추론 구성 요소에 대해.

마지막으로 SageMaker는 이제 추론 구성 요소에 대한 호출을 전체적으로 추적하는 호출 지표를 제공합니다(Invocations) 또는 인스턴스화된 복사본당(InvocationsPerCopy)

측정항목의 전체 목록은 다음을 참조하세요. SageMaker 끝점 호출 메트릭.

모델 수준 자동 확장

앞서 설명한 자동 조정 동작을 구현하려면 SageMaker 엔드포인트 구성 및 추론 구성 요소를 생성할 때 초기 인스턴스 수와 초기 모델 복사 수를 각각 정의합니다. 엔드포인트와 해당 IC를 생성한 후 IC 수준에서 Auto Scaling을 적용하려면 먼저 조정 대상을 등록한 다음 조정 정책을 IC에 연결해야 합니다.

확장 정책을 구현할 때 우리는 다음을 사용합니다. SageMakerInferenceComponentInvocationsPerCopy, 이는 SageMaker가 도입한 새로운 지표입니다. 분당 모델 복사본당 평균 호출 수를 캡처합니다.

aas_client.put_scaling_policy( PolicyName=endpoint_name, PolicyType='TargetTrackingScaling', ServiceNamespace=service_namespace, ResourceId=resource_id, ScalableDimension=scalable_dimension, TargetTrackingScalingPolicyConfiguration={ "PredefinedMetricSpecification": { "PredefinedMetricType": "SageMakerInferenceComponentInvocationsPerCopy", }, "TargetValue": autoscaling_target_value, "ScaleInCooldown": 300, # default "ScaleOutCooldown": 300, # default },
)

조정 정책을 설정한 후 SageMaker는 각 AutoScaling 대상에 대해 3개의 CloudWatch 경보를 생성합니다. 하나는 1분 동안 경보가 발생하는 경우 확장을 트리거하고(15개의 15분 데이터 포인트) 1분 동안 경보가 발생하는 경우 축소를 트리거하는 경보입니다. (1개의 2분 데이터 포인트), 다음 스크린샷에 표시됩니다. 조정 작업을 트리거하는 시간은 일반적으로 엔드포인트가 지표를 CloudWatch에 게시하는 데 시간이 걸리고 해당 시간보다 XNUMX~XNUMX분 더 깁니다. AutoScaling 반응하다. 휴지 기간은 축소 또는 확장 활동이 완료된 후 다른 확장 활동을 시작할 수 있을 때까지의 시간(초)입니다. 확장 휴지 시간이 엔드포인트 업데이트 시간보다 짧은 경우에는 SageMaker 엔드포인트가 켜져 있을 때 업데이트할 수 없기 때문에 아무런 효과가 없습니다. 업데이트 상태.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

IC 수준 자동 스케일링을 설정할 때 다음 사항을 확인해야 합니다. MaxInstanceCount 매개변수는 이 엔드포인트가 처리할 수 있는 최대 IC 수와 같거나 작습니다. 예를 들어, 엔드포인트 구성에 하나의 인스턴스만 포함하도록 엔드포인트가 구성되어 있고 이 인스턴스가 최대 XNUMX개의 모델 복사본만 호스팅할 수 있는 경우 MaxInstanceCount 4보다 작거나 같아야 합니다. 그러나 SageMaker에서 제공하는 관리형 Auto Scaling 기능을 사용하여 더 많은 컴퓨팅 리소스 요구 사항을 충족하기 위해 필요한 모델 사본 수에 따라 인스턴스 수를 자동으로 조정할 수도 있습니다. 다음 코드 조각은 엔드포인트 구성을 생성하는 동안 관리형 인스턴스 크기 조정을 설정하는 방법을 보여줍니다. 이렇게 하면 IC 수준 자동 조정에서 모델 복사본을 호스팅하기 위해 더 많은 인스턴스 수가 필요한 경우 SageMaker는 IC 수준 조정이 성공할 수 있도록 인스턴스 수를 자동으로 확장합니다.

sagemaker_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ExecutionRoleArn=role, ProductionVariants=[{ "VariantName": variant_name, "InstanceType": instance_type, "InitialInstanceCount": initial_instance_count, "ModelDataDownloadTimeoutInSeconds": model_data_download_timeout_in_seconds, "ContainerStartupHealthCheckTimeoutInSeconds": container_startup_health_check_timeout_in_seconds, {"ManagedInstanceScaling": { "Status": "ENABLED", "MinInstanceCount": initial_instance_count, "MaxInstanceCount": max_instance_count, } }, }],
)

동일한 엔드포인트에 대해 여러 Auto Scaling 정책을 적용할 수 있습니다. 즉, IC로 생성된 엔드포인트에 기존 Auto Scaling 정책을 적용하고 다른 엔드포인트 지표를 기반으로 확장 및 축소할 수 있습니다. 자세한 내용은 다음을 참조하세요. Amazon SageMaker에서 Auto Scaling으로 기계 학습 배포 최적화. 그러나 이것이 가능하더라도 직접 크기 조정을 관리하는 것보다 관리형 인스턴스 크기 조정을 사용하는 것이 좋습니다.

결론

이 게시물에서는 컴퓨팅 인스턴스 활용률을 극대화하고, 수백 개의 모델로 확장하고, 비용을 최적화하는 동시에 예측 가능한 성능을 제공하는 데 도움이 되는 SageMaker 추론의 새로운 기능을 소개했습니다. 또한 API에 대한 연습을 제공하고 워크로드에 대한 추론 구성 요소를 구성하고 배포하는 방법을 보여주었습니다.

우리는 또한 지원합니다 고급 라우팅 기능 추론 워크로드의 지연 시간과 성능을 최적화합니다. SageMaker는 비용 및 성능에 대한 추론 워크로드를 최적화하고 관리를 위한 모델 수준의 세분성을 제공하는 데 도움이 됩니다. 우리는 노트북 세트 여기에서는 서로 다른 컨테이너를 사용하고 GitHub에서 자동 크기 조정 정책을 적용하여 세 가지 서로 다른 모델을 배포하는 방법을 보여줍니다. 지금 노트북 1로 시작하여 새로운 SageMaker 호스팅 기능을 직접 사용해 보시기 바랍니다!

저자 소개

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 제임스 파크 Amazon Web Services의 솔루션 아키텍트입니다. 그는 Amazon.com과 협력하여 AWS에서 기술 솔루션을 설계, 구축 및 배포하며 AI 및 기계 학습에 특히 관심이 있습니다. 그는 여가 시간에 새로운 문화, 새로운 경험을 찾고 최신 기술 동향을 파악하는 것을 즐깁니다. 당신은 그를 찾을 수 있습니다 링크드인.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 멜라니 리, PhD는 호주 시드니에 본사를 둔 AWS의 수석 AI/ML 전문가 TAM입니다. 그녀는 기업 고객이 AWS에서 최신 AI/ML 도구를 사용하여 솔루션을 구축하도록 돕고 모범 사례로 ML 솔루션을 설계하고 구현하는 방법에 대한 지침을 제공합니다. 여가 시간에는 자연을 탐험하고 가족 및 친구들과 시간을 보내는 것을 좋아합니다.

마크 카프 Amazon SageMaker 서비스 팀의 ML 설계자입니다. 그는 고객이 규모에 맞게 ML 워크로드를 설계, 배포 및 관리하도록 돕는 데 중점을 둡니다. 여가 시간에는 여행과 새로운 장소 탐색을 즐깁니다.

앨런 탄 SageMaker의 수석 제품 관리자로 대규모 모델 추론을 주도하고 있습니다. 그는 분석 영역에 기계 학습을 적용하는 데 열정적입니다. 그는 일 외에는 야외 활동을 즐깁니다.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 라구 라메샤 Amazon SageMaker 서비스 팀의 수석 ML 솔루션 설계자입니다. 그는 고객이 ML 프로덕션 워크로드를 대규모로 구축, 배포 및 SageMaker로 마이그레이션하도록 돕는 데 중점을 두고 있습니다. 그는 기계 학습, AI 및 컴퓨터 비전 분야를 전문으로 하며 UT 달라스에서 컴퓨터 과학 석사 학위를 취득했습니다. 여가 시간에는 여행과 사진 촬영을 즐깁니다.

루피더 그레왈 AWS의 Sr Ai/ML 전문가 솔루션 아키텍트입니다. 그는 현재 SageMaker에서 모델 및 MLOps 서비스에 중점을 두고 있습니다. 이 역할을 하기 전에는 머신 러닝 엔지니어로 모델을 구축하고 호스팅하는 일을 했습니다. 일 외에는 테니스를 치고 산길에서 자전거를 타는 것을 즐깁니다.

다왈 파텔 AWS의 수석 기계 학습 설계자입니다. 그는 분산 컴퓨팅 및 인공 지능과 관련된 문제에 대해 대기업에서 중견 스타트업에 이르는 다양한 조직과 협력했습니다. 그는 NLP 및 Computer Vision 도메인을 포함한 딥 러닝에 중점을 둡니다. 그는 고객이 SageMaker에서 고성능 모델 추론을 달성하도록 돕습니다.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 사우라브 트리칸데 Amazon SageMaker Inference의 수석 제품 관리자입니다. 그는 고객과 함께 일하는 데 열정적이며 기계 학습의 민주화라는 목표에 동기를 부여합니다. 그는 복잡한 ML 애플리케이션, 다중 테넌트 ML 모델 배포, 비용 최적화 및 딥 러닝 모델 배포의 접근성 향상과 관련된 핵심 과제에 중점을 둡니다. 여가 시간에 Saurabh는 하이킹, 혁신적인 기술 학습, TechCrunch 팔로우, 가족과 함께 시간 보내기를 즐깁니다.

Amazon SageMaker의 최신 기능을 사용하여 모델 배포 비용을 평균 50% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 락쉬미 라마 크리슈 난 AWS의 Amazon SageMaker ML (Machine Learning) 플랫폼 팀의 수석 엔지니어로서 제품에 대한 기술 리더십을 제공합니다. 그는 9 년 넘게 Amazon에서 여러 엔지니어링 역할을 수행했습니다. 그는 인도 카르 나 타카의 국립 공과 대학에서 정보 기술 학사 학위를 받았으며 미네소타 트윈 시티 대학교에서 컴퓨터 과학 석사 학위를 받았습니다.

데이비드 니 젠다 Amazon SageMaker 팀의 수석 소프트웨어 개발 엔지니어로 현재 프로덕션 기계 학습 워크플로를 개선하고 새로운 추론 기능을 출시하는 작업을 진행하고 있습니다. 여가 시간에는 아이들과 계속 연락하려고 노력합니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/reduce-model-deployment-costs-by-50-on-average-using-sagemakers-latest-features/

타임 스탬프 : 2023 년 11 월 30 일

타임 스탬프 : 11년 2022월 XNUMX일

플라톤에 의해 재발행

Amazon SageMaker Serverless Inference를 사용한 호스트 포옹 얼굴 변환기 모델

AWS CDK를 사용하여 Jupyter Lab 3에서 Amazon SageMaker Studio 설정

탐색적 데이터 분석을 위해 Amazon SageMaker Canvas 사용

Sportradar가 Deep Java Library를 사용하여 성능 및 효율성 향상을 위해 프로덕션 규모의 ML 플랫폼을 구축한 방법

Amazon SageMaker Data Wrangler 및 Amazon SageMaker Autopilot을 통한 통합 데이터 준비 및 모델 교육

Amazon Translate에서 욕설 마스킹 적용

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

빌딩 블록

API 둘러보기

InferenceComponent 로그 및 측정항목

모델 수준 자동 확장

결론

저자 소개

더보기 AWS 기계 학습

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정