Amazon SageMaker 지출 분석 및 사용량에 따른 비용 최적화 기회 결정, 5부: 호스팅

플라톤에 의해 재발행

팔로워 : 0

2021 년에 우리는 AWS 지원 사전 예방 서비스 의 일환으로 AWS 엔터프라이즈 지원 계획. 소개 이후 수백 명의 고객이 워크로드를 최적화하고, 가드레일을 설정하고, 기계 학습(ML) 워크로드의 비용 및 사용량에 대한 가시성을 개선하도록 도왔습니다.

이 게시물 시리즈에서는 비용 최적화에 대해 배운 교훈을 공유합니다. 아마존 세이지 메이커. 에 파트 1, 우리는 사용을 시작하는 방법을 보여주었습니다 AWS 비용 탐색기 SageMaker에서 비용 최적화 기회를 식별합니다. 이 게시물에서는 실시간 추론, 배치 변환, 비동기 추론 및 서버리스 추론과 같은 SageMaker 추론 환경에 중점을 둡니다.

세이지 메이커 다양한 추론 옵션 제공 워크로드 요구 사항에 따라 선택할 수 있습니다.

실시간 추론 온라인, 낮은 대기 시간 또는 높은 처리량 요구 사항
일괄 변환 오프라인, 예약 처리 및 영구 엔드포인트가 필요하지 않은 경우
비동기 추론 처리 시간이 긴 대용량 페이로드가 있고 요청을 대기열에 추가하려는 경우
서버리스 추론 간헐적이거나 예측할 수 없는 트래픽 패턴이 있고 콜드 스타트를 허용할 수 있는 경우

다음 섹션에서는 각 추론 옵션에 대해 자세히 설명합니다.

SageMaker 실시간 추론

엔드포인트를 생성할 때 SageMaker는 아마존 엘라스틱 블록 스토어 (Amazon EBS) 스토리지 볼륨을 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 엔드포인트를 호스팅하는 인스턴스. 이는 SSD 스토리지와 함께 제공되지 않는 모든 인스턴스 유형에 해당됩니다. d* 인스턴스 유형은 NVMe SSD 스토리지와 함께 제공되기 때문에 SageMaker는 EBS 스토리지 볼륨을 이러한 ML 컴퓨팅 인스턴스에 연결하지 않습니다. 인용하다 호스트 인스턴스 스토리지 볼륨 단일 엔드포인트 및 다중 모델 엔드포인트에 대한 각 인스턴스 유형에 대해 SageMaker가 연결하는 스토리지 볼륨의 크기.

SageMaker 실시간 엔드포인트의 비용은 엔드포인트가 실행되는 동안 각 인스턴스에 대해 소비되는 인스턴스 시간당 비용, 프로비저닝된 스토리지의 GB-월 비용(EBS 볼륨), 들어오고 나가는 GB 데이터를 기반으로 합니다. 에 설명된 대로 끝점 인스턴스의 Amazon SageMaker 요금. 비용 탐색기에서 사용 유형에 필터를 적용하여 실시간 엔드포인트 비용을 볼 수 있습니다. 이러한 사용 유형의 이름은 다음과 같이 구성됩니다.

REGION-Host:instanceType (예 : USE1-Host:ml.c5.9xlarge)
REGION-Host:VolumeUsage.gp2 (예 : USE1-Host:VolumeUsage.gp2)
REGION-Hst:Data-Bytes-Out (예 : USE2-Hst:Data-Bytes-In)
REGION-Hst:Data-Bytes-Out (예 : USW2-Hst:Data-Bytes-Out)

다음 스크린샷과 같이 사용 유형별로 필터링 Host: 계정의 실시간 호스팅 사용 유형 목록이 표시됩니다.

특정 사용 유형을 선택하거나 모두 선택 선택하고 신청 SageMaker 실시간 호스팅 사용량의 비용 내역을 표시합니다. 인스턴스 시간별 비용 및 사용량 분석을 보려면 모든 REGION-Host:VolumeUsage.gp2 사용 유형 필터를 적용하기 전에 사용 유형. 계정 번호, EC2 인스턴스 유형, 비용 할당 태그, 리전 및 배우기. 다음 스크린샷은 선택한 호스팅 사용 유형에 대한 비용 및 사용 그래프를 보여줍니다.

또한 다음을 사용하여 하나 이상의 호스팅 인스턴스와 관련된 비용을 탐색할 수 있습니다. 인스턴스 유형 필터. 다음 스크린샷은 호스팅 인스턴스 ml.p2.xlarge의 비용 및 사용량 분석을 보여줍니다.

마찬가지로 처리된 GB 데이터의 비용은 다음 스크린샷과 같이 연결된 사용 유형을 적용된 필터로 선택하여 표시할 수 있습니다.

필터 및 그룹화를 사용하여 원하는 결과를 얻은 후에는 다음을 선택하여 결과를 다운로드할 수 있습니다. CSV로 다운로드 또는 다음을 선택하여 보고서를 저장합니다. 보고서 라이브러리에 저장. 비용 탐색기 사용에 대한 일반적인 지침은 다음을 참조하십시오. AWS Cost Explorer의 새로운 모습과 일반적인 사용 사례.

선택적으로 활성화할 수 있습니다. AWS 비용 및 사용 보고서 (AWS CUR) 계정의 비용 및 사용량 데이터에 대한 통찰력을 얻습니다. AWS CUR에는 시간별 AWS 소비 세부 정보가 포함되어 있습니다. 에 저장되어 있습니다. 아마존 단순 스토리지 서비스 (Amazon S3), 연결된 모든 계정의 데이터를 통합하는 지불인 계정. 쿼리를 실행하여 사용량 추세를 분석하고 적절한 조치를 취하여 비용을 최적화할 수 있습니다. 아마존 아테나 표준 SQL을 사용하여 Amazon S3에서 AWS CUR의 데이터를 분석하는 데 사용할 수 있는 서버리스 쿼리 서비스입니다. 자세한 내용과 예제 쿼리는 다음에서 찾을 수 있습니다. AWS CUR 쿼리 라이브러리.

또한 AWS CUR 데이터를 아마존 퀵 사이트, 보고 또는 시각화 목적으로 원하는 방식으로 슬라이스 및 다이싱할 수 있습니다. 지침은 다음을 참조하세요. AWS 비용 및 사용 보고서(CUR)를 Amazon QuickSight로 수집하고 시각화하려면 어떻게 해야 합니까?.

AWS CUR에서 엔드포인트 ARN, 엔드포인트 인스턴스 유형, 시간당 인스턴스 요금, 일일 사용 시간 등과 같은 리소스 수준 정보를 얻을 수 있습니다. 추가 세부 수준을 위해 쿼리에 비용 할당 태그를 포함할 수도 있습니다. 다음 예제 쿼리는 지정된 지급인 계정에 대해 지난 3개월 동안의 실시간 호스팅 리소스 사용량을 반환합니다.

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%Host%' AND line_item_operation = 'RunInstance' AND bill_payer_account_id = 'xxxxxxxxxxxx' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

다음 스크린샷은 Athena를 사용하여 쿼리를 실행하여 얻은 결과를 보여줍니다. 자세한 내용은 다음을 참조하십시오. Amazon Athena를 사용하여 비용 및 사용 보고서 쿼리.

쿼리 결과에 해당 엔드포인트가 표시됩니다. mme-xgboost-housing ml.x4.xlarge 인스턴스가 있는 인스턴스는 여러 날 연속으로 24시간의 런타임을 보고합니다. 인스턴스 요금은 시간당 $0.24이고 24시간 실행에 대한 일일 비용은 $5.76입니다.

AWS CUR 결과는 연결된 각 계정에서 연속적으로 실행되는 엔드포인트 패턴과 월별 비용이 가장 높은 엔드포인트를 식별하는 데 도움이 될 수 있습니다. 또한 비용 절감을 위해 비프로덕션 계정의 끝점을 삭제할 수 있는지 여부를 결정하는 데 도움이 될 수 있습니다.

실시간 엔드포인트 비용 최적화

비용 관리 관점에서 사용률이 낮은(또는 크기가 큰) 인스턴스를 식별하고 필요한 경우 워크로드 요구 사항에 맞게 인스턴스 크기와 개수를 가져오는 것이 중요합니다. CPU/GPU 사용률 및 메모리 사용률과 같은 일반적인 시스템 지표는 다음에 기록됩니다. 아마존 클라우드 워치 모든 호스팅 인스턴스에 대해. 실시간 엔드포인트의 경우 SageMaker는 CloudWatch에서 사용할 수 있는 몇 가지 추가 지표를 만듭니다. 일반적으로 모니터링되는 메트릭 중 일부에는 호출 횟수 및 호출 4xx/5xx 오류가 포함됩니다. 메트릭의 전체 목록은 다음을 참조하세요. Amazon CloudWatch로 Amazon SageMaker 모니터링.

메트릭 CPUUtilization 각 개별 CPU 코어의 사용률 합계를 제공합니다. 각 코어 범위의 CPU 사용률은 0–100입니다. 예를 들어, XNUMX개의 CPU가 있는 경우 CPUUtilization 범위는 0–400%입니다. 메트릭 MemoryUtilization 인스턴스의 컨테이너에서 사용하는 메모리의 백분율입니다. 이 값 범위는 0–100%입니다. 다음 스크린샷은 CloudWatch 지표의 예를 보여줍니다. CPUUtilization 및 MemoryUtilization 4.10개의 vCPU 및 40GiB 메모리와 함께 제공되는 엔드포인트 인스턴스 ml.m160xlarge의 경우.

이러한 지표 그래프는 약 3,000%의 최대 CPU 사용률을 보여줍니다. 이는 vCPU 30개에 해당합니다. 이는 이 끝점이 총 30개 vCPU 용량 중 40개보다 많은 vCPU를 사용하지 않음을 의미합니다. 마찬가지로 메모리 사용률은 6% 미만입니다. 이 정보를 사용하여 이 리소스 요구 사항을 충족할 수 있는 더 작은 인스턴스로 실험할 수 있습니다. 또한, CPUUtilization 지표는 주기적인 높고 낮은 CPU 수요의 전형적인 패턴을 보여주므로 이 엔드포인트는 자동 확장을 위한 좋은 후보가 됩니다. 더 작은 인스턴스로 시작하여 컴퓨팅 요구 사항이 변경되면 먼저 확장할 수 있습니다. 자세한 내용은 다음을 참조하십시오. Amazon SageMaker 모델 자동 확장.

SageMaker는 다음을 사용하여 A/B 테스트 환경에 쉽게 배포할 수 있으므로 새 모델 테스트에 적합합니다. 생산 변형, 사용한 만큼만 비용을 지불하면 됩니다. 각 프로덕션 변형은 자체 컴퓨팅 인스턴스에서 실행되며 변형이 실행되는 동안 각 인스턴스에 대해 사용된 인스턴스 시간당 요금이 청구됩니다.

SageMaker는 다음도 지원합니다. 그림자 변형, 프로덕션 변형과 동일한 구성 요소가 있고 자체 컴퓨팅 인스턴스에서 실행됩니다. SageMaker는 섀도우 변형을 사용하여 테스트 환경에 모델을 자동으로 배포하고 프로덕션 모델에서 수신한 추론 요청의 복사본을 실시간으로 테스트 모델로 라우팅하며 대기 시간 및 처리량과 같은 성능 지표를 수집합니다. 이를 통해 프로덕션으로 승격하기 전에 모델 제공 스택의 새로운 후보 구성 요소를 검증할 수 있습니다.

테스트를 완료하고 더 이상 엔드포인트 또는 변형을 광범위하게 사용하지 않는 경우 이를 삭제하여 비용을 절약해야 합니다. 모델은 Amazon S3에 저장되므로 필요에 따라 다시 생성할 수 있습니다. 다음을 사용하여 이러한 끝점을 자동으로 감지하고 수정 조치(예: 삭제)를 취할 수 있습니다. Amazon CloudWatch 이벤트 및 AWS 람다 기능. 예를 들어 다음을 사용할 수 있습니다. Invocations 메트릭을 사용하여 모델 엔드포인트로 전송된 총 요청 수를 가져온 다음 엔드포인트가 지난 몇 시간 동안 유휴 상태였는지(24시간과 같은 특정 기간 동안 호출 없음) 감지합니다.

활용도가 낮은 엔드포인트 인스턴스가 여러 개 있는 경우 다음과 같은 호스팅 옵션을 고려하십시오. 다중 모델 끝점 (MME), 다중 컨테이너 끝점 (MCE) 및 직렬 추론 파이프라인 사용을 더 적은 엔드포인트 인스턴스로 통합합니다.

실시간 및 비동기 추론 모델 배포의 경우 다음을 사용하여 SageMaker에 모델을 배포하여 비용과 성능을 최적화할 수 있습니다. AWS 그래비톤. AWS Graviton은 AWS에서 설계한 프로세서 제품군으로 x86 제품보다 최고의 가격 대비 성능과 에너지 효율성을 제공합니다. ML 모델을 AWS Graviton 기반 인스턴스에 배포하는 방법과 가격 대비 이점에 대한 자세한 내용은 다음을 참조하십시오. Amazon SageMaker를 사용하여 AWS Graviton 기반 인스턴스에서 기계 학습 추론 워크로드 실행. SageMaker는 다음도 지원합니다. AWS 인 페렌 시아 가속기를 통해 ml.inf2 실시간 및 비동기 추론을 위해 ML 모델을 배포하기 위한 인스턴스 제품군. SageMaker에서 이러한 인스턴스를 사용하여 LLM(대형 언어 모델) 및 비전 변환기를 포함한 생성 인공 지능(AI) 모델에 대해 저렴한 비용으로 고성능을 달성할 수 있습니다.

또한 다음을 사용할 수 있습니다. Amazon SageMaker 추론 추천자 로드 테스트를 실행하고 이러한 인스턴스에 모델을 배포할 때의 가격 대비 성능 이점을 평가합니다. 유휴 SageMaker 엔드포인트 자동 감지 및 SageMaker 엔드포인트에 대한 인스턴스 크기 조정 및 자동 조정에 대한 추가 지침은 다음을 참조하십시오. Amazon SageMaker에서 효율적인 컴퓨팅 리소스 보장.

SageMaker 일괄 변환

일괄 추론 또는 오프라인 추론, 관찰 배치에 대한 예측을 생성하는 프로세스입니다. 오프라인 예측은 더 큰 데이터 세트와 응답을 위해 몇 분 또는 몇 시간을 기다릴 여유가 있는 경우에 적합합니다.

SageMaker 배치 변환 비용은 배치 변환 작업이 실행되는 동안 각 인스턴스에 대해 소비된 인스턴스 시간당 비용을 기준으로 합니다. Amazon SageMaker 요금. 비용 탐색기에서 사용 유형에 필터를 적용하여 일괄 변환 비용을 탐색할 수 있습니다. 이 사용 유형의 이름은 다음과 같이 구성됩니다. REGION-Tsform:instanceType (예 : USE1-Tsform:ml.c5.9xlarge).

다음 스크린샷과 같이 사용 유형별로 필터링 Tsform: 계정의 SageMaker 배치 변환 사용 유형 목록이 표시됩니다.

Amazon SageMaker 지출을 분석하고 사용량을 기준으로 비용 최적화 기회 결정, 파트 5: 호스팅 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

특정 사용 유형을 선택하거나 모두 선택 선택하고 신청 선택한 유형에 대한 배치 변환 인스턴스 사용량의 비용 분석을 표시합니다. 앞서 언급했듯이 추가 필터를 적용할 수도 있습니다. 다음 스크린샷은 선택한 일괄 변환 사용 유형에 대한 비용 및 사용량 그래프를 보여줍니다.

일괄 변환 비용 최적화

SageMaker 배치 변환은 작업이 실행되는 동안 사용한 인스턴스에 대해서만 비용을 청구합니다. 데이터가 이미 Amazon S3에 있는 경우 Amazon S3에서 입력 데이터를 읽고 출력 데이터를 Amazon S3에 쓰는 데 비용이 들지 않습니다. 모든 출력 객체를 Amazon S3에 업로드하려고 시도합니다. 모두 성공하면 일괄 변환 작업이 완료된 것으로 표시됩니다. 하나 이상의 개체가 실패하면 일괄 변환 작업이 실패한 것으로 표시됩니다.

일괄 변환 작업에 대한 요금은 다음 시나리오에서 적용됩니다.

작업이 성공적입니다.
다음으로 인한 실패 ClientError 모델 컨테이너는 SageMaker이거나 SageMaker 관리 프레임워크
다음으로 인한 실패 AlgorithmError or ClientError 모델 컨테이너는 사용자 지정 컨테이너입니다(BYOC)

다음은 SageMaker 배치 변환 작업을 최적화하기 위한 몇 가지 모범 사례입니다. 이러한 권장 사항은 일괄 변환 작업의 총 실행 시간을 줄여 비용을 낮출 수 있습니다.

세트 배치 전략 에 MultiRecord 및 SplitType 에 Line 입력 파일에서 미니 배치를 만들기 위해 배치 변환 작업이 필요한 경우. 데이터 세트를 미니 배치로 자동 분할할 수 없는 경우 각 배치를 데이터 원본 S3 버킷에 있는 별도의 입력 파일에 넣어 미니 배치로 나눌 수 있습니다.
배치 크기가 메모리에 맞는지 확인하십시오. SageMaker는 일반적으로 이를 자동으로 처리합니다. 그러나 일괄 처리를 수동으로 나눌 때는 메모리를 기준으로 조정해야 합니다.
일괄 변환은 입력의 S3 객체를 키로 분할하고 해당 객체를 인스턴스에 매핑합니다. 파일이 여러 개인 경우 하나의 인스턴스가 처리할 수 있습니다. input1.csv, 다른 인스턴스가 처리할 수 있습니다. input2.csv. 하나의 입력 파일이 있지만 여러 컴퓨트 인스턴스를 초기화하는 경우 하나의 인스턴스만 입력 파일을 처리하고 나머지 인스턴스는 유휴 상태입니다. 파일 수가 인스턴스 수보다 크거나 같은지 확인하십시오.
작은 파일이 많은 경우 여러 파일을 소수의 큰 파일로 결합하여 Amazon S3 상호 작용 시간을 줄이는 것이 좋습니다.
당신이 사용하는 경우 CreateTransformJob API를 사용하면 다음과 같은 매개변수에 최적의 값을 사용하여 일괄 변환 작업을 완료하는 데 걸리는 시간을 줄일 수 있습니다. 최대 페이로드InMB, 최대동시변환및 배치 전략:
- MaxConcurrentTransforms 변환 작업의 각 인스턴스에 보낼 수 있는 최대 병렬 요청 수를 나타냅니다. 이상적인 가치 MaxConcurrentTransforms 인스턴스의 vCPU 코어 수와 같습니다.
- MaxPayloadInMB 페이로드의 최대 허용 크기(MB)입니다. 의 값 MaxPayloadInMB 단일 레코드의 크기보다 크거나 같아야 합니다. 레코드 크기(MB)를 추정하려면 데이터 세트의 크기를 레코드 수로 나눕니다. 레코드가 최대 페이로드 크기에 맞도록 하려면 약간 더 큰 값을 사용하는 것이 좋습니다. 기본값은 6MB입니다.
- MaxPayloadInMB 100MB 이하여야 합니다. 옵션을 지정하면 MaxConcurrentTransforms 매개변수 다음의 값(MaxConcurrentTransforms * MaxPayloadInMB)도 100MB를 초과하지 않아야 합니다.
- 페이로드가 임의로 크고 HTTP 청크 분할 인코딩을 사용하여 전송되는 경우 MaxPayloadInMB 값을 0으로 설정합니다. 이 기능은 지원되는 알고리즘에서만 작동합니다. 현재 SageMaker 내장 알고리즘은 HTTP 청크 인코딩을 지원하지 않습니다.
배치 추론 작업은 일반적으로 수평 확장에 적합한 후보입니다. 클러스터 내의 각 작업자는 다른 작업자와 정보를 교환할 필요 없이 서로 다른 데이터 하위 집합에서 작업할 수 있습니다. AWS는 수평 확장을 지원하는 여러 스토리지 및 컴퓨팅 옵션을 제공합니다. 단일 인스턴스가 성능 요구 사항을 충족하기에 충분하지 않은 경우 여러 인스턴스를 병렬로 사용하여 워크로드를 분산하는 것이 좋습니다. 배치 변환 작업을 설계할 때 주요 고려 사항은 다음을 참조하십시오. Amazon SageMaker를 사용한 대규모 배치 추론.
CloudWatch를 사용하여 SageMaker 일괄 변환 작업의 성능 지표를 지속적으로 모니터링합니다. 높은 CPU 또는 GPU 사용률, 메모리 사용량 또는 네트워크 처리량과 같은 병목 현상을 찾아 인스턴스 크기나 구성을 조정해야 하는지 확인하십시오.
SageMaker는 Amazon S3를 사용합니다. 멀티파트 업로드 API 배치 변환 작업의 결과를 Amazon S3에 업로드합니다. 오류가 발생하면 업로드된 결과가 Amazon S3에서 제거됩니다. 네트워크 중단이 발생하는 경우와 같은 경우에 불완전한 멀티파트 업로드가 Amazon S3에 남아 있을 수 있습니다. 스토리지 요금이 발생하지 않도록 하려면 다음을 추가하는 것이 좋습니다. S3 버킷 정책 S3 버킷 수명 주기 규칙에 따릅니다. 이 정책은 S3 버킷에 저장될 수 있는 불완전한 멀티파트 업로드를 삭제합니다. 자세한 내용은 다음을 참조하십시오. 스토리지 수명 주기 관리.

SageMaker 비동기 추론

비동기식 추론은 대용량 페이로드 및 버스트 트래픽이 있는 비용에 민감한 워크로드에 적합합니다. 요청을 처리하는 데 최대 1시간이 걸릴 수 있고 페이로드 크기가 최대 1GB이므로 대기 시간 요구 사항이 완화된 워크로드에 더 적합합니다.

비동기 엔드포인트의 호출은 실시간 엔드포인트와 다릅니다. 요청과 동시에 요청 페이로드를 전달하는 대신 페이로드를 Amazon S3에 업로드하고 S3 URI를 요청의 일부로 전달합니다. 내부적으로 SageMaker는 이러한 요청으로 대기열을 유지하고 처리합니다. 엔드포인트를 생성하는 동안 선택적으로 다음을 지정할 수 있습니다. 아마존 단순 알림 서비스 (Amazon SNS) 성공 또는 오류 알림을 받는 주제. 추론 요청이 성공적으로 처리되었다는 알림을 받으면 출력 Amazon S3 위치에서 결과에 액세스할 수 있습니다.

비동기 추론에 대한 비용은 엔드포인트가 실행되는 동안 각 인스턴스에 대해 소비된 인스턴스 시간당, 프로비저닝된 스토리지의 GB-월 비용, 엔드포인트 인스턴스 안팎에서 처리된 GB 데이터를 기준으로 합니다. Amazon SageMaker 요금. 비용 탐색기에서 사용 유형에 필터를 적용하여 비동기 추론 비용을 필터링할 수 있습니다. 이 사용 유형의 이름은 다음과 같이 구성됩니다. REGION-AsyncInf:instanceType (예 : USE1-AsyncInf:ml.c5.9xlarge). GB 볼륨 및 GB 데이터 처리 사용 유형은 이 게시물의 앞부분에서 언급한 실시간 엔드포인트와 동일합니다.

다음 스크린샷과 같이 사용 유형별로 필터링 AsyncInf: 비용 탐색기에서 비동기 엔드포인트 사용 유형별로 비용 분석을 표시합니다.

인스턴스 시간별 비용 및 사용량 분석을 보려면 모든 REGION-Host:VolumeUsage.gp2 사용 유형 필터를 적용하기 전에 사용 유형. 추가 필터를 적용할 수도 있습니다. 엔드포인트 ARN, 엔드포인트 인스턴스 유형, 시간당 인스턴스 요금 및 일일 사용 시간과 같은 리소스 수준 정보는 AWS CUR에서 얻을 수 있습니다. 다음은 지난 3개월 동안의 비동기 호스팅 리소스 사용량을 얻기 위한 AWS CUR 쿼리의 예입니다.

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%AsyncInf%' AND line_item_operation = 'RunInstance' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

다음 스크린샷은 Athena를 사용하여 AWS CUR 쿼리를 실행하여 얻은 결과를 보여줍니다.

쿼리 결과에 해당 엔드포인트가 표시됩니다. sagemaker-abc-model-5 ml.m5.xlarge 인스턴스가 있는 인스턴스는 여러 날 연속으로 24시간의 런타임을 보고합니다. 인스턴스 요금은 시간당 $0.23이고 24시간 실행에 대한 일일 비용은 $5.52입니다.

앞서 언급한 바와 같이 AWS CUR 결과는 연속적으로 실행되는 엔드포인트의 패턴과 월별 비용이 가장 높은 엔드포인트를 식별하는 데 도움이 될 수 있습니다. 또한 비용 절감을 위해 비프로덕션 계정의 끝점을 삭제할 수 있는지 여부를 결정하는 데 도움이 될 수 있습니다.

비동기 추론을 위한 비용 최적화

실시간 엔드포인트와 마찬가지로 비동기식 엔드포인트 비용은 인스턴스 유형 사용량을 기반으로 합니다. 따라서 활용도가 낮은 인스턴스를 식별하고 워크로드 요구 사항에 따라 크기를 조정하는 것이 중요합니다. 비동기 엔드포인트를 모니터링하기 위해 SageMaker는 몇 가지 메트릭 등 ApproximateBacklogSize, HasBacklogWithoutCapacity등을 CloudWatch에서 사용할 수 있습니다. 이러한 메트릭은 인스턴스에 대한 대기열의 요청을 표시할 수 있으며 엔드포인트를 자동 확장하는 데 사용할 수 있습니다. SageMaker 비동기식 추론에는 호스트 수준 지표도 포함됩니다. 호스트 수준 메트릭에 대한 자세한 내용은 다음을 참조하세요. SageMaker 작업 및 엔드포인트 지표. 이러한 메트릭은 인스턴스 크기를 적절하게 조정하는 데 도움이 되는 리소스 사용률을 표시할 수 있습니다.

SageMaker 지원 자동 스케일링 비동기 엔드포인트용. 실시간 호스팅 엔드포인트와 달리 비동기 추론 엔드포인트는 최소 용량을 XNUMX으로 설정하여 인스턴스를 XNUMX으로 축소하는 것을 지원합니다. 비동기 엔드포인트의 경우 SageMaker는 배포된 모델(변형)에 대한 대상 추적 조정을 위한 정책 구성을 생성할 것을 강력히 권장합니다. 확장된 조정 정책을 정의해야 합니다. ApproximateBacklogPerInstance 맞춤 측정항목을 설정하고 MinCapacity 값을 XNUMX으로 합니다.

비동기식 추론을 사용하면 처리할 요청이 없을 때 인스턴스 수를 1으로 자동 조정하여 비용을 절감할 수 있으므로 엔드포인트가 요청을 처리할 때만 비용을 지불하면 됩니다. 인스턴스가 없을 때 수신된 요청은 엔드포인트가 확장된 후 처리를 위해 대기합니다. 따라서 몇 분의 콜드 스타트 페널티를 허용할 수 있는 사용 사례의 경우 미결 요청이 없을 때 엔드포인트 인스턴스 수를 선택적으로 XNUMX으로 축소하고 새 요청이 도착하면 다시 확장할 수 있습니다. 콜드 스타트 시간은 새 엔드포인트를 처음부터 시작하는 데 필요한 시간에 따라 다릅니다. 또한 모델 자체가 크면 시간이 더 길어질 수 있습니다. 작업이 XNUMX시간 처리 시간보다 오래 걸릴 것으로 예상되는 경우 SageMaker 배치 변환을 고려할 수 있습니다.

또한 요청의 대기 시간과 처리 시간을 함께 고려하여 인스턴스 유형을 선택할 수도 있습니다. 예를 들어 사용 사례에서 몇 시간의 대기 시간을 허용할 수 있는 경우 더 작은 인스턴스를 선택하여 비용을 절약할 수 있습니다.

SageMaker 엔드포인트의 인스턴스 크기 조정 및 자동 조정에 대한 추가 지침은 다음을 참조하십시오. Amazon SageMaker에서 효율적인 컴퓨팅 리소스 보장.

서버리스 추론

서버리스 추론을 사용하면 기본 인프라를 구성하거나 관리할 필요 없이 추론을 위한 ML 모델을 배포할 수 있습니다. 모델이 수신하는 추론 요청의 양에 따라 SageMaker 서버리스 추론은 컴퓨팅 용량을 자동으로 프로비저닝, 확장 및 끕니다. 따라서 유휴 시간이 아니라 추론 코드를 실행하는 컴퓨팅 시간과 처리된 데이터 양에 대해서만 비용을 지불하면 됩니다. 서버리스 엔드포인트의 경우 인스턴스 프로비저닝이 필요하지 않습니다. 다음을 제공해야 합니다. 메모리 크기 및 최대 동시성. 서버리스 엔드포인트는 온디맨드 컴퓨팅 리소스를 프로비저닝하기 때문에 유휴 기간 후 첫 번째 호출에 대해 엔드포인트에 몇 초의 추가 대기 시간(콜드 스타트)이 발생할 수 있습니다. 유추 요청을 처리하는 데 사용된 컴퓨팅 용량에 대해 비용을 지불하며, 프로비저닝된 스토리지의 밀리초, GB-월 및 처리된 데이터 양으로 청구됩니다. 컴퓨팅 요금은 선택한 메모리 구성에 따라 다릅니다.

비용 탐색기에서 사용 유형에 필터를 적용하여 서버리스 엔드포인트 비용을 필터링할 수 있습니다. 이 사용 유형의 이름은 다음과 같이 구성됩니다. REGION-ServerlessInf:Mem-MemorySize (예 : USE2-ServerlessInf:Mem-4GB). GB 볼륨 및 GB 데이터 처리 사용량 유형은 실시간 엔드포인트와 동일합니다.

계정 번호, 인스턴스 유형, 리전 등과 같은 추가 필터를 적용하여 비용 내역을 확인할 수 있습니다. 다음 스크린샷은 서버리스 추론 사용 유형에 대한 필터를 적용하여 비용 분석을 보여줍니다.

서버리스 추론을 위한 비용 최적화

서버리스 엔드포인트를 구성할 때 메모리 크기와 최대 동시 호출 수를 지정할 수 있습니다. SageMaker 서버리스 추론은 선택한 메모리에 비례하여 컴퓨팅 리소스를 자동 할당합니다. 더 큰 메모리 크기를 선택하면 컨테이너가 더 많은 vCPU에 액세스할 수 있습니다. 서버리스 추론을 사용하면 추론 요청을 처리하는 데 사용된 컴퓨팅 용량(밀리초 단위로 청구됨) 및 처리된 데이터 양에 대해서만 비용을 지불하면 됩니다. 컴퓨팅 요금은 선택한 메모리 구성에 따라 다릅니다. 선택할 수 있는 메모리 크기는 1024MB, 2048MB, 3072MB, 4096MB, 5120MB 및 6144MB입니다. 가격은 메모리 크기 증가에 따라 증가합니다. Amazon SageMaker 요금, 올바른 메모리 크기를 선택하는 것이 중요합니다. 일반적으로 메모리 크기는 모델 크기 이상이어야 합니다. 그러나 엔드포인트 메모리 크기를 결정할 때 모델 크기 자체 외에도 메모리 사용률을 참조하는 것이 좋습니다.

SageMaker 추론 비용을 최적화하기 위한 일반적인 모범 사례

호스팅 비용 최적화는 일회성 이벤트가 아닙니다. 배포된 인프라, 사용 패턴 및 성능을 지속적으로 모니터링하고 비용에 영향을 줄 수 있는 AWS가 출시하는 새로운 혁신 솔루션을 예리하게 주시하는 프로세스입니다. 다음 모범 사례를 고려하십시오.

적절한 인스턴스 유형 선택 – SageMaker는 각각 CPU, GPU, 메모리 및 스토리지 용량의 조합이 다양한 여러 인스턴스 유형을 지원합니다. 모델의 리소스 요구 사항에 따라 과잉 프로비저닝 없이 필요한 리소스를 제공하는 인스턴스 유형을 선택합니다. 사용 가능한 SageMaker 인스턴스 유형, 해당 사양 및 올바른 인스턴스 선택에 대한 지침에 대한 자세한 내용은 다음을 참조하십시오. Amazon SageMaker에서 효율적인 컴퓨팅 리소스 보장.
로컬 모드를 사용하여 테스트 – 오류를 감지하고 더 빠르게 디버그하려면 다음에서 코드와 컨테이너(BYOC의 경우)를 테스트하는 것이 좋습니다. 로컬 모드 원격 SageMaker 인스턴스에서 추론 워크로드를 실행하기 전에 로컬 모드는 SageMaker 관리형 호스팅 환경에서 스크립트를 실행하기 전에 스크립트를 테스트할 수 있는 좋은 방법입니다.
모델을 최적화하여 성능 향상 – 최적화되지 않은 모델은 런타임이 길어지고 더 많은 리소스를 사용할 수 있습니다. 성능을 향상시키기 위해 더 많거나 더 큰 인스턴스를 사용하도록 선택할 수 있습니다. 그러나 이것은 더 높은 비용을 초래합니다. 성능이 향상되도록 모델을 최적화하면 동일하거나 더 나은 성능 특성을 유지하면서 더 적거나 더 작은 인스턴스를 사용하여 비용을 절감할 수 있습니다. 당신이 사용할 수있는 아마존 세이지 메이커 네오 SageMaker 추론으로 모델을 자동으로 최적화합니다. 자세한 내용 및 샘플은 다음을 참조하세요. Neo를 사용하여 모델 성능 최적화.
태그 및 비용 관리 도구 사용 – 추론 워크로드에 대한 가시성을 유지하려면 다음과 같은 AWS 비용 관리 도구와 태그를 사용하는 것이 좋습니다. AWS 예산Walk Through California 프로그램, AWS 결제 콘솔, 비용 탐색기의 예측 기능. SageMaker Savings Plans를 유연한 요금 모델로 탐색할 수도 있습니다. 이러한 옵션에 대한 자세한 내용은 다음을 참조하십시오. 파트 1 이 시리즈의.

결론

이 게시물에서는 SageMaker 추론 옵션을 사용할 때 비용 분석 및 모범 사례에 대한 지침을 제공했습니다. 기계 학습이 산업 전반에 걸쳐 강력한 도구로 자리매김함에 따라 ML 모델을 교육하고 실행하는 것은 비용 효율성을 유지해야 합니다. SageMaker는 ML 파이프라인의 각 단계를 용이하게 하기 위한 광범위하고 심층적인 기능 세트를 제공하고 성능이나 민첩성에 영향을 미치지 않으면서 비용 최적화 기회를 제공합니다. SageMaker 워크로드에 대한 비용 지침은 AWS 팀에 문의하십시오.

저자에 관하여

디팔리 라잘레 AWS의 선임 AI/ML 전문가입니다. 그녀는 AWS 에코시스템에서 AI/ML 솔루션을 배포하고 유지 관리하기 위한 모범 사례와 함께 기술 지침을 제공하는 기업 고객과 협력합니다. 그녀는 NLP 및 컴퓨터 비전과 관련된 다양한 딥 러닝 사용 사례에 대해 광범위한 조직과 협력했습니다. 그녀는 조직이 생성 AI를 활용하여 사용 경험을 향상할 수 있도록 지원하는 데 열정적입니다. 여가 시간에는 영화, 음악, 문학을 즐깁니다.

우리 로젠버그 유럽, 중동 및 아프리카의 AI 및 ML 전문 기술 관리자입니다. 이스라엘에 기반을 둔 Uri는 기업 고객이 ML을 대규모로 설계, 구축 및 운영할 수 있도록 지원합니다. 여가 시간에는 자전거 타기, 하이킹, 로큰롤 등반을 즐깁니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
PlatoAiStream. Web3 데이터 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
미래 만들기 w Adryenn Ashley. 여기에서 액세스하십시오.
PREIPO®로 PRE-IPO 회사의 주식을 사고 팔 수 있습니다. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/part-5-analyze-amazon-sagemaker-spend-and-determine-cost-optimization-opportunities-based-on-usage-part-5-hosting/

타임 스탬프 : 2023 년 5 월 30 일

타임 스탬프 : 25년 2023월 XNUMX일

플라톤에 의해 재발행

Amazon SageMaker Studio 및 Amazon SageMaker Autopilot을 사용하여 위성 이미지 기능을 사용하여 맹그로브 숲 식별 – 1부

Amazon SageMaker 모델 레지스트리를 사용하여 교차 계정 MLOps 워크플로 구축

MLOps용 Amazon Comprehend 플라이휠 소개

InformedIQ는 기계 학습을 사용하여 Origence의 자동 대출에 대한 검증을 자동화합니다.

Sophos가 Amazon SageMaker를 사용하여 강력하고 가벼운 PDF 맬웨어 탐지기를 대규모로 훈련하는 방법

AWS AI 서비스를 통한 지능형 문서 처리: 2부

Amazon SageMaker JumpStart에서 안정적인 확산 모델을 사용하여 텍스트에서 이미지 생성

업데이트된 Amazon Kendra용 ServiceNow 커넥터(V2) 발표

Amazon Lookout for Metrics를 사용하여 로열티 포인트 이상 탐지기 구축

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정