Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | 아마존 웹 서비스

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | 아마존 웹 서비스

아마존 세이지 메이커 실시간 추론을 위해 기계 학습(ML) 모델을 간단하게 배포할 수 있으며 다음과 같은 CPU 및 가속기를 포괄하는 광범위한 ML 인스턴스를 제공합니다. AWS 인 페렌 시아. 완전 관리형 서비스로서 모델 배포를 확장하고, 추론 비용을 최소화하고, 운영 부담을 줄이면서 프로덕션에서 모델을 보다 효과적으로 관리할 수 있습니다. SageMaker 실시간 추론 엔드포인트는 고가용성을 위해 여러 가용 영역에 배포되는 HTTP 엔드포인트와 ML 인스턴스로 구성됩니다. 세이지메이커 애플리케이션 자동 스케일링 워크로드 변화에 따라 모델에 프로비저닝된 ML 인스턴스 수를 동적으로 조정할 수 있습니다. 엔드포인트는 라운드 로빈 알고리즘을 사용하여 들어오는 요청을 ML 인스턴스에 균일하게 배포합니다.

인스턴스에 배포된 ML 모델이 다수의 클라이언트로부터 API 호출을 수신하는 경우 요청과 응답에 변동성이 크지 않으면 요청을 무작위로 배포하는 것이 매우 효과적일 수 있습니다. 그러나 생성적 AI 워크로드가 있는 시스템에서는 요청과 응답이 매우 다양할 수 있습니다. 이러한 경우에는 무작위 로드 밸런싱보다는 인스턴스의 용량과 활용률을 고려하여 로드 밸런싱을 수행하는 것이 바람직한 경우가 많습니다.

이 게시물에서는 SageMaker LOR(최소 미결 요청) 라우팅 전략과 ML 인스턴스의 용량 및 활용도를 고려하여 특정 유형의 실시간 추론 워크로드에 대한 지연 시간을 최소화할 수 있는 방법에 대해 설명합니다. 기본 라우팅 메커니즘에 비해 이점이 있으며 모델 배포에 LOR을 활성화하는 방법에 대해 설명합니다. 마지막으로, 무작위 라우팅의 기본 라우팅 전략에 비해 LOR을 통한 지연 시간 개선에 대한 비교 분석을 제시합니다.

SageMaker LOR 전략

기본적으로 SageMaker 엔드포인트에는 무작위 라우팅 전략이 있습니다. 이제 SageMaker는 LOR 전략을 지원합니다. 이를 통해 SageMaker는 해당 요청을 처리하는 데 가장 적합한 인스턴스로 요청을 최적으로 라우팅할 수 있습니다. SageMaker는 엔드포인트 뒤의 인스턴스 로드와 각 인스턴스에 배포된 모델 또는 추론 구성 요소를 모니터링하여 이를 가능하게 합니다.

다음 대화형 다이어그램은 모델 엔드포인트로 들어오는 요청이 무작위 방식으로 ML 인스턴스에 전달되는 기본 라우팅 정책을 보여줍니다.

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음 대화형 다이어그램은 SageMaker가 미해결 요청 수가 가장 적은 인스턴스로 요청을 라우팅하는 라우팅 전략을 보여줍니다.

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

일반적으로 LOR 라우팅은 모델이 수백 밀리초에서 몇 분 안에 응답하는 기본 모델 또는 생성 AI 모델에 적합합니다. 모델 응답의 지연 시간이 짧은 경우(최대 수백 밀리초) 무작위 라우팅을 통해 더 많은 이점을 얻을 수 있습니다. 그럼에도 불구하고 워크로드에 가장 적합한 라우팅 알고리즘을 테스트하고 식별하는 것이 좋습니다.

SageMaker 라우팅 전략을 설정하는 방법

이제 SageMaker를 사용하면 다음을 설정할 수 있습니다. RoutingStrategy 매개변수를 생성하는 동안 EndpointConfiguration 엔드포인트용. 다른 RoutingStrategy SageMaker에서 지원되는 값은 다음과 같습니다.

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

다음은 LOR이 활성화된 추론 엔드포인트에 모델을 배포하는 예입니다.

  1. 설정하여 엔드포인트 구성을 생성합니다. RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. 엔드포인트 구성을 사용하여 엔드포인트를 생성합니다(변경 없음).
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

실적 결과

우리는 엔드투엔드 추론 지연 시간과 처리량을 측정하기 위해 성능 벤치마킹을 실행했습니다. codegen2-7B 기본 라우팅 및 스마트 라우팅 엔드포인트를 사용하여 ml.g5.24xl 인스턴스에서 호스팅되는 모델입니다. CodeGen2 모델은 자동 회귀 언어 모델 제품군에 속하며 영어 프롬프트가 제공되면 실행 가능한 코드를 생성합니다.

분석에서는 다음 표와 같이 동시 사용자 수가 증가함에 따라 각 테스트 실행에 대해 각 엔드포인트 뒤의 ml.g5.24xl 인스턴스 수를 늘렸습니다.

Test 동시 사용자 수 인스턴스 수
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

두 엔드포인트 모두에 대해 엔드투엔드 P99 대기 시간을 측정한 결과, 다음 그래프와 같이 인스턴스 수가 4개에서 33개로 증가했을 때 대기 시간이 5~20% 개선되는 것을 관찰했습니다.

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

마찬가지로 인스턴스 수가 15개에서 16개로 증가했을 때 인스턴스당 분당 처리량이 5~20% 향상되는 것을 관찰했습니다.

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

이는 스마트 라우팅이 엔드포인트 간의 트래픽 분산을 개선하여 엔드투엔드 대기 시간과 전체 처리량을 향상시킬 수 있음을 보여줍니다.

결론

이 게시물에서는 SageMaker 라우팅 전략과 LOR 라우팅을 활성화하는 새로운 옵션에 대해 설명했습니다. LOR을 활성화하는 방법과 LOR이 모델 배포에 어떻게 도움이 되는지 설명했습니다. 성능 테스트에서는 실시간 추론 중에 지연 시간과 처리량이 향상된 것으로 나타났습니다. SageMaker 라우팅 기능에 대해 자세히 알아보려면 다음을 참조하십시오. 선적 서류 비치. 추론 워크로드를 평가하고 라우팅 전략이 최적으로 구성되어 있는지 확인하는 것이 좋습니다.


저자에 관하여

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.제임스 파크 Amazon Web Services의 솔루션 아키텍트입니다. 그는 Amazon.com과 협력하여 AWS에서 기술 솔루션을 설계, 구축 및 배포하며 AI 및 기계 학습에 특히 관심이 있습니다. 그는 여가 시간에 새로운 문화, 새로운 경험을 찾고 최신 기술 동향을 파악하는 것을 즐깁니다. 당신은 그를 찾을 수 있습니다 링크드인.

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.베누고팔 빠이 AWS의 솔루션스 아키텍트입니다. 그는 인도 벵갈루루에 거주하며 디지털 기반 고객이 AWS에서 애플리케이션을 확장하고 최적화하도록 돕습니다.

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.데이비드 니 젠다 Amazon SageMaker 팀의 수석 소프트웨어 개발 엔지니어로 현재 프로덕션 기계 학습 워크플로를 개선하고 새로운 추론 기능을 출시하는 작업을 진행하고 있습니다. 여가 시간에는 아이들과 계속 연락하려고 노력합니다.

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.딥티 라가 Amazon SageMaker 팀의 소프트웨어 개발 엔지니어입니다. 그녀의 현재 작업은 기계 학습 모델을 효율적으로 호스팅하기 위한 기능을 구축하는 데 중점을 두고 있습니다. 여가 시간에는 여행, 하이킹, 식물 재배를 즐깁니다.

앨런 탄앨런 탄 SageMaker의 수석 제품 관리자로 대규모 모델 추론을 주도하고 있습니다. 그는 분석 영역에 기계 학습을 적용하는 데 열정적입니다. 그는 일 외에는 야외 활동을 즐깁니다.

Amazon SageMaker 라우팅 전략을 사용하여 실시간 추론 지연 시간 최소화 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.다왈 파텔 AWS의 수석 기계 학습 설계자입니다. 그는 분산 컴퓨팅 및 인공 지능과 관련된 문제에 대해 대기업에서 중견 스타트업에 이르는 다양한 조직과 협력했습니다. 그는 NLP 및 Computer Vision 도메인을 포함한 딥 러닝에 중점을 둡니다. 그는 고객이 SageMaker에서 고성능 모델 추론을 달성하도록 돕습니다.

타임 스탬프 :

더보기 AWS 기계 학습