아마존 세이지 메이커 실시간 추론을 위해 기계 학습(ML) 모델을 간단하게 배포할 수 있으며 다음과 같은 CPU 및 가속기를 포괄하는 광범위한 ML 인스턴스를 제공합니다. AWS 인 페렌 시아. 완전 관리형 서비스로서 모델 배포를 확장하고, 추론 비용을 최소화하고, 운영 부담을 줄이면서 프로덕션에서 모델을 보다 효과적으로 관리할 수 있습니다. SageMaker 실시간 추론 엔드포인트는 고가용성을 위해 여러 가용 영역에 배포되는 HTTP 엔드포인트와 ML 인스턴스로 구성됩니다. 세이지메이커 애플리케이션 자동 스케일링 워크로드 변화에 따라 모델에 프로비저닝된 ML 인스턴스 수를 동적으로 조정할 수 있습니다. 엔드포인트는 라운드 로빈 알고리즘을 사용하여 들어오는 요청을 ML 인스턴스에 균일하게 배포합니다.
인스턴스에 배포된 ML 모델이 다수의 클라이언트로부터 API 호출을 수신하는 경우 요청과 응답에 변동성이 크지 않으면 요청을 무작위로 배포하는 것이 매우 효과적일 수 있습니다. 그러나 생성적 AI 워크로드가 있는 시스템에서는 요청과 응답이 매우 다양할 수 있습니다. 이러한 경우에는 무작위 로드 밸런싱보다는 인스턴스의 용량과 활용률을 고려하여 로드 밸런싱을 수행하는 것이 바람직한 경우가 많습니다.
이 게시물에서는 SageMaker LOR(최소 미결 요청) 라우팅 전략과 ML 인스턴스의 용량 및 활용도를 고려하여 특정 유형의 실시간 추론 워크로드에 대한 지연 시간을 최소화할 수 있는 방법에 대해 설명합니다. 기본 라우팅 메커니즘에 비해 이점이 있으며 모델 배포에 LOR을 활성화하는 방법에 대해 설명합니다. 마지막으로, 무작위 라우팅의 기본 라우팅 전략에 비해 LOR을 통한 지연 시간 개선에 대한 비교 분석을 제시합니다.
SageMaker LOR 전략
기본적으로 SageMaker 엔드포인트에는 무작위 라우팅 전략이 있습니다. 이제 SageMaker는 LOR 전략을 지원합니다. 이를 통해 SageMaker는 해당 요청을 처리하는 데 가장 적합한 인스턴스로 요청을 최적으로 라우팅할 수 있습니다. SageMaker는 엔드포인트 뒤의 인스턴스 로드와 각 인스턴스에 배포된 모델 또는 추론 구성 요소를 모니터링하여 이를 가능하게 합니다.
다음 대화형 다이어그램은 모델 엔드포인트로 들어오는 요청이 무작위 방식으로 ML 인스턴스에 전달되는 기본 라우팅 정책을 보여줍니다.
다음 대화형 다이어그램은 SageMaker가 미해결 요청 수가 가장 적은 인스턴스로 요청을 라우팅하는 라우팅 전략을 보여줍니다.
일반적으로 LOR 라우팅은 모델이 수백 밀리초에서 몇 분 안에 응답하는 기본 모델 또는 생성 AI 모델에 적합합니다. 모델 응답의 지연 시간이 짧은 경우(최대 수백 밀리초) 무작위 라우팅을 통해 더 많은 이점을 얻을 수 있습니다. 그럼에도 불구하고 워크로드에 가장 적합한 라우팅 알고리즘을 테스트하고 식별하는 것이 좋습니다.
SageMaker 라우팅 전략을 설정하는 방법
이제 SageMaker를 사용하면 다음을 설정할 수 있습니다. RoutingStrategy
매개변수를 생성하는 동안 EndpointConfiguration
엔드포인트용. 다른 RoutingStrategy
SageMaker에서 지원되는 값은 다음과 같습니다.
LEAST_OUTSTANDING_REQUESTS
RANDOM
다음은 LOR이 활성화된 추론 엔드포인트에 모델을 배포하는 예입니다.
- 설정하여 엔드포인트 구성을 생성합니다.
RoutingStrategy
asLEAST_OUTSTANDING_REQUESTS
: - 엔드포인트 구성을 사용하여 엔드포인트를 생성합니다(변경 없음).
실적 결과
우리는 엔드투엔드 추론 지연 시간과 처리량을 측정하기 위해 성능 벤치마킹을 실행했습니다. codegen2-7B 기본 라우팅 및 스마트 라우팅 엔드포인트를 사용하여 ml.g5.24xl 인스턴스에서 호스팅되는 모델입니다. CodeGen2 모델은 자동 회귀 언어 모델 제품군에 속하며 영어 프롬프트가 제공되면 실행 가능한 코드를 생성합니다.
분석에서는 다음 표와 같이 동시 사용자 수가 증가함에 따라 각 테스트 실행에 대해 각 엔드포인트 뒤의 ml.g5.24xl 인스턴스 수를 늘렸습니다.
Test | 동시 사용자 수 | 인스턴스 수 |
1 | 4 | 1 |
2 | 20 | 5 |
3 | 40 | 10 |
4 | 60 | 15 |
5 | 80 | 20 |
두 엔드포인트 모두에 대해 엔드투엔드 P99 대기 시간을 측정한 결과, 다음 그래프와 같이 인스턴스 수가 4개에서 33개로 증가했을 때 대기 시간이 5~20% 개선되는 것을 관찰했습니다.
마찬가지로 인스턴스 수가 15개에서 16개로 증가했을 때 인스턴스당 분당 처리량이 5~20% 향상되는 것을 관찰했습니다.
이는 스마트 라우팅이 엔드포인트 간의 트래픽 분산을 개선하여 엔드투엔드 대기 시간과 전체 처리량을 향상시킬 수 있음을 보여줍니다.
결론
이 게시물에서는 SageMaker 라우팅 전략과 LOR 라우팅을 활성화하는 새로운 옵션에 대해 설명했습니다. LOR을 활성화하는 방법과 LOR이 모델 배포에 어떻게 도움이 되는지 설명했습니다. 성능 테스트에서는 실시간 추론 중에 지연 시간과 처리량이 향상된 것으로 나타났습니다. SageMaker 라우팅 기능에 대해 자세히 알아보려면 다음을 참조하십시오. 선적 서류 비치. 추론 워크로드를 평가하고 라우팅 전략이 최적으로 구성되어 있는지 확인하는 것이 좋습니다.
저자에 관하여
제임스 파크 Amazon Web Services의 솔루션 아키텍트입니다. 그는 Amazon.com과 협력하여 AWS에서 기술 솔루션을 설계, 구축 및 배포하며 AI 및 기계 학습에 특히 관심이 있습니다. 그는 여가 시간에 새로운 문화, 새로운 경험을 찾고 최신 기술 동향을 파악하는 것을 즐깁니다. 당신은 그를 찾을 수 있습니다 링크드인.
베누고팔 빠이 AWS의 솔루션스 아키텍트입니다. 그는 인도 벵갈루루에 거주하며 디지털 기반 고객이 AWS에서 애플리케이션을 확장하고 최적화하도록 돕습니다.
데이비드 니 젠다 Amazon SageMaker 팀의 수석 소프트웨어 개발 엔지니어로 현재 프로덕션 기계 학습 워크플로를 개선하고 새로운 추론 기능을 출시하는 작업을 진행하고 있습니다. 여가 시간에는 아이들과 계속 연락하려고 노력합니다.
딥티 라가 Amazon SageMaker 팀의 소프트웨어 개발 엔지니어입니다. 그녀의 현재 작업은 기계 학습 모델을 효율적으로 호스팅하기 위한 기능을 구축하는 데 중점을 두고 있습니다. 여가 시간에는 여행, 하이킹, 식물 재배를 즐깁니다.
앨런 탄 SageMaker의 수석 제품 관리자로 대규모 모델 추론을 주도하고 있습니다. 그는 분석 영역에 기계 학습을 적용하는 데 열정적입니다. 그는 일 외에는 야외 활동을 즐깁니다.
다왈 파텔 AWS의 수석 기계 학습 설계자입니다. 그는 분산 컴퓨팅 및 인공 지능과 관련된 문제에 대해 대기업에서 중견 스타트업에 이르는 다양한 조직과 협력했습니다. 그는 NLP 및 Computer Vision 도메인을 포함한 딥 러닝에 중점을 둡니다. 그는 고객이 SageMaker에서 고성능 모델 추론을 달성하도록 돕습니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/
- :있다
- :이다
- :아니
- :어디
- $UP
- 1
- 100
- 125
- 150
- 17
- 1870
- 20
- 7
- 9
- a
- 할 수 있는
- 소개
- 가속기
- 달성
- 가로질러
- AI
- AI 모델
- 앨런
- 연산
- 수
- 아마존
- 아마존 세이지 메이커
- Amazon Web Services
- Amazon.com
- 중
- an
- 분석
- 분석
- 및
- API를
- 어플리케이션
- 적용
- 있군요
- 지역
- 인조의
- 인공 지능
- AS
- At
- 자동
- 유효성
- AWS
- 잔액
- 균형
- BE
- 뒤에
- 속
- 벤치마킹
- 이익
- 혜택
- BEST
- 두
- 넓은
- 빌드
- 건물
- 부담
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- by
- 통화
- CAN
- 생산 능력
- 가지 경우
- 어떤
- 이전 단계로 돌아가기
- 변경
- 클라이언트
- 암호
- COM
- 오는
- 구성 요소들
- 컴퓨터
- 컴퓨터 비전
- 컴퓨팅
- 병발 사정
- 구성
- 구성
- 고려
- 치고는
- 구성
- 비용
- 만들기
- Current
- 현재
- 고객
- 날짜
- 깊은
- 깊은 학습
- 태만
- 배포
- 배포
- 전개
- 배포
- 디자인
- 결정
- 개발
- 다른
- 토론
- 분산
- 분산 컴퓨팅
- 분포
- 도메인
- ...동안
- 역동적 인
- 마다
- 효과적으로
- 효율적으로
- 노력
- 가능
- 사용 가능
- 격려
- 끝으로 종료
- 종점
- 기사
- 영어
- 기업
- 평가
- 예
- 체험
- 설명
- 매우
- 가족
- 특징
- 최종적으로
- Find
- 집중
- 수행원
- 럭셔리
- 기초적인
- 에
- 충분히
- 일반
- 생성
- 생성적인
- 제너레이티브 AI
- 지프
- 주어진
- 그래프
- 성장하는
- 있다
- he
- 도움이
- 그녀의
- 높은
- 그를
- 그의
- 주인
- 호스팅
- 방법
- How To
- HTML
- HTTPS
- 수백
- 확인
- if
- 설명하다
- 개선
- 개량
- 개량
- 개선
- in
- 포함
- 들어오는
- 증가
- 인도
- 예
- 인텔리전스
- 대화형
- 관심
- 으로
- IT
- 그
- JPG
- 유지
- 아이
- 언어
- 넓은
- 대기업
- 숨어 있음
- 최근
- 진수
- 지도
- 배우다
- 배우기
- 가장 작은
- 링크드인
- 삶
- 하중
- 롯
- 절감
- 기계
- 기계 학습
- 제작
- 관리
- 관리
- 매니저
- 태도
- XNUMX월..
- 측정
- 기구
- 밀리 초
- 분
- 회의록
- ML
- 모델
- 모델
- 모니터링
- 배우기
- 여러
- 신제품
- nlp
- 아니
- 지금
- 번호
- of
- 제공
- 자주
- on
- 운영
- 최적화
- 선택권
- or
- 조직
- 우리의
- 아웃
- 야외에서
- 외부
- 두드러진
- 위에
- 전체
- 매개 변수
- 특별한
- 열렬한
- 용
- 성능
- 식물
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 정책
- 가능한
- 게시하다
- 제시
- 교장
- 문제
- 프로덕트
- 제품 관리자
- 생산
- 프롬프트
- 닥치는대로의
- 이르기까지
- 차라리
- 실시간
- 받다
- 권하다
- 감소
- 참조
- 관계없이
- 관련
- 의뢰
- 요청
- 응답
- 응답
- 길
- 라우팅
- 달리기
- 현자
- 규모
- 모색
- 선택
- 연장자
- 서브
- 서비스
- 서비스
- 세트
- 설정
- 그녀
- 보여
- 표시
- 쇼
- 스마트 한
- 소프트웨어
- 소프트웨어 개발
- 솔루션
- 스패닝
- 신생
- 숙박
- 똑 바른
- 전략들
- 전략
- 이러한
- 지원
- 지원
- 시스템은
- 테이블
- 복용
- 이야기
- 팀
- Technology
- test
- 테스트
- 보다
- 그
- XNUMXD덴탈의
- 지역
- 그들의
- 그곳에.
- Bowman의
- 이
- 처리량
- 시간
- 에
- 교통
- 여행
- 트렌드
- 유형
- 사용자
- 사용
- 마케팅은:
- 변수
- 대단히
- 시력
- we
- 웹
- 웹 서비스
- 잘
- 했다
- 언제
- 어느
- 동안
- 의지
- 과
- 작업
- 일
- 워크 플로우
- 일하는
- 일
- 자신의
- 너의
- 제퍼 넷
- 지역