Amazon SageMaker의 모델 호스팅 패턴, 1부: Amazon SageMaker에서 ML 애플리케이션 구축을 위한 일반적인 디자인 패턴

플라톤에 의해 재발행

팔로워 : 0

ML(머신 러닝) 애플리케이션은 배포하기 복잡하고 하이퍼스케일 기능이 필요한 경우가 많으며 대기 시간이 매우 짧고 비용 예산이 엄격합니다. 사기 탐지, 제품 추천 및 트래픽 예측과 같은 사용 사례는 밀리초가 중요하고 비즈니스 성공에 중요한 예입니다. 엄격한 SLA(서비스 수준 계약)를 충족해야 하며 일반적인 요청에는 사전 처리, 데이터 변환, 기능 엔지니어링, 모델 선택 논리, 모델 집계 및 사후 처리와 같은 여러 단계가 필요할 수 있습니다.

최적화된 비용과 컴퓨팅 효율성으로 ML 모델을 대규모로 배포하는 것은 어렵고 번거로운 작업이 될 수 있습니다. 각 모델에는 기본 컴퓨팅 리소스의 CPU/GPU 성능과 같은 런타임 환경뿐만 아니라 외부 데이터 소스를 기반으로 고유한 장점과 종속성이 있습니다. 애플리케이션은 단일 추론 요청을 제공하기 위해 여러 ML 모델이 필요할 수 있습니다. 특정 시나리오에서는 요청이 여러 모델에 걸쳐 흐를 수 있습니다. 만병통치약은 없으며 ML 실무자는 반복되는 ML 호스팅 문제를 해결하기 위해 검증된 방법을 찾는 것이 중요합니다. 이로 인해 ML 모델 호스팅을 위한 디자인 패턴이 발전했습니다.

이 게시물에서는 ML 애플리케이션을 빌드하기 위한 일반적인 디자인 패턴을 살펴봅니다. 아마존 세이지 메이커.

ML 애플리케이션 구축을 위한 디자인 패턴

ML 애플리케이션 호스팅에 사용할 다음 디자인 패턴을 살펴보겠습니다.

단일 모델 기반 ML 애플리케이션

이는 ML 사용 사례에서 요청을 처리하기 위해 단일 모델이 필요한 경우 훌륭한 옵션입니다. 이 모델은 입력 트래픽을 기반으로 확장할 수 있는 전용 컴퓨팅 인프라에 배포됩니다. 이 옵션은 또한 클라이언트 애플리케이션에 지연 시간이 짧은(밀리초 또는 초 단위) 추론 요구 사항이 있는 경우에도 이상적입니다.

다중 모델 기반 ML 애플리케이션

보다 비용 효율적인 호스팅을 위해 이 디자인 패턴을 사용하면 동일한 테넌트 인프라에서 여러 모델을 호스팅할 수 있습니다. 여러 ML 모델은 가장 많이 사용되는 ML 모델을 메모리에 캐싱하는 것을 포함하여 호스트 또는 컨테이너 리소스를 공유할 수 있으므로 메모리 및 컴퓨팅 리소스를 더 잘 활용할 수 있습니다. 배포하기로 선택한 모델 유형에 따라 모델 공동 호스팅은 다음 방법을 사용할 수 있습니다.

다중 모델 호스팅 – 이 옵션을 사용하면 단일 엔드포인트에서 공유 서빙 컨테이너를 사용하여 여러 모델을 호스팅할 수 있습니다. 이 기능은 공유 서빙 컨테이너를 통해 제공할 수 있고 동시에 모든 모델에 액세스할 필요가 없는 유사한 모델이 많을 때 이상적입니다.
다중 컨테이너 호스팅 – 이 옵션은 유사한 리소스 요구 사항을 가진 서로 다른 서빙 스택에서 실행 중인 여러 모델이 있고 개별 모델에 엔드포인트 인스턴스의 전체 용량을 활용하기에 충분한 트래픽이 없을 때 이상적입니다. 다중 컨테이너 호스팅을 사용하면 단일 끝점에서 서로 다른 모델 또는 프레임워크를 사용하는 여러 컨테이너를 배포할 수 있습니다. 모델은 자체 독립 서빙 스택을 사용하여 완전히 이기종일 수 있습니다.
모델 앙상블 – 많은 프로덕션 사용 사례에서 주어진 다운스트림 모델에 입력을 제공하는 많은 업스트림 모델이 있을 수 있습니다. 이것은 앙상블이 유용한 곳입니다. 앙상블 패턴에는 하나 이상의 기본 모델의 혼합 출력이 포함되어 있습니다. 일반화 오류 예측의. 기본 모델은 다양할 수 있으며 다양한 알고리즘으로 훈련될 수 있습니다. 모델 앙상블은 앙상블 접근법을 사용할 때 모델의 예측 오차가 감소하기 때문에 단일 모델보다 성능이 우수할 수 있습니다.

다음은 앙상블 패턴 및 해당 디자인 패턴 다이어그램의 일반적인 사용 사례입니다.

흩어지다 – 산란-수집 패턴에서는 추론 요청이 여러 모델로 전달됩니다. 그런 다음 수집기를 사용하여 응답을 수집하고 단일 추론 응답으로 추출합니다. 예를 들어 이미지 분류 사용 사례는 세 가지 다른 모델을 사용하여 작업을 수행할 수 있습니다. 분산-수집 패턴을 사용하면 세 가지 다른 모델에서 실행된 추론의 결과를 결합하고 가장 가능성이 높은 분류 모델을 선택할 수 있습니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

모델 집계 – 집계 패턴에서는 여러 모델의 출력이 평균화됩니다. 분류 모델의 경우 여러 모델의 예측을 평가하여 가장 많은 표를 받은 클래스를 결정하고 앙상블의 최종 출력으로 처리합니다. 예를 들어 과일 세트를 오렌지나 사과로 분류하는 XNUMX클래스 분류 문제에서 두 모델이 오렌지에 투표하고 한 모델이 사과에 투표하면 집계된 출력은 오렌지가 됩니다. 집계는 개별 모델의 부정확성을 방지하고 출력을 더 정확하게 만드는 데 도움이 됩니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

동적 선택 – 앙상블 모델의 또 다른 패턴은 주어진 입력 속성에 대해 모델 선택을 동적으로 수행하는 것입니다. 예를 들어 주어진 과일 이미지 입력에서 입력에 오렌지가 포함되어 있으면 모델 A가 오렌지에 특화되어 있기 때문에 사용됩니다. 입력에 사과가 포함되어 있으면 사과에 특화된 모델 B가 사용됩니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

직렬 추론 ML 애플리케이션 – 추론 파이프라인이라고도 하는 직렬 추론 패턴을 사용하는 사용 사례에는 추론을 생성하기 위해 사전 훈련된 ML 모델을 호출하기 전에 수신 데이터를 사전 처리해야 하는 요구 사항이 있습니다. 또한 경우에 따라 생성된 추론을 추가로 처리해야 다운스트림 애플리케이션에서 쉽게 사용할 수 있습니다. 추론 파이프라인을 사용하면 모델 학습 중에 사용된 것과 동일한 전처리 코드를 재사용하여 예측에 사용된 추론 요청 데이터를 처리할 수 있습니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

비즈니스 로직 – ML 생산에는 항상 비즈니스 로직이 포함됩니다. 비즈니스 논리 패턴에는 ML 모델 추론이 아닌 ML 작업을 수행하는 데 필요한 모든 것이 포함됩니다. 여기에는 다음에서 모델을 로드하는 것이 포함됩니다. 아마존 단순 스토리지 서비스 (Amazon S3), 예를 들어 입력을 검증하기 위한 데이터베이스 조회, 기능 저장소에서 미리 계산된 기능 가져오기 등이 있습니다. 이러한 비즈니스 논리 단계가 완료되면 입력이 ML 모델로 전달됩니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ML 추론 옵션

모델 배포의 경우 사용 사례에서 거꾸로 작업하는 것이 중요합니다. 예측 빈도는 얼마입니까? 애플리케이션에 대한 실시간 트래픽과 클라이언트에 대한 실시간 응답을 기대하십니까? 동일한 사용 사례에 대해 서로 다른 데이터 하위 집합에 대해 훈련된 모델이 많이 있습니까? 예측 트래픽이 변동합니까? 추론 대기 시간이 문제입니까? 이러한 세부 정보를 기반으로 다음 배포 옵션을 사용하여 이전의 모든 디자인 패턴을 구현할 수 있습니다.

실시간 추론 – 실시간 추론은 지연 시간이 짧은 실시간 대화형 요구 사항이 있는 추론 워크로드에 이상적입니다. 실시간 ML 추론 워크로드에는 애플리케이션이 단일 요청을 처리하기 위해 하나의 ML 모델만 필요한 단일 모델 기반 ML 애플리케이션 또는 애플리케이션이 단일 요청을 처리하기 위해 여러 ML 모델이 필요한 다중 모델 기반 ML 애플리케이션이 포함될 수 있습니다. 요구.
거의 실시간(비동기) 추론 – 거의 실시간 추론을 통해 들어오는 요청을 대기열에 추가할 수 있습니다. 이는 수백 MB의 입력에 대한 추론을 실행하는 데 활용할 수 있습니다. 거의 실시간으로 작동하며 사용자가 추론을 위해 입력을 사용하고 S3 버킷에서 엔드포인트의 출력을 읽을 수 있습니다. 더 긴 사전 처리 시간이 필요한 대용량 페이로드가 있는 NLP 및 컴퓨터 비전의 경우 특히 유용할 수 있습니다.
배치 추론 – 대규모 데이터 세트에서 오프라인으로 추론을 실행하는 데 배치 추론을 활용할 수 있습니다. 오프라인으로 실행되기 때문에 배치 추론은 가장 낮은 대기 시간을 제공하지 않습니다. 여기에서 추론 요청은 배치 추론 작업의 예약된 트리거 또는 이벤트 기반 트리거로 처리됩니다.
서버리스 추론 – 서버리스 추론은 트래픽 급증 사이에 유휴 기간이 있고 유휴 기간 후 첫 번째 호출에 대해 몇 초의 추가 대기 시간(콜드 스타트)을 허용할 수 있는 워크로드에 이상적입니다. 예를 들어 양식을 처리하거나 문서의 데이터를 분석하는 챗봇 서비스 또는 애플리케이션이 있습니다. 이 경우 추론 요청의 양에 따라 컴퓨팅 용량을 자동으로 프로비저닝하고 확장할 수 있는 온라인 추론 옵션이 필요할 수 있습니다. 그리고 유휴 시간 동안에는 비용이 청구되지 않도록 컴퓨팅 용량을 완전히 끌 수 있어야 합니다. 서버리스 추론은 컴퓨팅 리소스를 자동으로 시작하고 트래픽에 따라 확장 및 축소하여 서버를 선택하고 관리하는 차별화되지 않은 무거운 작업을 제거합니다.

적합성 함수를 사용하여 올바른 ML 추론 옵션 선택

올바른 호스팅 옵션을 결정하는 것은 애플리케이션이 렌더링하는 최종 사용자에게 영향을 미치기 때문에 중요합니다. 이를 위해 다음과 같은 개념을 차용하고 있습니다. 피트니스 기능, AWS Partner ThoughtWorks의 Neal Ford와 그의 동료들이 작업에서 만든 것입니다. 진화하는 아키텍처 구축. 피트니스 기능은 고객의 목표에 따라 다양한 호스팅 옵션에 대한 규범적 평가를 제공합니다. 피트니스 기능은 아키텍처의 계획된 진화를 허용하는 데 필요한 데이터를 얻는 데 도움이 됩니다. 솔루션이 설정된 목표를 달성하는 데 얼마나 가까운지 평가하기 위해 측정 가능한 값을 설정합니다. 원하는 변경 프로세스를 안내하기 위해 아키텍처가 진화함에 따라 피트니스 기능을 조정할 수 있고 조정해야 합니다. 이는 설계자에게 팀 자율성을 유지하면서 팀을 안내하는 도구를 제공합니다.

ML 모델 및 애플리케이션을 호스팅하기 위한 올바른 ML 추론 옵션을 선택할 때 고객이 관심을 갖는 XNUMX가지 주요 피트니스 기능이 있습니다.

피트니스 기능	상품 설명
비용	확장 가능한 프레임워크에서 ML 모델 및 ML 애플리케이션을 배포하고 유지하는 것은 중요한 비즈니스 프로세스이며 비용은 모델 호스팅 인프라, 호스팅 옵션, ML 프레임워크, ML 모델 특성, 최적화, 확장 정책, 그리고 더. 워크로드는 하드웨어 인프라를 최적으로 활용하여 비용을 억제해야 합니다. 이 피트니스 기능은 특히 전체 총소유비용(TCO)의 일부인 인프라 비용을 나타냅니다. 인프라 비용은 스토리지, 네트워크 및 컴퓨팅 비용을 합한 것입니다. 운영 비용, 보안 및 규정 준수 비용을 포함하여 TCO의 다른 구성 요소를 이해하는 것도 중요합니다. 운영 비용은 ML 인프라 운영, 모니터링 및 유지 관리 비용을 합한 것입니다. 운영비는 각 시나리오에 따라 필요한 엔지니어 수와 엔지니어의 연봉을 특정 기간 동안 집계하여 계산됩니다. 자체 관리형 ML 솔루션을 사용하는 고객 아마존 엘라스틱 컴퓨트 클라우드 (아마존 EC2), Amazon 탄력적 컨테이너 서비스 (아마존 ECS) 및 Amazon Elastic Kubernetes 서비스 (Amazon EKS) 자체적으로 운영 도구를 구축해야 합니다. SageMaker를 사용하는 고객은 TCO가 훨씬 적습니다. SageMaker 추론은 완전 관리형 서비스이며 추론을 위해 ML 모델을 배포하기 위한 즉시 사용 가능한 기능을 제공합니다. 인스턴스를 프로비저닝하거나, 인스턴스 상태를 모니터링하거나, 보안 업데이트 또는 패치를 관리하거나, 운영 지표를 내보내거나, ML 추론 워크로드에 대한 모니터링을 구축할 필요가 없습니다. 고가용성과 탄력성을 보장하는 기능이 내장되어 있습니다. SageMaker는 루트 볼륨 및 아마존 엘라스틱 블록 스토어 (Amazon EBS) 볼륨, 아마존 가상 프라이빗 클라우드 (아마존 VPC) 지원, AWS 프라이빗링크, 고객 관리형 키, AWS 자격 증명 및 액세스 관리 (IAM) 세분화된 액세스 제어, AWS 클라우드 트레일 감사, 교육을 위한 노드 간 암호화, 태그 기반 액세스 제어, 네트워크 격리 및 대화형 애플리케이션 프록시. 이러한 모든 보안 기능은 SageMaker에서 기본적으로 제공되며 3년 동안 수십 개월의 개발 엔지니어링 노력을 절약할 수 있습니다. SageMaker는 HIPAA 적격 서비스이며 PCI, SOC, GDPR 및 ISO 인증을 받았습니다. SageMaker는 FIPS 엔드포인트도 지원합니다. TCO에 대한 자세한 내용은 다음을 참조하십시오. Amazon SageMaker의 총 소유 비용.
추론 대기 시간	많은 ML 모델 및 애플리케이션은 추론 대기 시간이 서비스 수준 목표에 지정된 범위 내에 있어야 하는 대기 시간이 중요합니다. 추론 대기 시간은 모델 크기 및 복잡성, 하드웨어 플랫폼, 소프트웨어 환경 및 네트워크 아키텍처를 비롯한 다양한 요인에 따라 달라집니다. 예를 들어 더 크고 복잡한 모델은 추론을 실행하는 데 더 오래 걸릴 수 있습니다.
처리량(초당 트랜잭션)	모델 추론의 경우 처리량 최적화는 성능 튜닝 및 ML 애플리케이션의 비즈니스 목표 달성에 매우 중요합니다. 칩 설계에서 낮은 수준의 수학적 연산 구현을 포함하여 ML의 모든 측면에서 빠르게 발전함에 따라 하드웨어별 라이브러리는 성능 최적화에서 더 큰 역할을 합니다. 페이로드 크기, 네트워크 홉, 홉의 특성, 모델 그래프 기능, 모델의 연산자, 모델 호스팅 인스턴스의 CPU, GPU 및 메모리 프로필과 같은 다양한 요소가 ML 모델의 처리량에 영향을 미칩니다.
구성 복잡성 확장	다양한 트래픽의 수요를 처리할 수 있는 확장 가능한 프레임워크에서 ML 모델 또는 애플리케이션을 실행하는 것이 중요합니다. 또한 CPU 및 GPU 리소스를 최대한 활용하고 컴퓨팅 리소스의 과잉 프로비저닝을 방지합니다.
예상 트래픽 패턴	ML 모델 또는 애플리케이션은 지속적인 실시간 라이브 트래픽에서 초당 수천 건의 주기적 최대 요청에 이르기까지, 드물고 예측할 수 없는 요청 패턴에서 더 큰 데이터 세트의 오프라인 일괄 요청에 이르기까지 다양한 트래픽 패턴을 가질 수 있습니다. ML 모델에 적합한 호스팅 옵션을 선택하려면 예상 트래픽 패턴에서 거꾸로 작업하는 것이 좋습니다.

SageMaker로 모델 배포

세이지 메이커 모든 개발자와 데이터 과학자에게 ML 모델을 대규모로 신속하게 구축, 교육 및 배포할 수 있는 기능을 제공하는 완전 관리형 AWS 서비스입니다. SageMaker 추론을 사용하면 호스팅된 엔드포인트에 ML 모델을 배포하고 추론 결과를 얻을 수 있습니다. SageMaker는 워크로드 요구 사항을 충족하는 다양한 하드웨어 및 기능을 제공하므로 하드웨어 가속을 통해 70개 이상의 인스턴스 유형을 선택할 수 있습니다. 워크로드에 가장 적합한 것이 무엇인지 확신할 수 없는 경우 SageMaker는 SageMaker Inference Recommender라는 새로운 기능을 사용하여 추론 인스턴스 유형 권장 사항을 제공할 수도 있습니다.

실시간 추론, 비동기식, 배치 및 서버리스 엔드포인트와 같은 사용 사례에 가장 적합한 배포 옵션을 선택할 수 있습니다. 또한 SageMaker는 카나리아, 블루 / 그린, 그림자, 모델 배포를 위한 A/B 테스트, 다중 모델, 다중 컨테이너 끝점 및 탄력적 확장을 통한 비용 효율적인 배포와 함께. SageMaker 추론을 사용하면 다음에서 엔드포인트에 대한 성능 지표를 볼 수 있습니다. 아마존 클라우드 워치, 끝점 자동 확장 트래픽을 기반으로 가용성을 잃지 않고 프로덕션에서 모델을 업데이트합니다.

SageMaker는 예측을 시작할 수 있도록 모델을 배포하는 네 가지 옵션을 제공합니다.

실시간 추론 – 지연 시간 요구 사항이 밀리초이고 페이로드 크기가 최대 6MB이고 처리 시간이 최대 60초인 워크로드에 적합합니다.
일괄 변환 – 이것은 미리 사용할 수 있는 대량의 데이터 배치에 대한 오프라인 예측에 이상적입니다.
비동기 추론 – 이것은 1초 미만의 대기 시간 요구 사항, 최대 15GB의 페이로드 크기 및 최대 XNUMX분의 처리 시간이 없는 워크로드용으로 설계되었습니다.
서버리스 추론 – 서버리스 추론을 사용하면 기본 인프라를 구성하거나 관리할 필요 없이 추론을 위해 ML 모델을 신속하게 배포할 수 있습니다. 또한 추론 요청을 처리하는 데 사용되는 컴퓨팅 용량에 대해서만 비용을 지불하면 간헐적 워크로드에 이상적입니다.

다음 다이어그램은 관련 피트니스 기능 평가와 함께 SageMaker 호스팅 모델 배포 옵션을 이해하는 데 도움이 될 수 있습니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

각 배포 옵션을 자세히 살펴보겠습니다.

SageMaker의 실시간 추론

SageMaker 실시간 추론은 트래픽이 지속되고 페이로드 크기가 최대 6MB이고 처리 시간이 최대 60초인 요청에 대해 더 낮고 일관된 지연 시간이 필요한 경우에 권장됩니다. 모델을 SageMaker 호스팅 서비스에 배포하고 추론에 사용할 수 있는 엔드포인트를 얻습니다. 이러한 엔드포인트는 완전 관리형이며 Auto Scaling을 지원합니다. 실시간 추론은 제품 및 서비스에 대한 개인화된 권장 사항 또는 거래 사기 감지 사용 사례와 같이 예측 가능한 트래픽 패턴을 사용하여 대기 시간이 짧은 동기식 응답을 기대하는 사용 사례에 널리 사용됩니다.

일반적으로 클라이언트 애플리케이션은 배포된 모델에서 추론을 얻기 위해 SageMaker HTTPS 엔드포인트에 요청을 보냅니다. 모델의 여러 변형을 동일한 SageMaker HTTPS 엔드포인트에 배포할 수 있습니다. 이는 프로덕션에서 모델의 변형을 테스트하는 데 유용합니다. Auto Scaling을 사용하면 워크로드의 변화에 따라 모델에 대해 프로비저닝된 인스턴스 수를 동적으로 조정할 수 있습니다.

다음 표는 피트니스 기능을 기반으로 SageMaker 실시간 추론을 평가하는 지침을 제공합니다.

피트니스 기능	상품 설명
비용	실시간 엔드포인트는 추론 요청에 동기식 응답을 제공합니다. 엔드포인트는 항상 실행 중이며 실시간 동기 추론 응답을 제공할 수 있으므로 인스턴스 사용에 대한 비용을 지불합니다. 특히 엔드포인트가 기본 인스턴스를 완전히 활용하지 않는 경우 여러 엔드포인트를 배포할 때 비용이 빠르게 증가할 수 있습니다. 모델에 적합한 인스턴스를 선택하면 모델에 대해 최저 비용으로 가장 성능이 좋은 인스턴스를 확보하는 데 도움이 됩니다. Auto Scaling은 트래픽에 따라 용량을 동적으로 조정하여 가능한 최저 비용으로 안정적이고 예측 가능한 성능을 유지하는 것이 좋습니다. SageMaker는 Graviton2 및 Graviton3 기반 ML 인스턴스 제품군에 대한 액세스를 확장합니다. AWS 그래비톤 프로세서는 Amazon EC64에서 실행되는 클라우드 워크로드에 최고의 가격 대비 성능을 제공하기 위해 2비트 Arm Neoverse 코어를 사용하여 Amazon Web Services에서 맞춤 제작됩니다. Graviton 기반 인스턴스를 사용하면 SageMaker에 ML 모델을 배포할 때 비용과 성능을 최적화하기 위한 더 많은 옵션이 있습니다. SageMaker는 다음도 지원합니다. Inf1 인스턴스, 고성능 및 비용 효율적인 ML 추론을 제공합니다. 1–16 AWS Inferentia 칩 인스턴스당 Inf1 인스턴스는 AWS GPU 기반 인스턴스에 비해 성능을 확장하고 최대 50배 높은 처리량과 최대 1% 낮은 추론당 비용을 제공할 수 있습니다. SageMaker에서 InfXNUMX 인스턴스를 사용하려면 다음을 사용하여 훈련된 모델을 컴파일할 수 있습니다. 아마존 세이지 메이커 네오 Inf1 인스턴스를 선택하여 SageMaker에 컴파일된 모델을 배포합니다. 당신은 또한 탐험 할 수 있습니다 SageMaker를 위한 저축 플랜 주문형 가격에 비해 최대 64%의 비용 절감 효과를 얻을 수 있습니다. 엔드포인트를 생성하면 SageMaker는 엔드포인트를 호스팅하는 각 ML 컴퓨팅 인스턴스에 EBS 스토리지 볼륨을 연결합니다. 스토리지 볼륨의 크기는 인스턴스 유형에 따라 다릅니다. 실시간 엔드포인트에 대한 추가 비용에는 프로비저닝된 스토리지의 GB-월 비용과 엔드포인트 인스턴스에서 처리된 GB 데이터 및 외부에서 처리된 GB 데이터가 포함됩니다.
추론 대기 시간	실시간 추론은 지연 시간 요구 사항이 밀리초인 영구 엔드포인트가 필요할 때 이상적입니다. 최대 6MB의 페이로드 크기와 최대 60초의 처리 시간을 지원합니다.
처리량	추론 처리량의 이상적인 값은 모델, 모델 입력 크기, 배치 크기 및 엔드포인트 인스턴스 유형과 같은 요인에 따라 달라집니다. 모범 사례로 입력 요청 및 리소스 사용률에 대한 CloudWatch 지표를 검토하고 최적의 처리량을 달성할 적절한 인스턴스 유형을 선택합니다. 비즈니스 애플리케이션은 처리량을 최적화하거나 대기 시간을 최적화할 수 있습니다. 예를 들어 동적 일괄 처리는 실시간 추론을 사용하여 대기 시간에 민감한 앱의 처리량을 높이는 데 도움이 될 수 있습니다. 그러나 추론 대기 시간에 영향을 줄 수 있는 배치 크기에는 제한이 있습니다. 처리량을 개선하기 위해 배치 크기를 늘리면 추론 대기 시간이 늘어납니다. 따라서 실시간 추론은 대기 시간에 민감한 애플리케이션에 이상적인 옵션입니다. SageMaker는 비즈니스 애플리케이션이 약간 더 높은 대기 시간을 허용할 수 있는 경우 실시간 추론에 비해 더 높은 처리량을 제공하도록 최적화된 비동기식 추론 및 배치 변환 옵션을 제공합니다.
구성 복잡성 확장	SageMaker 실시간 엔드포인트 지원 자동 스케일링 상자 밖으로. 워크로드가 증가하면 Auto Scaling이 더 많은 인스턴스를 온라인 상태로 만듭니다. 워크로드가 감소하면 Auto Scaling이 불필요한 인스턴스를 제거하여 컴퓨팅 비용을 줄이는 데 도움이 됩니다. Auto Scaling을 사용하지 않으면 최대 트래픽에 대비하여 프로비저닝하거나 모델을 사용할 수 없게 될 위험이 있습니다. 모델에 대한 트래픽이 하루 종일 일정하지 않으면 사용하지 않은 용량이 초과됩니다. 이로 인해 활용도가 낮아지고 리소스가 낭비됩니다. SageMaker를 사용하면 예상되는 트래픽 패턴에 따라 다양한 조정 옵션을 구성할 수 있습니다. 단순 조정 또는 대상 추적 조정은 특정 CloudWatch 지표를 기반으로 조정하려는 경우에 이상적입니다. 특정 메트릭을 선택하고 임계값을 설정하여 이를 수행할 수 있습니다. 이 옵션에 대한 권장 측정항목은 평균입니다. `CPUUtilization` or `SageMakerVariantInvocationsPerInstance`. 고급 구성이 필요한 경우 단계 조정 정책을 설정하여 경보 위반의 크기에 따라 조정할 인스턴스 수를 동적으로 조정할 수 있습니다. 이는 수요가 특정 수준에 도달했을 때 보다 공격적인 대응을 구성하는 데 도움이 됩니다. 수요가 일, 주, 월 또는 연도의 특정 일정을 따른다는 것을 알고 있는 경우 예약된 조정 옵션을 사용할 수 있습니다. 이렇게 하면 Auto Scaling 작업이 시작되고 중지되는 시점의 경계를 형성하는 시작 및 종료 시간과 함께 일회성 일정 또는 반복 일정 또는 cron 식을 지정하는 데 도움이 됩니다. 자세한 내용은 Amazon SageMaker에서 자동 확장 추론 엔드포인트 구성 와 자동 조정을 사용하여 Amazon SageMaker 엔드포인트 로드 테스트 및 최적화.
트래픽 패턴	실시간 추론은 지속적이거나 규칙적인 트래픽 패턴이 있는 워크로드에 이상적입니다.

SageMaker의 비동기식 추론

SageMaker 비동기 추론은 들어오는 요청을 대기열에 넣고 비동기식으로 처리하는 SageMaker의 새로운 기능입니다. 이 옵션은 큰 페이로드 크기(최대 1GB), 긴 처리 시간(최대 15분) 및 거의 실시간 대기 시간 요구 사항이 있는 요청에 이상적입니다. 비동기 추론을 위한 워크로드의 예로는 이상을 감지하기 위해 고해상도 생물 의학 이미지 또는 심초음파와 같은 비디오를 처리하는 의료 회사가 있습니다. 이러한 애플리케이션은 하루 중 서로 다른 시간에 들어오는 트래픽의 버스트를 수신하며 저렴한 비용으로 거의 실시간 처리가 필요합니다. 이러한 요청에 대한 처리 시간은 몇 분 정도 소요될 수 있으므로 실시간 추론을 실행할 필요가 없습니다. 대신 자동 대기열 및 사전 정의된 동시성 임계값을 사용하여 Amazon S3와 같은 객체 저장소에서 입력 페이로드를 비동기식으로 처리할 수 있습니다. 처리 시 SageMaker는 이전에 반환된 Amazon S3 위치에 추론 응답을 배치합니다. 선택적으로 다음을 통해 성공 또는 오류 알림을 받도록 선택할 수 있습니다. 아마존 단순 알림 서비스 (아마존 SNS).

다음 표는 피트니스 함수를 기반으로 SageMaker 비동기 추론을 평가하는 지침을 제공합니다.

피트니스 기능	상품 설명
비용	비동기식 추론은 대용량 페이로드 및 버스트 트래픽이 있는 비용에 민감한 워크로드에 적합합니다. 비동기식 추론을 사용하면 처리할 요청이 없을 때 인스턴스 수를 XNUMX으로 자동 조정하여 비용을 절감할 수 있으므로 엔드포인트가 요청을 처리할 때만 비용을 지불하면 됩니다. 인스턴스가 없을 때 수신된 요청은 엔드포인트가 확장된 후 처리를 위해 대기합니다.
추론 대기 시간	비동기식 추론은 실시간에 가까운 대기 시간 요구 사항에 이상적입니다. 요청은 대기열에 배치되고 컴퓨팅을 사용할 수 있는 즉시 처리됩니다. 이로 인해 일반적으로 수십 밀리초의 대기 시간이 발생합니다.
처리량	애플리케이션이 처리량을 저하시킬 필요가 없기 때문에 비동기 추론은 대기 시간에 민감하지 않은 사용 사례에 이상적입니다. 비동기 추론 엔드포인트는 요청을 삭제하지 않고 대기열에 넣기 때문에 트래픽 급증 시 요청이 삭제되지 않습니다.
구성 복잡성 확장	SageMaker 지원 자동 스케일링 비동기 엔드포인트용. 실시간 호스팅 엔드포인트와 달리 비동기 추론 엔드포인트는 최소 용량을 XNUMX으로 설정하여 인스턴스를 XNUMX으로 축소하는 것을 지원합니다. 비동기 엔드포인트의 경우 SageMaker는 배포된 모델(변형)에 대한 대상 추적 조정을 위한 정책 구성을 생성할 것을 강력히 권장합니다. 몇 분의 콜드 스타트 패널티를 허용할 수 있는 사용 사례의 경우 선택적으로 미해결 요청이 없을 때 엔드포인트 인스턴스 수를 XNUMX으로 축소하고 새 요청이 도착하면 다시 확장하여 해당 기간 동안만 비용을 지불할 수 있습니다. 엔드포인트가 요청을 적극적으로 처리하고 있습니다.
트래픽 패턴	비동기 엔드포인트는 들어오는 요청을 대기열에 넣고 비동기식으로 처리합니다. 간헐적이거나 드문 트래픽 패턴에 적합한 옵션입니다.

SageMaker의 배치 추론

SageMaker 배치 변환은 미리 사용할 수 있는 대규모 데이터 배치에 대한 오프라인 예측에 적합합니다. 일괄 변환 기능은 데이터를 변환하고 추론을 생성하기 위한 고성능 및 고처리량 방법입니다. 대량의 데이터 배치를 처리하거나, XNUMX초 미만의 대기 시간이 필요하지 않거나, 훈련 데이터를 사전 처리하고 변환해야 하는 시나리오에 이상적입니다. 광고, 마케팅 또는 의료와 같은 특정 영역의 고객은 종종 높은 처리량이 사용 사례의 목표이고 대기 시간이 문제가 되지 않는 하이퍼스케일 데이터 세트에 대해 오프라인 예측을 해야 하는 경우가 많습니다.

일괄 변환 작업이 시작되면 SageMaker는 컴퓨팅 인스턴스를 초기화하고 인스턴스 간에 추론 워크로드를 분산합니다. 작업이 완료되면 리소스를 해제하므로 작업 실행 중에 사용한 만큼만 비용을 지불하면 됩니다. 작업이 완료되면 SageMaker는 사용자가 지정한 S3 버킷에 예측 결과를 저장합니다. 배치 추론 작업은 일반적으로 수평 확장에 적합한 후보입니다. 클러스터 내의 각 작업자는 다른 작업자와 정보를 교환할 필요 없이 서로 다른 데이터 하위 집합에서 작업할 수 있습니다. AWS는 수평 확장을 지원하는 여러 스토리지 및 컴퓨팅 옵션을 제공합니다. SageMaker 배치 변환에 대한 예제 워크로드에는 오프라인 작업이 주기적으로 실행되도록 예약할 수 있는 고객 이탈을 예측하기 위한 은행 애플리케이션과 같은 오프라인 애플리케이션이 포함됩니다.

다음 표는 피트니스 함수를 기반으로 SageMaker 배치 변환을 평가하는 지침을 제공합니다.

피트니스 기능	상품 설명
비용	SageMaker 배치 변환을 사용하면 크거나 작은 배치 데이터 세트에서 예측을 실행할 수 있습니다. 사용 기간에 따라 선택한 인스턴스 유형에 대해 요금이 부과됩니다. SageMaker는 작업 시작 시 리소스 프로비저닝을 관리하고 작업이 완료되면 리소스를 해제합니다. 추가 데이터 처리 비용이 없습니다.
추론 대기 시간	이벤트 기반 또는 예약된 호출을 사용할 수 있습니다. 지연 시간은 추론 데이터의 크기, 작업 동시성, 모델의 복잡성 및 컴퓨팅 인스턴스 용량에 따라 달라질 수 있습니다.
처리량	일괄 변환 작업은 페타바이트 데이터에서 매우 작은 데이터 세트에 이르기까지 다양한 데이터 세트에서 수행할 수 있습니다. 더 큰 데이터 세트를 작은 데이터 청크로 크기를 조정할 필요가 없습니다. 다음과 같은 매개변수에 최적의 값을 사용하여 배치 변환 작업의 속도를 높일 수 있습니다. 최대 페이로드InMB, 최대동시변환및 배치 전략. 이상적인 가치 `MaxConcurrentTransforms` 일괄 변환 작업의 계산 작업자 수와 같습니다. 일괄 처리는 대기 시간을 희생하여 일정 시간 내에 많은 수의 추론을 완료하는 데 도움이 되므로 처리량을 늘리고 리소스를 최적화할 수 있습니다. 더 높은 처리량을 위해 모델 배포를 최적화하기 위한 일반적인 지침은 처리량이 감소할 때까지 배치 크기를 늘리는 것입니다.
구성 복잡성 확장	SageMaker 배치 변환은 지연 시간에 민감하지 않은 오프라인 추론에 사용됩니다.
트래픽 패턴	오프라인 추론의 경우 이벤트 기반 트리거를 사용하여 일괄 변환 작업이 예약되거나 시작됩니다.

SageMaker의 서버리스 추론

SageMaker 서버리스 추론을 사용하면 기본 인프라를 구성하거나 관리할 필요 없이 추론을 위해 ML 모델을 배포할 수 있습니다. 모델이 수신하는 추론 요청의 양에 따라 SageMaker 서버리스 추론은 컴퓨팅 용량을 자동으로 프로비저닝, 확장 및 끕니다. 따라서 유휴 시간이 아니라 추론 코드를 실행하는 컴퓨팅 시간과 처리된 데이터 양에 대해서만 비용을 지불하면 됩니다. SageMaker의 기본 제공 알고리즘 및 ML 프레임워크 제공 컨테이너를 사용하여 모델을 서버리스 추론 엔드포인트에 배포하거나 자체 컨테이너를 가져오도록 선택할 수 있습니다. 트래픽이 예측 가능하고 안정적이면 컨테이너 이미지를 변경할 필요 없이 서버리스 추론 엔드포인트에서 SageMaker 실시간 엔드포인트로 쉽게 업데이트할 수 있습니다. 서버리스 추론을 사용하면 호출 수, 결함, 지연 시간, 호스트 지표 및 CloudWatch의 오류와 같은 내장 지표를 포함하여 다른 SageMaker 기능의 이점도 얻을 수 있습니다.

다음 표는 피트니스 기능을 기반으로 SageMaker 서버리스 추론을 평가하는 지침을 제공합니다.

피트니스 기능	상품 설명
비용	사용량에 따라 지불하는 모델을 사용하는 서버리스 추론은 드물거나 간헐적인 트래픽 패턴이 있는 경우 비용 효율적인 옵션입니다. 엔드포인트가 요청을 처리하는 기간에 대해서만 비용을 지불하므로 트래픽 패턴이 간헐적인 경우 비용을 절약할 수 있습니다.
추론 대기 시간	서버리스 엔드포인트는 짧은 추론 대기 시간(밀리초에서 몇 초 정도)을 제공하며 사용 패턴에 따라 몇 초 안에 수십에서 수천 개의 추론으로 즉시 확장할 수 있으므로 간헐적이거나 예측할 수 없는 트래픽이 있는 ML 애플리케이션에 이상적입니다. 서버리스 엔드포인트는 온디맨드 컴퓨팅 리소스를 프로비저닝하기 때문에 유휴 기간 후 첫 번째 호출에 대해 엔드포인트에 몇 초의 추가 대기 시간(콜드 스타트)이 발생할 수 있습니다. 콜드 스타트 시간은 모델 크기, 모델을 다운로드하는 데 걸리는 시간, 컨테이너의 시작 시간에 따라 다릅니다.
처리량	서버리스 엔드포인트를 구성할 때 메모리 크기와 최대 동시 호출 수를 지정할 수 있습니다. SageMaker 서버리스 추론은 선택한 메모리에 비례하여 컴퓨팅 리소스를 자동 할당합니다. 더 큰 메모리 크기를 선택하면 컨테이너가 더 많은 vCPU에 액세스할 수 있습니다. 일반적으로 메모리 크기는 모델 크기 이상이어야 합니다. 선택할 수 있는 메모리 크기는 1024MB, 2048MB, 3072MB, 4096MB, 5120MB 및 6144MB입니다. 선택한 메모리 크기에 관계없이 서버리스 엔드포인트에는 5GB의 임시 디스크 스토리지가 있습니다.
구성 복잡성 확장	서버리스 엔드포인트는 컴퓨팅 리소스를 자동으로 시작하고 트래픽에 따라 확장 및 축소하므로 인스턴스 유형을 선택하거나 조정 정책을 관리할 필요가 없습니다. 이것은 서버를 선택하고 관리하는 차별화되지 않은 무거운 작업을 제거합니다.
트래픽 패턴	서버리스 추론은 트래픽 패턴이 드물거나 간헐적인 워크로드에 이상적입니다.

SageMaker의 모델 호스팅 디자인 패턴

SageMaker 추론 엔드포인트는 ML 모델 호스팅을 위해 Docker 컨테이너를 사용합니다. 컨테이너를 사용하면 Docker를 지원하는 모든 플랫폼에서 일관되게 실행되는 표준화된 단위로 소프트웨어를 패키징할 수 있습니다. 이를 통해 플랫폼 간의 이식성, 변경 불가능한 인프라 배포, 더 쉬운 변경 관리 및 CI/CD 구현이 보장됩니다. SageMaker는 Apache MXNet, TensorFlow, PyTorch, Sklearn 및 Hugging Face와 같은 널리 사용되는 프레임워크를 위한 사전 구축된 관리형 컨테이너를 제공합니다. 사용 가능한 SageMaker 컨테이너 이미지의 전체 목록은 다음을 참조하십시오. 사용 가능한 딥 러닝 컨테이너 이미지. SageMaker에 지원되는 컨테이너가 없는 경우 고유한 컨테이너(BYOC)를 구축하고 고유한 사용자 지정 이미지를 푸시하여 모델에 필요한 종속성을 설치할 수도 있습니다.

SageMaker에서 모델을 배포하려면 컨테이너(SageMaker 관리형 프레임워크 컨테이너 또는 BYOC)와 컨테이너를 호스팅할 컴퓨팅 인스턴스가 필요합니다. SageMaker는 모델이 단일 컨테이너에서 호스팅되거나 공유 컨테이너에서 공동 호스팅될 수 있는 공통 ML 모델 호스팅 디자인 패턴에 대한 여러 고급 옵션을 지원합니다.

실시간 ML 애플리케이션은 단일 모델 또는 여러 모델을 사용하여 단일 예측 요청을 제공할 수 있습니다. 다음 다이어그램은 ML 애플리케이션에 대한 다양한 추론 시나리오를 보여줍니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

앞의 각 추론 시나리오에 적합한 SageMaker 호스팅 옵션을 살펴보겠습니다. 피트니스 기능을 참조하여 주어진 사용 사례에 적합한 옵션인지 평가할 수 있습니다.

단일 모델 기반 ML 애플리케이션 호스팅

배포 시나리오에 따라 SageMaker 호스팅 서비스를 사용하여 단일 모델 기반 ML 애플리케이션을 호스팅하는 몇 가지 옵션이 있습니다.

단일 모델 끝점

SageMaker 단일 모델 엔드포인트를 사용하면 짧은 지연 시간과 높은 처리량을 위해 전용 인스턴스에서 호스팅되는 컨테이너에서 하나의 모델을 호스팅할 수 있습니다. 이러한 엔드포인트는 완전 관리형이며 Auto Scaling을 지원합니다. 인스턴스 유형 및 개수와 같은 엔드포인트 인프라 구성을 전달하는 프로비저닝된 엔드포인트 또는 SageMaker가 자동으로 컴퓨팅 리소스를 시작하고 트래픽에 따라 확장 및 축소하는 서버리스 엔드포인트로 단일 모델 엔드포인트를 구성할 수 있습니다. 인스턴스 유형을 선택하거나 조정 정책을 관리합니다. 서버리스 엔드포인트는 트래픽이 간헐적이거나 예측할 수 없는 애플리케이션을 위한 것입니다.

다음 다이어그램은 단일 모델 엔드포인트 추론 시나리오를 보여줍니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

다음 표는 프로비저닝된 단일 모델 엔드포인트에 대한 피트니스 기능 평가에 대한 지침을 제공합니다. 서버리스 엔드포인트 피트니스 기능 평가에 대해서는 이 게시물의 서버리스 엔드포인트 섹션을 참조하십시오.

피트니스 기능	상품 설명
비용	선택한 인스턴스 유형의 사용에 대해 요금이 부과됩니다. 엔드포인트가 항상 실행되고 사용 가능하기 때문에 비용이 빠르게 합산될 수 있습니다. 모델에 적합한 인스턴스를 선택하면 모델에 대해 최저 비용으로 가장 성능이 좋은 인스턴스를 확보하는 데 도움이 됩니다. Auto Scaling은 트래픽에 따라 용량을 동적으로 조정하여 가능한 최저 비용으로 안정적이고 예측 가능한 성능을 유지하는 것이 좋습니다.
추론 대기 시간	단일 모델 엔드포인트는 밀리초 대기 시간 요구 사항과 함께 실시간 대화형 동기 추론을 제공합니다.
처리량	처리량은 모델 입력 크기, 배치 크기, 엔드포인트 인스턴스 유형 등과 같은 다양한 요인의 영향을 받을 수 있습니다. 입력 요청 및 리소스 활용에 대한 CloudWatch 지표를 검토하고 최적의 처리량을 달성하기 위해 적절한 인스턴스 유형을 선택하는 것이 좋습니다. SageMaker는 ML 모델을 배포할 때 리소스를 관리하고 추론 성능을 최적화하는 기능을 제공합니다. 당신은 할 수 있습니다 Neo를 사용하여 모델 성능 최적화또는 엔드포인트용 GPU 인스턴스를 사용하여 SageMaker 호스팅 모델의 처리량을 개선하려면 Inf1 인스턴스를 사용하십시오.
구성 복잡성 확장	자동 스케일링은 기본적으로 지원됩니다. SageMaker는 적절한 선택을 권장합니다. 스케일링 구성 수행함으로써 부하 테스트.
트래픽 패턴	단일 모델 엔드포인트는 트래픽 패턴을 예측할 수 있는 워크로드에 이상적입니다.

여러 모델 공동 호스팅

많은 수의 모델을 처리할 때 전용 컨테이너 및 인스턴스가 있는 개별 엔드포인트에 각 모델을 배포하면 비용이 크게 증가할 수 있습니다. 또한 특히 모든 모델을 동시에 호출할 필요는 없지만 항상 사용할 수 있어야 하는 경우 프로덕션 환경에서 너무 많은 모델을 관리하기가 어려워집니다. 동일한 기본 컴퓨팅 리소스에서 여러 모델을 공동 호스팅하면 ML 배포를 규모에 맞게 쉽게 관리할 수 있고 엔드포인트 및 기본 컴퓨팅 리소스의 사용량 증가를 통해 호스팅 비용을 낮출 수 있습니다. SageMaker는 동종 모델용 다중 모델 엔드포인트(MME) 및 이기종 모델용 다중 컨테이너 엔드포인트(MCE)와 같은 고급 모델 공동 호스팅 옵션을 지원합니다. 동종 모델은 공유 서비스 컨테이너에서 동일한 ML 프레임워크를 사용하는 반면, 이기종 모델에서는 단일 엔드포인트에서 서로 다른 모델 또는 프레임워크를 사용하는 여러 제공 컨테이너를 배포할 수 있습니다.

다음 다이어그램은 SageMaker를 사용하는 모델 공동 호스팅 옵션을 보여줍니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

SageMaker 다중 모델 끝점

세이지 메이커 MME 단일 엔드포인트에서 공유 서빙 컨테이너를 사용하여 여러 모델을 호스팅할 수 있습니다. 이는 동일한 사용 사례, 프레임워크 또는 추론 논리에 맞는 많은 수의 모델을 배포하는 확장 가능하고 비용 효율적인 솔루션입니다. MME는 호출자가 호출한 모델을 기반으로 동적으로 요청을 처리할 수 있습니다. 또한 SageMaker가 모델 로드를 메모리에 관리하고 트래픽 패턴에 따라 모델을 확장하기 때문에 배포 오버헤드도 줄어듭니다. 이 기능은 공유 서빙 컨테이너를 통해 제공할 수 있고 동시에 모든 모델에 액세스할 필요가 없는 유사한 모델이 많을 때 이상적입니다. 다중 모델 엔드포인트는 또한 모델 전체에서 메모리 리소스의 시분할을 가능하게 합니다. 이는 모델의 크기와 호출 대기 시간이 상당히 비슷할 때 가장 잘 작동하여 MME가 모든 모델에서 인스턴스를 효과적으로 사용할 수 있습니다. SageMaker MME는 CPU 및 GPU 지원 모델 호스팅을 모두 지원합니다. GPU 지원 모델을 사용하면 엔드포인트 및 기본 가속 컴퓨팅 인스턴스의 사용량 증가를 통해 모델 배포 비용을 낮출 수 있습니다. MME의 실제 사용 사례는 다음을 참조하십시오. 다중 테넌트 SaaS 사용 사례에 대한 기계 학습 추론을 확장하는 방법.

다음 표는 MME의 적합성 기능 평가에 대한 지침을 제공합니다.

피트니스 기능	상품 설명
비용	MME는 공유 서빙 컨테이너를 사용하여 단일 엔드포인트에서 수천 개의 모델을 호스팅할 수 있습니다. 이는 단일 모델 엔드포인트를 사용하는 것과 비교하여 엔드포인트 활용도를 개선하여 호스팅 비용을 크게 줄입니다. 예를 들어 ml.c10.large 인스턴스를 사용하여 배포할 모델이 5개 있는 경우 SageMaker 가격, 10개의 단일 모델 영구 엔드포인트를 갖는 비용은 10 * $0.102 = 시간당 $1.02입니다. 반면 하나의 MME가 10개 모델을 호스팅하면 10배의 비용 절감 효과를 얻을 수 있습니다: 1 * $0.102 = 시간당 $0.102.
추론 대기 시간	기본적으로 MME는 자주 사용하는 모델을 메모리와 디스크에 캐시하여 지연 시간이 짧은 추론을 제공합니다. 캐시된 모델은 새로 대상이 지정된 모델을 수용하기 위해 컨테이너의 메모리나 디스크 공간이 부족할 때만 디스크에서 언로드되거나 삭제됩니다. MME는 모델의 지연 로딩을 허용합니다. 즉, 모델이 처음 호출될 때 메모리에 로드됩니다. 이렇게 하면 메모리 활용이 최적화됩니다. 그러나 첫 번째 로드 시 응답 시간 스파이크가 발생하여 콜드 스타트 문제가 발생합니다. 따라서 MME는 자주 사용되지 않는 모델을 호출할 때 발생하는 가끔 콜드 스타트 관련 대기 시간 패널티를 허용할 수 있는 시나리오에도 매우 적합합니다. ML 애플리케이션의 지연 시간 및 처리량 목표를 충족하려면 GPU 인스턴스가 CPU 인스턴스보다 선호됩니다(GPU가 제공하는 계산 능력을 고려할 때). GPU에 대한 MME 지원을 통해 하나의 SageMaker 엔드포인트 뒤에 수천 개의 딥 러닝 모델을 배포할 수 있습니다. MME는 GPU 코어에서 여러 모델을 실행하고, 여러 모델에서 엔드포인트 뒤에서 GPU 인스턴스를 공유하고, 들어오는 트래픽을 기반으로 모델을 동적으로 로드 및 언로드할 수 있습니다. 이를 통해 비용을 크게 절감하고 최고의 가격 대비 성능을 얻을 수 있습니다. 사용 사례에 상당히 높은 TPS(초당 트랜잭션) 또는 대기 시간 요구 사항이 필요한 경우 전용 엔드포인트에서 모델을 호스팅하는 것이 좋습니다.
처리량	MME 추론 처리량의 이상적인 값은 모델, 페이로드 크기 및 엔드포인트 인스턴스 유형과 같은 요소에 따라 다릅니다. 더 많은 양의 인스턴스 메모리를 사용하면 더 많은 모델을 로드하고 추론 요청을 처리할 수 있습니다. 모델을 로드하는 데 시간을 낭비할 필요가 없습니다. 더 많은 양의 vCPU를 사용하면 더 많은 고유한 모델을 동시에 호출할 수 있습니다. MME는 I/O 성능에 영향을 미칠 수 있는 인스턴스 메모리에서 모델을 동적으로 로드 및 언로드합니다. GPU가 있는 SageMaker MME는 다음을 사용하여 작동합니다. NVIDIA Triton 추론 서버는 추론 서비스 프로세스를 간소화하고 높은 추론 성능을 제공하는 오픈 소스 추론 서비스 소프트웨어입니다. SageMaker는 모델을 GPU 가속 인스턴스의 NVIDIA Triton 컨테이너 메모리에 로드하고 추론 요청을 처리합니다. GPU 코어는 인스턴스의 모든 모델에서 공유됩니다. 모델이 이미 컨테이너 메모리에 로드된 경우 SageMaker가 모델을 다시 다운로드하고 로드할 필요가 없기 때문에 후속 요청이 더 빠르게 처리됩니다. 성공적인 프로덕션 배포를 위해서는 적절한 성능 테스트 및 분석이 권장됩니다. SageMaker는 다중 모델 엔드포인트에 대한 CloudWatch 지표를 제공하므로 엔드포인트 사용량과 캐시 적중률을 파악하여 엔드포인트를 최적화할 수 있습니다.
구성 복잡성 확장	SageMaker 다중 모델 엔드포인트는 트래픽 패턴에 따라 모델이 확장되도록 모델의 복제본을 관리하는 Auto Scaling을 완벽하게 지원합니다. 그러나 엔드포인트 자동 확장을 위한 인스턴스의 최적 크기를 결정하기 위해 적절한 부하 테스트를 수행하는 것이 좋습니다. 너무 많은 모델이 언로드되는 것을 방지하려면 MME 플릿의 크기를 적절하게 조정하는 것이 중요합니다. 몇 개의 더 큰 인스턴스에 수백 개의 모델을 로드하면 경우에 따라 제한이 발생할 수 있으며 점점 더 작은 인스턴스를 사용하는 것이 좋습니다. SageMaker에서 자동화된 모델 확장을 활용하려면 다음이 있는지 확인하십시오. 인스턴스 Auto Scaling 설정 추가 인스턴스 용량을 프로비저닝합니다. 사용자 정의 매개변수 또는 분당 호출(권장)로 엔드포인트 수준 조정 정책을 설정하여 엔드포인트 플릿에 더 많은 인스턴스를 추가하십시오. 자동 스케일링 이벤트를 트리거하는 데 사용되는 호출 비율은 엔드포인트에서 제공하는 전체 모델 세트에 대한 예측 집계 세트를 기반으로 합니다.
트래픽 패턴	MME는 공유 서빙 컨테이너를 통해 제공할 수 있고 동시에 모든 모델에 액세스할 필요가 없는 비슷한 크기의 모델이 많을 때 이상적입니다.

SageMaker 다중 컨테이너 엔드포인트

세이지 메이커 MCE 단일 엔드포인트에서 서로 다른 모델 또는 프레임워크를 사용하는 최대 15개의 컨테이너 배포를 지원하고 지연 시간이 짧은 추론 및 비용 절감을 위해 독립적으로 또는 순차적으로 호출합니다. 모델은 자체 독립 서빙 스택을 사용하여 완전히 이기종일 수 있습니다. 단일 인스턴스에서 서로 다른 프레임워크의 여러 모델을 안전하게 호스팅하면 비용을 최대 90%까지 절약할 수 있습니다.

MCE 호출 패턴은 다음과 같습니다.

추론 파이프라인 – MME의 컨테이너는 선형 시퀀스로 호출될 수 있습니다. 직렬 추론 파이프라인. 일반적으로 전처리, 모델 추론 및 후처리를 독립적인 컨테이너로 분리하는 데 사용됩니다. 현재 컨테이너의 출력은 다음 컨테이너의 입력으로 전달됩니다. SageMaker에서 단일 파이프라인 모델로 표시됩니다. 추론 파이프라인은 MME로 배포할 수 있으며 파이프라인의 컨테이너 중 하나는 호출되는 모델을 기반으로 요청을 동적으로 처리할 수 있습니다.
직접 호출 –와 직접 호출, MCE에서 호스팅되는 특정 추론 컨테이너로 요청을 보낼 수 있습니다.

다음 표는 MCE의 적합성 기능 평가에 대한 지침을 제공합니다.

피트니스 기능	상품 설명
비용	MCE를 사용하면 단일 엔드포인트에서 최대 15개의 서로 다른 ML 컨테이너를 실행하고 독립적으로 호출할 수 있으므로 비용이 절감됩니다. 이 옵션은 유사한 리소스 요구 사항을 가진 서로 다른 서빙 스택에서 실행 중인 여러 모델이 있고 개별 모델에 엔드포인트 인스턴스의 전체 용량을 활용하기에 충분한 트래픽이 없을 때 이상적입니다. 따라서 MCE는 단일 모델 엔드포인트보다 비용 효율적입니다. MCE는 동기식 추론 응답을 제공합니다. 즉, 엔드포인트를 항상 사용할 수 있으며 인스턴스 가동 시간에 대한 비용을 지불합니다. 비용은 인스턴스의 수와 유형에 따라 합산될 수 있습니다.
추론 대기 시간	MCE는 자주 액세스하지 않지만 여전히 짧은 대기 시간 추론이 필요한 각 모델에 대해 서로 다른 ML 프레임워크 및 알고리즘으로 ML 앱을 실행하는 데 이상적입니다. 이 모델은 지연 시간이 짧은 추론에 항상 사용할 수 있으며 콜드 스타트 문제가 없습니다.
처리량	MCE는 다중 컨테이너 엔드포인트에서 최대 15개의 컨테이너로 제한되며 리소스 경합으로 인해 GPU 추론이 지원되지 않습니다. 직접 호출 모드를 사용하는 다중 컨테이너 엔드포인트의 경우 SageMaker는 다른 일반 엔드포인트와 마찬가지로 인스턴스 수준 지표를 제공할 뿐만 아니라 컨테이너당 지표도 지원합니다. 모범 사례로서 입력 요청 및 리소스 활용에 대한 CloudWatch 지표를 검토하고 최적의 처리량을 달성하기 위해 적절한 인스턴스 유형을 선택하십시오.
구성 복잡성 확장	MCE는 자동 크기 조정을 지원합니다. 그러나 자동 조정을 구성하려면 각 컨테이너의 모델이 각 추론 요청에서 유사한 CPU 사용률 및 대기 시간을 나타내는 것이 좋습니다. 이는 다중 컨테이너 엔드포인트에 대한 트래픽이 CPU 사용률이 낮은 모델에서 CPU 사용률이 높은 모델로 전환되지만 전체 호출 볼륨이 동일하게 유지되고 엔드포인트가 확장되지 않고 충분한 인스턴스가 없을 수 있기 때문에 권장됩니다. 높은 CPU 사용률 모델에 대한 모든 요청을 처리합니다.
트래픽 패턴	MCE는 엔드포인트 인스턴스의 전체 용량을 포화시키기에 트래픽이 충분하지 않을 수 있는 다양한 프레임워크(예: TensorFlow, PyTorch 또는 Sklearn)에서 모델을 호스팅하기 위해 지속적이거나 규칙적인 트래픽 패턴이 있는 워크로드에 이상적입니다.

다중 모델 기반 ML 애플리케이션 호스팅

많은 비즈니스 애플리케이션은 소비자에게 단일 예측 요청을 제공하기 위해 여러 ML 모델을 사용해야 합니다. 예를 들어 사용자에게 권장 사항을 제공하려는 소매 회사입니다. 이 사용 사례의 ML 애플리케이션은 다양한 제품 범주를 추천하기 위해 다양한 사용자 지정 모델을 사용하려고 할 수 있습니다. 회사에서 개인 사용자 정보를 활용하여 추천에 개인화를 추가하려는 경우 맞춤형 모델의 수는 더욱 늘어납니다. 개별 컴퓨팅 인스턴스에서 각 사용자 지정 모델을 호스팅하면 비용이 많이 들 뿐만 아니라 모든 모델이 자주 사용되지 않는 경우 호스팅 리소스의 활용도가 낮아집니다. SageMaker는 다중 모델 기반 ML 애플리케이션을 위한 효율적인 호스팅 옵션을 제공합니다.

다음 다이어그램은 SageMaker를 사용하는 단일 엔드포인트에 대한 다중 모델 호스팅 옵션을 보여줍니다.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

직렬 추론 파이프라인

추론 파이프라인은 데이터에 대한 추론 요청을 처리하는 2~15개 컨테이너의 선형 시퀀스로 구성된 SageMaker 모델입니다. 추론 파이프라인을 사용하여 사전 훈련된 SageMaker 기본 제공 알고리즘과 Docker 컨테이너에 패키징된 사용자 지정 알고리즘의 모든 조합을 정의하고 배포합니다. 추론 파이프라인을 사용하여 전처리, 예측 및 후처리 데이터 과학 작업을 결합할 수 있습니다. 한 컨테이너의 출력은 다음 컨테이너의 입력으로 전달됩니다. 파이프라인 모델에 대한 컨테이너를 정의할 때 컨테이너가 실행되는 순서도 지정합니다. SageMaker에서 단일 파이프라인 모델로 표시됩니다. 추론 파이프라인은 MME로 배포할 수 있으며 파이프라인의 컨테이너 중 하나는 호출되는 모델을 기반으로 요청을 동적으로 처리할 수 있습니다. 당신은 또한 실행할 수 있습니다 일괄 변환 추론 파이프라인이 있는 작업. 추론 파이프라인은 완전히 관리됩니다.

다음 표는 직렬 추론 파이프라인을 사용하여 ML 모델 호스팅을 위한 피트니스 함수를 평가하는 방법에 대한 지침을 제공합니다.

피트니스 기능	상품 설명
비용	직렬 추론 파이프라인을 사용하면 단일 엔드포인트에서 최대 15개의 서로 다른 ML 컨테이너를 실행할 수 있으므로 추론 컨테이너 호스팅의 비용 효율성이 높아집니다. 이 기능을 사용하기 위한 추가 비용은 없습니다. 엔드포인트에서 실행되는 인스턴스에 대해서만 비용을 지불합니다. 비용은 인스턴스의 수와 유형에 따라 합산될 수 있습니다.
추론 대기 시간	ML 애플리케이션이 추론 파이프라인으로 배포되면 서로 다른 모델 간의 데이터가 컨테이너 공간을 벗어나지 않습니다. 컨테이너가 동일한 EC2 인스턴스에 함께 위치하기 때문에 기능 처리 및 추론이 낮은 대기 시간으로 실행됩니다.
처리량	추론 파이프라인 모델 내에서 SageMaker는 일련의 HTTP 요청으로 호출을 처리합니다. 파이프라인의 첫 번째 컨테이너가 초기 요청을 처리한 다음 파이프라인의 각 컨테이너에 대해 중간 응답이 두 번째 컨테이너에 대한 요청으로 전송됩니다. SageMaker는 클라이언트에 최종 응답을 반환합니다. 처리량은 모델, 모델 입력 크기, 배치 크기 및 엔드포인트 인스턴스 유형과 같은 요인에 따라 달라집니다. 모범 사례로 입력 요청 및 리소스 사용률에 대한 CloudWatch 지표를 검토하고 최적의 처리량을 달성할 적절한 인스턴스 유형을 선택합니다.
구성 복잡성 확장	직렬 추론 파이프라인은 자동 확장을 지원합니다. 그러나 자동 조정을 구성하려면 각 컨테이너의 모델이 각 추론 요청에서 유사한 CPU 사용률 및 대기 시간을 나타내는 것이 좋습니다. 이는 다중 컨테이너 엔드포인트에 대한 트래픽이 낮은 CPU 사용률 모델에서 높은 CPU 사용률 모델로 전환되지만 전체 호출 볼륨이 동일하게 유지되는 경우 엔드포인트가 확장되지 않고 충분한 인스턴스가 없을 수 있기 때문에 권장됩니다. 높은 CPU 사용률 모델에 대한 모든 요청을 처리합니다.
트래픽 패턴	직렬 추론 파이프라인은 동일한 엔드포인트에서 순차적으로 실행되는 모델을 사용하여 예측 가능한 트래픽 패턴에 이상적입니다.

모델 앙상블 배포(Triton DAG):

SageMaker는 다음과의 통합을 제공합니다. NVIDIA Triton 추론 서버 을 통하여 Triton 추론 서버 컨테이너. 이러한 컨테이너에는 NVIDIA Triton Inference Server, 일반 ML 프레임워크 지원, SageMaker에서 성능을 최적화할 수 있는 유용한 환경 변수가 포함됩니다. NVIDIA Triton 컨테이너 이미지를 사용하면 ML 모델을 쉽게 제공하고 NVIDIA Triton에서 제공하는 성능 최적화, 동적 배치 및 다중 프레임워크 지원의 이점을 누릴 수 있습니다. Triton은 GPU와 CPU의 활용도를 극대화하여 추론 비용을 더욱 낮춥니다.

ML 애플리케이션이 예측 요청을 제공하기 위해 여러 모델을 사용하는 비즈니스 사용 사례에서 각 모델이 다른 프레임워크를 사용하거나 별도의 인스턴스에서 호스팅되는 경우 워크로드와 비용이 증가하고 전체 대기 시간이 증가할 수 있습니다. SageMaker NVIDIA Triton 추론 서버는 TensorFlow GraphDef, TensorFlow SavedModel, ONNX, PyTorch TorchScript, TensorRT 및 Python/C++ 모델 형식 등과 같은 모든 주요 프레임워크의 모델 배포를 지원합니다. Triton 모델 앙상블은 하나 이상의 모델 또는 전처리 및 후처리 논리의 파이프라인과 이들 사이의 입력 및 출력 텐서 연결을 나타냅니다. 앙상블에 대한 단일 추론 요청은 전체 파이프라인의 실행을 트리거합니다. 또한 Triton에는 개별 추론 요청을 결합하여 추론 처리량을 개선하는 여러 내장 스케줄링 및 일괄 처리 알고리즘이 있습니다. 이러한 스케줄링 및 일괄 처리 결정은 추론을 요청하는 클라이언트에게 투명합니다. 이 모델은 유연성을 극대화하고 이기종 컴퓨팅 요구 사항을 지원하기 위해 CPU 또는 GPU에서 실행할 수 있습니다.

다중 모델 엔드포인트에서 다중 GPU 지원 모델 호스팅은 다음을 통해 지원됩니다. SageMaker Triton 추론 서버. NVIDIA Triton Inference Server는 다음을 구현하도록 확장되었습니다. MME API 계약, MME와 통합합니다. 다양한 프레임워크 백엔드에 대한 모델 리포지토리 구성을 생성하는 NVIDIA Triton Inference Server를 사용하여 Auto Scaling으로 MME를 배포할 수 있습니다. 이 기능을 사용하면 AI 애플리케이션의 고유한 최종 사용자 경험에 맞게 미세 조정된 수백 개의 초개인화된 모델을 확장할 수 있습니다. 또한 이 기능을 사용하여 분수형 GPU를 사용하는 추론 애플리케이션에 필요한 가격 대비 성능을 얻을 수 있습니다. 자세한 내용은 다음을 참조하십시오. Amazon SageMaker 다중 모델 엔드포인트를 사용하여 GPU에서 여러 딥 러닝 모델 실행.

다음 표는 Triton 추론 컨테이너에서 GPU를 지원하는 MME를 사용하여 ML 모델 호스팅을 위한 적합성 함수를 평가하는 방법에 대한 지침을 제공합니다. 단일 모델 엔드포인트 및 서버리스 엔드포인트 적합성 기능 평가에 대해서는 이 게시물의 이전 섹션을 참조하십시오.

피트니스 기능	상품 설명
비용	Triton Inference Server를 사용하여 GPU를 지원하는 SageMaker MME는 하나의 SageMaker 엔드포인트 뒤에 다수의 딥 러닝 모델을 배포할 수 있는 확장 가능하고 비용 효율적인 방법을 제공합니다. MME를 사용하면 여러 모델이 엔드포인트 뒤에서 GPU 인스턴스를 공유합니다. 이를 통해 선형적으로 증가하는 여러 모델 호스팅 비용을 줄이고 모든 모델에서 인프라를 재사용할 수 있습니다. 인스턴스 가동 시간에 대해 비용을 지불합니다.
추론 대기 시간	Triton Inference Server가 포함된 SageMaker는 초저(한 자릿수 밀리초) 추론 지연 시간으로 처리량과 하드웨어 활용도를 극대화하도록 특별히 제작되었습니다. 지원되는 광범위한 ML 프레임워크(TensorFlow, PyTorch, ONNX, XGBoost 및 NVIDIA TensorRT 포함)와 NVIDIA GPU, CPU 및 AWS 인 페렌 시아. SageMaker Triton Inference Server를 사용하는 GPU에 대한 MME 지원을 통해 하나의 SageMaker 엔드포인트 뒤에 수천 개의 딥 러닝 모델을 배포할 수 있습니다. SageMaker는 모델을 GPU 가속 인스턴스의 NVIDIA Triton 컨테이너 메모리에 로드하고 추론 요청을 처리합니다. GPU 코어는 인스턴스의 모든 모델에서 공유됩니다. 모델이 이미 컨테이너 메모리에 로드된 경우 SageMaker가 모델을 다시 다운로드하고 로드할 필요가 없기 때문에 후속 요청이 더 빠르게 처리됩니다.
처리량	MME는 Triton Inference Server를 사용하여 동시에 GPU에서 여러 딥 러닝 또는 ML 모델을 실행할 수 있는 기능을 제공합니다. 이를 통해 SageMaker 완전 관리형 모델 배포와 함께 제공되는 NVIDIA Triton 다중 프레임워크, 고성능 추론을 쉽게 사용할 수 있습니다. Triton은 모든 NVIDIA GPU, x86, Arm® CPU 및 AWS Inferentia 기반 추론을 지원합니다. 동적 일괄 처리, 동시 실행, 최적의 모델 구성, 모델 앙상블, 스트리밍 오디오 및 비디오 입력을 제공하여 처리량과 활용도를 극대화합니다. 네트워크 및 페이로드 크기와 같은 다른 요인은 추론과 관련된 오버헤드에서 최소한의 역할을 할 수 있습니다.
구성 복잡성 확장	MME는 Auto Scaling 정책을 사용하여 수평으로 확장할 수 있으며 다음과 같은 메트릭을 기반으로 추가 GPU 컴퓨팅 인스턴스를 프로비저닝할 수 있습니다. `InvocationsPerInstance` 와 `GPUUtilization` MME 끝점에 대한 트래픽 급증을 처리합니다. Triton 추론 서버를 사용하면 Triton으로 모델을 포함하는 사용자 지정 컨테이너를 쉽게 구축하고 SageMaker로 가져올 수 있습니다. SageMaker Inference는 요청을 처리하고 사용량이 증가함에 따라 컨테이너를 자동으로 확장하므로 AWS에서 Triton을 사용하여 모델을 쉽게 배포할 수 있습니다.
트래픽 패턴	MME는 모델이 동일한 엔드포인트에서 DAG로 실행되는 예측 가능한 트래픽 패턴에 이상적입니다. SageMaker는 MME 끝점에 대한 트래픽 형성을 처리하고 최고의 가격 성능을 위해 GPU 인스턴스에서 최적의 모델 복사본을 유지합니다. 모델이 로드된 인스턴스로 트래픽을 계속 라우팅합니다. 인스턴스 리소스가 높은 사용률로 인해 용량에 도달하면 SageMaker는 컨테이너에서 가장 적게 사용되는 모델을 언로드하여 리소스를 확보하여 더 자주 사용하는 모델을 로드합니다.

모범 사례

다음 모범 사례를 고려하십시오.

모델 간 높은 응집도 및 낮은 결합도 – 응집력이 높은(단일 비즈니스 기능 구동) 동일한 컨테이너에서 모델을 호스팅하고 쉽게 업그레이드하고 관리할 수 있도록 함께 캡슐화합니다. 동시에 다른 모델에 영향을 주지 않고 한 모델을 쉽게 업그레이드할 수 있도록 해당 모델을 서로 분리합니다(다른 컨테이너에 호스팅). 하나의 엔드포인트 뒤에서 서로 다른 컨테이너를 사용하는 여러 모델을 호스팅하고 독립적으로 호출하거나 모델 전처리 및 후처리 로직을 직렬 추론 파이프라인으로 추가합니다.
추론 대기 시간 – 단일 비즈니스 기능 기반 모델을 그룹화하고 단일 컨테이너에 호스트하여 홉 수를 최소화하여 전체 대기 시간을 최소화합니다. 그룹화된 모델이 여러 프레임워크를 사용하는 경우와 같은 다른 주의 사항이 있습니다. 대기 시간을 줄이고 비용을 최소화하기 위해 여러 컨테이너에서 호스팅하지만 동일한 호스트에서 실행하도록 선택할 수도 있습니다.
응집력이 높은 ML 모델을 논리적으로 그룹화 – 논리 그룹은 동종(예: 모든 XGBoost 모델) 또는 이기종(예: 일부 XGBoost 및 일부 BERT) 모델로 구성될 수 있습니다. 여러 비즈니스 기능에서 공유되는 모델로 구성되거나 하나의 비즈니스 기능만 수행하는 데 한정될 수 있습니다.
- 공유 모델 – 논리 그룹이 공유 모델로 구성된 경우 모델 업그레이드 용이성과 대기 시간은 SageMaker 엔드포인트 설계에서 중요한 역할을 합니다. 예를 들어 대기 시간이 우선 순위인 경우 다중 홉을 방지하기 위해 단일 SageMaker 엔드포인트 뒤에 있는 단일 컨테이너에 모든 모델을 배치하는 것이 좋습니다. 단점은 모델을 업그레이드해야 하는 경우 이 모델을 호스팅하는 모든 관련 SageMaker 엔드포인트가 업그레이드된다는 것입니다.
- 비공유 모델 – 논리 그룹이 비즈니스 기능별 모델로만 구성되고 다른 그룹과 공유되지 않는 경우 패키징 복잡성 및 대기 시간 차원이 달성의 핵심이 됩니다. 단일 SageMaker 엔드포인트 뒤의 단일 컨테이너에서 이러한 모델을 호스팅하는 것이 좋습니다.
하드웨어(CPU, GPU)의 효율적인 사용 – CPU 기반 모델을 함께 그룹화하고 동일한 호스트에서 호스팅하여 CPU를 효율적으로 사용할 수 있습니다. 마찬가지로 GPU 기반 모델을 그룹화하여 효율적으로 사용하고 확장할 수 있습니다. 동일한 호스트에 CPU와 GPU가 모두 필요한 하이브리드 워크로드가 있습니다. 동일한 호스트에서 CPU 전용 및 GPU 전용 모델을 호스팅하는 것은 높은 응집력 및 애플리케이션 대기 시간 요구 사항에 따라 결정되어야 합니다. 또한 비용, 확장 능력 및 고장 시 영향을 미치는 폭발 반경이 조사해야 할 주요 차원입니다.
피트니스 기능 – ML 호스팅 옵션을 선택하기 위한 지침으로 피트니스 기능을 사용합니다.

결론

ML 호스팅과 관련하여 만능 접근 방식은 없습니다. ML 실무자는 ML 호스팅 문제를 해결하기 위해 올바른 디자인 패턴을 선택해야 합니다. 피트니스 기능을 평가하면 올바른 ML 호스팅 옵션을 선택하는 데 대한 규범적 지침이 제공됩니다.

각 호스팅 옵션에 대한 자세한 내용은 이 시리즈의 다음 게시물을 참조하세요.

저자 소개

다왈 파텔 AWS의 수석 기계 학습 설계자입니다. 그는 분산 컴퓨팅 및 인공 지능과 관련된 문제에 대해 대기업에서 중견 스타트업에 이르는 다양한 조직과 협력했습니다. 그는 NLP 및 Computer Vision 도메인을 포함한 딥 러닝에 중점을 둡니다. 그는 고객이 SageMaker에서 고성능 모델 추론을 달성하도록 돕습니다.

디팔리 라잘레 Amazon Web Services의 AI/ML 전문가 기술 계정 관리자입니다. 그녀는 모범 사례로 기계 학습 솔루션을 구현하는 데 대한 기술 지침을 제공하는 기업 고객과 협력합니다. 여가 시간에는 하이킹, 영화 감상, 가족 및 친구들과 어울리는 것을 즐깁니다.

사우라브 트리칸데 Amazon SageMaker Inference의 수석 제품 관리자입니다. 그는 고객과 함께 일하는 데 열정적이며 기계 학습의 민주화라는 목표에 동기를 부여합니다. 그는 복잡한 ML 애플리케이션, 다중 테넌트 ML 모델 배포, 비용 최적화 및 딥 러닝 모델 배포의 접근성 향상과 관련된 핵심 과제에 중점을 둡니다. 여가 시간에 Saurabh는 하이킹, 혁신적인 기술 학습, TechCrunch 팔로우, 가족과 함께 시간 보내기를 즐깁니다.