Amazon SageMaker를 사용하여 예측을 통해 생성 AI 모델 비용을 66% 이상 절감한 방법

플라톤에 의해 재발행

팔로워 : 0

이 게시물은 Forethought Technologies, Inc.의 엔지니어링 이사인 Jad Chamoun과 Forethought Technologies, Inc.의 수석 ML 엔지니어인 Salina Wu와 공동으로 작성되었습니다.

미리 생각 고객 서비스를 위한 선도적인 생성 AI 제품군입니다. 제품군의 핵심은 혁신적입니다. 지원GPT™ 머신 러닝을 사용하여 고객 지원 라이프사이클을 변화시키는 기술(편향 증가, CSAT 개선, 상담원 생산성 향상). SupportGPT™는 최첨단 정보 검색(IR) 시스템과 대규모 언어 모델(LLM)을 활용하여 연간 30천만 건 이상의 고객 상호 작용을 지원합니다.

Forethought가 Amazon SageMaker를 사용하여 생성 AI 모델 비용을 66% 이상 절감한 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

SupportGPT의 주요 사용 사례는 고객 지원 상호 작용 및 운영의 품질과 효율성을 향상시키는 것입니다. 임베딩 및 순위 모델로 구동되는 최신 IR 시스템을 사용하여 SupportGPT는 관련 정보를 신속하게 검색하여 고객 쿼리에 정확하고 간결한 답변을 제공할 수 있습니다. Forthought는 고객 상호 작용을 해결하기 위해 고객별로 미세 조정된 모델을 사용하여 고객 의도를 감지합니다. 대규모 언어 모델의 통합은 자동화된 에이전트와의 상호 작용을 인간화하여 보다 매력적이고 만족스러운 지원 경험을 만드는 데 도움이 됩니다.

또한 SupportGPT는 자동 완성 제안을 제공하고 이전 답변을 기반으로 회사의 답변과 일치하는 고객 티켓에 대한 적절한 답변을 작성하여 고객 지원 에이전트를 지원합니다. 상담원은 고급 언어 모델을 사용하여 고객의 우려 사항을 보다 빠르고 정확하게 처리하여 고객 만족도를 높일 수 있습니다.

또한 SupportGPT의 아키텍처는 지원 지식 기반의 격차를 감지할 수 있어 상담원이 고객에게 보다 정확한 정보를 제공하는 데 도움이 됩니다. 이러한 격차가 식별되면 SupportGPT는 이러한 지식 공백을 채우기 위해 기사 및 기타 콘텐츠를 자동으로 생성하여 지원 지식 기반이 고객 중심적이고 최신 상태로 유지되도록 합니다.

이 게시물에서는 Forthought에서 사용하는 방법을 공유합니다. 아마존 세이지 메이커 제너레이티브 AI 사용 사례에서 다중 모델 엔드포인트를 사용하여 비용을 66% 이상 절감합니다.

인프라 문제

이러한 기능을 시장에 출시할 수 있도록 Forthought는 ML 워크로드를 효율적으로 확장하고 각 고객의 특정 사용 사례에 맞는 초개인화된 솔루션을 제공합니다. 이러한 초개인화는 고객 데이터에 대한 임베딩 모델 및 분류자를 미세 조정하여 각 클라이언트의 고유한 요구 사항을 충족하는 정확한 정보 검색 결과 및 도메인 지식을 보장함으로써 달성됩니다. 사용자 정의된 자동 완성 모델은 생성된 응답의 정확성과 관련성을 더욱 향상시키기 위해 고객 데이터에 대해 미세 조정됩니다.

AI 처리의 중요한 과제 중 하나는 GPU와 같은 하드웨어 리소스를 효율적으로 활용하는 것입니다. 이 문제를 해결하기 위해 Forethought는 SageMaker 다중 모델 엔드포인트(MME)를 사용하여 단일 추론 엔드포인트 및 규모에서 여러 AI 모델을 실행합니다. 모델의 초개인화에는 고유한 모델을 교육하고 배포해야 하므로 모델 수는 클라이언트 수에 따라 선형적으로 확장되며 비용이 많이 들 수 있습니다.

실시간 추론과 비용에 대한 적절한 성능 균형을 달성하기 위해 Forthought는 GPU 가속을 지원하는 SageMaker MME를 사용하기로 결정했습니다. SageMaker MME를 통해 Forthought는 지연 시간이 XNUMX초 미만인 확장 가능하고 비용 효율적인 고성능 솔루션을 제공하여 여러 고객 지원 시나리오를 대규모로 처리할 수 있습니다.

SageMaker 및 예측

SageMaker는 개발자와 데이터 과학자에게 ML 모델을 신속하게 구축, 교육 및 배포할 수 있는 기능을 제공하는 완전관리형 서비스입니다. SageMaker MME는 실시간 추론을 위해 많은 수의 모델을 배포하기 위한 확장 가능하고 비용 효율적인 솔루션을 제공합니다. MME는 GPU와 같은 가속화된 인스턴스를 사용하여 모든 모델을 호스팅할 수 있는 공유 서빙 컨테이너 및 리소스 플릿을 사용합니다. 이는 단일 모델 엔드포인트를 사용하는 것과 비교하여 엔드포인트 활용도를 최대화하여 호스팅 비용을 줄입니다. 또한 SageMaker가 메모리에서 모델 로드 및 언로드를 관리하고 엔드포인트의 트래픽 패턴에 따라 확장하기 때문에 배포 오버헤드가 줄어듭니다. 또한 모든 SageMaker 실시간 엔드포인트는 다음과 같이 모델을 관리하고 모니터링할 수 있는 내장 기능의 이점을 제공합니다. 그림자 변형, 자동 스케일링, 및 기본 통합 아마존 클라우드 워치 (자세한 내용은 다중 모델 엔드포인트 배포를 위한 CloudWatch 지표).

Forthought가 GPU 리소스가 필요한 수백 개의 모델을 호스팅하도록 성장함에 따라 SageMaker MME를 통해 보다 비용 효율적이고 안정적이며 관리 가능한 아키텍처를 생성할 수 있는 기회를 보았습니다. SageMaker MME로 마이그레이션하기 전에 우리 모델은 Kubernetes에 배포되었습니다. Amazon Elastic Kubernetes 서비스 (아마존 EKS). Amazon EKS가 관리 기능을 제공했지만 추론에 맞게 특별히 조정되지 않은 인프라를 관리하고 있음이 즉시 분명해졌습니다. Forthought는 Amazon EKS에서 모델 추론을 직접 관리해야 했으며 이는 엔지니어링 효율성에 부담이 되었습니다. 예를 들어 여러 모델 간에 고가의 GPU 리소스를 공유하기 위해 배포 중에 지정된 모델에 엄격한 메모리 부분을 할당해야 했습니다. 우리는 기존 인프라에서 다음과 같은 주요 문제를 해결하고자 했습니다.

고비용 – 각 모델에 충분한 리소스가 있는지 확인하기 위해 인스턴스당 적합할 모델 수에 대해 매우 보수적입니다. 이로 인해 필요한 것보다 훨씬 더 많은 모델 호스팅 비용이 발생했습니다.
낮은 신뢰성 – 우리의 메모리 할당은 보수적이지만 모든 모델이 동일한 요구 사항을 갖는 것은 아니며 때때로 일부 모델은 메모리 부족(OOM) 오류를 발생시킵니다.
비효율적인 관리 – 각 모델 유형(예: 분류자, 임베딩 및 자동 완성)에 대해 서로 다른 배포 매니페스트를 관리해야 했기 때문에 시간이 많이 걸리고 오류가 발생하기 쉽습니다. 또한 다양한 모델 유형에 대한 메모리 할당을 결정하는 논리를 유지해야 했습니다.

궁극적으로 비용, 안정성 및 모델 제공 관리를 개선하기 위해 런타임에 모델을 관리하는 힘든 작업을 수행할 추론 플랫폼이 필요했습니다. SageMaker MME를 통해 이러한 요구 사항을 해결할 수 있었습니다.

스마트하고 동적인 모델 로딩 및 언로딩과 확장 기능을 통해 SageMaker MME는 훨씬 저렴하고 안정적인 모델 호스팅 솔루션을 제공했습니다. 이제 인스턴스당 더 많은 모델을 맞출 수 있으며 SageMaker MME가 동적으로 모델 로드 및 언로드를 처리하기 때문에 OOM 오류에 대해 걱정할 필요가 없습니다. 또한 배포는 이제 Boto3 SageMaker API를 호출하고 적절한 Auto Scaling 정책을 연결하는 것만큼 간단합니다.

다음 다이어그램은 레거시 아키텍처를 보여줍니다.

Forethought가 Amazon SageMaker를 사용하여 생성 AI 모델 비용을 66% 이상 절감한 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

SageMaker MME로의 마이그레이션을 시작하기 위해 우리는 MME에 대한 최상의 사용 사례와 이 변경으로 가장 많은 혜택을 받을 수 있는 모델을 식별했습니다. MME는 다음에 가장 적합합니다.

대기 시간이 짧을 것으로 예상되지만 콜드 스타트 시간(처음 로드될 때)을 견딜 수 있는 모델
자주 그리고 지속적으로 호출되는 모델
부분 GPU 리소스가 필요한 모델
공통 요구 사항 및 추론 논리를 공유하는 모델

우리는 임베딩 모델과 자동 완성 언어 모델을 마이그레이션에 가장 적합한 후보로 식별했습니다. MME에서 이러한 모델을 구성하기 위해 모델 유형 또는 작업당 하나의 MME를 생성하고, 하나는 임베딩 모델용으로, 다른 하나는 자동 완성 언어 모델용으로 만듭니다.

우리는 이미 모델 관리 및 추론을 위해 모델 위에 API 계층을 가지고 있었습니다. 당면한 과제는 클라이언트와 제품 팀이 API와 상호 작용하는 방식에 대한 최소한의 변경으로 이 API가 SageMaker를 사용하여 후드 아래에서 모델에 대한 추론을 배포하고 처리하는 방식을 재작업하는 것이었습니다. 또한 SageMaker MME를 사용하는 NVIDIA Triton Inference Server와 호환되도록 모델과 맞춤형 추론 로직을 패키징해야 했습니다.

다음 다이어그램은 새로운 아키텍처를 보여줍니다.

Forethought가 Amazon SageMaker를 사용하여 생성 AI 모델 비용을 66% 이상 절감한 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

사용자 지정 추론 논리

SageMaker로 마이그레이션하기 전에 Forethought의 사용자 지정 추론 코드(전처리 및 후처리)는 모델이 호출될 때 API 계층에서 실행되었습니다. 목표는 이 기능을 모델 자체로 전송하여 책임 분리를 명확히 하고 코드를 모듈화 및 단순화하고 API의 부하를 줄이는 것이었습니다.

임베딩

Forthought의 임베딩 모델은 두 개의 PyTorch 모델 아티팩트로 구성되며 추론 요청에 따라 호출할 모델이 결정됩니다. 각 모델에는 사전 처리된 텍스트가 입력으로 필요합니다. 주요 과제는 전처리 단계를 통합하고 모델 정의당 두 개의 모델 아티팩트를 수용하는 것이었습니다. 추론 논리에서 여러 단계의 필요성을 해결하기 위해 Forethought는 Python 백엔드 전처리 프로세스와 PyTorch 백엔드 모델 호출의 두 단계로 구성된 Triton 앙상블 모델을 개발했습니다. 앙상블 모델은 모든 백엔드 유형의 Triton 모델로 표시되는 각 단계와 함께 추론 논리에서 단계를 정의하고 순서를 지정할 수 있습니다. Triton PyTorch 백엔드와의 호환성을 보장하기 위해 기존 모델 아티팩트가 TorchScript 형식으로 변환되었습니다. 각 모델 정의에 대해 별도의 Triton 모델이 생성되었으며 Forthought의 API 계층이 적절한 결정을 담당했습니다. TargetModel 들어오는 요청에 따라 호출합니다.

자동 완성

자동 완성 모델(시퀀스 대 시퀀스)은 고유한 요구 사항 집합을 제시했습니다. 특히, 낮은 대기 시간을 유지하면서 여러 모델 호출을 반복하고 각 호출에 대한 상당한 입력을 캐시하는 기능을 활성화해야 했습니다. 또한 이러한 모델에는 전처리 및 후처리 단계가 모두 필요했습니다. 이러한 요구 사항을 해결하고 원하는 유연성을 달성하기 위해 Forthought는 모델을 Python 코드로 작성하는 이점을 제공하는 Triton Python 백엔드를 활용하는 자동 완성 MME 모델을 개발했습니다.

Benchmarking

Triton 모델 형태가 결정된 후 스테이징 엔드포인트에 모델을 배포하고 리소스 및 성능 벤치마킹을 수행했습니다. 우리의 주요 목표는 콜드 스타트 대 인메모리 모델의 대기 시간과 요청 크기 및 동시성이 대기 시간에 미치는 영향을 결정하는 것이었습니다. 또한 각 인스턴스에 맞는 모델 수, Auto Scaling 정책으로 인스턴스를 확장하는 모델 수, 확장이 얼마나 빨리 발생하는지 알고 싶었습니다. 이미 사용하고 있던 인스턴스 유형에 따라 ml.g4dn.xlarge 및 ml.g4dn.2xlarge 인스턴스로 벤치마킹을 수행했습니다.

결과

다음 표에 결과가 요약되어 있습니다.

요청 크기	콜드 스타트 대기 시간	캐시된 추론 대기 시간	동시 대기 시간(5개 요청)
소형(토큰 30개)	12.7 초	0.03 초	0.12 초
중간 (250 토큰)	12.7 초	0.05 초	0.12 초
대형(550 토큰)	12.7 초	0.13 초	0.12 초

눈에 띄게 콜드 스타트 요청의 대기 시간은 캐시된 추론 요청의 대기 시간보다 훨씬 더 깁니다. 이는 모델을 디스크에서 로드하거나 아마존 단순 스토리지 서비스 (Amazon S3) 콜드 스타트 요청이 이루어진 경우. 동시 요청에 대한 대기 시간도 단일 요청에 대한 대기 시간보다 높습니다. 이는 경합으로 이어질 수 있는 동시 요청 간에 모델을 공유해야 하기 때문입니다.

다음 표는 레거시 모델과 SageMaker 모델의 지연 시간을 비교합니다.

요청 크기	레거시 모델	SageMaker 모델
소형(토큰 30개)	0.74 초	0.24 초
중간 (250 토큰)	0.74 초	0.24 초
대형(550 토큰)	0.80 초	0.32 초

전반적으로 SageMaker 모델은 레거시 모델보다 자동 완성 모델을 호스팅하는 데 더 나은 선택입니다. 낮은 대기 시간, 확장성, 안정성 및 보안을 제공합니다.

자원 사용

각 인스턴스에 맞는 최적의 모델 수를 결정하기 위해 일련의 테스트를 수행했습니다. 실험에는 Auto Scaling 정책 없이 ml.g4dn.xlarge 인스턴스 유형을 사용하여 엔드포인트에 모델을 로드하는 작업이 포함되었습니다.

이러한 특정 인스턴스는 15.5GB의 메모리를 제공하며 인스턴스당 약 80%의 GPU 메모리 사용량을 달성하는 것을 목표로 했습니다. 각 인코더 모델 아티팩트의 크기를 고려하여 목표 GPU 메모리 사용량에 도달하기 위해 인스턴스에 로드할 최적의 Triton 인코더 수를 찾았습니다. 또한 각 임베딩 모델이 두 개의 Triton 인코더 모델에 해당하므로 인스턴스당 정해진 수의 임베딩 모델을 수용할 수 있었습니다. 결과적으로 모든 임베딩 모델을 제공하는 데 필요한 총 인스턴스 수를 계산했습니다. 이 실험은 리소스 사용을 최적화하고 모델의 효율성을 향상시키는 데 매우 중요했습니다.

자동 완성 모델에 대해 유사한 벤치마킹을 수행했습니다. 이 모델은 각각 약 292.0MB였습니다. 단일 ml.g4dn.xlarge 인스턴스에 맞는 모델 수를 테스트한 결과 모델 크기가 작음에도 불구하고 인스턴스가 모델 언로드를 시작하기 전에 XNUMX개의 모델만 맞출 수 있음을 확인했습니다. 우리의 주요 관심사는 다음과 같습니다.

CPU 메모리 사용량 급증의 원인
가장 최근에 사용되지 않은(LRU) 모델 대신 하나 이상의 모델을 로드하려고 할 때 모델이 언로드되는 원인

모델과 데이터를 GPU 장치 안팎으로 이동하는 데 필요한 Python 모델에서 CUDA 런타임 환경을 초기화하여 발생하는 메모리 사용률 급증의 근본 원인을 정확히 찾아낼 수 있었습니다. CUDA는 런타임이 초기화될 때 많은 외부 종속성을 CPU 메모리에 로드합니다. Triton PyTorch 백엔드는 GPU 장치 안팎으로 이동하는 데이터를 처리하고 추상화하기 때문에 임베딩 모델에서 이 문제가 발생하지 않았습니다. 이 문제를 해결하기 위해 GPU 메모리 양은 같지만 CPU 메모리 양은 두 배인 ml.g4dn.2xlarge 인스턴스를 사용해 보았습니다. 또한 사용 후 텐서 삭제, 캐시 비우기, 기울기 비활성화, 가비지 수집을 포함하여 Python 백엔드 코드에 몇 가지 사소한 최적화를 추가했습니다. 더 큰 인스턴스 유형을 사용하면 인스턴스당 10개의 모델을 맞출 수 있었고 CPU 및 GPU 메모리 사용률이 훨씬 더 많이 조정되었습니다.

다음 다이어그램은이 아키텍처를 보여줍니다.

Forethought가 Amazon SageMaker를 사용하여 생성 AI 모델 비용을 66% 이상 절감한 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

자동 스케일링

임베딩 및 자동 완성 MME 모두에 자동 확장 정책을 연결했습니다. 임베딩 엔드포인트에 대한 정책은 사용자 정의 지표를 사용하여 평균 GPU 메모리 사용률 80%를 목표로 삼았습니다. 자동 완성 모델은 업무 시간 동안 트래픽이 많고 야간 트래픽이 최소인 패턴을 확인했습니다. 이 때문에 우리는 다음을 기반으로 Auto Scaling 정책을 만들었습니다. InvocationsPerInstance 트래픽 패턴에 따라 확장하여 안정성을 유지하면서 비용을 절감할 수 있습니다. 리소스 사용량 벤치마킹을 기반으로 225를 목표로 조정 정책을 구성했습니다. InvocationsPerInstance.

논리 및 파이프라인 배포

SageMaker에서 MME를 생성하는 것은 간단하며 SageMaker에서 다른 엔드포인트를 생성하는 것과 유사합니다. 엔드포인트가 생성된 후 엔드포인트에 추가 모델을 추가하는 것은 엔드포인트가 대상으로 하는 S3 경로로 모델 아티팩트를 이동하는 것만큼 간단합니다. 이 시점에서 새 모델에 대한 추론 요청을 할 수 있습니다.

우리는 모델 메타데이터를 가져오고, 메타데이터를 기반으로 엔드포인트를 결정적으로 형식화하고, 엔드포인트가 존재하는지 확인하는 로직을 정의했습니다. 그렇지 않은 경우 엔드포인트를 생성하고 엔드포인트에 대한 S3 패치에 Triton 모델 아티팩트를 추가합니다(역시 결정론적 형식임). 예를 들어 모델 메타데이터가 자동 완성 모델임을 나타내는 경우 자동 완성 모델에 대한 엔드포인트와 자동 완성 모델 아티팩트에 대한 연결된 S3 경로를 생성합니다. 엔드포인트가 존재하는 경우 모델 아티팩트를 S3 경로에 복사합니다.

이제 MME 모델에 대한 모델 모양과 모델을 MME에 배포하는 기능이 있으므로 배포를 자동화할 방법이 필요했습니다. 사용자는 배포할 모델을 지정해야 합니다. 우리는 모델의 패키징 및 배포를 처리합니다. 모델과 함께 패키징된 사용자 지정 추론 코드는 버전이 지정되고 Amazon S3로 푸시됩니다. 패키징 단계에서는 지정된 버전(또는 최신 버전)에 따라 추론 코드를 가져오고 Triton 모델의 파일 구조를 나타내는 YAML 파일을 사용합니다.

한 가지 요구 사항은 모델에 로드하기 위한 프로덕션 추론 요청 중에 콜드 스타트 대기 시간을 방지하기 위해 모든 MME 모델을 메모리에 로드해야 한다는 것입니다. 이를 달성하기 위해 우리는 모든 모델에 적합하도록 충분한 리소스를 프로비저닝하고(이전 벤치마킹에 따라) MME의 모든 모델을 매시간 주기로 호출합니다.

다음 다이어그램은 모델 배포 파이프라인을 보여줍니다.

Forethought가 Amazon SageMaker를 사용하여 생성 AI 모델 비용을 66% 이상 절감한 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음 다이어그램은 모델 워밍업 파이프라인을 보여줍니다.

Forethought가 Amazon SageMaker를 사용하여 생성 AI 모델 비용을 66% 이상 절감한 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

모델 호출

기존 API 계층은 호출자가 모든 ML 모델을 추론할 수 있도록 추상화를 제공합니다. 즉, 호출 코드를 변경하지 않고 추론 요청에 따라 올바른 대상 모델로 SageMaker MME를 호출하기 위해 API 계층에 기능을 추가하기만 하면 되었습니다. SageMaker 추론 코드는 추론 요청을 받아 Triton 모델에 정의된 Triton 입력 형식을 지정하고 Boto3를 사용하여 MME를 호출합니다.

비용상의 이점

예측은 SageMaker MME로의 마이그레이션 덕분에 모델 호스팅 비용을 줄이고 모델 OOM 오류를 완화하는 데 상당한 진전을 이루었습니다. 이 변경 전에는 ml.g4dn.xlarge 인스턴스가 Amazon EKS에서 실행되었습니다. MME로 전환하면서 GPU 메모리 활용도를 12% 달성하면서 인스턴스당 80개의 임베딩 모델을 수용할 수 있음을 발견했습니다. 이로 인해 월 지출이 크게 감소했습니다. 전체적으로 보면 최대 80%의 비용 절감을 실현했습니다. 또한 더 높은 트래픽을 관리하기 위해 복제본을 확장하는 것을 고려했습니다. 43개의 복제본을 사용하는 시나리오를 가정하면 이러한 조건에서도 약 XNUMX%의 비용 절감이 여전히 상당하다는 것을 알았습니다.

SageMaker MME와 함께한 여정은 비용을 절감하는 동시에 최적의 모델 성능을 보장함으로써 재정적으로 유익한 것으로 입증되었습니다. 이전에는 자동 완성 언어 모델이 Amazon EKS에 배포되었으므로 모델당 메모리 할당에 따라 다양한 수의 ml.g4dn.xlarge 인스턴스가 필요했습니다. 이로 인해 상당한 월 비용이 발생했습니다. 그러나 최근 SageMaker MME로 마이그레이션하면서 이러한 비용을 크게 줄일 수 있었습니다. 이제 ml.g4dn.2xlarge 인스턴스에서 모든 모델을 호스팅하여 모델을 보다 효율적으로 압축할 수 있습니다. 이로 인해 월별 지출이 크게 줄었고 이제 66~74% 범위의 비용 절감을 실현했습니다. 이러한 움직임은 효율적인 리소스 활용이 SageMaker MME를 사용하여 상당한 재정적 절감으로 이어질 수 있음을 보여주었습니다.

결론

이 게시물에서는 Forethought가 SageMaker 다중 모델 엔드포인트를 사용하여 실시간 추론 비용을 줄이는 방법을 검토했습니다. SageMaker는 차별화되지 않은 무거운 작업을 수행하므로 Forthought는 엔지니어링 효율성을 높일 수 있습니다. 또한 Forthought은 비즈니스 크리티컬 작업에 필요한 성능을 유지하면서 실시간 추론 비용을 크게 낮출 수 있습니다. 그렇게 함으로써 Forthought는 초개인화된 모델을 사용하여 고객에게 차별화된 제안을 제공할 수 있습니다. SageMaker MME를 사용하여 규모에 맞게 모델을 호스팅하고 엔드포인트 활용도를 개선하여 호스팅 비용을 절감하십시오. 또한 Amazon SageMaker가 메모리의 로드 모델을 관리하고 엔드포인트에 대한 트래픽 패턴에 따라 모델을 확장하므로 배포 오버헤드가 줄어듭니다. 다음에서 SageMaker MME를 사용하여 여러 모델을 호스팅하는 코드 샘플을 찾을 수 있습니다. GitHub의.

저자에 관하여

자드 샤문 Forthought의 핵심 엔지니어링 이사입니다. 그의 팀은 데이터 엔지니어링, 기계 학습 인프라 및 클라우드 인프라를 다루는 플랫폼 엔지니어링에 중점을 둡니다. 당신은 그를 찾을 수 있습니다 링크드인.

살리나 우 Forthought.ai의 수석 기계 학습 인프라 엔지니어입니다. 그녀는 기계 학습 팀과 긴밀히 협력하여 엔드 투 엔드 교육, 서비스 및 데이터 인프라를 구축하고 유지합니다. 그녀는 특히 ML 공간에서 효율성을 개선하고 비용을 절감하는 새로운 방법을 도입함으로써 동기를 부여받습니다. 일하지 않을 때 Salina는 서핑, 도예, 자연 속에서의 시간을 즐깁니다.

Forethought가 Amazon SageMaker를 사용하여 생성 AI 모델 비용을 66% 이상 절감한 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 제임스 파크 Amazon Web Services의 솔루션 아키텍트입니다. 그는 Amazon.com과 협력하여 AWS에서 기술 솔루션을 설계, 구축 및 배포하며 특히 AI 및 기계 학습에 관심이 있습니다. H는 여가 시간에 새로운 문화, 새로운 경험을 찾고 최신 기술 동향을 파악하는 것을 즐깁니다. 그를 찾을 수 있습니다. 링크드인.

수닐 파드마나반 AWS의 스타트업 솔루션 아키텍트입니다. 전 스타트업 설립자이자 CTO인 그는 머신 러닝에 열정적이며 스타트업이 비즈니스 결과를 위해 AI/ML을 활용하고 ML/AI 솔루션을 대규모로 설계 및 배포하도록 돕는 데 중점을 두고 있습니다.

다왈 파텔 AWS의 수석 기계 학습 설계자입니다. 그는 분산 컴퓨팅 및 인공 지능과 관련된 문제에 대해 대기업에서 중견 스타트업에 이르는 다양한 조직과 협력했습니다. 그는 NLP 및 Computer Vision 도메인을 포함한 딥 러닝에 중점을 둡니다. 그는 고객이 SageMaker에서 고성능 모델 추론을 달성하도록 돕습니다.

SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
EVM 금융. 탈중앙화 금융을 위한 통합 인터페이스. 여기에서 액세스하십시오.
퀀텀미디어그룹. IR/PR 증폭. 여기에서 액세스하십시오.
PlatoAiStream. Web3 데이터 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
출처: https://aws.amazon.com/blogs/machine-learning/how-forethought-saves-over-66-in-costs-for-generative-ai-models-using-amazon-sagemaker/

타임 스탬프 : ２０２３년 ６월 ２８일

타임 스탬프 : 2023 년 5 월 15 일

플라톤에 의해 재발행

Amazon SageMaker 다중 모델 엔드포인트로 다중 모델 추론 실행 및 최적화

사람의 개입으로 Amazon SageMaker 모델 레지스트리 승인 및 승격 워크플로 구축 | 아마존 웹 서비스

Amazon SageMaker Experiments 및 Amazon SageMaker Pipelines를 사용하여 기계 학습 여정 구성

AWS AI 서비스를 사용하여 모기지 인수 프로세스에서 문서 검증 및 사기 탐지 자동화: 1부 | 아마존 웹 서비스

AWS 전용 액셀러레이터를 사용하여 기계 학습 워크로드의 에너지 소비를 최대 90%까지 절감 | 아마존 웹 서비스

Amazon SageMaker의 NVIDIA Triton 추론 서버에서 의사 결정 트리 기반 ML 모델을 위한 저지연 호스팅 달성

Amazon Forecast를 사용하여 과거 데이터가 없는 제품에 대한 콜드 스타트 예측을 생성하여 이제 최대 45% 더 정확함

향상된 평가 및 분석을 위한 Amazon Textract Bulk Document Uploader 소개 | 아마존 웹 서비스

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

인프라 문제

SageMaker 및 예측

사용자 지정 추론 논리

임베딩

자동 완성

Benchmarking

결과

자원 사용

자동 스케일링

논리 및 파이프라인 배포

모델 호출

비용상의 이점

결론

저자에 관하여

더보기 AWS 기계 학습

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정