Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | 아마존 웹 서비스

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | 아마존 웹 서비스

역동적인 스트리밍 세계에서 Amazon Music, 노래, 팟캐스트, 재생목록을 검색할 때마다 공개되기를 기다리는 스토리, 분위기 또는 수많은 감정이 담겨 있습니다. 이러한 검색은 새로운 발견, 소중한 경험, 지속적인 추억으로 가는 관문 역할을 합니다. 검색창은 단지 노래를 찾는 것이 아닙니다. 이는 수백만 명의 활성 사용자가 Amazon Music이 제공하는 풍부하고 다양한 세계로 개인적인 여행을 시작하는 것에 관한 것입니다.

사용자가 검색하는 음악을 즉시 찾을 수 있는 뛰어난 고객 경험을 제공하려면 스마트하고 반응성이 뛰어난 플랫폼이 필요합니다. Amazon Music은 이를 달성하기 위해 AI의 힘을 사용합니다. 그러나 실시간 맞춤법 검사 및 벡터 검색과 같은 검색 창의 기능을 강화하는 AI 모델의 교육 및 추론 비용을 관리하면서 고객 경험을 최적화하는 것은 트래픽이 가장 많은 시간대에 어렵습니다.

아마존 세이지 메이커 Amazon Music이 최소한의 노력으로 AWS 클라우드에서 구축, 교육 및 배포할 수 있도록 하는 엔드투엔드 서비스 세트를 제공합니다. SageMaker를 사용하면 획일적인 무거운 작업을 처리함으로써 인프라와 같은 문제에 대해 걱정하지 않고 기계 학습(ML) 모델 작업에 집중할 수 있습니다. 공동 책임 모델의 일부로 SageMaker는 제공하는 서비스가 안정적이고 성능이 뛰어나며 확장 가능하도록 보장하는 동시에 ML 모델 적용 시 SageMaker가 제공하는 기능을 최대한 활용하도록 합니다.

이 게시물에서는 Amazon Music이 SageMaker와 NVIDIA Triton Inference Server 및 TensorRT를 사용하여 성능과 비용을 최적화하는 과정을 안내합니다. 우리는 간단해 보이지만 복잡해 보이는 검색 표시줄이 어떻게 작동하는지 자세히 알아보고, 거의 XNUMX에 가까운 오타 지연과 관련 실시간 검색 결과를 통해 Amazon Music의 세계로 끊임없는 여행을 보장합니다.

Amazon SageMaker 및 NVIDIA: 빠르고 정확한 벡터 검색 및 맞춤법 검사 기능 제공

Amazon Music은 100억 개가 넘는 노래와 수백만 개의 팟캐스트 에피소드로 구성된 방대한 라이브러리를 제공합니다. 그러나 올바른 노래나 팟캐스트를 찾는 것이 어려울 수 있습니다. 특히 정확한 제목, 아티스트 또는 앨범 이름을 모르거나 검색된 쿼리가 '뉴스 팟캐스트'와 같이 매우 광범위한 경우에는 더욱 그렇습니다.

Amazon Music은 검색 프로세스를 개선하기 위해 두 가지 접근 방식을 취했습니다. 첫 번째 단계는 콘텐츠의 의미론을 사용하여 사용자가 찾고 있는 가장 관련성이 높은 콘텐츠를 찾는 데 도움을 줄 수 있는 ML 기술인 벡터 검색(임베딩 기반 검색이라고도 함)을 도입하는 것입니다. 두 번째 단계에서는 검색 스택에 Transformer 기반 맞춤법 교정 모델을 도입하는 작업이 포함됩니다. 이는 사용자가 노래 제목이나 아티스트 이름의 정확한 철자를 항상 알 수 없기 때문에 음악을 검색할 때 특히 유용할 수 있습니다. 맞춤법 교정은 사용자가 검색어에 맞춤법 오류가 있는 경우에도 원하는 음악을 찾는 데 도움이 될 수 있습니다.

검색 및 검색 파이프라인(벡터 검색에 필요한 쿼리 임베딩 생성 및 맞춤법 교정의 생성 Seq2Seq Transformer 모델)에 Transformer 모델을 도입하면 전체 대기 시간이 크게 증가하여 고객 경험에 부정적인 영향을 미칠 수 있습니다. 따라서 벡터 검색 및 철자 교정 모델에 대한 실시간 추론 대기 시간을 최적화하는 것이 우리의 최우선 과제가 되었습니다.

Amazon Music과 NVIDIA는 함께 협력하여 SageMaker를 사용하여 벡터 검색 기반 기술을 사용하여 빠르고 정확한 맞춤법 검사 기능과 실시간 의미 체계 검색 제안을 구현함으로써 최고의 고객 경험을 검색 창에 제공했습니다. 이 솔루션에는 NVIDIA A5G Tensor Core GPU를 사용하는 G10 인스턴스로 구동되는 SageMaker 호스팅, SageMaker 지원 NVIDIA Triton 추론 서버 컨테이너 및 엔비디아 텐서RT 모델 형식. Amazon Music은 최대 트래픽에서 맞춤법 검사 모델의 추론 지연 시간을 25밀리초로 줄이고, CPU 기반 추론에 비해 검색 쿼리 내장 생성 지연 시간을 평균 63%, 비용을 73% 줄임으로써 검색 창의 성능을 향상시켰습니다.

또한 정확한 결과를 제공하기 위해 AI 모델을 훈련할 때 Amazon Music은 BART 시퀀스-시퀀스 철자 교정기 모델의 훈련 시간을 무려 12배 가속화하여 GPU 활용도를 최적화함으로써 시간과 비용을 모두 절약했습니다.

Amazon Music은 NVIDIA와 제휴하여 고객 검색 경험의 우선순위를 정하고 잘 최적화된 맞춤법 검사 및 벡터 검색 기능을 갖춘 검색 창을 만들었습니다. 다음 섹션에서는 이러한 최적화가 어떻게 조정되었는지 자세히 설명합니다.

NVIDIA Tensor Core GPU로 훈련 최적화

대규모 언어 모델 훈련을 위해 NVIDIA Tensor Core GPU에 액세스하는 것만으로는 진정한 잠재력을 포착하기에 충분하지 않습니다. GPU 활용도를 완전히 극대화하려면 훈련 중에 수행해야 하는 주요 최적화 단계가 있습니다. 그러나 활용도가 낮은 GPU는 의심할 여지 없이 리소스의 비효율적인 사용, 훈련 기간의 연장, 운영 비용의 증가로 이어질 것입니다.

철자 교정기 BART(바트 베이스) SageMaker ml.p3.24xlarge 인스턴스(8개의 NVIDIA V100 Tensor Core GPU) 변환기 모델에서 Amazon Music의 GPU 활용률은 약 35%였습니다. NVIDIA GPU 가속 교육의 이점을 극대화하기 위해 AWS와 NVIDIA 솔루션 아키텍트는 특히 배치 크기 및 정밀 매개변수와 관련된 최적화 영역을 식별하는 데 Amazon Music을 지원했습니다. 이 두 가지 중요한 매개변수는 딥 러닝 모델 훈련의 효율성, 속도 및 정확성에 영향을 미칩니다.

그 결과 최적화를 통해 V100 GPU 활용률이 약 89%로 꾸준히 개선되어 Amazon Music의 훈련 시간이 3일에서 5~6시간으로 크게 단축되었습니다. 배치 크기를 32에서 256으로 전환하고 실행과 같은 최적화 기술을 사용하여 자동 혼합 정밀 훈련 Amazon Music은 FP32 정밀도만 사용하는 대신 시간과 비용을 모두 절약할 수 있었습니다.

다음 차트는 최적화 후 GPU 사용률이 54% 증가한 것을 보여줍니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음 그림은 훈련 시간의 가속화를 보여줍니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

이러한 배치 크기 증가로 인해 NVIDIA GPU는 여러 Tensor 코어에서 훨씬 더 많은 데이터를 동시에 처리할 수 있게 되었고 결과적으로 훈련 시간이 단축되었습니다. 그러나 배치 크기가 클수록 더 많은 메모리가 필요하므로 메모리와의 섬세한 균형을 유지하는 것이 중요합니다. NVIDIA Tensor Core GPU의 성능을 활용하려면 배치 크기를 늘리고 혼합 정밀도를 사용하는 것이 중요할 수 있습니다.

모델이 수렴하도록 훈련된 후에는 Amazon Music 검색 창에서 추론 배포를 최적화할 차례입니다.

철자 교정: BART 모델 추론

SageMaker G5 인스턴스와 NVIDIA Triton Inference Server(오픈 소스 추론 제공 소프트웨어)는 물론 추론 최적화 프로그램과 런타임이 포함된 고성능 딥 러닝 추론을 위한 SDK인 NVIDIA TensorRT의 도움으로 Amazon Music은 맞춤법 검사 BART를 제한합니다. (바트 베이스) 모델 서버 추론 지연 시간을 최대 트래픽 시 25밀리초로 단축합니다. 여기에는 로드 밸런싱, 전처리, 모델 추론, 후처리 시간과 같은 오버헤드가 포함됩니다.

NVIDIA Triton Inference Server는 두 가지 종류의 백엔드를 제공합니다. 하나는 GPU에서 모델을 호스팅하기 위한 것이고, 다른 하나는 전처리 및 후처리 단계에서 사용할 사용자 지정 코드를 가져올 수 있는 Python 백엔드입니다. 다음 그림은 모델 앙상블 방식.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

Amazon Music은 BART를 구축했습니다. 추론 파이프라인 CPU에서 전처리(텍스트 토큰화) 및 후처리(토큰을 텍스트로) 단계를 모두 실행하는 반면, 모델 실행 단계는 CPU에서 실행됩니다. NVIDIA A10G 텐서 코어 GPU. Python 백엔드는 전처리 및 후처리 단계의 중간에 위치하며 TensorRT로 변환된 BART 모델 및 인코더/디코더 네트워크와의 통신을 담당합니다. 텐서 RT 정밀 교정, 레이어 및 텐서 융합, 커널 자동 조정, 동적 텐서 메모리, 멀티스트림 실행 및 시간 융합을 통해 추론 성능을 향상합니다.

다음 그림은 맞춤법 교정기 BART 모델 추론 파이프라인을 구성하는 주요 모듈의 상위 수준 설계를 보여줍니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

벡터 검색: 쿼리 임베딩 생성 문장 BERT 모델 추론

다음 차트는 CPU 기반 기준과 비교하여 NVIDIA AI 추론 플랫폼을 사용할 때 지연 시간(p60 90–800 TPS 제공)이 900% 향상된 것을 보여줍니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음 차트는 CPU 기반 기준과 비교하여 NVIDIA AI 추론 플랫폼을 사용할 때 비용이 70% 향상된 것을 보여줍니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음 그림은 고성능 딥러닝 추론을 위한 SDK를 보여줍니다. 여기에는 추론 애플리케이션에 대해 짧은 대기 시간과 높은 처리량을 제공하는 딥 러닝 추론 최적화 프로그램과 런타임이 포함되어 있습니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

이러한 결과를 얻기 위해 Amazon Music은 다음을 사용하여 여러 가지 Triton 배포 매개 변수를 실험했습니다. 트리톤 모델 분석기, 효율적인 추론을 배포하기 위해 최상의 NVIDIA Triton 모델 구성을 찾는 데 도움이 되는 도구입니다. 모델 추론을 최적화하기 위해 Triton은 동적 일괄 처리 및 동시 모델 실행과 같은 기능을 제공하고 기타 유연성 기능을 위한 프레임워크 지원을 제공합니다. 동적 일괄 처리는 추론 요청을 수집하여 처리량을 극대화하기 위해 이를 코호트로 원활하게 그룹화하는 동시에 Amazon Music 사용자에 대한 실시간 응답을 보장합니다. 동시 모델 실행 기능은 동일한 GPU에서 모델의 여러 복사본을 호스팅하여 추론 성능을 더욱 향상시킵니다. 마지막으로 활용하여 트리톤 모델 분석기, Amazon Music은 시뮬레이션된 트래픽을 사용하여 추론 성능을 최대화하는 최적의 설정을 찾기 위해 동적 배치 및 모델 동시성 추론 호스팅 매개변수를 신중하게 미세 조정할 수 있었습니다.

결론

SageMaker에서 Triton Inference Server 및 TensorRT를 사용하여 구성을 최적화함으로써 Amazon Music은 훈련 및 추론 파이프라인 모두에서 뛰어난 결과를 얻을 수 있었습니다. SageMaker 플랫폼은 프로덕션 AI를 위한 엔드투엔드 개방형 플랫폼으로, 하드웨어와 소프트웨어 모두에서 모든 주요 AI 사용 사례를 지원하는 다양성과 빠른 가치 실현 시간을 제공합니다. 훈련을 위한 V100 GPU 활용을 최적화하고 NVIDIA A5G Tensor Core GPU를 사용하여 CPU에서 G10 인스턴스로 전환하고 Triton Inference Server 및 TensorRT와 같은 최적화된 NVIDIA 소프트웨어를 사용함으로써 Amazon Music과 같은 회사는 두 가지 모두에서 성능을 향상시키는 동시에 시간과 비용을 절약할 수 있습니다. 교육 및 추론을 통해 더 나은 고객 경험과 운영 비용 절감으로 직접 연결됩니다.

SageMaker는 ML 교육 및 호스팅을 위한 획일적인 무거운 작업을 처리하므로 Amazon Music이 하드웨어와 소프트웨어 모두에서 안정적이고 확장 가능한 ML 작업을 제공할 수 있습니다.

하드웨어 및 소프트웨어 선택을 항상 평가하여 비용 절감으로 더 나은 성능을 달성할 수 있는 방법이 있는지 확인함으로써 SageMaker를 사용하여 워크로드가 최적화되었는지 확인하는 것이 좋습니다.

AWS의 NVIDIA AI에 대해 자세히 알아보려면 다음을 참조하십시오.


저자 소개

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.싯다 르트 샤르마 Amazon Music 과학 및 모델링 팀의 기계 학습 기술 책임자입니다. 그는 검색, 검색, 순위 지정 및 NLP 관련 모델링 문제를 전문적으로 다루고 있습니다. Siddharth는 광고 타겟팅, 다중 모달 검색, 검색 쿼리 이해 등 대기 시간에 민감한 대규모 기계 학습 문제를 다루는 풍부한 배경 지식을 보유하고 있습니다. Amazon Music에서 일하기 전에 Siddharth는 Meta, Walmart Labs, Rakuten과 같은 회사에서 근무했습니다. 전자상거래 중심의 ML 문제에 대해 알아보세요. Siddharth는 경력 초기에 베이 지역 광고 기술 스타트업에서 일했습니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.타룬 샤르마 Amazon Music Search Relevance를 선도하는 소프트웨어 개발 관리자입니다. 그의 과학자 및 ML 엔지니어 팀은 Amazon Music 고객에게 상황에 맞게 관련성이 높고 개인화된 검색 결과를 제공하는 일을 담당하고 있습니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.제임스 파크 Amazon Web Services의 솔루션 아키텍트입니다. 그는 Amazon.com과 협력하여 AWS에서 기술 솔루션을 설계, 구축 및 배포하며 특히 AI 및 기계 학습에 관심이 있습니다. H는 여가 시간에 새로운 문화, 새로운 경험을 찾고 최신 기술 동향을 파악하는 것을 즐깁니다. 그를 찾을 수 있습니다. 링크드인.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.크시티즈 굽타 NVIDIA의 솔루션 아키텍트입니다. 그는 NVIDIA가 제공해야 하는 GPU AI 기술에 대해 클라우드 고객을 교육하고 기계 학습 및 딥 러닝 애플리케이션을 가속화하도록 지원하는 것을 즐깁니다. 일 외에는 달리기, 하이킹, 야생 동물 관찰을 즐깁니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.리우 지아 홍 NVIDIA 클라우드 서비스 제공업체 팀의 솔루션 설계자입니다. 그는 교육 및 추론 문제를 해결하기 위해 NVIDIA 가속 컴퓨팅을 활용하는 기계 학습 및 AI 솔루션을 채택하는 고객을 지원합니다. 여가 시간에는 종이접기, DIY 프로젝트, 농구를 즐깁니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.투그룰 코누크 대규모 교육, 다중 모드 딥 러닝, 고성능 과학 컴퓨팅을 전문으로 하는 NVIDIA의 수석 솔루션 설계자입니다. NVIDIA에 입사하기 전에는 에너지 업계에서 컴퓨터 이미징용 알고리즘 개발에 주력했습니다. 박사 과정의 일환으로 그는 규모에 따른 수치 시뮬레이션을 위한 물리학 기반 딥 러닝을 연구했습니다. 여가 시간에는 독서, 기타 연주, 피아노 연주를 즐깁니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.로힐 바르가바 특정 CSP 플랫폼에 NVIDIA 애플리케이션 프레임워크와 SDK를 배포하는 데 주력하는 NVIDIA의 제품 마케팅 관리자입니다.

Amazon Music이 NVIDIA와 함께 SageMaker를 사용하여 ML 교육 및 추론 성능과 비용을 최적화하는 방법 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.엘리우스 트리아나 이사자 Amazon의 AI MLOps, DevOps, 과학자 및 AWS 기술 전문가가 AWS GPU 인스턴스의 데이터 큐레이션, GPU 교육, 모델 추론 및 프로덕션 배포에 이르는 Generative AI Foundation 모델을 가속화하고 최적화하기 위해 NVIDIA 컴퓨팅 스택을 마스터할 수 있도록 지원하는 NVIDIA의 개발자 관계 관리자입니다. . 또한 Eliuth는 열정적인 산악자전거, 스키, 테니스, 포커 플레이어이기도 합니다.

타임 스탬프 :

더보기 AWS 기계 학습