AWS 전용 액셀러레이터를 사용하여 기계 학습 워크로드의 에너지 소비를 최대 90%까지 절감 | 아마존 웹 서비스

AWS 전용 액셀러레이터를 사용하여 기계 학습 워크로드의 에너지 소비를 최대 90%까지 절감 | 아마존 웹 서비스

기계 학습(ML) 엔지니어는 전통적으로 모델 교육과 배포 비용 대 성능 간의 균형을 맞추는 데 중점을 두었습니다. 점점 지속 가능성(에너지 효율성)이 고객의 추가 목표가 되고 있습니다. 이는 ML 모델을 훈련한 다음 훈련된 모델을 사용하여 예측(추론)하는 것이 매우 에너지 집약적인 작업이 될 수 있기 때문에 중요합니다. 또한 우리 주변의 점점 더 많은 애플리케이션에 ML이 주입되고 있으며 새로운 ML 기반 애플리케이션이 매일 구상되고 있습니다. 인기 있는 예는 최첨단 대규모 언어 모델(LMM)로 구동되는 OpenAI의 ChatGPT입니다. 참고로 이전 세대 LLM인 GPT-3 175억 개의 매개변수가 있으며 수천 개의 가속 프로세서 클러스터에 대한 수개월의 논스톱 교육이 필요합니다. 그만큼 Carbontracker 연구 GPT-3를 처음부터 훈련하면 특수 하드웨어 가속기 클러스터를 사용하여 최대 85톤의 CO2를 배출할 수 있다고 추정합니다.

AWS는 ML 실무자가 워크로드가 환경에 미치는 영향을 낮추도록 지원하는 몇 가지 방법이 있습니다. 한 가지 방법은 제공하는 것입니다. 지속 가능성을 위한 AI/ML 워크로드 설계에 대한 규범적 지침. 또 다른 방법은 다음과 같은 관리형 ML 교육 및 오케스트레이션 서비스를 제공하는 것입니다. 아마존 세이지 메이커 스튜디오, 사용하지 않을 때 ML 리소스를 자동으로 분해 및 확장하고 비용과 리소스를 절약하는 즉시 사용 가능한 도구 호스트를 제공합니다. 또 다른 주요 원동력은 에너지 효율적이고 고성능이며 목적에 맞게 제작된 가속기 ML 모델 교육 및 배포용.

이 게시물의 초점은 지속 가능한 ML을 위한 레버로서의 하드웨어에 있습니다. 다른 추론 및 교육에 최적화된 가속에서 딥 러닝 워크로드를 마이그레이션할 때 기대할 수 있는 에너지 효율성 이점을 정량화하는 AWS에서 수행한 최근 성능 및 전력 소비 실험 결과를 제시합니다. 아마존 엘라스틱 컴퓨트 클라우드 (Amazon EC2) 인스턴스를 AWS 인 페렌 시아AWS 트레이닝. Inferentia와 Trainium은 최근 AWS가 목적에 맞게 구축된 가속기 포트폴리오에 추가됨 아마존이 특별히 설계한 안나푸르나 연구소 ML 추론 및 교육 워크로드용.

지속 가능한 ML을 위한 AWS Inferentia 및 AWS Trainium

실제 애플리케이션에서 AWS Inferentia 및 AWS Trainium의 에너지 절감 가능성에 대한 현실적인 수치를 제공하기 위해 몇 가지 전력 소비 벤치마크 실험을 수행했습니다. 다음과 같은 주요 기준을 염두에 두고 이러한 벤치마크를 설계했습니다.

  • 첫째, ML 가속기뿐만 아니라 컴퓨팅, 메모리 및 네트워크를 포함하여 테스트 워크로드로 인한 직접적인 에너지 소비를 캡처했는지 확인하고 싶었습니다. 따라서 테스트 설정에서 해당 수준의 전력 소비량을 측정했습니다.
  • 둘째, 교육 및 추론 워크로드를 실행할 때 모든 인스턴스가 각각의 물리적 하드웨어 제한에서 작동하는지 확인하고 비교 가능성을 보장하기 위해 해당 제한에 도달한 후에만 측정을 수행했습니다.
  • 마지막으로, 우리는 이 게시물에서 보고된 에너지 절약이 실제 실제 응용 프로그램에서 달성될 수 있는지 확인하고 싶었습니다. 따라서 우리는 벤치마킹 및 테스트를 위해 일반적인 고객 영감 ML 사용 사례를 사용했습니다.

결과는 다음 섹션에 보고됩니다.

추론 실험: LayoutLM을 사용한 실시간 문서 이해

학습과 달리 추론은 정의된 완료 지점이 없는 지속적이고 제한 없는 워크로드입니다. 따라서 ML 워크로드의 수명 리소스 소비에서 많은 부분을 차지합니다. 추론을 올바르게 하는 것은 전체 ML 수명 주기에 걸쳐 고성능, 저비용 및 지속 가능성(에너지 효율성 향상)을 달성하는 데 중요합니다. 추론 작업을 통해 고객은 일반적으로 수집 요구를 따라잡기 위해 특정 추론 속도를 달성하는 데 관심이 있습니다.

이 게시물에 제시된 실험은 은행 또는 보험과 같은 산업(예: 청구 또는 신청서 처리)에서 일반적인 응용 프로그램인 실시간 문서 이해 사용 사례에서 영감을 받았습니다. 구체적으로 우리는 레이아웃LM, 문서 이미지 처리 및 정보 추출에 사용되는 사전 훈련된 변환기 모델입니다. 우리는 종종 실시간으로 간주되는 값인 시간당 1,000,000 추론의 목표 SLA를 설정한 다음 이 요구 사항을 충족할 수 있는 두 가지 하드웨어 구성을 지정합니다. Amazon EC2 Inf1 인스턴스, AWS Inferentia 및 추론 작업에 최적화된 유사한 가속화된 EC2 인스턴스를 사용하는 것이 특징입니다. 실험 전반에 걸쳐 여러 지표를 추적하여 두 하드웨어 구성의 추론 성능, 비용 및 에너지 효율성을 측정합니다. 결과는 다음 그림에 나와 있습니다.

AWS 전용 액셀러레이터를 사용하여 기계 학습 워크로드의 에너지 소비를 최대 90% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

추론 벤치마크의 성능, 비용 및 에너지 효율성 결과

AWS Inferentia는 6.3배 더 높은 추론 처리량을 제공합니다. 결과적으로 Inferentia를 사용하면 더 적은 수의 인스턴스(6개의 AWS Inferentia 인스턴스와 33개의 다른 추론 최적화 가속 EC2 인스턴스, 82% 감소에 해당)에서 워크로드를 이해하는 동일한 실시간 LayoutLM 기반 문서를 실행할 수 있습니다. 프로세스에서 에너지의 92분의 2(-25%)보다 훨씬 낮은 추론당 비용을 달성하는 동시에(미화 91달러 vs. 백만 추론당 USD XNUMX, XNUMX% 비용 절감에 해당).

교육 실험: 처음부터 BERT Large 교육

추론과 달리 교육은 훨씬 덜 자주 반복되는 유한한 프로세스입니다. ML 엔지니어는 일반적으로 비용을 통제하면서 교육 시간을 줄이기 위해 높은 클러스터 성능에 관심이 있습니다. 에너지 효율은 부차적인(아직 성장하고 있는) 관심사입니다. AWS Trainium을 사용하면 절충 결정이 없습니다. ML 엔지니어는 비용을 최적화하고 환경에 미치는 영향을 줄이는 동시에 높은 교육 성능의 이점을 누릴 수 있습니다.

이를 설명하기 위해 다음을 선택합니다. 버트 라지, 챗봇 기반 질문 응답 및 대화 응답 예측과 같은 자연어 이해 사용 사례에 사용되는 인기 있는 언어 모델입니다. 성능이 좋은 BERT Large 모델을 처음부터 훈련하려면 일반적으로 450억 16천만 개의 시퀀스를 처리해야 합니다. 우리는 각각 450개 인스턴스의 고정 크기를 가지고 있고 BERT Large를 처음부터 처음부터 훈련할 수 있는(처리된 2억 XNUMX천만 시퀀스) 두 개의 클러스터 구성을 비교합니다. 첫 번째는 기존의 가속 ECXNUMX 인스턴스를 사용합니다. 두 번째 설정은 다음을 사용합니다. Amazon EC2 Trn1 인스턴스 AWS Trainium을 특징으로 합니다. 다시 한 번 교육 성과, 비용 및 환경 영향(에너지 효율성) 측면에서 두 가지 구성을 모두 벤치마킹합니다. 결과는 다음 그림에 나와 있습니다.

AWS 전용 액셀러레이터를 사용하여 기계 학습 워크로드의 에너지 소비를 최대 90% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

교육 벤치마크의 성능, 비용 및 에너지 효율성 결과

실험에서 AWS Trainium 기반 인스턴스는 시간당 처리되는 시퀀스 측면에서 비교 가능한 교육 최적화 가속 EC2 인스턴스보다 1.7배 더 우수하여 총 교육 시간을 43% 단축했습니다(비슷한 가속 EC2.3 인스턴스에서 4시간 대 2시간). . 결과적으로 Trainium 기반 인스턴스 클러스터를 사용하는 경우 처음부터 BERT Large를 교육하는 데 필요한 총 에너지 소비량은 비슷한 가속 EC29 인스턴스의 동일한 크기 클러스터에 비해 약 2% 더 낮습니다. 다시 말하지만 이러한 성능 및 에너지 효율성 이점은 상당한 비용 개선과 함께 제공됩니다. BERT ML 워크로드에 대한 교육 비용은 Trainium 인스턴스에서 약 62% 더 낮습니다(전체 교육 실행당 USD 787 대 USD 2091).

ML용으로 특별히 구축된 AWS 액셀러레이터 시작하기

여기에서 수행된 실험은 모두 자연어 처리(NLP) 도메인의 표준 모델을 사용하지만 AWS Inferentia 및 AWS Trainium은 LLM 및 가장 까다로운 생성 적 AI 사용자가 구축하는 아키텍처(예: GPT-3). 이러한 가속기는 특히 10억 개 이상의 매개변수가 있는 모델 또는 안정적인 확산과 같은 컴퓨터 비전 모델에서 잘 작동합니다(참조: 모델 아키텍처 맞춤 지침 상세 사항은). 실제로 많은 고객이 이미 Inferentia와 Trainium을 다양한 용도로 사용하고 있습니다. ML 사용 사례.

AWS Inferentia 및 AWS Trainium 기반 인스턴스에서 엔드 투 엔드 딥 러닝 워크로드를 실행하려면 다음을 사용할 수 있습니다. AWS 뉴런. Neuron은 TensorFlow 및 PyTorch와 같은 가장 널리 사용되는 ML 프레임워크에 기본적으로 통합되는 딥 러닝 컴파일러, 런타임 및 도구를 포함하는 엔드 투 엔드 소프트웨어 개발 키트(SDK)입니다. Neuron SDK를 사용하여 기존 TensorFlow 또는 PyTorch 딥 러닝 ML 워크로드를 Inferentia 및 Trainium으로 쉽게 포팅하고 잘 알려진 동일한 ML 프레임워크를 사용하여 새 모델 구축을 시작할 수 있습니다. 더 쉬운 설정을 위해 다음 중 하나를 사용하십시오. 딥 러닝을 위한 Amazon 머신 이미지(AMI), 많은 필수 패키지 및 종속성과 함께 제공됩니다. 훨씬 간단합니다. Inferentia 및 Trainium에서 TensorFlow 및 PyTorch를 기본적으로 지원하는 Amazon SageMaker Studio를 사용할 수 있습니다( aws 샘플 GitHub 리포지토리 예).

마지막 참고 사항: Inferentia 및 Trainium은 딥 러닝 워크로드용으로 특별히 제작되었지만 덜 복잡한 많은 ML 알고리즘이 CPU 기반 인스턴스에서 잘 수행될 수 있습니다(예: XGBoost 및 LightGBM 심지어 일부 CNN). 이러한 경우 다음으로 마이그레이션 AWS 그래비톤3 ML 워크로드의 환경적 영향을 크게 줄일 수 있습니다. AWS Graviton 기반 인스턴스는 비슷한 가속 EC60 인스턴스보다 동일한 성능에 대해 최대 2% 더 적은 에너지를 사용합니다.

결론

지속 가능하고 에너지 효율적인 방식으로 기계 학습 워크로드를 실행하면 성능이나 비용이 희생된다는 일반적인 오해가 있습니다. 기계 학습을 위해 특별히 구축된 AWS 액셀러레이터를 사용하면 ML 엔지니어는 그러한 절충안을 만들 필요가 없습니다. 대신, 그들은 AWS Inferentia 및 AWS Trainium과 같은 고도로 전문화된 딥 러닝 하드웨어에서 딥 러닝 워크로드를 실행할 수 있습니다. 2% - 모두 동시에. Inferentia 및 Trainium에서 ML 워크로드 실행을 시작하려면 다음을 확인하십시오. AWS Neuron 설명서 또는 샘플 노트북. AWS re:Invent 2022 토크도 시청할 수 있습니다. 지속 가능성 및 AWS 실리콘(SUS206), 이 게시물에서 논의된 많은 주제를 다룹니다.


저자에 관하여

AWS 전용 액셀러레이터를 사용하여 기계 학습 워크로드의 에너지 소비를 최대 90% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.카스텐 슈로어 AWS의 솔루션 아키텍트입니다. 그는 고객이 데이터와 기술을 활용하여 IT 인프라의 지속 가능성을 촉진하고 각 분야에서 지속 가능한 운영을 가능하게 하는 데이터 기반 솔루션을 구축하도록 지원합니다. Karsten은 응용 기계 학습 및 운영 관리에 대한 박사 학위를 취득한 후 AWS에 합류했습니다. 그는 사회적 문제에 대한 기술 지원 솔루션에 진정으로 열정적이며 이러한 솔루션의 기반이 되는 방법과 애플리케이션 아키텍처에 대해 깊이 파고드는 것을 좋아합니다.

AWS 전용 액셀러레이터를 사용하여 기계 학습 워크로드의 에너지 소비를 최대 90% 절감 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.캄란 칸 AWS Annapurna Labs의 선임 기술 제품 관리자입니다. 그는 AI/ML 고객과 긴밀히 협력하여 Amazon의 Annapurna Labs에서 나오는 AWS 전용 실리콘 혁신을 위한 로드맵을 형성합니다. 그의 구체적인 초점은 AWS Trainium 및 AWS Inferentia를 포함한 가속화된 딥 러닝 칩에 있습니다. Kamran은 반도체 업계에서 18년의 경력을 가지고 있습니다. Kamran은 개발자가 ML 목표를 달성하도록 지원한 XNUMX년 이상의 경험을 가지고 있습니다.

타임 스탬프 :

더보기 AWS 기계 학습