Mantium이 Amazon SageMaker에서 DeepSpeed를 사용하여 저지연 GPT-J 추론을 달성하는 방법

플라톤에 의해 재발행

팔로워 : 0

만티움 AI 애플리케이션을 구축하고 대규모로 관리하기 위한 글로벌 클라우드 플랫폼 제공업체입니다. Mantium의 종단 간 개발 플랫폼을 사용하면 모든 규모의 기업과 기업이 기존에 가능했던 것보다 빠르고 쉽게 AI 애플리케이션과 자동화를 구축할 수 있습니다. Mantium을 사용하면 기술 및 비기술 팀이 로우 코드 접근 방식으로 AI 애플리케이션의 프로토타입, 개발, 테스트 및 배포를 모두 수행할 수 있습니다. Mantium은 자동 로깅, 모니터링 및 안전 기능을 통해 소프트웨어 및 DevOps 엔지니어가 바퀴를 재발명하는 데 시간을 할애하지 않도록 합니다. 높은 수준에서 Mantium은 다음을 제공합니다.

최첨단 AI – 간단한 UI 또는 API를 사용하여 광범위한 오픈 소스 및 사설 대형 언어 모델을 실험하고 개발합니다.
AI 프로세스 자동화 – 증가하는 통합 라이브러리와 Mantium의 그래픽 AI 빌더를 사용하여 AI 기반 애플리케이션을 쉽게 구축할 수 있습니다.
신속한 배포 – 원클릭 배포로 생산 일정을 몇 개월에서 몇 주 또는 며칠로 단축할 수 있습니다. 이 기능은 한 번의 클릭으로 AI 애플리케이션을 공유 가능한 웹 앱으로 전환합니다.
안전 및 규제 – 거버넌스 정책 및 HIL(human-in-the-loop) 프로세스 지원을 통해 안전과 규정 준수를 보장합니다.

Mantium AI Builder를 사용하면 외부 API, 논리 작업 및 AI 모델을 통합하는 정교한 워크플로를 개발할 수 있습니다. 다음 스크린샷은 Twilio 입력, 거버넌스 정책, AI 블록(GPT-J와 같은 오픈 소스 모델에 의존할 수 있음) 및 Twilio 출력을 함께 연결하는 Mantium AI 앱의 예를 보여줍니다.

이 앱을 지원하기 위해 Mantium은 Open AI, Co:here 및 AI21과 같은 AI 제공업체의 모델 API뿐만 아니라 최첨단 오픈 소스 모델에 대한 포괄적이고 균일한 액세스를 제공합니다. Mantium은 누구나 소유하고 있는 최신 AI 애플리케이션을 엔드 투 엔드로 구축할 수 있어야 한다고 생각하며 성능 최적화 오픈 소스 모델에 코드 없이 및 로우 코드 액세스를 제공하여 이를 지원합니다.

예를 들어 Mantium의 핵심 오픈 소스 모델 중 하나는 다음과 같습니다. GPT-J, 에 의해 개발된 최첨단 자연어 처리(NLP) 모델 Eleuther AI. 6억 개의 매개변수가 있는 GPT-J는 가장 크고 성능이 뛰어난 오픈 소스 텍스트 생성 모델 중 하나입니다. Mantium 사용자는 Mantium의 AI Builder를 통해 GPT-J를 AI 애플리케이션에 통합할 수 있습니다. GPT-J의 경우 여기에는 신속한 (모델이 수행해야 하는 작업에 대한 자연어 표현) 및 일부 선택적 매개변수 구성.

예를 들어 다음 스크린샷은 설명과 감정 예측을 생성하는 감정 분석 프롬프트의 축약된 데모를 보여줍니다. 이 예에서 저자는 "음식은 훌륭했습니다"와 "서비스는 훌륭했습니다"라고 썼습니다. 따라서 이 텍스트는 긍정적인 감정을 표현합니다.

그러나 오픈 소스 모델의 한 가지 문제는 프로덕션 등급 성능을 위해 거의 설계되지 않았다는 것입니다. GPT-J와 같은 대형 모델의 경우 사용 사례에 따라 프로덕션 배포가 비실용적이고 심지어 실행 불가능할 수도 있습니다.

사용자가 동급 최고의 성능에 액세스할 수 있도록 우리는 항상 핵심 모델의 대기 시간을 줄이는 방법을 찾고 있습니다. 이 게시물에서는 DeepSpeed의 추론 엔진을 사용하여 GPT-J의 추론 속도를 약 116% 증가시킨 추론 최적화 실험의 결과를 설명합니다. 또한 DeepSpeed와 함께 GPT-J의 Hugging Face Transformers 구현을 배포한 방법에 대해서도 설명합니다. 아마존 세이지 메이커 추론 끝점.

GPT-J 모델 개요

GPT-J는 GPT(Generative Pretrained) 언어 모델이며 아키텍처 측면에서 Open AI의 GPT-3과 같은 인기 있는 비공개 대규모 언어 모델과 비슷합니다. 앞서 언급한 바와 같이 약 6억 개의 매개변수와 28개의 레이어로 구성되며 피드포워드 블록과 셀프 어텐션 블록으로 구성됩니다. 처음 출시되었을 때 GPT-J는 회전식 임베딩, 절대 및 상대 위치 인코더를 통합하는 새로운 위치 인코딩 전략. 또한 고밀도 및 피드포워드 레이어가 단일 레이어에 결합되어 통신 오버헤드를 최소화하는 혁신적인 병렬화 전략을 사용합니다.

GPT-J는 오늘날의 표준(대형 모델은 일반적으로 100억 개 이상의 매개변수로 구성됨)에 따라 충분히 크지 않을 수 있지만 여전히 인상적인 성능을 발휘하며 신속한 엔지니어링이나 최소한의 미세 조정으로 많은 문제를 해결하는 데 사용할 수 있습니다. 또한 상대적으로 적당한 크기는 더 큰 모델보다 훨씬 더 저렴한 비용으로 더 빠르게 배포할 수 있음을 의미합니다.

즉, GPT-J는 여전히 꽤 큽니다. 예를 들어, FP32에서 전체 가중치 업데이트와 Adam 최적화 프로그램을 사용하여 GPT-J를 훈련하려면 200GB 이상의 메모리가 필요합니다. 훈련 배치를 로드하고 활성화를 저장하기 위한 추가 메모리 요구 사항. 물론 FP24에서 훈련하면 이러한 메모리 요구 사항이 거의 절반으로 줄어들지만 24GB가 넘는 메모리 공간에는 여전히 혁신적인 훈련 전략이 필요합니다. 예를 들어 SageMaker와 협력하여 Mantium의 NLP 팀은 워크플로우 SageMaker 분산 모델 병렬 라이브러리를 사용하여 GPT-J 교육(미세 조정)

대조적으로 추론을 위해 GPT-J를 제공하는 것은 메모리 요구 사항이 훨씬 낮습니다. FP16에서 모델 가중치는 13GB 미만을 차지하므로 단일 16GB GPU에서 쉽게 추론을 수행할 수 있습니다. 그러나 Hugging Face Transformers와 같은 즉시 사용 가능한 GPT-J 구현에 대한 추론 이행 우리가 사용하는 것은 상대적으로 느립니다. 응답성이 뛰어난 텍스트 생성이 필요한 사용 사례를 지원하기 위해 GPT-J의 추론 지연 시간을 줄이는 데 중점을 두었습니다.

GPT-J의 응답 지연 문제

응답 대기 시간은 최신 텍스트 생성을 지원하는 GPT-J와 같은 생성적 사전 훈련된 변환기(GPT)의 핵심 장애물입니다. GPT 모델은 일련의 추론 단계를 통해 텍스트를 생성합니다. 각 추론 단계에서 모델에 텍스트가 입력되고 이 입력을 조건으로 텍스트에 추가할 어휘에서 단어를 샘플링합니다. 예를 들어, "나는 우산이 필요하기 때문에" 토큰 시퀀스가 주어지면 다음 토큰일 가능성이 높은 것은 "비가 올 수 있습니다." 그러나 "맑음" 또는 "바운드"일 수도 있습니다. 이는 "비가 내리기 시작하기 때문에 우산이 필요합니다."와 같은 텍스트 시퀀스를 향한 첫 번째 단계가 될 수 있습니다.

실제 사용 사례에는 수십, 수백 또는 수천 개의 추론 단계가 포함될 수 있기 때문에 이와 같은 시나리오는 GPT 모델 배포에 대한 몇 가지 흥미로운 문제를 제기합니다. 예를 들어, 1,000개의 토큰 응답을 생성하려면 1,000개의 추론 단계가 필요합니다! 따라서 모델이 독립적으로 충분히 빠른 것처럼 보이는 추론 속도를 제공할 수 있지만 긴 텍스트가 생성되면 대기 시간이 감당할 수 없는 수준에 도달하기 쉽습니다. 우리는 V280 GPU에서 추론 단계당 평균 100밀리초의 대기 시간을 관찰했습니다. 이는 6.7억 개의 매개변수 모델에서는 빠르게 보일 수 있지만 이러한 대기 시간으로 인해 30개 토큰 응답을 생성하는 데 약 500초가 소요되며 이는 사용자 경험 관점에서 이상적이지 않습니다.

DeepSpeed Inference로 추론 속도 최적화

딥스피드 Microsoft에서 개발한 오픈 소스 딥 러닝 최적화 라이브러리입니다. DeepSpeed는 주로 대형 모델 훈련의 최적화에 중점을 두고 있지만 BERT, Megatron, GPT-Neo, GPT2 및 GPT-J를 비롯한 일부 모델 세트를 지원하는 추론 최적화 프레임워크도 제공합니다. DeepSpeed Inference는 모델 병렬 처리, 추론 최적화 CUDA 커널 및 양자화의 조합을 통해 대규모 Transformer 기반 아키텍처로 고성능 추론을 촉진합니다.

GPT-J로 추론 속도를 높이기 위해 DeepSpeed의 추론 엔진을 사용하여 최적화된 CUDA 커널을 Hugging Face Transformers GPT-J 구현에 주입합니다.

DeepSpeed 추론 엔진의 속도 이점을 평가하기 위해 다양한 구성에서 GPT-J 시간을 측정하는 일련의 대기 시간 테스트를 수행했습니다. 특히 DeepSpeed 사용 여부, 하드웨어, 출력 시퀀스 길이 및 입력 시퀀스 길이를 다양화했습니다. 우리는 출력 및 입력 시퀀스 길이 모두에 초점을 맞추었습니다. 둘 다 추론 속도에 영향을 미치기 때문입니다. 50개 토큰의 출력 시퀀스를 생성하려면 모델이 50개의 추론 단계를 수행해야 합니다. 또한 추론 단계를 수행하는 데 필요한 시간은 입력 시퀀스의 크기에 따라 달라집니다. 더 큰 입력은 더 많은 처리 시간을 필요로 합니다. 출력 시퀀스 크기의 영향이 입력 시퀀스 크기의 영향보다 훨씬 크지만 두 가지 요소를 모두 고려해야 합니다.

우리의 실험에서는 다음 디자인을 사용했습니다.

DeepSpeed 추론 엔진 – 켜기, 끄기
하드웨어 – T4(ml.g4dn.2xlarge), V100(ml.p3.2xlarge)
입력 시퀀스 길이 – 50, 200, 500, 1000
출력 시퀀스 길이 – 50, 100, 150, 200

전체적으로 이 디자인에는 이 네 가지 요소의 조합이 64개 있으며 각 조합에 대해 20개의 대기 시간 테스트를 실행했습니다. 각 테스트는 사전 초기화된 SageMaker 추론 엔드포인트에서 실행되어 대기 시간 테스트가 API 교환 및 사전 처리를 포함한 프로덕션 시간을 반영하도록 합니다.

우리의 테스트는 DeepSpeed의 GPT-J 추론 엔진이 기본 Hugging Face Transformers PyTorch 구현보다 훨씬 더 빠르다는 것을 보여줍니다. 다음 그림은 ml.g4dn.2xlarge 및 ml.p3.2xlarge SageMaker 추론 끝점에서 DeepSpeed 가속이 있거나 없는 GPT-J의 평균 텍스트 생성 대기 시간을 보여줍니다.

4GB NVIDIA T2 GPU가 장착된 ml.g16dn.4xlarge 인스턴스에서 약 24%의 평균 지연 감소를 관찰했습니다[표준 편차(SD) = 0.05]. 이는 초당 평균 12.5(SD = 0.91) 토큰에서 초당 평균 16.5(SD = 2.13) 토큰으로 증가한 것에 해당합니다. 특히 DeepSpeed의 가속 효과는 NVIDIA V3.2 GPU가 장착된 ml.p100xlarge 인스턴스에서 더욱 강력했습니다. 해당 하드웨어에서 53%(SD = .07)의 평균 대기 시간 감소를 관찰했습니다. 초당 토큰의 관점에서 이것은 초당 평균 21.9(SD = 1.97) 토큰에서 초당 평균 47.5(SD = 5.8) 토큰으로 증가한 것에 해당합니다.

우리는 또한 입력 시퀀스의 크기가 커짐에 따라 DeepSpeed가 제공하는 가속이 두 하드웨어 구성 모두에서 약간 감쇠하는 것을 관찰했습니다. 그러나 모든 조건에서 DeepSpeed의 GPT-J 최적화를 통한 추론은 여전히 기준선보다 훨씬 빨랐습니다. 예를 들어, g4dn 인스턴스에서 최대 및 최소 지연 감소는 각각 31%(입력 시퀀스 크기 = 50) 및 15%(입력 시퀀스 크기 = 1000)였습니다. 그리고 p3 인스턴스에서 최대 및 최소 지연 감소는 각각 62%(입력 시퀀스 크기 = 50) 및 40%(입력 시퀀스 크기 = 1000)였습니다.

SageMaker 추론 엔드포인트에서 DeepSpeed를 사용하여 GPT-J 배포

GPT-J의 텍스트 생성 속도가 크게 증가하는 것 외에도 DeepSpeed의 추론 엔진은 SageMaker 추론 끝점에 간단하게 통합됩니다. 추론 스택에 DeepSpeed를 추가하기 전에 끝점은 공식 PyTorch 이미지를 기반으로 하는 사용자 지정 Docker 이미지에서 실행되었습니다. SageMaker를 사용하면 사용자 정의 추론 엔드포인트를 매우 쉽게 배포할 수 있으며 DeepSpeed를 통합하는 것은 종속성을 포함하고 몇 줄의 코드를 작성하는 것만큼 간단했습니다. DeepSpeed와 함께 GPT-J를 배포하기 위한 배포 워크플로에 대한 오픈 소스 가이드는 다음에서 사용할 수 있습니다. GitHub의.

결론

Mantium은 모든 사람이 AI로 빠르게 구축할 수 있도록 혁신을 주도하는 데 전념하고 있습니다. AI 기반 프로세스 자동화에서 엄격한 안전 및 규정 준수 설정에 이르기까지 당사의 완전한 플랫폼은 강력하고 책임감 있는 AI 애플리케이션을 대규모로 개발 및 관리하는 데 필요한 모든 도구를 제공하고 진입 장벽을 낮춥니다. SageMaker는 Mantium과 같은 회사가 시장에 빠르게 출시할 수 있도록 도와줍니다.

Mantium이 조직을 위한 복잡한 AI 기반 워크플로를 구축하는 데 어떻게 도움이 되는지 알아보려면 다음을 방문하십시오. www.mantiumai.com.

저자 소개

조 후버 Mantium AI R&D 팀의 수석 응용 과학자입니다. 그는 사람들이 최첨단 NLP 시스템으로 실제 문제를 해결하는 데 도움이 되는 모델, 방법 및 인프라 개발에 열정을 가지고 있습니다. 여가 시간에는 배낭 여행, 정원 가꾸기, 요리, 가족과 어울리는 것을 즐깁니다.

다왈 파텔 AWS의 수석 기계 학습 설계자입니다. 그는 분산 컴퓨팅 및 인공 지능과 관련된 문제에 대해 대기업에서 중견 스타트업에 이르는 다양한 조직과 협력했습니다. 그는 NLP 및 Computer Vision 도메인을 포함한 딥 러닝에 중점을 둡니다. 그는 고객이 SageMaker에서 고성능 모델 추론을 달성하도록 돕습니다.

수닐 파드마나반 AWS의 스타트업 솔루션 아키텍트입니다. 전 스타트업 설립자이자 CTO인 그는 머신 러닝에 열정적이며 스타트업이 비즈니스 결과를 위해 AI/ML을 활용하고 ML/AI 솔루션을 대규모로 설계 및 배포하도록 돕는 데 중점을 두고 있습니다.

타임 스탬프 : ２０２３년 ６월 ２８일

타임 스탬프 : 11년 2023월 XNUMX일

Mantium이 Amazon SageMaker에서 DeepSpeed를 사용하여 저지연 GPT-J 추론을 달성하는 방법

플라톤에 의해 재발행

GPT-J 모델 개요

GPT-J의 응답 지연 문제

DeepSpeed Inference로 추론 속도 최적화

SageMaker 추론 엔드포인트에서 DeepSpeed를 사용하여 GPT-J 배포

결론

저자 소개

더보기 AWS 기계 학습

T-Mobile US, Inc.는 Amazon Transcribe 및 Amazon Translate를 통해 인공 지능을 사용하여 고객이 선택한 언어로 음성 메일을 전달합니다 | 아마존 웹 서비스

Amazon SageMaker 및 Amazon Augmented AI를 사용하여 위성 이미지용 컴퓨터 비전으로 재난 대응 가속화

AWS DeepRacer로 Parsons에서 인공 지능 및 기계 학습 활용

Amazon Transcribe에서 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도 향상

업데이트된 Amazon Kendra용 Microsoft OneDrive 커넥터(V2) 발표

안전한 실시간 추론을 위해 Amazon SageMaker 엔드포인트로 완전 동형 암호화를 활성화합니다.

Amazon SageMaker Data Wrangler 및 Amazon SageMaker Autopilot을 통한 통합 데이터 준비 및 모델 교육

Amazon SageMaker Canvas에서 Llama 2 및 Mistral 모델과 스트리밍 응답에 대한 지원 발표 | 아마존 웹 서비스

Amazon SageMaker Data Wrangler 및 Amazon SageMaker Autopilot을 사용한 통합 데이터 준비, 모델 교육 및 배포 – 2부

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

GPT-J 모델 개요

GPT-J의 응답 지연 문제

DeepSpeed ​​Inference로 추론 속도 최적화

SageMaker 추론 엔드포인트에서 DeepSpeed를 사용하여 GPT-J 배포

결론

저자 소개

더보기 AWS 기계 학습

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정

DeepSpeed Inference로 추론 속도 최적화