Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상

플라톤에 의해 재발행

팔로워 : 0

우리는 기계 학습(ML)이 널리 채택되는 흥미로운 변곡점에 있으며 대부분의 고객 경험과 애플리케이션이 생성 AI를 통해 재창조될 것이라고 믿습니다. 제너레이티브 AI는 대화, 스토리, 이미지, 비디오, 음악 등 새로운 콘텐츠와 아이디어를 만들 수 있습니다. 대부분의 AI와 마찬가지로 생성 AI는 ML 모델, 즉 방대한 양의 데이터에 대해 훈련되고 일반적으로 기초 모델(FM)이라고 불리는 매우 큰 모델을 기반으로 합니다. FM은 변압기를 기반으로 합니다. Transformer는 모델의 크기 때문에 긴 텍스트 시퀀스를 생성할 때 속도가 느리고 메모리가 부족합니다. 텍스트 시퀀스를 생성하는 데 사용되는 LLM(대형 언어 모델)은 엄청난 양의 컴퓨팅 성능이 필요하며 사용 가능한 HBM(고대역폭 메모리) 및 컴퓨팅 용량에 액세스하는 데 어려움을 겪습니다. 이는 사용 가능한 메모리 대역폭의 상당 부분이 모델의 매개변수를 로드하고 자동 회귀 디코딩 프로세스.결과적으로 엄청난 양의 컴퓨팅 성능이 있어도 LLM은 메모리 I/O 및 컴퓨팅 제한으로 인해 제한되어 사용 가능한 하드웨어 리소스를 최대한 활용할 수 없습니다.

전반적으로 LLM의 생성적 추론에는 세 가지 주요 과제가 있습니다. Popeet al. 2022년):

디코딩 중 대규모 모델 매개변수와 과도 상태로 인해 메모리 공간이 커집니다. 매개변수는 단일 가속기 칩의 메모리를 초과하는 경우가 많습니다. 어텐션 키-값 캐시에도 상당한 메모리가 필요합니다.
낮은 병렬성은 대기 시간을 증가시키며, 특히 대용량 메모리 공간의 경우 각 단계에서 매개변수와 캐시를 컴퓨팅 코어에 로드하기 위해 상당한 데이터 전송이 필요합니다. 이로 인해 대기 시간 목표를 충족하는 데 필요한 총 메모리 대역폭이 높아집니다.
시퀀스 길이에 따른 주의 메커니즘 계산의 XNUMX차 스케일링은 대기 시간과 계산 문제를 복잡하게 만듭니다.

일괄 처리는 이러한 문제를 해결하는 기술 중 하나입니다. 일괄 처리는 여러 입력 시퀀스를 LLM에 함께 전송하여 LLM 추론 성능을 최적화하는 프로세스를 의미합니다. 이 접근 방식은 모든 입력 시퀀스에 대해 모델 매개변수를 로드할 필요가 없기 때문에 처리량을 향상시키는 데 도움이 됩니다. 매개변수는 한 번 로드될 수 있으며 여러 입력 시퀀스를 처리하는 데 사용될 수 있습니다. 일괄 처리는 가속기의 HBM 대역폭을 효율적으로 활용하여 컴퓨팅 활용도를 높이고 처리량을 향상하며 비용 효율적인 추론을 제공합니다.

이 게시물에서는 LLM의 병렬 생성 추론을 위한 일괄 처리 기술을 사용하여 처리량을 최대화하는 기술을 검토합니다. 우리는 메모리 공간을 줄이고, 병렬성을 높이고, 관심의 XNUMX차 스케일링을 완화하여 처리량을 높이는 다양한 일괄 처리 방법에 대해 논의합니다. 목표는 HBM 및 가속기와 같은 하드웨어를 최대한 활용하여 메모리, I/O 및 계산의 병목 현상을 극복하는 것입니다. 그런 다음 방법을 강조합니다. 아마존 세이지 메이커 LMI(대형 모델 추론) DLC(딥 러닝 컨테이너)는 이러한 기술에 도움이 될 수 있습니다. 마지막으로 다음을 사용하여 SageMaker의 각 배치 전략에 따른 처리량 향상에 대한 비교 분석을 제시합니다. LMI DLC 다음과 같은 모델의 처리량을 향상시키기 위해 라마 v2. 다음에서 함께 제공되는 예제 노트북을 찾을 수 있습니다. SageMaker 예제 GitHub 리포지토리.

LLM(대형 언어 모델) 추론

자동 회귀 디코딩은 GPT와 같은 언어 모델이 한 번에 하나의 토큰씩 텍스트 출력을 생성하는 프로세스입니다. 후속 토큰을 예측하기 위해 생성된 토큰을 입력 시퀀스의 일부로 모델에 반복적으로 공급하는 작업이 포함됩니다. 단계는 다음과 같습니다:

모델은 시퀀스의 이전 토큰을 입력으로 받습니다. 첫 번째 단계에서는 사용자가 제공하는 시작 프롬프트입니다.
모델은 다음 토큰의 어휘에 대한 분포를 예측합니다.
예측 확률이 가장 높은 토큰이 선택되어 출력 시퀀스에 추가됩니다. 2단계와 3단계는 디코딩 이 글을 쓰는 시점에서 가장 눈에 띄는 디코딩 방법은 탐욕 검색, 빔 검색, 대조 검색 및 샘플링입니다.
이 새 토큰은 다음 디코딩 단계를 위한 입력 시퀀스에 추가됩니다.
모델은 시퀀스 끝 마커가 생성되거나 원하는 출력 길이에 도달할 때까지 이러한 단계를 반복하여 단계당 하나의 새 토큰을 생성합니다.

LLM을 위한 모델 제공

LLM에 대한 모델 제공은 텍스트 생성을 위한 입력 요청을 수신하고, 추론하고, 결과를 요청 애플리케이션에 반환하는 프로세스를 나타냅니다. 다음은 모델 제공과 관련된 주요 개념입니다.

클라이언트는 일련의 토큰 또는 입력 프롬프트로 구성된 각 요청을 포함하여 여러 추론 요청을 생성합니다.
요청은 추론 서버에서 수신됩니다(예: DJL서빙, 횃불, 소라 고둥및 포옹 얼굴 TGI)
추론 서버는 추론 요청을 일괄 처리하고 모델 파티셔닝 라이브러리(예: 트랜스포머-NeuronX, 딥스피드, 가속및 더 빠른 변압기) 생성 언어 모델에서 정방향 전달(출력 토큰 시퀀스 예측)을 실행하기 위한 것입니다.
실행 엔진은 응답 토큰을 생성하고 응답을 추론 서버로 다시 보냅니다.
추론 서버는 생성된 결과로 클라이언트에 응답합니다.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

추론 서버가 요청 수준에서 실행 엔진과 상호 작용할 때 요청 수준 예약에 문제가 있습니다. 예를 들어 Python 프로세스를 사용하는 각 요청에는 메모리 제한이 있는 별도의 모델 복사본이 필요합니다. 예를 들어 다음 그림에 표시된 것처럼 총 가속기 디바이스 메모리가 80GB인 기계 학습(ML) 인스턴스에서는 크기가 96GB인 모델의 단일 복사본만 로드할 수 있습니다. 추가 요청을 동시에 처리하려면 전체 모델의 추가 복사본을 로드해야 합니다. 이는 메모리가 아니며 비용 효율적이지 않습니다.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

이제 요청 수준 예약으로 인한 문제를 이해했으므로 처리량을 최적화하는 데 도움이 될 수 있는 다양한 일괄 처리 기술을 살펴보겠습니다.

일괄 처리 기술

이 섹션에서는 다양한 일괄 처리 기술을 설명하고 SageMaker를 사용하여 이를 구현하는 방법을 보여줍니다. LMI 컨테이너.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

추론 요청에 대한 일괄 처리에는 두 가지 주요 유형이 있습니다.

클라이언트측(정적) – 일반적으로 클라이언트가 서버에 요청을 보내면 서버는 기본적으로 각 요청을 순차적으로 처리하므로 처리량에 적합하지 않습니다. 처리량을 최적화하기 위해 클라이언트는 추론 요청을 단일 페이로드로 일괄 처리하고 서버는 일괄 처리 논리를 구현하여 일괄 처리를 여러 요청으로 나누고 각 요청에 대해 별도로 추론을 실행합니다. 이 옵션에서는 클라이언트가 일괄 처리를 위한 코드를 변경해야 하며 솔루션은 일괄 처리 크기와 긴밀하게 연결됩니다.
서버측(동적) – 또 다른 일괄 처리 기술은 추론을 사용하여 서버 측에서 일괄 처리를 수행하는 것입니다. 독립적인 추론 요청이 서버에 도착하면 추론 서버는 이를 서버 측에서 더 큰 배치로 동적으로 그룹화할 수 있습니다. 추론 서버는 지정된 대기 시간 목표를 충족하도록 일괄 처리를 관리하여 원하는 대기 시간 범위 내에서 유지하면서 처리량을 최대화할 수 있습니다. 추론 서버는 이를 자동으로 처리하므로 클라이언트 측 코드 변경이 필요하지 않습니다. 서버 측 일괄 처리에는 자동 회귀 디코딩을 기반으로 하는 생성 언어 모델의 처리량을 더욱 최적화하는 다양한 기술이 포함되어 있습니다. 이러한 일괄 처리 기술에는 동적 일괄 처리, 연속 일괄 처리 및 vLLM(PagedAttention) 일괄 처리가 포함됩니다.

동적 일괄 처리

동적 일괄 처리는 입력 요청을 결합하여 추론을 위한 일괄 처리로 함께 보내는 것을 의미합니다. 동적 일괄 처리는 컴퓨터 비전(CV), 자연어 처리(NLP) 등을 포함한 모든 작업에 작동하는 일반적인 서버 측 일괄 처리 기술입니다.

LMI 컨테이너에서는 다음 설정을 기반으로 요청 일괄 처리를 구성할 수 있습니다. 서빙.속성:

배치 _ 크기 – 배치의 크기를 나타냅니다.
max_batch_delay – 일괄 집계에 대한 최대 지연을 나타냅니다.

이러한 임계값 중 하나가 충족되면(최대 배치 크기 충족 또는 대기 기간 완료) 새 배치가 준비되고 추론을 위해 모델에 푸시됩니다. 다음 다이어그램은 모델에 의해 함께 처리되는 입력 시퀀스 길이가 다른 요청의 동적 일괄 처리를 보여줍니다.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

LMI 컨테이너를 구성하여 SageMaker에서 동적 일괄 처리를 구현할 수 있습니다. 서빙.속성 다음과 같이 :

#Dynamic Batching
engine=Python
option.entryPoint=djl_python.huggingface
batch_size=64 #example
max_batch_delay=1000 #example
option.tensor_parallel_degree=2 #example

동적 일괄 처리는 일괄 처리가 없는 경우에 비해 처리량을 최대 XNUMX배 증가시킬 수 있지만 모든 요청 처리가 완료될 때까지 시스템이 다른 일괄 처리를 수락할 수 없기 때문에 이 경우 GPU 사용률이 최적이 아니라는 점을 관찰했습니다.

지속적인 일괄 처리

연속 일괄 처리는 텍스트 생성에 특화된 최적화입니다. 처리량을 향상시키고 첫 번째 바이트 대기 시간까지의 시간을 희생하지 않습니다. 연속 일괄 처리(또는 반복적 인 or 롤링 배치)는 유휴 GPU 시간 문제를 해결하고 일괄 처리에서 새로운 요청을 지속적으로 푸시하여 동적 일괄 처리 접근 방식을 더욱 강화합니다. 다음 다이어그램은 요청의 지속적인 일괄 처리를 보여줍니다. 요청 2와 3의 처리가 완료되면 다른 요청 세트가 예약됩니다.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음 대화형 다이어그램은 연속 일괄 처리가 작동하는 방식을 자세히 설명합니다.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

(예의: https://github.com/InternLM/lmdeploy)

강력한 기술을 사용하여 LLM 및 텍스트 생성을 효율적으로 만들 수 있습니다. 즉, 일부 주의 매트릭스를 캐싱하는 것입니다. 이는 프롬프트의 첫 번째 전달이 후속 전달 전달과 다르다는 것을 의미합니다. 첫 번째 단계에서는 전체 어텐션 매트릭스를 계산해야 하지만 후속 단계에서는 새 토큰 어텐션만 계산하면 됩니다. 첫 번째 패스가 호출됩니다. 미리 채우기 이 코드 베이스 전반에 걸쳐 후속 작업이 호출됩니다. 풀다. 미리 채우기는 디코드보다 비용이 훨씬 더 많이 들기 때문에 항상 수행하고 싶지는 않지만 현재 실행 중인 쿼리는 아마도 디코드를 수행 중일 것입니다. 이전에 설명한 대로 연속 일괄 처리를 사용하려면 디코드 그룹에 참여하는 데 필요한 주의 매트릭스를 생성하기 위해 특정 시점에서 사전 채우기를 실행해야 합니다.

이 기술을 사용하면 유휴 GPU를 효과적으로 활용하여 일괄 처리가 없는 경우에 비해 처리량을 최대 20배까지 늘릴 수 있습니다.

다음 매개변수를 미세 조정할 수 있습니다. serving.properties 연속 일괄 처리를 사용하기 위한 LMI 컨테이너:

엔진 – 코드의 런타임 엔진. 값에는 다음이 포함됩니다. Python, DeepSpeed, FasterTransformer및 MPI. 사용 MPI 지속적인 일괄 처리를 가능하게 합니다.
롤링_배치 – 지원되는 전략 중 하나를 사용하여 반복 수준 일괄 처리를 활성화합니다. 값에는 다음이 포함됩니다. auto, scheduler및 lmi-dist. 우리는 사용 lmi-dist Llama 2에 대한 연속 일괄 처리를 켜는 방법입니다.
max_rolling_batch_size – 연속 배치의 동시 요청 수를 제한합니다. 기본값은 32입니다.
max_rolling_batch_prefill_tokens – 캐싱을 위한 토큰 수를 제한합니다. GPU 메모리 부족을 방지하려면 배치 크기와 입력 시퀀스 길이를 기반으로 조정해야 합니다. 다음 경우에만 지원됩니다. rolling_batch=lmi-dist. 동시 요청 수 x 요청당 입력 토큰 및 출력 토큰을 저장하는 데 필요한 메모리를 기준으로 값을 설정하는 것이 좋습니다.

다음은 샘플 코드입니다. serving.properties 연속 일괄 처리 구성:

#Continuous Batching
engine=MPI
option.entryPoint=djl_python.huggingface
option.rolling_batch=auto
option.max_rolling_batch_size=64 #example
option.paged_attention=false
option.max_rolling_batch_prefill_tokens=16080 #example
option.tensor_parallel_degree=2 #example

PagedAttention 일괄 처리

자동회귀 디코딩 프로세스에서 LLM에 대한 모든 입력 토큰은 어텐션 키와 값 텐서를 생성하며, 이러한 텐서는 다음 토큰을 생성하기 위해 GPU 메모리에 보관됩니다. 이러한 캐시된 키 및 값 텐서를 종종 텐서라고 합니다. KV 캐시 or 주의 캐시. 종이에 따르면 vLLM: PagedAttention을 사용한 쉽고 빠르며 저렴한 LLM 서비스, KV 캐시는 Llama 1.7B의 단일 시퀀스에 대해 최대 13GB를 차지합니다. 또한 역동적입니다. 그 크기는 시퀀스 길이에 따라 달라지며, 이는 매우 가변적이고 예측할 수 없습니다. 결과적으로 KV 캐시를 효율적으로 관리하는 것은 중요한 과제입니다. 이 논문에서는 기존 시스템이 조각화 및 과도한 예약으로 인해 메모리의 60~80%를 낭비한다는 사실을 발견했습니다.

PagedAttention은 UC Berkeley에서 개발한 새로운 최적화 알고리즘으로, 고정 크기 페이지 또는 블록에 메모리를 할당하여 Atttention 캐시(KV 캐시)가 비연속적이 되도록 하여 연속 일괄 처리 프로세스를 개선합니다. 이는 운영 체제에서 사용되는 가상 메모리 및 페이징 개념에서 영감을 받았습니다.

vLLM 논문에 따르면 각 토큰 시퀀스의 어텐션 캐시는 블록으로 분할되고 블록 테이블을 통해 물리적 블록에 매핑됩니다. Attention을 계산하는 동안 PagedAttention 커널은 블록 테이블을 사용하여 물리적 메모리에서 블록을 효율적으로 가져올 수 있습니다. 그 결과 메모리 낭비가 크게 줄어들고 배치 크기가 커지고 GPU 활용도가 높아지며 처리량이 높아집니다. 다음 그림은 주의 캐시를 연속되지 않은 페이지로 분할하는 방법을 보여줍니다.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음 다이어그램은 PagedAttention을 사용한 추론 예시를 보여줍니다. 주요 단계는 다음과 같습니다.

추론 요청은 입력 프롬프트와 함께 수신됩니다.
사전 채우기 단계에서는 주의가 계산되고 키-값이 연속되지 않은 물리적 메모리에 저장되고 논리적 키-값 블록에 매핑됩니다. 이 매핑은 블록 테이블에 저장됩니다.
입력 프롬프트는 모델(정방향 전달)을 통해 실행되어 첫 번째 응답 토큰을 생성합니다. 응답 토큰 생성 중에는 사전 채우기 단계의 주의 캐시가 사용됩니다.
후속 토큰 생성 중에 현재 물리적 블록이 가득 차면 추가 메모리가 비연속 방식으로 할당되어 적시 할당이 가능해집니다.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

PagedAttention은 최적에 가까운 메모리 사용과 메모리 낭비 감소에 도움이 됩니다. 이를 통해 더 많은 요청을 일괄 처리할 수 있으므로 추론 처리량이 크게 증가합니다.

다음 코드는 샘플입니다. serving.properties SageMaker의 LMI 컨테이너에서 PagedAttention 일괄 처리를 구성하려면:

#Paged Attention Batching
engine=MPI
option.entryPoint=djl_python.huggingface
option.rolling_batch=auto
option.max_rolling_batch_size=64 #example
option.paged_attention=true
option.max_rolling_batch_prefill_tokens=16080 #example
option.tensor_parallel_degree=2 #example

어떤 일괄 처리 기술을 사용해야 하는 경우

다음 그림에는 샘플과 함께 서버 측 일괄 처리 기술이 요약되어 있습니다. serving.properties SageMaker의 LMI에서.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

다음 표에는 다양한 일괄 처리 기술과 해당 사용 사례가 요약되어 있습니다.

	PagedAttention 일괄 처리	연속 배치	동적 배칭	클라이언트 측 일괄 처리	배치 없음
전달 방법	항상 페이징된 블록과 함께 토큰 수준에서 새 요청을 병합하고 일괄 추론을 수행합니다.	항상 토큰 수준에서 새 요청을 병합하고 일괄 추론을 수행합니다.	요청 수준에서 새 요청을 병합합니다. 배치를 형성하는 데 몇 밀리초 동안 지연될 수 있습니다.	클라이언트는 추론 서버로 보내기 전에 동일한 페이로드로 여러 추론 요청을 일괄 처리하는 작업을 담당합니다.	요청이 도착하면 즉시 추론을 실행합니다.
가장 효과가 좋을 때	이는 권장되는 접근 방식입니다. 되지 않습니다. 디코더 전용 모델. 처리량 최적화 워크로드에 적합합니다. 텍스트 생성 모델에만 적용 가능합니다.	동일한 디코딩 전략을 사용하여 서로 다른 시간에 들어오는 동시 요청입니다. 처리량 최적화 워크로드에 적합합니다. 텍스트 생성 모델에만 적용 가능합니다.	동일한 디코딩 전략을 사용하여 서로 다른 시간에 들어오는 동시 요청입니다. 더 높은 처리량이 필요한 응답 시간에 민감한 워크로드에 적합합니다. CV, NLP 및 기타 유형의 모델에 적용 가능합니다.	처리량을 극대화하기 위한 지연 시간 제약이 없는 오프라인 추론 사용 사례에 적합합니다.	빈번하지 않은 추론 요청 또는 다양한 디코딩 전략을 사용한 추론 요청입니다. 응답 시간 대기 시간이 엄격히 요구되는 워크로드에 적합합니다.

SageMaker의 대규모 생성 모델에 대한 다양한 배치 기술의 처리량 비교

우리는 성능 벤치마킹을 수행했습니다. 라마 v2 7B 동시 수신 요청 50개와 총 요청 수 5,000개로 LMI 컨테이너와 이 게시물에서 설명한 다양한 일괄 처리 기술을 사용하여 SageMaker에서 모델을 만듭니다.

성능 테스트를 위해 가변 길이의 세 가지 다른 입력 프롬프트를 사용했습니다. 연속 및 PagedAttention 일괄 처리에서 출력 토큰 길이는 세 가지 입력 프롬프트에 대해 각각 64, 128 및 256으로 설정되었습니다. 동적 일괄 처리의 경우 128개 토큰의 일관된 출력 토큰 길이를 사용했습니다. ml.g5.24xlarge 인스턴스 유형을 사용하여 테스트를 위해 SageMaker 엔드포인트를 배포했습니다. 다음 표에는 성능 벤치마킹 테스트 결과가 포함되어 있습니다.

모델	배치 전략	ml.g5.24xlarge의 초당 요청
LLaMA2-7b	동적 배칭	3.24
LLaMA2-7b	연속 배치	6.92
LLaMA2-7b	PagedAttention 일괄 처리	7.41

LMI 컨테이너를 사용하는 SageMaker의 Llama2.3-2B 모델에 대한 동적 일괄 처리와 비교하여 PagedAttention 일괄 처리를 사용하면 처리량이 약 7배 증가한 것을 확인할 수 있습니다.

결론

이 게시물에서는 LLM 추론을 위한 다양한 일괄 처리 기술과 이 기술이 처리량을 높이는 데 어떻게 도움이 되는지 설명했습니다. 메모리 최적화 기술이 연속 및 PagedAttention 일괄 처리를 사용하여 하드웨어 효율성을 높이고 동적 일괄 처리보다 더 높은 처리량 값을 제공할 수 있는 방법을 보여주었습니다. LMI 컨테이너를 사용하는 SageMaker의 Llama2.3-2B 모델에 대한 동적 일괄 처리와 비교하여 PagedAttention 일괄 처리를 사용하면 처리량이 약 7배 증가한 것을 확인했습니다. 다양한 일괄 처리 기술을 테스트하는 데 사용되는 노트북을 다음에서 찾을 수 있습니다. GitHub의.

저자 소개

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 가간 싱 그는 AWS의 수석 기술 계정 관리자로서 디지털 기반 스타트업과 협력하여 비즈니스 성공을 향한 길을 닦고 있습니다. 그는 기계 학습 이니셔티브를 추진하는 틈새 시장에서 Amazon SageMaker를 활용하며 특히 딥 러닝 및 생성적 AI 솔루션에 중점을 두고 있습니다. 여가 시간에 Gagan은 히말라야 산길을 따라 트레킹하고 다양한 음악 장르에 빠져들면서 위안을 찾습니다.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 다왈 파텔 AWS의 수석 기계 학습 설계자입니다. 그는 분산 컴퓨팅 및 인공 지능과 관련된 문제에 대해 대기업에서 중견 스타트업에 이르는 다양한 조직과 협력했습니다. 그는 NLP 및 Computer Vision 도메인을 포함한 딥 러닝에 중점을 둡니다. 그는 고객이 SageMaker에서 고성능 모델 추론을 달성하도록 돕습니다.

Amazon SageMaker를 사용하여 Llama 2 모델의 처리량 성능 향상 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 베누고팔 빠이 AWS의 솔루션 아키텍트입니다. 그는 인도 벵갈루루에 거주하며 디지털 네이티브 고객이 AWS에서 애플리케이션을 확장하고 최적화하도록 돕습니다.