Amazon SageMaker를 사용하여 실시간 응답 스트리밍을 갖춘 추론 Llama 2 모델

플라톤에 의해 재발행

팔로워 : 0

생성적 AI 애플리케이션이 빠르게 채택됨에 따라 이러한 애플리케이션은 더 높은 처리량으로 인지된 대기 시간을 줄이기 위해 적시에 대응해야 합니다. 기초 모델(FM)은 종종 수백만에서 수십억에 이르는 규모의 매개변수를 포함하는 방대한 데이터 모음에 대해 사전 훈련됩니다. LLM(대형 언어 모델)은 사용자 추론에 대한 응답으로 텍스트를 생성하는 FM의 한 유형입니다. 추론 매개변수의 다양한 구성을 사용하여 이러한 모델을 추론하면 지연 시간이 일관되지 않을 수 있습니다. 불일치는 모델에서 기대하는 응답 토큰의 수가 다양하거나 모델이 배포된 가속기 유형으로 인해 발생할 수 있습니다.

두 경우 모두 전체 응답을 기다리는 대신 추론에 대한 응답 스트리밍 접근 방식을 채택할 수 있습니다. 이 접근 방식은 정보가 생성되자마자 정보 덩어리를 다시 보냅니다. 이는 지연된 전체 응답 대신 실시간으로 스트리밍된 부분 응답을 볼 수 있도록 하여 대화형 경험을 제공합니다.

공식 발표와 함께 Amazon SageMaker 실시간 추론, 이제 응답 스트리밍 지원, 이제 다음을 사용할 때 추론 응답을 클라이언트로 지속적으로 스트리밍할 수 있습니다. 아마존 세이지 메이커 응답 스트리밍을 통한 실시간 추론. 이 솔루션은 챗봇, 가상 비서, 음악 생성기 등 다양한 생성 AI 애플리케이션에 대한 대화형 경험을 구축하는 데 도움이 됩니다. 이 게시물에서는 TTFB(Time to First Byte) 형식으로 더 빠른 응답 시간을 실현하고 Llama 2 모델을 추론하는 동안 전반적인 인식 대기 시간을 줄이는 방법을 보여줍니다.

솔루션을 구현하기 위해 우리는 완전 관리형 서비스인 SageMaker를 사용하여 완전 관리형 인프라, 도구 및 워크플로를 통해 모든 사용 사례에 맞게 데이터를 준비하고 기계 학습(ML) 모델을 구축, 교육 및 배포합니다. SageMaker가 제공하는 다양한 배포 옵션에 대한 자세한 내용은 다음을 참조하십시오. Amazon SageMaker 모델 호스팅 FAQ. 응답 스트리밍과 함께 실시간 추론을 사용하여 지연 시간 문제를 해결하는 방법을 이해해 보겠습니다.

솔루션 개요

위에서 언급한 LLM을 통한 실시간 추론과 관련된 지연 시간을 해결하고 싶기 때문에 먼저 Llama 2에 대한 실시간 추론을 위해 응답 스트리밍 지원을 사용할 수 있는 방법을 이해하겠습니다. 그러나 모든 LLM은 실시간 추론을 통해 응답 스트리밍 지원을 활용할 수 있습니다. -시간 추론.

Llama 2는 7억에서 70억 개의 매개변수 범위에 이르는 사전 훈련되고 미세 조정된 생성 텍스트 모델 모음입니다. Llama 2 모델은 디코더 전용 아키텍처를 갖춘 자동 회귀 모델입니다. 프롬프트 및 추론 매개변수가 제공되면 Llama 2 모델은 텍스트 응답을 생성할 수 있습니다. 이러한 모델은 번역, 요약, 질문 답변 및 채팅에 사용할 수 있습니다.

이 게시물에서는 Llama 2 Chat 모델을 배포합니다. meta-llama/Llama-2-13b-chat-hf 응답 스트리밍을 통한 실시간 추론을 위해 SageMaker에서.

SageMaker 엔드포인트에 모델을 배포할 때 특수한 방법을 사용하여 모델을 컨테이너화할 수 있습니다. AWS 딥 러닝 컨테이너 (DLC) 이미지는 인기 있는 오픈 소스 라이브러리에서 사용할 수 있습니다. Llama 2 모델은 텍스트 생성 모델입니다. 다음 중 하나를 사용할 수 있습니다. SageMaker에서 Face LLM 추론 컨테이너 포옹 포옹 얼굴에 의해 구동 텍스트 생성 추론 (TGI) 또는 AWS DLC 대형 모델 추론 (LMI).

이 게시물에서는 G2 인스턴스에서 지원하는 실시간 추론을 위해 SageMaker 호스팅에서 DLC를 사용하여 Llama 13 5B Chat 모델을 배포합니다. G5 인스턴스는 그래픽 집약적인 애플리케이션과 ML 추론을 위한 고성능 GPU 기반 인스턴스입니다. 인스턴스 구성에 따라 적절하게 변경하여 지원되는 인스턴스 유형 p4d, p3, g5 및 g4dn을 사용할 수도 있습니다.

사전 조건

이 솔루션을 구현하려면 다음이 필요합니다.

가 있는 AWS 계정 AWS 자격 증명 및 액세스 관리 (IAM) 솔루션의 일부로 생성된 리소스를 관리할 수 있는 권한이 있는 역할입니다.
처음으로 작업하는 경우 아마존 세이지 메이커 스튜디오, 먼저 SageMaker 도메인.
허깅페이스 계정입니다. 가입하기 아직 계정이 없다면 이메일로 알려주세요.
- Hugging Face에서 사용할 수 있는 모델, 특히 미세 조정 및 추론 목적으로 Llama와 같은 게이트 모델에 원활하게 액세스하려면 읽기 액세스 토큰을 얻기 위한 Hugging Face 계정이 있어야 합니다. Hugging Face 계정에 가입하신 후, 로그인 방문하다 https://huggingface.co/settings/tokens 읽기 액세스 토큰을 생성합니다.
Hugging Face에 가입할 때 사용한 것과 동일한 이메일 ID를 사용하여 Llama 2에 액세스하세요.
- Hugging Face를 통해 제공되는 Llama 2 모델은 게이트 모델입니다. Llama 모델의 사용에는 메타 라이센스가 적용됩니다. 모델 가중치와 토크나이저를 다운로드하려면, Llama에 대한 액세스 요청 라이센스를 수락하십시오.
- 액세스 권한이 부여되면(일반적으로 며칠 내에) 이메일 확인을 받게 됩니다. 이 예에서는 모델을 사용합니다. Llama-2-13b-chat-hf, 하지만 다른 변형에도 액세스할 수 있어야 합니다.

접근법 1: 포옹하는 얼굴 TGI

이 섹션에서는 배포 방법을 보여줍니다. meta-llama/Llama-2-13b-chat-hf Hugging Face TGI를 사용하여 응답 스트리밍을 통해 SageMaker 실시간 엔드포인트에 모델을 적용합니다. 다음 표에는 이 배포의 사양이 요약되어 있습니다.

스펙	가치관
컨테이너	포옹 얼굴 TGI
모델 이름	메타-라마/Llama-2-13b-chat-hf
ML 인스턴스	ml.g5.12xlarge
추론	응답 스트리밍을 통한 실시간

모델 배포

먼저 배포할 LLM의 기본 이미지를 검색합니다. 그런 다음 기본 이미지에 모델을 빌드합니다. 마지막으로 실시간 추론을 위해 SageMaker 호스팅용 ML 인스턴스에 모델을 배포합니다.

프로그래밍 방식으로 배포를 수행하는 방법을 살펴보겠습니다. 간결성을 위해 이 섹션에서는 배포 단계에 도움이 되는 코드만 설명합니다. 배포를 위한 전체 소스 코드는 노트북에서 확인할 수 있습니다. llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

사전 구축된 TGI를 통해 제공되는 최신 Hugging Face LLM DLC를 검색하세요. SageMaker DLC. 이 이미지를 사용하여 meta-llama/Llama-2-13b-chat-hf SageMaker의 모델. 다음 코드를 참조하세요.

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

다음과 같이 정의된 구성 매개변수를 사용하여 모델 환경을 정의합니다.

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

교체 <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> 구성 매개변수의 경우 HUGGING_FACE_HUB_TOKEN 이 게시물의 전제 조건 섹션에 자세히 설명된 대로 Hugging Face 프로필에서 얻은 토큰 값을 사용하세요. 구성에서 모델의 복제본당 사용되는 GPU 수를 4로 정의합니다. SM_NUM_GPUS. 그런 다음 배포할 수 있습니다. meta-llama/Llama-2-13b-chat-hf 5.12개의 GPU와 함께 제공되는 ml.g4xlarge 인스턴스의 모델입니다.

이제 다음 인스턴스를 빌드할 수 있습니다. HuggingFaceModel 앞서 언급한 환경 구성을 사용하면 다음과 같습니다.

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

마지막으로, 다음과 같은 다양한 매개변수 값을 사용하여 모델에서 사용 가능한 배포 메서드에 인수를 제공하여 모델을 배포합니다. endpoint_name, initial_instance_count및 instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

추론 수행

Hugging Face TGI DLC에는 모델에 대한 사용자 정의나 코드 변경 없이 응답을 스트리밍하는 기능이 함께 제공됩니다. 당신이 사용할 수있는 Invoke_endpoint_with_response_stream Boto3를 사용하는 경우 또는 InvokeEndpointWithResponseStream SageMaker Python SDK로 프로그래밍할 때.

XNUMXD덴탈의 InvokeEndpointWithResponseStream SageMaker의 API를 사용하면 개발자가 SageMaker 모델에서 응답을 다시 스트리밍할 수 있으므로 인지된 대기 시간을 줄여 고객 만족도를 높이는 데 도움이 될 수 있습니다. 이는 전체 응답을 기다리는 것보다 즉각적인 처리가 더 중요한 생성적 AI 모델로 구축된 애플리케이션에 특히 중요합니다.

이 예에서는 Boto3를 사용하여 모델을 추론하고 SageMaker API를 사용합니다. invoke_endpoint_with_response_stream 다음과 같이 :

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

논쟁 거리 CustomAttributes 값으로 설정됩니다 accept_eula=false. XNUMXD덴탈의 accept_eula 매개변수를 다음으로 설정해야 합니다. true Llama 2 모델로부터 성공적으로 응답을 얻었습니다. 다음을 사용하여 성공적으로 호출한 후 invoke_endpoint_with_response_stream, 메서드는 바이트의 응답 스트림을 반환합니다.

다음 다이어그램은이 워크 플로우를 보여줍니다.

HF TGI 스트리밍 아키텍처 다이어그램

바이트 스트림을 반복하고 이를 읽을 수 있는 텍스트로 구문 분석하는 반복자가 필요합니다. 그만큼 LineIterator 구현은 다음에서 찾을 수 있습니다. llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. 이제 모델을 추론하는 동안 이를 페이로드로 사용하기 위한 프롬프트와 지침을 준비할 준비가 되었습니다.

메시지와 지침을 준비하세요.

이 단계에서는 LLM에 대한 프롬프트와 지침을 준비합니다. Llama 2에 프롬프트를 표시하려면 다음 프롬프트 템플릿이 있어야 합니다.

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

메소드에 프로그래밍 방식으로 정의된 프롬프트 템플릿을 작성합니다. build_llama2_prompt, 앞서 언급한 프롬프트 템플릿과 일치합니다. 그런 다음 사용 사례에 따라 지침을 정의합니다. 이 경우, 우리는 모델에 설명된 대로 마케팅 캠페인을 위한 이메일을 생성하도록 지시합니다. get_instructions 방법. 이러한 메소드에 대한 코드는 llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb 공책. 다음에 설명된 대로 수행할 작업과 결합된 지침을 작성합니다. user_ask_1 다음과 같이 :

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

build_llama2_prompt에 의해 생성된 프롬프트 템플릿에 따라 프롬프트를 빌드하라는 지침을 전달합니다.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

키를 사용하여 프롬프트와 함께 추론 매개변수를 클럽화합니다. stream 가치와 함께 True 최종 페이로드를 형성합니다. 페이로드를 다음으로 보냅니다. get_realtime_response_stream, 응답 스트리밍으로 엔드포인트를 호출하는 데 사용됩니다.

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

LLM에서 생성된 텍스트는 다음 애니메이션과 같이 출력으로 스트리밍됩니다.

Llama 2 13B 채팅 응답 스트리밍 - HF TGI

접근법 2: DJL 서비스를 제공하는 LMI

이 섹션에서는 배포 방법을 보여줍니다. meta-llama/Llama-2-13b-chat-hf DJL Serving과 함께 LMI를 사용한 응답 스트리밍을 통해 SageMaker 실시간 엔드포인트에 모델을 적용합니다. 다음 표에는 이 배포의 사양이 요약되어 있습니다.

스펙	가치관
컨테이너	DJL Serving을 사용한 LMI 컨테이너 이미지
모델 이름	메타-라마/Llama-2-13b-chat-hf
ML 인스턴스	ml.g5.12xlarge
추론	응답 스트리밍을 통한 실시간

먼저 모델을 다운로드하여 저장합니다. 아마존 단순 스토리지 서비스 (아마존 S3). 그런 다음 모델의 S3 접두사를 나타내는 S3 URI를 지정합니다. serving.properties 파일. 다음으로 배포할 LLM의 기본 이미지를 검색합니다. 그런 다음 기본 이미지에 모델을 빌드합니다. 마지막으로 실시간 추론을 위해 SageMaker 호스팅용 ML 인스턴스에 모델을 배포합니다.

앞서 언급한 배포 단계를 프로그래밍 방식으로 수행하는 방법을 살펴보겠습니다. 간결성을 위해 이 섹션에서는 배포 단계에 도움이 되는 코드만 자세히 설명합니다. 이 배포의 전체 소스 코드는 노트북에서 확인할 수 있습니다. llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Hugging Face에서 모델 스냅샷을 다운로드하고 Amazon S3에 모델 아티팩트를 업로드합니다.

앞서 언급한 전제 조건을 갖춘 SageMaker 노트북 인스턴스에서 모델을 다운로드한 다음 추가 배포를 위해 S3 버킷에 업로드합니다.

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

유효한 액세스 토큰을 제공하지 않아도 모델이 다운로드됩니다. 하지만 이러한 모델을 배포하면 모델 제공이 성공하지 못합니다. 따라서 교체를 권장합니다. <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> 논쟁을 위해 token 전제 조건에 자세히 설명된 대로 Hugging Face 프로필에서 얻은 토큰 값을 사용합니다. 이 게시물에서는 Hugging Face에서 식별된 Llama 2의 공식 모델 이름을 값으로 지정합니다. meta-llama/Llama-2-13b-chat-hf. 압축되지 않은 모델은 다음 위치에 다운로드됩니다. local_model_path 앞서 언급한 코드를 실행한 결과입니다.

파일을 Amazon S3에 업로드하고 나중에 사용할 URI를 얻습니다. serving.properties.

당신은 포장할 것입니다 meta-llama/Llama-2-13b-chat-hf 다음을 통해 지정된 구성을 사용하여 DJL Serving을 사용하여 LMI 컨테이너 이미지 모델을 만듭니다. serving.properties. 그런 다음 SageMaker ML 인스턴스 ml.g5.12xlarge의 컨테이너 이미지에 패키지된 모델 아티팩트와 함께 모델을 배포합니다. 그런 다음 실시간 추론을 위해 SageMaker 호스팅에 이 ML 인스턴스를 사용합니다.

DJL Serving을 위한 모델 아티팩트 준비

생성하여 모델 아티팩트를 준비합니다. serving.properties 구성 파일 :

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

이 구성 파일에서는 다음 설정을 사용합니다.

엔진 – DJL이 사용할 런타임 엔진을 지정합니다. 가능한 값은 다음과 같습니다. Python, DeepSpeed, FasterTransformer및 MPI. 이 경우에는 다음과 같이 설정했습니다. MPI. MPI(모델 병렬화 및 추론)는 사용 가능한 모든 GPU에서 모델을 쉽게 분할하여 추론을 가속화합니다.
옵션.진입점 – 이 옵션은 사용하려는 DJL Serving에서 제공하는 핸들러를 지정합니다. 가능한 값은 다음과 같습니다. djl_python.huggingface, djl_python.deepspeed및 djl_python.stable-diffusion. 우리는 사용 djl_python.huggingface 포옹 얼굴 가속을 위해.
option.tensor_parallel_degree – 이 옵션은 모델에서 수행되는 텐서 병렬 파티션 수를 지정합니다. Accelerate가 모델을 분할하는 데 필요한 GPU 장치 수를 설정할 수 있습니다. 또한 이 매개변수는 DJL 제공이 실행될 때 시작될 모델당 작업자 수를 제어합니다. 예를 들어, 4개의 GPU 머신이 있고 XNUMX개의 파티션을 생성하는 경우 모델당 하나의 작업자가 요청을 처리하게 됩니다.
option.low_cpu_mem_usage – 모델을 로드할 때 CPU 메모리 사용량이 줄어듭니다. 다음으로 설정하는 것이 좋습니다. TRUE.
옵션.롤링_배치 – 이를 통해 지원되는 전략 중 하나를 사용하여 반복 수준 일괄 처리가 가능해집니다. 값에는 다음이 포함됩니다. auto, scheduler및 lmi-dist. 우리는 사용 lmi-dist Llama 2에 대한 연속 일괄 처리를 켜는 방법입니다.
option.max_rolling_batch_size – 이는 연속 배치의 동시 요청 수를 제한합니다. 값의 기본값은 32입니다.
옵션.모델_ID – 교체해야합니다 {{model_id}} 내부에 호스팅된 사전 학습된 모델의 모델 ID로 Hugging Face의 모델 저장소 또는 모델 아티팩트에 대한 S3 경로입니다.

더 많은 구성 옵션은 다음에서 찾을 수 있습니다. 구성 및 설정.

DJL Serving에서는 모델 아티팩트가 .tar 파일로 패키징되고 형식화될 것으로 예상하므로 다음 코드 조각을 실행하여 .tar 파일을 압축하고 Amazon S3에 업로드합니다.

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

DJL Serving으로 최신 LMI 컨테이너 이미지 검색

다음으로, LMI용 SageMaker와 함께 제공되는 DLC를 사용하여 모델을 배포합니다. SageMaker 이미지 URI를 검색합니다. djl-deepspeed 다음 코드를 사용하여 프로그래밍 방식으로 컨테이너:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

앞서 언급한 이미지를 사용하여 배포할 수 있습니다. meta-llama/Llama-2-13b-chat-hf SageMaker의 모델. 이제 모델 생성을 진행할 수 있습니다.

모델 만들기

다음을 사용하여 컨테이너가 빌드된 모델을 생성할 수 있습니다. inference_image_uri 및 다음과 같이 표시된 S3 URI에 위치한 모델 서비스 코드 s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

이제 엔드포인트 구성에 대한 모든 세부 정보가 포함된 모델 구성을 생성할 수 있습니다.

모델 구성 만들기

다음 코드를 사용하여 식별된 모델에 대한 모델 구성을 만듭니다. model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

모델 구성은 다음에 대해 정의됩니다. ProductionVariants 매개 변수 InstanceType ML 인스턴스 ml.g5.12xlarge의 경우. 당신은 또한 ModelName 이전 단계에서 모델을 생성하는 데 사용한 것과 동일한 이름을 사용하여 모델과 엔드포인트 구성 간의 관계를 설정합니다.

이제 모델 및 모델 구성을 정의했으므로 SageMaker 엔드포인트를 생성할 수 있습니다.

SageMaker 엔드포인트 생성

다음 코드 조각을 사용하여 모델을 배포할 엔드포인트를 만듭니다.

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

다음 코드 조각을 사용하여 배포 진행 상황을 볼 수 있습니다.

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

배포가 성공하면 엔드포인트 상태는 다음과 같습니다. InService. 이제 엔드포인트가 준비되었으므로 응답 스트리밍으로 추론을 수행해 보겠습니다.

응답 스트리밍을 통한 실시간 추론

Hugging Face TGI에 대한 이전 접근 방식에서 다룬 것처럼 동일한 방법을 사용할 수 있습니다. get_realtime_response_stream SageMaker 엔드포인트에서 응답 스트리밍을 호출합니다. LMI 접근 방식을 사용하여 추론하는 코드는 다음과 같습니다. llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb 공책. 그만큼 LineIterator 구현 위치는 다음과 같습니다. llama-2-lmi/utils/LineIterator.py. 참고로 LineIterator LMI 컨테이너에 배포된 Llama 2 Chat 모델은 LineIterator Hugging Face TGI 섹션에서 참조됩니다. 그만큼 LineIterator 다음을 사용하여 LMI 컨테이너로 추론된 Llama 2 Chat 모델의 바이트 스트림을 반복합니다. djl-deepspeed 버전 0.25.0. 다음 도우미 함수는 추론 요청에서 수신된 응답 스트림을 구문 분석합니다. invoke_endpoint_with_response_stream API :

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

앞의 메서드는 읽은 데이터 스트림을 인쇄합니다. LineIterator 사람이 읽을 수 있는 형식으로.

모델을 추론하는 동안 이를 페이로드로 사용하기 위한 프롬프트와 지침을 준비하는 방법을 살펴보겠습니다.

Hugging Face TGI와 LMI에서 동일한 모델을 추론하기 때문에 프롬프트와 지침을 준비하는 과정은 동일합니다. 따라서 다음 방법을 사용할 수 있습니다. get_instructions 및 build_llama2_prompt 추론을 위해.

XNUMXD덴탈의 get_instructions 메소드는 지침을 반환합니다. 다음에 설명된 대로 수행할 작업과 결합된 지침을 작성합니다. user_ask_2 다음과 같이 :

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

생성된 프롬프트 템플릿에 따라 프롬프트를 작성하는 지침을 전달합니다. build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

우리는 최종 페이로드를 형성하라는 메시지와 함께 추론 매개변수를 결합합니다. 그런 다음 페이로드를 다음으로 보냅니다. get_realtime_response_stream, 이는 응답 스트리밍으로 엔드포인트를 호출하는 데 사용됩니다.

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

LLM에서 생성된 텍스트는 다음 애니메이션과 같이 출력으로 스트리밍됩니다.

Llama 2 13B 채팅 응답 스트리밍 - LMI

정리

불필요한 비용 발생을 방지하려면 AWS 관리 콘솔 게시물에 언급된 접근 방식을 실행하는 동안 생성된 엔드포인트 및 관련 리소스를 삭제합니다. 두 배포 접근 방식 모두 다음 정리 루틴을 수행합니다.

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

교체 <SageMaker_Real-time_Endpoint_Name> 변수에 대한 endpoint_name 실제 끝점과 함께.

두 번째 접근 방식에서는 모델과 코드 아티팩트를 Amazon S3에 저장했습니다. 다음 코드를 사용하여 S3 버킷을 정리할 수 있습니다.

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

결론

이 게시물에서는 다양한 수의 응답 토큰 또는 다양한 추론 매개변수 세트가 LLM과 관련된 지연 시간에 어떤 영향을 미칠 수 있는지 논의했습니다. 우리는 응답 스트리밍의 도움으로 문제를 해결하는 방법을 보여주었습니다. 그런 다음 AWS DLC(LMI 및 Hugging Face TGI)를 사용하여 Llama 2 Chat 모델을 배포하고 추론하는 두 가지 접근 방식을 식별했습니다.

이제 스트리밍 응답의 중요성과 인지된 지연 시간을 줄이는 방법을 이해해야 합니다. 스트리밍 응답은 사용자 경험을 향상시킬 수 있습니다. 그렇지 않으면 LLM이 전체 응답을 빌드할 때까지 기다려야 합니다. 또한 응답 스트리밍을 통해 Llama 2 Chat 모델을 배포하면 사용자 경험이 향상되고 고객이 만족하게 됩니다.

공식 aws-samples를 참조할 수 있습니다. Amazon-Sagemaker-llama2-응답-스트리밍-레시피 다른 Llama 2 모델 변형에 대한 배포를 다룹니다.

참고자료

저자에 관하여

파반 쿠마르 라오 나불레 Amazon Web Services의 솔루션 아키텍트입니다. 그는 인도의 ISV와 협력하여 그들이 AWS에서 혁신할 수 있도록 돕습니다. 그는 "V 프로그래밍 시작하기"라는 책의 출판 작가입니다. 그는 하이데라바드에 있는 인도 공과대학(IIT)에서 데이터 과학 분야의 M.Tech를 취득했습니다. 그는 또한 인도 경영 관리 학교에서 IT 전문 분야의 Executive MBA를 취득했으며 Vaagdevi Institute of Technology and Science에서 전자 및 통신 엔지니어링 분야의 B.Tech 학위를 취득했습니다. Pavan은 AWS 공인 솔루션스 아키텍트 전문가이며 AWS 공인 기계 학습 전문 분야, Microsoft 공인 전문가(MCP) 및 Microsoft 공인 기술 전문가(MCTS)와 같은 기타 자격증을 보유하고 있습니다. 그는 또한 오픈 소스 매니아이기도 합니다. 여가 시간에는 Sia와 Rihanna의 환상적인 목소리를 듣는 것을 좋아합니다.

수단슈 증오 AWS의 주요 AI/ML 전문가이며 고객과 협력하여 MLOps 및 생성적 AI 여정에 대해 조언합니다. Amazon 이전 직책에서 그는 팀을 개념화하고 생성하고 주도하여 철저한 오픈 소스 기반 AI 및 게임화 플랫폼을 구축했으며 100개 이상의 클라이언트와 함께 이를 성공적으로 상용화했습니다. Sudhanshu는 몇 가지 특허를 인정받아 두 권의 책과 여러 논문, 블로그를 작성했으며 다양한 기술 포럼에서 자신의 관점을 발표했습니다. 그는 사고의 리더이자 연사였으며 거의 25년 동안 업계에 종사해 왔습니다. 그는 전 세계 Fortune 1000대 고객과 협력했으며 가장 최근에는 인도의 디지털 네이티브 고객과 협력했습니다.