Inference Llama 2-modeller med realtidsresponsstreaming ved hjælp af Amazon SageMaker

Genudgivet af Platon

Abonnenter: 0

Med den hurtige indførelse af generative AI-applikationer er der behov for, at disse applikationer reagerer i tide for at reducere den opfattede latens med højere gennemløb. Fundamentmodeller (FM'er) er ofte fortrænede på store datakorpora med parametre, der strækker sig i skala fra millioner til milliarder og derover. Store sprogmodeller (LLM'er) er en type FM, der genererer tekst som et svar på brugerinferensen. Udledning af disse modeller med varierende konfigurationer af inferensparametre kan føre til inkonsistente latenstider. Inkonsekvensen kan skyldes det varierende antal svar-tokens, du forventer af modellen, eller typen af accelerator, som modellen er installeret på.

I begge tilfælde, i stedet for at vente på det fulde svar, kan du bruge tilgangen til svarstreaming for dine konklusioner, som sender bidder af information tilbage, så snart de er genereret. Dette skaber en interaktiv oplevelse ved at give dig mulighed for at se delvise svar streamet i realtid i stedet for et forsinket fuldt svar.

Med den officielle meddelelse, at Amazon SageMaker-inferens i realtid understøtter nu responsstreaming, kan du nu løbende streame inferenssvar tilbage til klienten, når du bruger Amazon SageMaker inferens i realtid med responsstreaming. Denne løsning hjælper dig med at bygge interaktive oplevelser til forskellige generative AI-applikationer såsom chatbots, virtuelle assistenter og musikgeneratorer. Dette indlæg viser dig, hvordan du realiserer hurtigere responstider i form af Time to First Byte (TTFB) og reducerer den overordnede opfattede latenstid, mens du udleder Llama 2-modeller.

Til at implementere løsningen bruger vi SageMaker, en fuldt administreret service til at forberede data og bygge, træne og implementere maskinlæringsmodeller (ML) til enhver brugssituation med fuldt administreret infrastruktur, værktøjer og arbejdsgange. For mere information om de forskellige implementeringsmuligheder, SageMaker tilbyder, se Ofte stillede spørgsmål om Amazon SageMaker Model Hosting. Lad os forstå, hvordan vi kan løse forsinkelsesproblemerne ved hjælp af realtidsslutning med responsstreaming.

Løsningsoversigt

Fordi vi ønsker at adressere de førnævnte forsinkelser forbundet med realtidsinferens med LLM'er, lad os først forstå, hvordan vi kan bruge respons-streaming-understøttelsen til real-time inferencing for Llama 2. Men enhver LLM kan drage fordel af respons-streaming-support med reel -tidsinferencing.

Llama 2 er en samling af fortrænede og finjusterede generative tekstmodeller i en skala fra 7 milliarder til 70 milliarder parametre. Llama 2-modeller er autoregressive modeller med kun dekoder-arkitektur. Når de er forsynet med en prompt og slutningsparametre, er Llama 2-modeller i stand til at generere tekstsvar. Disse modeller kan bruges til oversættelse, opsummering, besvarelse af spørgsmål og chat.

Til dette indlæg implementerer vi Llama 2 Chat-modellen meta-llama/Llama-2-13b-chat-hf på SageMaker for inferencing i realtid med responsstreaming.

Når det kommer til at implementere modeller på SageMaker-slutpunkter, kan du containerisere modellerne ved hjælp af specialiserede AWS Deep Learning Container (DLC) billeder tilgængelige for populære open source-biblioteker. Llama 2-modeller er tekstgenereringsmodeller; du kan bruge enten Hugging Face LLM-slutningsbeholdere på SageMaker drevet af Hugging Face Tekstgenereringsinferens (TGI) eller AWS DLC'er til Stor modelslutning (LMI).

I dette indlæg implementerer vi Llama 2 13B Chat-modellen ved hjælp af DLC'er på SageMaker Hosting til realtidsslutning drevet af G5-instanser. G5-instanser er en højtydende GPU-baseret instans til grafikintensive applikationer og ML-inferens. Du kan også bruge understøttede instanstyper p4d, p3, g5 og g4dn med passende ændringer i henhold til instanskonfigurationen.

Forudsætninger

For at implementere denne løsning skal du have følgende:

En AWS-konto med en AWS identitets- og adgangsstyring (IAM) rolle med tilladelser til at administrere ressourcer oprettet som en del af løsningen.
Hvis det er første gang, du arbejder med Amazon SageMaker Studio, skal du først oprette en SageMaker domæne.
En Hugging Face-konto. Tilmeld dig med din e-mail, hvis du ikke allerede har en konto.
- For problemfri adgang til modellerne, der er tilgængelige på Hugging Face, især gated-modeller som Llama, til finjustering og konklusioner, bør du have en Hugging Face-konto for at få et læseadgangstoken. Når du har tilmeldt dig din Hugging Face-konto, logge ind at besøge https://huggingface.co/settings/tokens for at oprette et læseadgangstoken.
Adgang til Llama 2 ved at bruge det samme e-mail-id, som du brugte til at tilmelde dig Hugging Face.
- Llama 2-modellerne, der er tilgængelige via Hugging Face, er gated-modeller. Brugen af Llama-modellen er underlagt Meta-licensen. For at downloade modelvægte og tokenizer, anmode om adgang til Llama og acceptere deres licens.
- Når du har fået adgang (typisk inden for et par dage), modtager du en e-mailbekræftelse. Til dette eksempel bruger vi modellen Llama-2-13b-chat-hf, men du burde også kunne få adgang til andre varianter.

Fremgangsmåde 1: Hugging Face TGI

I dette afsnit viser vi dig, hvordan du implementerer meta-llama/Llama-2-13b-chat-hf model til et SageMaker-endepunkt i realtid med responsstreaming ved hjælp af Hugging Face TGI. Følgende tabel skitserer specifikationerne for denne installation.

Specification	Værdi
Container	Knusende ansigt TGI
Modelnavn	meta-llama/Llama-2-13b-chat-hf
ML Forekomst	ml.g5.12xlarge
Inferens	Realtid med responsstreaming

Implementer modellen

Først henter du basisbilledet for LLM, der skal implementeres. Du bygger derefter modellen på basisbilledet. Til sidst implementerer du modellen til ML-instansen for SageMaker Hosting til realtidsslutning.

Lad os se, hvordan du opnår implementeringen programmatisk. For kortheds skyld diskuteres kun den kode, der hjælper med implementeringstrinnene, i dette afsnit. Den fulde kildekode til implementering er tilgængelig i notesbogen llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Hent den seneste Hugging Face LLM DLC drevet af TGI via forudbygget SageMaker DLC'er. Du bruger dette billede til at implementere meta-llama/Llama-2-13b-chat-hf model på SageMaker. Se følgende kode:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Definer miljøet for modellen med konfigurationsparametrene defineret som følger:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

udskifte <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> for konfigurationsparameteren HUGGING_FACE_HUB_TOKEN med værdien af tokenet, der er opnået fra din Hugging Face-profil som beskrevet i afsnittet om forudsætninger i dette indlæg. I konfigurationen definerer du antallet af brugte GPU'er pr. replika af en model som 4 for SM_NUM_GPUS. Så kan du implementere meta-llama/Llama-2-13b-chat-hf model på en ml.g5.12xlarge instans, der kommer med 4 GPU'er.

Nu kan du bygge instansen af HuggingFaceModel med den førnævnte miljøkonfiguration:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Til sidst skal du implementere modellen ved at give argumenter til den implementeringsmetode, der er tilgængelig på modellen med forskellige parameterværdier som f.eks endpoint_name, initial_instance_countog instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Udfør inferens

Hugging Face TGI DLC kommer med muligheden for at streame svar uden nogen tilpasninger eller kodeændringer til modellen. Du kan bruge invoke_endpoint_with_response_stream hvis du bruger Boto3 eller InvokeEndpointWithResponseStream ved programmering med SageMaker Python SDK.

InvokeEndpointWithResponseStream API fra SageMaker giver udviklere mulighed for at streame svar tilbage fra SageMaker-modeller, hvilket kan hjælpe med at forbedre kundetilfredsheden ved at reducere den opfattede latenstid. Dette er især vigtigt for applikationer bygget med generative AI-modeller, hvor øjeblikkelig behandling er vigtigere end at vente på hele svaret.

I dette eksempel bruger vi Boto3 til at udlede modellen og bruge SageMaker API invoke_endpoint_with_response_stream som følger:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Argumentet CustomAttributes er indstillet til værdien accept_eula=false. accept_eula parameter skal indstilles til true at opnå respons fra Llama 2-modellerne. Efter den vellykkede påkaldelse ved hjælp af invoke_endpoint_with_response_stream, vil metoden returnere en svarstrøm af bytes.

Følgende diagram illustrerer denne arbejdsgang.

HF TGI Streaming Arkitektonisk Diagram

Du har brug for en iterator, der går over strømmen af bytes og analyserer dem til læsbar tekst. Det LineIterator implementering kan findes på llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Nu er du klar til at forberede prompten og instruktionerne til at bruge dem som en nyttelast, mens du udleder modellen.

Forbered en prompt og instruktioner

I dette trin forbereder du prompten og instruktionerne til din LLM. For at bede Llama 2 skal du have følgende promptskabelon:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Du bygger den promptskabelon, der er programmeret defineret i metoden build_llama2_prompt, som stemmer overens med den førnævnte promptskabelon. Du definerer derefter instruktionerne i henhold til brugssagen. I dette tilfælde instruerer vi modellen i at generere en e-mail til en marketingkampagne som dækket af get_instructions metode. Koden til disse metoder er i llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb notesbog. Byg instruktionen kombineret med den opgave, der skal udføres som beskrevet i user_ask_1 som følger:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Vi videregiver instruktionerne til at bygge prompten i henhold til promptskabelonen genereret af build_llama2_prompt.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Vi klubber slutningsparametrene sammen med prompt med tasten stream med værdien True at danne en endelig nyttelast. Send nyttelasten til get_realtime_response_stream, som vil blive brugt til at kalde et slutpunkt med responsstreaming:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Den genererede tekst fra LLM vil blive streamet til output som vist i den følgende animation.

Llama 2 13B Chat Response Streaming - HF TGI

Fremgangsmåde 2: LMI med DJL Servering

I dette afsnit viser vi, hvordan du implementerer meta-llama/Llama-2-13b-chat-hf model til et SageMaker-endepunkt i realtid med responsstreaming ved hjælp af LMI med DJL-servering. Følgende tabel skitserer specifikationerne for denne installation.

Specification	Værdi
Container	LMI container billede med DJL Servering
Modelnavn	meta-llama/Llama-2-13b-chat-hf
ML Forekomst	ml.g5.12xlarge
Inferens	Realtid med responsstreaming

Du downloader først modellen og gemmer den i Amazon Simple Storage Service (Amazon S3). Du angiver derefter S3 URI'en, der angiver S3-præfikset for modellen i serving.properties fil. Derefter henter du basisbilledet til LLM, der skal implementeres. Du bygger derefter modellen på basisbilledet. Til sidst implementerer du modellen til ML-instansen for SageMaker Hosting til realtidsslutning.

Lad os se, hvordan man opnår de førnævnte implementeringstrin programmatisk. For kortheds skyld er kun den kode, der hjælper med implementeringstrinnene, der er beskrevet i dette afsnit. Den fulde kildekode til denne implementering er tilgængelig i notesbogen llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Download model-øjebliksbilledet fra Hugging Face og upload modelartefakter på Amazon S3

Med de førnævnte forudsætninger skal du downloade modellen på SageMaker notebook-instansen og derefter uploade den til S3-bøtten for yderligere implementering:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Bemærk, at selvom du ikke angiver et gyldigt adgangstoken, vil modellen downloades. Men når du implementerer en sådan model, vil modelserveringen ikke lykkes. Derfor anbefales det at udskifte <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> for argumentet token med værdien af tokenet fra din Hugging Face-profil som beskrevet i forudsætningerne. Til dette indlæg angiver vi den officielle models navn for Llama 2 som identificeret på Hugging Face med værdien meta-llama/Llama-2-13b-chat-hf. Den ukomprimerede model vil blive downloadet til local_model_path som et resultat af at køre den førnævnte kode.

Upload filerne til Amazon S3 og få URI'en, som senere vil blive brugt i serving.properties.

Du skal pakke meta-llama/Llama-2-13b-chat-hf model på LMI-containerbilledet med DJL Serving ved hjælp af den konfiguration, der er angivet via serving.properties. Derefter implementerer du modellen sammen med modelartefakter pakket på containerbilledet på SageMaker ML-instansen ml.g5.12xlarge. Du bruger derefter denne ML-instans til SageMaker Hosting til realtidsinferencing.

Forbered modelartefakter til DJL-servering

Forbered dine modelartefakter ved at skabe en serving.properties konfigurationsfil:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Vi bruger følgende indstillinger i denne konfigurationsfil:

motor – Dette angiver runtime-motoren, som DJL skal bruge. De mulige værdier omfatter Python, DeepSpeed, FasterTransformerog MPI. I dette tilfælde indstiller vi det til MPI. Model Parallelization and Inference (MPI) letter opdelingen af modellen på tværs af alle tilgængelige GPU'er og fremskynder derfor inferens.
option.entryPoint – Denne mulighed angiver, hvilken handler, der tilbydes af DJL Serving, du gerne vil bruge. De mulige værdier er djl_python.huggingface, djl_python.deepspeedog djl_python.stable-diffusion. Vi bruger djl_python.huggingface til Hugging Face Accelerate.
option.tensor_parallel_degree – Denne indstilling angiver antallet af tensor-parallelle partitioner, der udføres på modellen. Du kan indstille til antallet af GPU-enheder, som Accelerate skal bruge for at partitionere modellen. Denne parameter styrer også antallet af arbejdere pr. model, der vil blive startet op, når DJL-servering kører. For eksempel, hvis vi har en 4 GPU-maskine, og vi opretter fire partitioner, vil vi have en arbejder pr. model til at betjene anmodningerne.
option.low_cpu_mem_usage – Dette reducerer CPU-hukommelsesbrug, når modeller indlæses. Vi anbefaler, at du indstiller dette til TRUE.
option.rolling_batch – Dette muliggør batching på iterationsniveau ved hjælp af en af de understøttede strategier. Værdier inkluderer auto, schedulerog lmi-dist. Vi bruger lmi-dist for at aktivere kontinuerlig batching for Llama 2.
option.max_rolling_batch_size – Dette begrænser antallet af samtidige anmodninger i den kontinuerlige batch. Værdien er som standard 32.
option.model_id – Du bør udskifte {{model_id}} med model-id'et for en fortrænet model, der er hostet inde i en modelopbevaring på Hugging Face eller S3-sti til modelartefakter.

Flere konfigurationsmuligheder kan findes i Konfigurationer og indstillinger.

Fordi DJL Serving forventer, at modelartefakter er pakket og formateret i en .tar-fil, skal du køre følgende kodestykke for at komprimere og uploade .tar-filen til Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Hent det seneste LMI-containerbillede med DJL Serving

Dernæst bruger du de DLC'er, der er tilgængelige med SageMaker til LMI, til at implementere modellen. Hent SageMaker billed-URI for djl-deepspeed container programmatisk ved hjælp af følgende kode:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Du kan bruge det førnævnte billede til at implementere meta-llama/Llama-2-13b-chat-hf model på SageMaker. Nu kan du fortsætte med at oprette modellen.

Opret modellen

Du kan oprette den model, hvis container er bygget ved hjælp af inference_image_uri og modelserveringskoden placeret ved S3 URI angivet ved s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Nu kan du oprette modelkonfigurationen med alle detaljer for slutpunktskonfigurationen.

Opret modelkonfigurationen

Brug følgende kode til at oprette en modelkonfiguration for modellen identificeret af model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Modelkonfigurationen er defineret for ProductionVariants parameter InstanceType for ML-forekomsten ml.g5.12xlarge. Du giver også ModelName ved at bruge det samme navn, som du brugte til at oprette modellen i det tidligere trin, og derved etablere en relation mellem modellen og slutpunktskonfigurationen.

Nu hvor du har defineret modellen og modelkonfigurationen, kan du oprette SageMaker-slutpunktet.

Opret SageMaker-slutpunktet

Opret slutpunktet for at implementere modellen ved hjælp af følgende kodestykke:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Du kan se status for implementeringen ved hjælp af følgende kodestykke:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Når implementeringen er vellykket, vil slutpunktets status være InService. Nu hvor endepunktet er klar, lad os udføre inferens med responsstreaming.

Realtidsslutning med responsstreaming

Som vi dækkede i den tidligere tilgang til Hugging Face TGI, kan du bruge den samme metode get_realtime_response_stream at påkalde svarstreaming fra SageMaker-slutpunktet. Koden til at konkludere ved hjælp af LMI-tilgangen er i llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb notesbog. Det LineIterator implementering er placeret i llama-2-lmi/utils/LineIterator.py. Bemærk, at LineIterator for Llama 2 Chat-modellen, der er installeret på LMI-beholderen, er forskellig fra LineIterator refereret i Hugging Face TGI-sektionen. Det LineIterator sløjfer over bytestrømmen fra Llama 2 Chat-modeller infereret med LMI-beholderen med djl-deepspeed version 0.25.0. Følgende hjælpefunktion vil analysere den svarstrøm, der er modtaget fra slutningsanmodningen foretaget via invoke_endpoint_with_response_stream API'er:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Den foregående metode udskriver strømmen af data læst af LineIterator i et menneskelæsbart format.

Lad os undersøge, hvordan du forbereder prompten og instruktionerne til at bruge dem som en nyttelast, mens vi udleder modellen.

Fordi du udleder den samme model i både Hugging Face TGI og LMI, er processen med at forberede prompten og instruktionerne den samme. Derfor kan du bruge metoderne get_instructions , build_llama2_prompt for at konkludere.

get_instructions metoden returnerer instruktionerne. Byg instruktionerne kombineret med den opgave, der skal udføres som beskrevet i user_ask_2 som følger:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Send instruktionerne til at bygge prompten i henhold til promptskabelonen genereret af build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Vi klubber slutningsparametrene sammen med prompten for at danne en endelig nyttelast. Så sender du nyttelasten til get_realtime_response_stream, som bruges til at kalde et slutpunkt med responsstreaming:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Den genererede tekst fra LLM vil blive streamet til output som vist i den følgende animation.

Llama 2 13B Chat Response Streaming - LMI

Ryd op

For at undgå unødvendige gebyrer skal du bruge AWS Management Console for at slette de endepunkter og dets tilknyttede ressourcer, der blev oprettet under kørsel af fremgangsmåderne nævnt i indlægget. For begge implementeringstilgange skal du udføre følgende oprydningsrutine:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

udskifte <SageMaker_Real-time_Endpoint_Name> for variabel endpoint_name med det faktiske endepunkt.

Til den anden tilgang gemte vi modellen og kodeartefakter på Amazon S3. Du kan rydde op i S3-spanden ved at bruge følgende kode:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Konklusion

I dette indlæg diskuterede vi, hvordan et varierende antal svartokens eller et andet sæt af inferensparametre kan påvirke latenserne forbundet med LLM'er. Vi viste, hvordan man løser problemet ved hjælp af responsstreaming. Derefter identificerede vi to tilgange til at implementere og udlede Llama 2 Chat-modeller ved hjælp af AWS DLC'er - LMI og Hugging Face TGI.

Du bør nu forstå vigtigheden af streamingsvar, og hvordan det kan reducere opfattet latenstid. Streamingsvar kan forbedre brugeroplevelsen, hvilket ellers ville få dig til at vente, indtil LLM'en bygger hele svaret. Derudover forbedrer implementering af Llama 2 Chat-modeller med responsstreaming brugeroplevelsen og gør dine kunder glade.

Du kan henvise til de officielle aws-eksempler amazon-sagemaker-llama2-response-streaming-opskrifter der dækker implementering for andre Llama 2-modelvarianter.

Referencer

Om forfatterne

Pavan Kumar Rao Navule er Solutions Architect hos Amazon Web Services. Han arbejder med ISV'er i Indien for at hjælpe dem med at innovere på AWS. Han er udgivet forfatter til bogen "Kom i gang med V-programmering." Han forfulgte en Executive M.Tech i Data Science fra Indian Institute of Technology (IIT), Hyderabad. Han forfulgte også en Executive MBA i IT-specialisering fra Indian School of Business Management and Administration og har en B.Tech i Electronics and Communication Engineering fra Vaagdevi Institute of Technology and Science. Pavan er en AWS Certified Solutions Architect Professional og har andre certificeringer såsom AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) og Microsoft Certified Technology Specialist (MCTS). Han er også en open source-entusiast. I sin fritid elsker han at lytte til Sia og Rihannas store magiske stemmer.

Sudhanshu hader er primær AI/ML-specialist hos AWS og arbejder med kunder for at rådgive dem om deres MLOps og generative AI-rejse. I sin tidligere rolle før Amazon konceptualiserede, skabte og førte han teams til at bygge opbyggede open source-baserede AI- og gamification-platforme og med succes kommercialiserede det med over 100 kunder. Sudhanshu til hans kredit et par patenter, har skrevet to bøger og adskillige papirer og blogs, og har præsenteret sine synspunkter i forskellige tekniske fora. Han har været tankeleder og foredragsholder og har været i branchen i næsten 25 år. Han har arbejdet med Fortune 1000-kunder over hele kloden og senest med digitale indfødte kunder i Indien.