Inferens Llama 2-modeller med realtidsresponsströmning med Amazon SageMaker

Återutgiven av Platon

anhängare: 0

Med det snabba antagandet av generativa AI-applikationer finns det ett behov för dessa applikationer att svara i tid för att minska den upplevda latensen med högre genomströmning. Grundmodeller (FM) är ofta förtränade på stora datakorpora med parametrar som sträcker sig i skala från miljoner till miljarder och däröver. Stora språkmodeller (LLM) är en typ av FM som genererar text som ett svar på användarens slutledning. Att dra slutledning av dessa modeller med olika konfigurationer av inferensparametrar kan leda till inkonsekventa latenser. Inkonsekvensen kan bero på det varierande antalet svarstokens du förväntar dig av modellen eller typen av accelerator som modellen är utplacerad på.

I båda fallen, snarare än att vänta på det fullständiga svaret, kan du använda metoden för svarsströmning för dina slutsatser, vilket skickar tillbaka bitar av information så snart de genereras. Detta skapar en interaktiv upplevelse genom att du kan se partiella svar streamade i realtid istället för ett fördröjt fullständigt svar.

Med det officiella tillkännagivandet att Amazon SageMaker realtidsinferens stöder nu responsströmning, kan du nu kontinuerligt strömma slutledningssvar tillbaka till klienten när du använder Amazon SageMaker slutledning i realtid med responsströmning. Den här lösningen hjälper dig att bygga interaktiva upplevelser för olika generativa AI-applikationer som chatbots, virtuella assistenter och musikgeneratorer. Det här inlägget visar dig hur du realiserar snabbare svarstider i form av Time to First Byte (TTFB) och minskar den totala upplevda latensen samtidigt som du drar slutsatser om Llama 2-modeller.

För att implementera lösningen använder vi SageMaker, en helt hanterad tjänst för att förbereda data och bygga, träna och distribuera modeller för maskininlärning (ML) för alla användningsfall med helt hanterad infrastruktur, verktyg och arbetsflöden. För mer information om de olika distributionsalternativen som SageMaker tillhandahåller, se Vanliga frågor om Amazon SageMaker Model Hosting. Låt oss förstå hur vi kan ta itu med latensproblemen med hjälp av slutledning i realtid med svarsströmning.

Lösningsöversikt

Eftersom vi vill ta itu med de tidigare nämnda latenserna som är förknippade med realtidsinferens med LLM:er, låt oss först förstå hur vi kan använda responsströmningsstödet för realtidsinferencing för Llama 2. Men vilken LLM som helst kan dra fördel av responsströmningsstöd med verklig -tidsinferens.

Llama 2 är en samling förtränade och finjusterade generativa textmodeller som sträcker sig i skala från 7 miljarder till 70 miljarder parametrar. Llama 2-modeller är autoregressiva modeller med enbart dekoderarkitektur. När de är försedda med en prompt och inferensparametrar kan Llama 2-modeller generera textsvar. Dessa modeller kan användas för översättning, sammanfattning, svar på frågor och chatt.

För det här inlägget distribuerar vi Llama 2 Chat-modellen meta-llama/Llama-2-13b-chat-hf på SageMaker för slutledning i realtid med responsströmning.

När det gäller att distribuera modeller på SageMaker-slutpunkter kan du behålla modellerna med hjälp av specialiserade AWS Deep Learning Container (DLC)-bilder tillgängliga för populära bibliotek med öppen källkod. Llama 2-modeller är textgenereringsmodeller; du kan använda antingen Hugging Face LLM slutledningsbehållare på SageMaker drivs av Hugging Face Textgenerering slutledning (TGI) eller AWS DLC:er för Stor modell slutledning (LMI).

I det här inlägget distribuerar vi Llama 2 13B Chat-modellen med hjälp av DLC:er på SageMaker Hosting för realtidsslutningar som drivs av G5-instanser. G5-instanser är en högpresterande GPU-baserad instans för grafikintensiva applikationer och ML-inferens. Du kan också använda instanstyper som stöds p4d, p3, g5 och g4dn med lämpliga ändringar enligt instanskonfigurationen.

Förutsättningar

För att implementera denna lösning bör du ha följande:

Ett AWS-konto med ett AWS identitets- och åtkomsthantering (IAM) roll med behörighet att hantera resurser skapade som en del av lösningen.
Om det här är första gången du arbetar med Amazon SageMaker Studio, måste du först skapa en SageMaker-domän.
Ett Hugging Face-konto. Registrera dig med din e-post om du inte redan har ett konto.
- För sömlös åtkomst av modellerna som är tillgängliga på Hugging Face, särskilt gated modeller som Llama, för finjustering och slutledningssyfte, bör du ha ett Hugging Face-konto för att få en läsbehörighet. När du har registrerat dig för ditt Hugging Face-konto, logga in att besöka https://huggingface.co/settings/tokens för att skapa en läsbehörighetstoken.
Tillgång till Llama 2 med samma e-post-ID som du använde för att registrera dig för Hugging Face.
- Llama 2-modellerna som finns tillgängliga via Hugging Face är gated-modeller. Användningen av Llama-modellen styrs av Meta-licensen. För att ladda ner modellvikter och tokenizer, begära tillgång till Lama och acceptera deras licens.
- När du har beviljats åtkomst (vanligtvis inom ett par dagar) får du en e-postbekräftelse. För det här exemplet använder vi modellen Llama-2-13b-chat-hf, men du bör kunna komma åt andra varianter också.

Tillvägagångssätt 1: Hugging Face TGI

I det här avsnittet visar vi dig hur du distribuerar meta-llama/Llama-2-13b-chat-hf modell till en SageMaker-slutpunkt i realtid med responsströmning med Hugging Face TGI. Följande tabell beskriver specifikationerna för denna distribution.

Specifikation	Värde
Behållare	Kramande ansikte TGI
Modellnamn	meta-llama/Llama-2-13b-chat-hf
ML-instans	ml.g5.12xlarge
Slutledning	Realtid med responsströmning

Distribuera modellen

Först hämtar du basbilden för LLM som ska distribueras. Du bygger sedan modellen på basbilden. Slutligen distribuerar du modellen till ML-instansen för SageMaker Hosting för slutledning i realtid.

Låt oss observera hur man uppnår implementeringen programmatiskt. För korthetens skull diskuteras endast koden som hjälper till med installationsstegen i det här avsnittet. Den fullständiga källkoden för distribution finns tillgänglig i anteckningsboken llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Hämta den senaste Hugging Face LLM DLC som drivs av TGI via förbyggd SageMaker DLC:er. Du använder den här bilden för att distribuera meta-llama/Llama-2-13b-chat-hf modell på SageMaker. Se följande kod:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Definiera miljön för modellen med konfigurationsparametrarna definierade enligt följande:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

ersätta <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> för config-parametern HUGGING_FACE_HUB_TOKEN med värdet av token som erhållits från din Hugging Face-profil enligt beskrivningen i avsnittet om förutsättningar i det här inlägget. I konfigurationen definierar du antalet GPU:er som används per replika av en modell som 4 för SM_NUM_GPUS. Sedan kan du distribuera meta-llama/Llama-2-13b-chat-hf modell på en ml.g5.12xlarge instans som kommer med 4 GPU:er.

Nu kan du bygga instansen av HuggingFaceModel med ovannämnda miljökonfiguration:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Till sist, distribuera modellen genom att tillhandahålla argument till distributionsmetoden som är tillgänglig på modellen med olika parametervärden som t.ex endpoint_name, initial_instance_countoch instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Utför slutledning

Hugging Face TGI DLC kommer med möjligheten att streama svar utan några anpassningar eller kodändringar av modellen. Du kan använda invoke_endpoint_with_response_stream om du använder Boto3 eller InvokeEndpointWithResponseStream vid programmering med SageMaker Python SDK.

Smakämnen InvokeEndpointWithResponseStream SageMakers API tillåter utvecklare att streama svar tillbaka från SageMaker-modeller, vilket kan hjälpa till att förbättra kundnöjdheten genom att minska den upplevda latensen. Detta är särskilt viktigt för applikationer byggda med generativa AI-modeller, där omedelbar bearbetning är viktigare än att vänta på hela svaret.

I det här exemplet använder vi Boto3 för att härleda modellen och använder SageMaker API invoke_endpoint_with_response_stream enligt följande:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Argumentet CustomAttributes är inställd på värdet accept_eula=false. Smakämnen accept_eula parameter måste ställas in på true för att framgångsrikt få svar från Llama 2-modellerna. Efter den framgångsrika anropet med hjälp av invoke_endpoint_with_response_stream, kommer metoden att returnera en svarsström av byte.

Följande diagram illustrerar detta arbetsflöde.

HF TGI Strömmande arkitekturdiagram

Du behöver en iterator som går över strömmen av byte och analyserar dem till läsbar text. De LineIterator implementering finns på llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Nu är du redo att förbereda uppmaningen och instruktionerna för att använda dem som nyttolast samtidigt som du drar slutsatser om modellen.

Förbered en uppmaning och instruktioner

I det här steget förbereder du uppmaningen och instruktionerna för din LLM. För att fråga Llama 2 bör du ha följande promptmall:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Du bygger promptmallen som definieras programmatiskt i metoden build_llama2_prompt, som överensstämmer med den tidigare nämnda promptmallen. Du definierar sedan instruktionerna enligt användningsfallet. I det här fallet instruerar vi modellen att generera ett e-postmeddelande för en marknadsföringskampanj som beskrivs i get_instructions metod. Koden för dessa metoder finns i llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb anteckningsbok. Bygg instruktionen i kombination med uppgiften som ska utföras enligt beskrivning i user_ask_1 enligt följande:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Vi skickar instruktionerna för att bygga prompten enligt promptmallen som genereras av build_llama2_prompt.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Vi klubbar inferensparametrarna tillsammans med prompt med nyckeln stream med värdet True för att bilda en slutgiltig nyttolast. Skicka nyttolasten till get_realtime_response_stream, som kommer att användas för att anropa en slutpunkt med svarsströmning:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Den genererade texten från LLM kommer att strömmas till utgången som visas i följande animation.

Llama 2 13B Chat Response Streaming - HF TGI

Tillvägagångssätt 2: LMI med DJL-servering

I det här avsnittet visar vi hur man distribuerar meta-llama/Llama-2-13b-chat-hf modell till en SageMaker-slutpunkt i realtid med responsströmning med hjälp av LMI med DJL-servering. Följande tabell beskriver specifikationerna för denna distribution.

Specifikation	Värde
Behållare	LMI-containerbild med DJL Serving
Modellnamn	meta-llama/Llama-2-13b-chat-hf
ML-instans	ml.g5.12xlarge
Slutledning	Realtid med responsströmning

Du laddar först ner modellen och lagrar den i Amazon enkel lagringstjänst (Amazon S3). Du anger sedan S3 URI som anger S3-prefixet för modellen i serving.properties fil. Därefter hämtar du basbilden för LLM som ska distribueras. Du bygger sedan modellen på basbilden. Slutligen distribuerar du modellen till ML-instansen för SageMaker Hosting för slutledning i realtid.

Låt oss observera hur man uppnår de ovan nämnda implementeringsstegen programmatiskt. För korthetens skull beskrivs endast koden som hjälper till med installationsstegen i det här avsnittet. Den fullständiga källkoden för denna distribution finns tillgänglig i anteckningsboken llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Ladda ner modellens ögonblicksbild från Hugging Face och ladda upp modellartefakterna på Amazon S3

Med de ovannämnda förutsättningarna, ladda ner modellen på SageMaker notebook-instansen och ladda sedan upp den till S3-hinken för vidare distribution:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Observera att även om du inte tillhandahåller en giltig åtkomsttoken kommer modellen att laddas ner. Men när du distribuerar en sådan modell kommer modellvisningen inte att lyckas. Därför rekommenderas att byta ut <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> för argumentet token med värdet av token som erhållits från din Hugging Face-profil enligt beskrivningen i förutsättningarna. För det här inlägget anger vi den officiella modellens namn för Llama 2 som identifierats på Hugging Face med värdet meta-llama/Llama-2-13b-chat-hf. Den okomprimerade modellen kommer att laddas ner till local_model_path som ett resultat av att köra ovannämnda kod.

Ladda upp filerna till Amazon S3 och skaffa URI:n, som senare kommer att användas i serving.properties.

Du kommer att paketera meta-llama/Llama-2-13b-chat-hf modell på LMI-behållarbilden med DJL Serving med den konfiguration som anges via serving.properties. Sedan distribuerar du modellen tillsammans med modellartefakter paketerade på behållarbilden på SageMaker ML-instansen ml.g5.12xlarge. Du använder sedan denna ML-instans för SageMaker Hosting för slutledning i realtid.

Förbered modellartefakter för DJL-servering

Förbered dina modellartefakter genom att skapa en serving.properties konfigurationsfil:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Vi använder följande inställningar i den här konfigurationsfilen:

motor – Detta anger körtidsmotorn som DJL ska använda. De möjliga värdena inkluderar Python, DeepSpeed, FasterTransformeroch MPI. I det här fallet ställer vi in det på MPI. Model Parallelization and Inference (MPI) underlättar uppdelningen av modellen över alla tillgängliga GPU:er och påskyndar därför slutledning.
option.entryPoint – Det här alternativet anger vilken hanterare som erbjuds av DJL Serving du vill använda. De möjliga värdena är djl_python.huggingface, djl_python.deepspeedoch djl_python.stable-diffusion. Vi använder djl_python.huggingface för Hugging Face Accelerate.
option.tensor_parallel_degree – Det här alternativet anger antalet tensorparallella partitioner som utförs på modellen. Du kan ställa in antalet GPU-enheter som Accelerate behöver för att partitionera modellen. Den här parametern styr också antalet arbetare per modell som kommer att startas när DJL-serveringen körs. Till exempel, om vi har en 4 GPU-maskin och vi skapar fyra partitioner, kommer vi att ha en arbetare per modell för att betjäna förfrågningarna.
option.low_cpu_mem_usage – Detta minskar CPU-minnesanvändningen vid laddning av modeller. Vi rekommenderar att du ställer in detta till TRUE.
option.rolling_batch – Detta möjliggör batchning på iterationsnivå med en av de strategier som stöds. Värdena inkluderar auto, scheduleroch lmi-dist. Vi använder lmi-dist för att slå på kontinuerlig batchning för Llama 2.
option.max_rolling_batch_size – Detta begränsar antalet samtidiga förfrågningar i den kontinuerliga batchen. Värdet är som standard 32.
option.model_id – Du bör byta ut {{model_id}} med modell-ID för en förutbildad modell värd inuti en modellförråd på Hugging Face eller S3 sökväg till modellartefakterna.

Fler konfigurationsalternativ finns i Konfigurationer och inställningar.

Eftersom DJL Serving förväntar sig att modellartefakterna ska paketeras och formateras i en .tar-fil, kör följande kodavsnitt för att komprimera och ladda upp .tar-filen till Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Hämta den senaste LMI-containerbilden med DJL Serving

Därefter använder du DLC:erna som finns tillgängliga med SageMaker för LMI för att distribuera modellen. Hämta SageMaker-bild-URI för djl-deepspeed behållare programmatiskt med följande kod:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Du kan använda den tidigare nämnda bilden för att distribuera meta-llama/Llama-2-13b-chat-hf modell på SageMaker. Nu kan du fortsätta att skapa modellen.

Skapa modellen

Du kan skapa modellen vars behållare är byggd med hjälp av inference_image_uri och modellserveringskoden som finns vid S3 URI:n som anges av s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Nu kan du skapa modellkonfigurationen med alla detaljer för slutpunktskonfigurationen.

Skapa modellkonfigurationen

Använd följande kod för att skapa en modellkonfiguration för modellen som identifieras av model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Modellkonfigurationen är definierad för ProductionVariants parameter InstanceType för ML-instansen ml.g5.12xlarge. Du tillhandahåller också ModelName med samma namn som du använde för att skapa modellen i det tidigare steget, och därigenom etablera en relation mellan modellen och slutpunktskonfigurationen.

Nu när du har definierat modellen och modellkonfigurationen kan du skapa SageMaker-slutpunkten.

Skapa SageMaker-slutpunkten

Skapa slutpunkten för att distribuera modellen med hjälp av följande kodavsnitt:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Du kan se förloppet för distributionen med hjälp av följande kodavsnitt:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Efter att implementeringen har lyckats kommer slutpunktsstatus att vara InService. Nu när slutpunkten är klar, låt oss göra slutledning med svarsströmning.

Realtids slutledning med responsströmning

Som vi behandlade i den tidigare metoden för Hugging Face TGI, kan du använda samma metod get_realtime_response_stream för att anropa svarsströmning från SageMaker-slutpunkten. Koden för slutledning med LMI-metoden finns i llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb anteckningsbok. De LineIterator implementeringen ligger i llama-2-lmi/utils/LineIterator.py. Observera att LineIterator för Llama 2 Chat-modellen som används på LMI-behållaren skiljer sig från LineIterator hänvisas till i avsnittet Hugging Face TGI. De LineIterator loopar över byteströmmen från Llama 2 Chat-modeller infererade med LMI-behållaren med djl-deepspeed version 0.25.0. Följande hjälpfunktion kommer att analysera svarsströmmen som tas emot från slutledningsbegäran som görs via invoke_endpoint_with_response_stream API:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Den föregående metoden skriver ut dataströmmen som läses av LineIterator i ett mänskligt läsbart format.

Låt oss undersöka hur man förbereder uppmaningen och instruktionerna för att använda dem som nyttolast samtidigt som man drar slutsatser om modellen.

Eftersom du drar slutsatser om samma modell i både Hugging Face TGI och LMI, är processen för att förbereda uppmaningen och instruktionerna densamma. Därför kan du använda metoderna get_instructions och build_llama2_prompt för slutledning.

Smakämnen get_instructions metod returnerar instruktionerna. Bygg instruktionerna i kombination med uppgiften som ska utföras enligt beskrivning i user_ask_2 enligt följande:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Skicka instruktionerna för att skapa prompten enligt promptmallen som genereras av build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Vi klubbar inferensparametrarna tillsammans med uppmaningen för att bilda en slutgiltig nyttolast. Sedan skickar du nyttolasten till get_realtime_response_stream, som används för att anropa en slutpunkt med svarsströmning:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Den genererade texten från LLM kommer att strömmas till utgången som visas i följande animation.

Llama 2 13B Chat Response Streaming - LMI

Städa upp

För att undvika onödiga avgifter, använd AWS Management Console för att ta bort endpoints och dess associerade resurser som skapades när du körde de metoder som nämns i inlägget. Utför följande rensningsrutin för båda distributionsmetoderna:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

ersätta <SageMaker_Real-time_Endpoint_Name> för variabel endpoint_name med den faktiska slutpunkten.

För det andra tillvägagångssättet lagrade vi modellen och kodartefakterna på Amazon S3. Du kan rensa upp S3-hinken med följande kod:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Slutsats

I det här inlägget diskuterade vi hur ett varierande antal svarstokens eller en annan uppsättning inferensparametrar kan påverka latenserna som är associerade med LLM. Vi visade hur man åtgärdar problemet med hjälp av responsströmning. Vi identifierade sedan två tillvägagångssätt för att distribuera och sluta Llama 2 Chat-modeller med hjälp av AWS DLC:er – LMI och Hugging Face TGI.

Du bör nu förstå vikten av streamingsvar och hur det kan minska upplevd latens. Strömmande svar kan förbättra användarupplevelsen, vilket annars skulle få dig att vänta tills LLM bygger hela svaret. Att implementera Llama 2 Chat-modeller med responsströmning förbättrar dessutom användarupplevelsen och gör dina kunder nöjda.

Du kan hänvisa till de officiella aws-proverna amazon-sagemaker-llama2-response-streaming-recept som täcker driftsättning för andra Llama 2-modellvarianter.

Referensprojekt

Om författarna

Pavan Kumar Rao Navule är en lösningsarkitekt på Amazon Web Services. Han arbetar med ISV:er i Indien för att hjälpa dem att förnya sig på AWS. Han är en publicerad författare till boken "Kom igång med V-programmering." Han tog en Executive M.Tech i datavetenskap från Indian Institute of Technology (IIT), Hyderabad. Han tog också en Executive MBA i IT-specialisering från Indian School of Business Management and Administration, och har en B.Tech i Electronics and Communication Engineering från Vaagdevi Institute of Technology and Science. Pavan är en AWS Certified Solutions Architect Professional och har andra certifieringar som AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) och Microsoft Certified Technology Specialist (MCTS). Han är också en öppen källkod-entusiast. På fritiden älskar han att lyssna på Sia och Rihannas magiska röster.

Sudhanshu hatar är främsta AI/ML-specialist med AWS och arbetar med kunder för att ge dem råd om deras MLOps och generativa AI-resa. I sin tidigare roll före Amazon konceptualiserade, skapade och ledde han team för att bygga grundbaserade plattformar för AI och gamification med öppen källkod, och framgångsrikt kommersialiserade det med över 100 kunder. Sudhanshu till hans ära ett par patent, har skrivit två böcker och flera tidningar och bloggar, och har presenterat sina synpunkter i olika tekniska forum. Han har varit en tankeledare och talare och har varit i branschen i nästan 25 år. Han har arbetat med Fortune 1000-kunder över hela världen och senast med digitala infödda kunder i Indien.