Inference Llama 2 modeli s pretakanjem odziva v realnem času z uporabo Amazon SageMaker

Ponovno objavil Platon

Spremljevalci: 0

S hitrim sprejemanjem generativnih aplikacij AI obstaja potreba, da se te aplikacije pravočasno odzovejo, da zmanjšajo zaznano zakasnitev z večjo prepustnostjo. Temeljni modeli (FM) so pogosto vnaprej usposobljeni na obsežnih korpusih podatkov s parametri v obsegu od milijonov do milijard in več. Veliki jezikovni modeli (LLM) so vrsta FM, ki ustvarjajo besedilo kot odziv na sklepanje uporabnika. Sklepanje teh modelov z različnimi konfiguracijami parametrov sklepanja lahko povzroči nedosledne zakasnitve. Nedoslednost je lahko posledica različnega števila odzivnih žetonov, ki jih pričakujete od modela, ali vrste pospeševalnika, na katerem je model nameščen.

V obeh primerih lahko namesto čakanja na popoln odgovor sprejmete pristop pretakanja odgovorov za svoje sklepe, ki pošlje nazaj dele informacij takoj, ko so ustvarjeni. To ustvari interaktivno izkušnjo, saj vam omogoča ogled delnih odgovorov, ki se pretakajo v realnem času, namesto zakasnjenega celotnega odgovora.

Z uradno objavo, da Sklepanje v realnem času Amazon SageMaker zdaj podpira pretakanje odgovorov, lahko zdaj pri uporabi nenehno pretakate sklepne odgovore nazaj odjemalcu Amazon SageMaker realnočasovno sklepanje s pretakanjem odgovorov. Ta rešitev vam bo pomagala zgraditi interaktivne izkušnje za različne generativne aplikacije AI, kot so chatboti, virtualni pomočniki in glasbeni generatorji. Ta objava vam pokaže, kako uresničiti hitrejše odzivne čase v obliki časa do prvega bajta (TTFB) in zmanjšati splošno zaznano zakasnitev med sklepanjem modelov Llama 2.

Za implementacijo rešitve uporabljamo SageMaker, popolnoma upravljano storitev za pripravo podatkov ter gradnjo, usposabljanje in uvajanje modelov strojnega učenja (ML) za vsak primer uporabe s popolnoma upravljano infrastrukturo, orodji in poteki dela. Za več informacij o različnih možnostih uvajanja, ki jih ponuja SageMaker, glejte Pogosta vprašanja o gostovanju modela Amazon SageMaker. Razumejmo, kako lahko odpravimo težave z zakasnitvijo z uporabo sklepanja v realnem času s pretakanjem odgovorov.

Pregled rešitev

Ker želimo obravnavati zgoraj omenjene zakasnitve, povezane s sklepanjem v realnem času z LLM-ji, najprej razumemo, kako lahko uporabimo podporo za pretakanje odzivov za sklepanje v realnem času za Llama 2. Vendar lahko vsak LLM izkoristi podporo za pretakanje odzivov z realnimi - časovno sklepanje.

Llama 2 je zbirka vnaprej usposobljenih in natančno nastavljenih generativnih besedilnih modelov v obsegu od 7 milijard do 70 milijard parametrov. Modeli Llama 2 so avtoregresivni modeli z arhitekturo samo dekoderja. Ko so modeli Llama 2 opremljeni s pozivom in parametri sklepanja, lahko ustvarijo besedilne odgovore. Ti modeli se lahko uporabljajo za prevajanje, povzemanje, odgovarjanje na vprašanja in klepet.

Za to objavo uporabljamo model Llama 2 Chat meta-llama/Llama-2-13b-chat-hf na SageMaker za sklepanje v realnem času s pretakanjem odgovorov.

Ko gre za uvajanje modelov na končne točke SageMaker, lahko modele pospravite v kontejner z uporabo specializiranih AWS Deep Learning Container (DLC) slike, ki so na voljo za priljubljene odprtokodne knjižnice. Modeli Llama 2 so modeli za generiranje besedila; lahko uporabite bodisi Vsebniki sklepanja Hugging Face LLM na SageMakerju poganja Hugging Face Sklepanje o ustvarjanju besedila (TGI) ali DLC-ji AWS za Sklepanje velikega modela (LMI).

V tej objavi uvajamo model Llama 2 13B Chat z uporabo DLC-jev na gostovanju SageMaker za sklepanje v realnem času, ki ga poganjajo primerki G5. Primerki G5 so visoko zmogljivi primerki, ki temeljijo na grafični procesorji, za grafično intenzivne aplikacije in sklepanje ML. Uporabite lahko tudi podprte vrste primerkov p4d, p3, g5 in g4dn z ustreznimi spremembami glede na konfiguracijo primerka.

Predpogoji

Za izvedbo te rešitve bi morali imeti naslednje:

Račun AWS z AWS upravljanje identitete in dostopa (IAM) z dovoljenji za upravljanje virov, ustvarjenih kot del rešitve.
Če prvič delate z Amazon SageMaker Studio, morate najprej ustvariti a Domena SageMaker.
Račun Hugging Face. Prijava z vašim e-poštnim naslovom, če še nimate računa.
- Za brezhiben dostop do modelov, ki so na voljo na Hugging Face, zlasti do modelov z zaprtimi vrati, kot je Llama, za namene natančnega prilagajanja in sklepanja bi morali imeti račun Hugging Face za pridobitev žetona za dostop do branja. Ko se prijavite za svoj račun Hugging Face, prijavi obiskati https://huggingface.co/settings/tokens da ustvarite žeton za dostop do branja.
Dostop do Llama 2 z istim e-poštnim ID-jem, ki ste ga uporabili za prijavo na Hugging Face.
- Modeli Llama 2, ki so na voljo prek Hugging Face, so modeli z zaprtimi vrati. Uporabo modela Llama ureja licenca Meta. Če želite prenesti uteži modela in tokenizator, zahtevajte dostop do Llame in sprejmite njihovo licenco.
- Ko vam bo odobren dostop (običajno v nekaj dneh), boste prejeli potrditev po e-pošti. Za ta primer uporabimo model Llama-2-13b-chat-hf, vendar bi morali imeti dostop tudi do drugih različic.

Pristop 1: Objemanje obraza TGI

V tem razdelku vam pokažemo, kako uvesti meta-llama/Llama-2-13b-chat-hf model na končno točko SageMaker v realnem času s pretakanjem odziva z uporabo Hugging Face TGI. Naslednja tabela opisuje specifikacije za to uvedbo.

Tehnični podatki	vrednost
Posoda	Objemljivi obraz TGI
Ime modela	meta-lama/lama-2-13b-klepet-hf
Primerek ML	ml.g5.12xvelik
Sklepanje	V realnem času s pretakanjem odgovorov

Namestite model

Najprej pridobite osnovno sliko za LLM, ki ga želite namestiti. Nato zgradite model na osnovni sliki. Nazadnje razmestite model v primerek ML za SageMaker Hosting za sklepanje v realnem času.

Poglejmo, kako programsko doseči uvedbo. Zaradi jedrnatosti je v tem razdelku obravnavana samo koda, ki pomaga pri korakih uvajanja. Celotna izvorna koda za uvajanje je na voljo v zvezku llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Pridobite najnovejši Hugging Face LLM DLC, ki ga poganja TGI, prek vnaprej pripravljenega SageMaker DLC-ji. To sliko uporabite za uvajanje meta-llama/Llama-2-13b-chat-hf model na SageMaker. Oglejte si naslednjo kodo:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Definirajte okolje za model s konfiguracijskimi parametri, definiranimi na naslednji način:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

Zamenjaj <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> za konfiguracijski parameter HUGGING_FACE_HUB_TOKEN z vrednostjo žetona, pridobljenega iz vašega profila Hugging Face, kot je podrobno opisano v razdelku s predpogoji te objave. V konfiguraciji določite število grafičnih procesorjev, uporabljenih na repliko modela, kot 4 za SM_NUM_GPUS. Potem lahko razporedite meta-llama/Llama-2-13b-chat-hf model na primerku ml.g5.12xlarge, ki je opremljen s 4 grafičnimi procesorji.

Zdaj lahko zgradite primerek HuggingFaceModel z zgoraj omenjeno konfiguracijo okolja:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Končno razmestite model tako, da podate argumente metodi razmestitve, ki je na voljo v modelu, z različnimi vrednostmi parametrov, kot je endpoint_name, initial_instance_countin instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Izvedite sklepanje

Hugging Face TGI DLC ima možnost pretakanja odgovorov brez kakršnih koli prilagoditev ali sprememb kode modela. Lahko uporabiš invoke_endpoint_with_response_stream če uporabljate Boto3 oz InvokeEndpointWithResponseStream pri programiranju s SDK SageMaker Python.

O InvokeEndpointWithResponseStream API SageMaker razvijalcem omogoča pretakanje odgovorov iz modelov SageMaker, kar lahko pomaga izboljšati zadovoljstvo strank z zmanjšanjem zaznane zakasnitve. To je še posebej pomembno za aplikacije, izdelane z generativnimi modeli AI, kjer je takojšnja obdelava pomembnejša od čakanja na celoten odgovor.

V tem primeru uporabljamo Boto3 za sklepanje modela in uporabo API-ja SageMaker invoke_endpoint_with_response_stream kot sledi:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Argument CustomAttributes je nastavljena na vrednost accept_eula=false. O accept_eula parameter mora biti nastavljen na true za uspešno pridobitev odziva modelov Llama 2. Po uspešnem priklicu z uporabo invoke_endpoint_with_response_stream, bo metoda vrnila odzivni tok bajtov.

Naslednji diagram ponazarja ta potek dela.

HF TGI pretočni arhitekturni diagram

Potrebujete iterator, ki preleti tok bajtov in jih razčleni v berljivo besedilo. The LineIterator izvedbo lahko najdete na llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Zdaj ste pripravljeni pripraviti poziv in navodila, da jih uporabite kot koristni tovor med sklepanjem modela.

Pripravite poziv in navodila

V tem koraku pripravite poziv in navodila za svoj LLM. Za poziv Llama 2 bi morali imeti naslednjo predlogo poziva:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Predlogo poziva sestavite programsko definirano v metodi build_llama2_prompt, ki je usklajen s prej omenjeno predlogo poziva. Nato določite navodila glede na primer uporabe. V tem primeru modelu naročimo, naj ustvari e-poštno sporočilo za tržno kampanjo, kot je opisano v get_instructions metoda. Koda za te metode je v llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb zvezek. Sestavite navodilo v kombinaciji z nalogo, ki jo je treba izvesti, kot je podrobno opisano v user_ask_1 kot sledi:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Posredujemo navodila za izdelavo poziva v skladu s predlogo poziva, ki jo ustvari build_llama2_prompt.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Parametre sklepanja združimo skupaj s pozivom s ključem stream z vrednostjo True za oblikovanje končnega tovora. Pošlji koristni tovor na get_realtime_response_stream, ki bo uporabljen za priklic končne točke s pretakanjem odgovorov:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Ustvarjeno besedilo iz LLM bo pretočeno v izhod, kot je prikazano v naslednji animaciji.

Llama 2 13B Pretakanje odziva na klepet - HF TGI

Pristop 2: LMI s postrežbo DJL

V tem razdelku prikazujemo, kako razmestiti meta-llama/Llama-2-13b-chat-hf modelira na končno točko SageMaker v realnem času s pretakanjem odziva z uporabo LMI z DJL Serving. Naslednja tabela opisuje specifikacije za to uvedbo.

Tehnični podatki	vrednost
Posoda	Slika vsebnika LMI z DJL Serving
Ime modela	meta-lama/lama-2-13b-klepet-hf
Primerek ML	ml.g5.12xvelik
Sklepanje	V realnem času s pretakanjem odgovorov

Najprej prenesete model in ga shranite Preprosta storitev shranjevanja Amazon (Amazon S3). Nato določite URI S3, ki označuje predpono S3 modela v serving.properties mapa. Nato pridobite osnovno sliko za LLM, ki ga želite namestiti. Nato zgradite model na osnovni sliki. Nazadnje razmestite model v primerek ML za SageMaker Hosting za sklepanje v realnem času.

Oglejmo si, kako programsko doseči zgoraj omenjene korake uvajanja. Zaradi jedrnatosti je v tem razdelku podrobno opisana samo koda, ki pomaga pri korakih uvajanja. Celotna izvorna koda za to uvedbo je na voljo v zvezku llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Prenesite posnetek modela iz Hugging Face in naložite artefakte modela na Amazon S3

Z zgoraj omenjenimi predpogoji prenesite model na primerek prenosnega računalnika SageMaker in ga nato naložite v vedro S3 za nadaljnjo uvedbo:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Upoštevajte, da se bo model prenesel, čeprav ne zagotovite veljavnega žetona za dostop. Ko pa uvedete tak model, strežba modela ne bo uspela. Zato je priporočljivo zamenjati <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> za argument token z vrednostjo žetona, pridobljenega iz vašega profila Hugging Face, kot je podrobno opisano v predpogojih. Za to objavo določimo uradno ime modela za Llama 2, kot je označeno na Hugging Face z vrednostjo meta-llama/Llama-2-13b-chat-hf. Nestisnjen model bo prenesen v local_model_path kot rezultat izvajanja zgoraj omenjene kode.

Naložite datoteke v Amazon S3 in pridobite URI, ki bo kasneje uporabljen v serving.properties.

Pakirali boste meta-llama/Llama-2-13b-chat-hf model na sliki vsebnika LMI z DJL Serving z uporabo konfiguracije, podane prek serving.properties. Nato razmestite model skupaj z artefakti modela, zapakiranimi na sliko vsebnika na primerku SageMaker ML ml.g5.12xlarge. Ta primerek ML nato uporabite za SageMaker Hosting za sklepanje v realnem času.

Pripravite artefakte modela za postrežbo DJL

Pripravite svoje modelne artefakte tako, da ustvarite a serving.properties konfiguracijska datoteka:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

V tej konfiguracijski datoteki uporabljamo naslednje nastavitve:

motor – To določa izvajalni mehanizem, ki ga bo uporabljal DJL. Možne vrednosti vključujejo Python, DeepSpeed, FasterTransformerin MPI. V tem primeru ga nastavimo na MPI. Paralelizacija in sklepanje modela (MPI) olajša razdelitev modela na vse razpoložljive grafične procesorje in tako pospeši sklepanje.
option.entryPoint – Ta možnost določa, kateri upravljalnik, ki ga ponuja DJL Serving, želite uporabiti. Možne vrednosti so djl_python.huggingface, djl_python.deepspeedin djl_python.stable-diffusion. Uporabljamo djl_python.huggingface za Hugging Face Accelerate.
možnost.tensor_parallel_degree – Ta možnost določa število tenzorskih vzporednih particij, izvedenih na modelu. Nastavite lahko število naprav GPE, na katere mora Accelerate razdeliti model. Ta parameter nadzoruje tudi število delavcev na model, ki se bo zagnal, ko se bo zagnalo streženje DJL. Na primer, če imamo stroj s 4 GPU in ustvarjamo štiri particije, bomo imeli enega delavca na model, ki bo služil zahtevam.
option.low_cpu_mem_usage – To zmanjša porabo pomnilnika procesorja pri nalaganju modelov. Priporočamo, da to nastavite na TRUE.
option.rolling_batch – To omogoča pakiranje na ravni iteracije z uporabo ene od podprtih strategij. Vrednote vključujejo auto, schedulerin lmi-dist. Uporabljamo lmi-dist za vklop neprekinjenega doziranja za Llama 2.
option.max_rolling_batch_size – To omejuje število sočasnih zahtev v neprekinjenem paketu. Privzeta vrednost je 32.
option.model_id – Moral bi zamenjati {{model_id}} z ID-jem modela vnaprej usposobljenega modela, ki gostuje znotraj a repozitorij modelov na Hugging Face ali pot S3 do artefaktov modela.

Več možnosti konfiguracije najdete v Konfiguracije in nastavitve.

Ker DJL Serving pričakuje, da bodo artefakti modela zapakirani in oblikovani v datoteki .tar, zaženite naslednji delček kode za stiskanje in nalaganje datoteke .tar v Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Pridobite najnovejšo sliko vsebnika LMI z DJL Serving

Nato uporabite DLC-je, ki so na voljo s SageMaker for LMI, da razmestite model. Pridobite URI slike SageMaker za djl-deepspeed vsebnik programsko z naslednjo kodo:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Zgoraj omenjeno sliko lahko uporabite za uvajanje meta-llama/Llama-2-13b-chat-hf model na SageMaker. Zdaj lahko nadaljujete z ustvarjanjem modela.

Ustvarite model

Ustvarite lahko model, katerega vsebnik je zgrajen z uporabo inference_image_uri in strežna koda modela, ki se nahaja na S3 URI, ki ga označuje s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Zdaj lahko ustvarite konfiguracijo modela z vsemi podrobnostmi za konfiguracijo končne točke.

Ustvarite konfiguracijo modela

Uporabite naslednjo kodo, da ustvarite konfiguracijo modela za model, ki ga identificira model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Konfiguracija modela je definirana za ProductionVariants parameter InstanceType za primerek ML ml.g5.12xlarge. Zagotavljate tudi ModelName z istim imenom, ki ste ga uporabili za ustvarjanje modela v prejšnjem koraku, s čimer vzpostavite razmerje med modelom in konfiguracijo končne točke.

Zdaj, ko ste definirali model in konfiguracijo modela, lahko ustvarite končno točko SageMaker.

Ustvarite končno točko SageMaker

Ustvarite končno točko za uvedbo modela z naslednjim delčkom kode:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Napredek uvajanja si lahko ogledate z naslednjim delčkom kode:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Ko bo uvedba uspešna, bo status končne točke InService. Zdaj, ko je končna točka pripravljena, izvedimo sklepanje s pretakanjem odziva.

Sklepanje v realnem času s pretakanjem odgovorov

Kot smo opisali v prejšnjem pristopu za Hugging Face TGI, lahko uporabite isto metodo get_realtime_response_stream za priklic pretakanja odgovorov iz končne točke SageMaker. Koda za sklepanje z uporabo pristopa LMI je v llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb zvezek. The LineIterator izvedba se nahaja v llama-2-lmi/utils/LineIterator.py. Upoštevajte, da LineIterator za model Llama 2 Chat, ki je nameščen na vsebniku LMI, se razlikuje od modela LineIterator naveden v razdelku Hugging Face TGI. The LineIterator zanka čez tok bajtov iz modelov Llama 2 Chat, sklepanih z vsebnikom LMI z djl-deepspeed različica 0.25.0. Naslednja pomožna funkcija bo razčlenila tok odgovorov, prejet iz zahteve za sklepanje prek invoke_endpoint_with_response_stream API-ji:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Prejšnja metoda natisne tok podatkov, ki jih prebere LineIterator v človeku berljivi obliki.

Raziščimo, kako pripraviti poziv in navodila za njihovo uporabo kot obremenitev med sklepanjem o modelu.

Ker sklepate na isti model v Hugging Face TGI in LMI, je postopek priprave poziva in navodil enak. Zato lahko uporabite metode get_instructions in build_llama2_prompt za sklepanje.

O get_instructions metoda vrne navodila. Sestavite navodila v kombinaciji z nalogo, ki jo je treba izvesti, kot je podrobno opisano v user_ask_2 kot sledi:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Posredujte navodila za izdelavo poziva v skladu s predlogo poziva, ki jo je ustvaril build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Parametre sklepanja združimo skupaj s pozivom za oblikovanje končnega tovora. Nato pošljete tovor na get_realtime_response_stream, ki se uporablja za priklic končne točke s pretakanjem odgovorov:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Ustvarjeno besedilo iz LLM bo pretočeno v izhod, kot je prikazano v naslednji animaciji.

Llama 2 13B Pretakanje odziva na klepet - LMI

Čiščenje

Da se izognete nepotrebnim stroškom, uporabite Konzola za upravljanje AWS za brisanje končnih točk in z njimi povezanih virov, ki so bili ustvarjeni med izvajanjem pristopov, omenjenih v objavi. Za oba pristopa uvajanja izvedite naslednjo rutino čiščenja:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

Zamenjaj <SageMaker_Real-time_Endpoint_Name> za spremenljivko endpoint_name z dejansko končno točko.

Za drugi pristop smo artefakte modela in kode shranili na Amazon S3. Vedro S3 lahko očistite z naslednjo kodo:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

zaključek

V tej objavi smo razpravljali o tem, kako lahko različno število odzivnih žetonov ali drugačen niz parametrov sklepanja vpliva na zakasnitve, povezane z LLM-ji. Pokazali smo, kako rešiti težavo s pomočjo pretakanja odgovorov. Nato smo opredelili dva pristopa za uvajanje in sklepanje modelov Llama 2 Chat z uporabo AWS DLC-jev – LMI in Hugging Face TGI.

Zdaj bi morali razumeti pomen pretočnega odziva in kako lahko zmanjša zaznano zakasnitev. Pretočni odziv lahko izboljša uporabniško izkušnjo, zaradi česar bi sicer čakali, da LLM ustvari celoten odziv. Poleg tega uvedba modelov Llama 2 Chat s pretakanjem odzivov izboljša uporabniško izkušnjo in osreči vaše stranke.

Lahko se sklicujete na uradne vzorce aws amazon-sagemaker-llama2-response-streaming-recipes ki zajema uvajanje za druge različice modela Llama 2.

Reference

O avtorjih

Pavan Kumar Rao Navule je arhitekt rešitev pri Amazon Web Services. Sodeluje z ISV-ji v Indiji, da bi jim pomagal pri inovacijah na področju AWS. Je avtor objavljene knjige "Getting Started with V Programming." Na Indijskem tehnološkem inštitutu (IIT) v Hyderabadu je opravil magisterij iz podatkovne znanosti. Opravil je tudi Executive MBA iz specializacije IT na indijski šoli za poslovni management in administracijo ter ima diplomo iz elektronike in komunikacijskega inženiringa na Vaagdevi Institute of Technology and Science. Pavan je AWS Certified Solutions Architect Professional in ima druge certifikate, kot so AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) in Microsoft Certified Technology Specialist (MCTS). Je tudi navdušenec nad odprto kodo. V prostem času zelo rad posluša čudovita glasu Sie in Rihanne.

Sudhanshu Hate je glavni strokovnjak za umetno inteligenco/ML pri AWS in sodeluje s strankami, da jim svetuje na njihovi poti MLO in generativne umetne inteligence. V svoji prejšnji vlogi pred Amazonom je konceptualiziral, ustvaril in vodil ekipe za izgradnjo temeljnih odprtokodnih platform AI in iger ter jih uspešno komercializiral z več kot 100 strankami. Sudhanshu ima zasluge za nekaj patentov, napisal je dve knjigi in več člankov ter blogov ter predstavil svoja stališča na različnih tehničnih forumih. Bil je vodja misli in govornik ter je v industriji že skoraj 25 let. Delal je s strankami Fortune 1000 po vsem svetu in nazadnje z domačimi digitalnimi strankami v Indiji.