Järeldage Amazon SageMakeri abil reaalajas reageerimise voogesitusega Llama 2 mudeleid

Taasavaldanud Platon

järgijaid: 0

Generatiivsete AI-rakenduste kiire kasutuselevõtuga peavad need rakendused õigeaegselt reageerima, et vähendada suurema läbilaskevõimega tajutavat latentsust. Vundamendimudelid (FM-id) on sageli eelkoolitatud tohutul hulgal andmekogudel, mille parameetrid ulatuvad miljonitest miljarditeni ja rohkemgi. Suured keelemudelid (LLM) on teatud tüüpi FM-id, mis genereerivad teksti vastusena kasutaja järeldustele. Nende mudelite tuletamine erineva konfiguratsiooniga järeldusparameetritega võib viia ebajärjekindlate latentsusaegadeni. Ebakõla võib tuleneda erinevast arvust vastuselubadest, mida mudelilt ootate, või kiirendi tüübist, millele mudel juurutatakse.

Mõlemal juhul võite täieliku vastuse ootamise asemel kasutada oma järelduste jaoks vastuste voogesituse lähenemisviisi, mis saadab teabetükid tagasi kohe pärast nende genereerimist. See loob interaktiivse kogemuse, võimaldades teil näha osalisi vastuseid reaalajas voogesitusena, mitte hilinenud täieliku vastuse asemel.

Ametliku teatega, et Amazon SageMakeri reaalajas järeldus toetab nüüd vastuse voogesitust, saate nüüd kasutamise ajal pidevalt järeldusvastuseid kliendile tagasi voogesitada Amazon SageMaker reaalajas järeldused vastuse voogedastusega. See lahendus aitab teil luua interaktiivseid kogemusi erinevate generatiivsete AI rakenduste jaoks, nagu vestlusrobotid, virtuaalsed assistendid ja muusikageneraatorid. See postitus näitab teile, kuidas realiseerida kiiremaid reageerimisaegu esimese baidi (Time to First Byte, TTFB) kujul ja vähendada üldist tajutavat latentsust Llama 2 mudelite järeldamisel.

Lahenduse juurutamiseks kasutame täielikult hallatud teenust SageMaker andmete ettevalmistamiseks ning masinõppe (ML) mudelite loomiseks, koolitamiseks ja juurutamiseks mis tahes kasutusjuhtumiks koos täielikult hallatud infrastruktuuri, tööriistade ja töövoogudega. Lisateavet SageMakeri pakutavate juurutusvõimaluste kohta leiate artiklist Amazon SageMakeri mudelimajutuse KKK. Saame aru, kuidas saame lahendada latentsusprobleeme, kasutades vastuse voogesituse abil reaalajas järeldusi.

Lahenduse ülevaade

Kuna soovime käsitleda ülalmainitud latentsusaegasid, mis on seotud reaalajas järeldamisega LLM-idega, mõistame esmalt, kuidas saame kasutada vastuse voogesituse tuge reaalajas järelduste tegemiseks Llama 2 jaoks. Kuid iga LLM saab ära kasutada vastuse voogesituse tuge reaalajas. - aja järeldused.

Llama 2 on eelkoolitatud ja peenhäälestatud generatiivse tekstimudelite kogum, mille skaala ulatub 7 miljardist 70 miljardi parameetrini. Llama 2 mudelid on ainult dekoodri arhitektuuriga autoregressiivsed mudelid. Kui Llama 2 mudelid on varustatud viipade ja järeldusparameetritega, on nad võimelised genereerima teksti vastuseid. Neid mudeleid saab kasutada tõlkimiseks, kokkuvõtete tegemiseks, küsimustele vastamiseks ja vestluseks.

Selle postituse jaoks kasutame mudelit Llama 2 Chat meta-llama/Llama-2-13b-chat-hf SageMakeris reaalajas järelduste tegemiseks koos vastuse voogesitusega.

Kui rääkida mudelite juurutamisest SageMakeri lõpp-punktides, saate mudelid konteinerisse paigutada spetsiaalsete seadmete abil AWS-i süvaõppe konteiner (DLC) pildid, mis on saadaval populaarsete avatud lähtekoodiga teekide jaoks. Llama 2 mudelid on teksti genereerimise mudelid; võite kasutada kas Hugging Face LLM järelduskonteinerid SageMakeris powered by Hugging Face Teksti genereerimise järeldus (TGI) või AWS-i DLC-d Suur mudeli järeldus (LMI).

Selles postituses juurutame Llama 2 13B vestlusmudeli, kasutades DLC-sid SageMaker Hostingis, et teha reaalajas järeldusi, mida toidavad G5 eksemplarid. G5 eksemplarid on suure jõudlusega GPU-põhised eksemplarid graafikamahukate rakenduste ja ML-i järelduste tegemiseks. Saate kasutada ka toetatud eksemplaritüüpe p4d, p3, g5 ja g4dn asjakohaste muudatustega vastavalt eksemplari konfiguratsioonile.

Eeldused

Selle lahenduse rakendamiseks peaks teil olema järgmine:

AWS-i konto, millel on AWS-i identiteedi- ja juurdepääsuhaldus (IAM) roll, millel on õigused hallata lahenduse osana loodud ressursse.
Kui töötate esimest korda Amazon SageMaker Studio, peate esmalt looma a SageMakeri domeen.
Kallistava näo konto. Registreeri oma e-postiga, kui teil veel kontot pole.
- Hugging Face'is saadaolevatele mudelitele, eriti lukustatud mudelitele (nt Llama), peenhäälestamiseks ja järelduste tegemiseks peaks teil olema Hugging Face'i konto, et saada lugemispääsuluba. Pärast Hugging Face'i konto registreerimist, logi sisse külastama https://huggingface.co/settings/tokens lugemisõiguse loomiseks.
Juurdepääs Llama 2-le, kasutades sama e-posti ID-d, mida kasutasite Hugging Face'i kasutajaks registreerumisel.
- Hugging Face'i kaudu saadaolevad Llama 2 mudelid on avatavad mudelid. Llama mudeli kasutamist reguleerib Meta litsents. Mudeli kaalude ja märgiseadise allalaadimiseks taotleda juurdepääsu laamale ja aktsepteerige nende litsentsi.
- Pärast juurdepääsu andmist (tavaliselt paari päeva pärast) saate e-kirjaga kinnituse. Selle näite jaoks kasutame mudelit Llama-2-13b-chat-hf, kuid teil peaks olema juurdepääs ka teistele variantidele.

1. lähenemine: kallistava näo TGI

Selles jaotises näitame teile, kuidas juurutada meta-llama/Llama-2-13b-chat-hf mudel SageMakeri reaalajas lõpp-punktile koos vastuste voogesitusega, kasutades Hugging Face TGI-d. Järgmises tabelis on toodud selle juurutuse spetsifikatsioonid.

spetsifikatsioon	Väärtus
Konteiner	Kallistav nägu TGI
Mudeli nimi	meta-laama/llama-2-13b-chat-hf
ML-i juhtum	ml.g5.12xsuur
Järeldus	Reaalajas vastuse voogesitusega

Mudeli juurutamine

Esiteks hangite juurutava LLM-i baaspildi. Seejärel ehitate mudeli põhipildile. Lõpuks juurutate mudeli SageMakeri hostimise ML-eksemplarile reaalajas järelduste tegemiseks.

Vaatame, kuidas programmiliselt juurutamist saavutada. Lühiduse huvides käsitletakse selles jaotises ainult koodi, mis aitab juurutamisetappe. Täielik juurutamise lähtekood on saadaval sülearvutis llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Hankige eelehitatud uusim Hugging Face LLM DLC, mis töötab TGI-l SageMakeri DLC-d. Kasutate seda pilti juurutamiseks meta-llama/Llama-2-13b-chat-hf mudel SageMakeris. Vaadake järgmist koodi:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Määrake mudeli keskkond konfiguratsiooniparameetritega, mis on määratletud järgmiselt.

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

asendama <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> konfiguratsiooniparameetri jaoks HUGGING_FACE_HUB_TOKEN teie Hugging Face profiililt saadud märgi väärtusega, nagu on kirjeldatud selle postituse eeltingimuste jaotises. Konfiguratsioonis määrate mudeli koopia kohta kasutatavate GPU-de arvuks 4 jaoks SM_NUM_GPUS. Seejärel saate kasutusele võtta meta-llama/Llama-2-13b-chat-hf mudel ml.g5.12xsuurel eksemplaril, mis on varustatud 4 GPU-ga.

Nüüd saate luua eksemplari HuggingFaceModel eelnimetatud keskkonnakonfiguratsiooniga:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Lõpuks juurutage mudel, pakkudes argumendid mudelis saadaolevale juurutusmeetodile erinevate parameetriväärtustega, näiteks endpoint_name, initial_instance_countja instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Tehke järeldused

Hugging Face TGI DLC-l on võimalus vastuseid voogesitada ilma mudeli kohandamise või koodi muutmiseta. Sa võid kasutada invoke_endpoint_with_response_stream kui kasutate Boto3 või InvokeEndpointWithResponseStream SageMaker Python SDK-ga programmeerimisel.

. InvokeEndpointWithResponseStream SageMakeri API võimaldab arendajatel voogesitada vastuseid SageMakeri mudelitelt, mis võib aidata parandada klientide rahulolu, vähendades tajutavat latentsust. See on eriti oluline generatiivsete AI-mudelitega loodud rakenduste puhul, kus kohene töötlemine on olulisem kui kogu vastuse ootamine.

Selle näite puhul kasutame mudeli tuletamiseks Boto3 ja SageMaker API-t invoke_endpoint_with_response_stream järgmiselt:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Argument CustomAttributes on seatud väärtusele accept_eula=false. . accept_eula parameeter peab olema seatud väärtusele true et saada edukalt vastus Llama 2 mudelitelt. Pärast edukat kutsumist kasutades invoke_endpoint_with_response_stream, tagastab meetod baitidest koosneva vastusevoo.

Järgmine diagramm illustreerib seda töövoogu.

HF TGI voogesituse arhitektuuriskeem

Teil on vaja iteraatorit, mis liigub üle baitide voo ja analüüsib need loetavaks tekstiks. The LineIterator teostuse leiate aadressilt llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Nüüd olete valmis ette valmistama viipa ja juhised, et neid mudeli järeldamisel kasuliku koormana kasutada.

Valmistage ette viip ja juhised

Selles etapis valmistate ette viipa ja juhised oma LLM-i jaoks. Llama 2 küsimiseks peaks teil olema järgmine viipamall:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Saate luua meetodis programmiliselt määratletud viipamalli build_llama2_prompt, mis ühtib ülalmainitud viipamalliga. Seejärel määratlete juhised vastavalt kasutusjuhtumile. Sel juhul anname mudelile korralduse luua turunduskampaania jaoks meil, nagu on kirjeldatud get_instructions meetod. Nende meetodite kood on failis llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb märkmik. Koostage juhend koos täidetava ülesandega, nagu on üksikasjalikult kirjeldatud user_ask_1 järgmiselt:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Edastame juhised viipa koostamiseks vastavalt faili build_llama2_prompt loodud viipamallile.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Ühendame järeldusparameetrid koos võtmega viipaga stream väärtusega True lõpliku kasuliku koormuse moodustamiseks. Saada kasulik koormus aadressile get_realtime_response_stream, mida kasutatakse vastuse voogesitusega lõpp-punkti kutsumiseks:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

LLM-ist loodud tekst voogesitatakse väljundisse, nagu on näidatud järgmises animatsioonis.

Llama 2 13B vestluse vastuse voogesitus – HF TGI

2. lähenemisviis: LMI koos DJL-i serveerimisega

Selles jaotises näitame, kuidas juurutada meta-llama/Llama-2-13b-chat-hf mudel SageMakeri reaalajas lõpp-punktile koos vastuse voogesitusega, kasutades LMI-d koos DJL-i teenindamisega. Järgmises tabelis on toodud selle juurutuse spetsifikatsioonid.

spetsifikatsioon	Väärtus
Konteiner	LMI konteineri pilt koos DJL Servingiga
Mudeli nimi	meta-laama/llama-2-13b-chat-hf
ML-i juhtum	ml.g5.12xsuur
Järeldus	Reaalajas vastuse voogesitusega

Esmalt laadite mudeli alla ja salvestate selle Amazoni lihtne salvestusteenus (Amazon S3). Seejärel määrate S3 URI, mis näitab mudeli S3 eesliidet serving.properties faili. Järgmisena hankite juurutatava LLM-i baaspildi. Seejärel ehitate mudeli põhipildile. Lõpuks juurutate mudeli reaalajas järelduste tegemiseks SageMakeri hostimise ML-eksemplari.

Vaatame, kuidas eelnimetatud juurutamisetappe programmiliselt saavutada. Lühiduse huvides on selles jaotises üksikasjalikult kirjeldatud ainult kood, mis aitab juurutamisetappe. Selle juurutuse täielik lähtekood on saadaval sülearvutis llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Laadige Hugging Face'ist alla mudeli hetktõmmis ja laadige mudeli artefaktid Amazon S3-sse

Eespool nimetatud eeltingimustega laadige mudel alla SageMakeri sülearvuti eksemplari ja seejärel laadige see edasiseks juurutamiseks üles S3 ämbrisse:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Pange tähele, et kuigi te ei esita kehtivat juurdepääsuluba, laaditakse mudel alla. Kuid kui võtate sellise mudeli kasutusele, siis mudeli esitamine ei õnnestu. Seetõttu on soovitatav välja vahetada <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> argumendi eest token Teie Hugging Face profiililt saadud märgi väärtusega, nagu on eeltingimustes kirjeldatud. Selle postituse jaoks täpsustame Llama 2 ametliku mudeli nime, mis on märgitud Hugging Face'is väärtusega meta-llama/Llama-2-13b-chat-hf. Tihendamata mudel laaditakse alla local_model_path eelnimetatud koodi käitamise tulemusena.

Laadige failid üles Amazon S3-sse ja hankige URI, mida hiljem kasutatakse serving.properties.

Te pakendate meta-llama/Llama-2-13b-chat-hf mudel LMI konteineri kujutisel koos DJL-i esitamisega, kasutades konfiguratsiooni, mis on määratud kaudu serving.properties. Seejärel juurutate mudeli koos mudeliartefaktidega, mis on pakitud SageMaker ML-i eksemplari ml.g5.12xlarge konteineri kujutisele. Seejärel kasutate seda ML-i eksemplari SageMakeri hostimiseks reaalajas järelduste tegemiseks.

Valmistage ette mudeliartefaktid DJL-i serveerimiseks

Valmistage ette oma mudeli artefaktid, luues a serving.properties konfiguratsioonifail:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Kasutame selles konfiguratsioonifailis järgmisi sätteid:

mootor – See määrab DJL-i jaoks kasutatava käitusaja mootori. Võimalikud väärtused hõlmavad Python, DeepSpeed, FasterTransformerja MPI. Sel juhul seadsime selle nii MPI. Mudeli paralleelsus ja järeldus (MPI) hõlbustab mudeli jaotamist kõigi saadaolevate GPU-de vahel ja kiirendab seega järelduste tegemist.
option.entryPoint – See valik määrab, millist DJL Servingi pakutavat töötlejat soovite kasutada. Võimalikud väärtused on djl_python.huggingface, djl_python.deepspeedja djl_python.stable-diffusion. Me kasutame djl_python.huggingface Kallistava Face Accelerate jaoks.
option.tensor_parallel_degree – See suvand määrab mudelil tehtavate tensoride paralleelsektsioonide arvu. Saate määrata GPU-seadmete arvu, mille üle Accelerate peab mudeli jaotama. See parameeter juhib ka töötajate arvu mudeli kohta, mis käivitatakse DJL-i teenindamise ajal. Näiteks kui meil on 4 graafikaprotsessoriga masin ja me loome neli partitsiooni, siis on meil iga mudeli kohta üks töötaja päringute teenindamiseks.
option.low_cpu_mem_usage – See vähendab mudelite laadimisel protsessori mälukasutust. Soovitame selle seada TRUE.
option.rolling_batch – See võimaldab iteratsioonitasemel komplekteerimist, kasutades ühte toetatud strateegiatest. Väärtused hõlmavad auto, schedulerja lmi-dist. Me kasutame lmi-dist pideva partiide laadimise sisselülitamiseks Llama 2 jaoks.
option.max_rolling_batch_size – See piirab samaaegsete päringute arvu pidevas partiis. Vaikimisi on väärtus 32.
option.model_id – Peaksite välja vahetama {{model_id}} a-s hostitud eelkoolitatud mudeli ID-ga Hugging Face mudelite hoidla või S3 tee mudeli artefaktidele.

Rohkem konfiguratsioonivalikuid leiate aadressilt Konfiguratsioonid ja seaded.

Kuna DJL Serving eeldab, et mudeli artefaktid pakitakse ja vormindatakse tar-faili, käivitage järgmine koodilõik, et tihendada ja laadida üles tar-fail Amazon S3-sse:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Hankige uusim LMI konteineri kujutis DJL Servingiga

Järgmisena kasutate mudeli juurutamiseks LMI jaoks SageMakeriga saadaolevaid DLC-sid. Hankige SageMakeri kujutise URI djl-deepspeed konteiner programmiliselt, kasutades järgmist koodi:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Rakenduse juurutamiseks saate kasutada ülalnimetatud pilti meta-llama/Llama-2-13b-chat-hf mudel SageMakeris. Nüüd saate jätkata mudeli loomist.

Loo mudel

Saate luua mudeli, mille konteiner on ehitatud kasutades inference_image_uri ja mudeli teeninduskood, mis asub S3 URI juures, mida tähistab s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Nüüd saate luua mudeli konfiguratsiooni koos kõigi lõpp-punkti konfiguratsiooni üksikasjadega.

Looge mudeli konfiguratsioon

Kasutage järgmist koodi, et luua mudeli konfiguratsioon identifitseeritud mudelile model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Mudeli konfiguratsioon on määratletud ProductionVariants parameeter InstanceType ML-eksemplari jaoks ml.g5.12xlarge. Samuti pakute ModelName kasutades sama nime, mida kasutasite mudeli loomisel eelmises etapis, luues sellega seose mudeli ja lõpp-punkti konfiguratsiooni vahel.

Nüüd, kui olete mudeli ja mudeli konfiguratsiooni määratlenud, saate luua SageMakeri lõpp-punkti.

Looge SageMakeri lõpp-punkt

Looge mudeli juurutamiseks lõpp-punkt järgmise koodilõigu abil:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Juurutamise edenemist saate vaadata järgmise koodilõigu abil.

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Pärast juurutamise õnnestumist on lõpp-punkti olek InService. Nüüd, kui lõpp-punkt on valmis, teeme järeldused vastuse voogesituse abil.

Reaalajas järeldused vastuse voogesitusega

Nagu me käsitlesime Hugging Face TGI varasemas lähenemisviisis, saate kasutada sama meetodit get_realtime_response_stream vastuse voogesituse käivitamiseks SageMakeri lõpp-punktist. LMI-meetodi abil järelduste tegemise kood on dokumendis llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb märkmik. The LineIterator teostus asub llama-2-lmi/utils/LineIterator.py. Pange tähele, et LineIterator LMI konteinerisse juurutatud Llama 2 Chati mudeli puhul erineb mudelist LineIterator viidatud Hugging Face TGI jaotises. The LineIterator silmused üle baitide voo Llama 2 vestlusmudelitest, mis on tuletatud LMI konteineriga djl-deepspeed versioon 0.25.0. Järgmine abifunktsioon sõelub vastusevoogu, mis on saadud läbi järelduspäringust, mis on tehtud kaudu invoke_endpoint_with_response_stream API-d:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Eelnev meetod prindib poolt loetud andmevoo LineIterator inimesele loetavas vormingus.

Uurime, kuidas koostada viip ja juhised, et neid mudeli järeldamisel kasuliku koormana kasutada.

Kuna järeldate sama mudelit nii Hugging Face TGI-s kui ka LMI-s, on viipa ja juhiste ettevalmistamise protsess sama. Seetõttu võite kasutada meetodeid get_instructions ja build_llama2_prompt järeldamiseks.

. get_instructions meetod tagastab juhised. Koostage juhised koos täidetava ülesandega, nagu on üksikasjalikult kirjeldatud user_ask_2 järgmiselt:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Edastage juhised viipa koostamiseks vastavalt loodud viipamallile build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Seame kokku järeldusparameetrid koos viipaga lõpliku kasuliku koormuse moodustamiseks. Seejärel saadate kasuliku koormuse aadressile get_realtime_response_stream, mida kasutatakse vastuse voogesitusega lõpp-punkti kutsumiseks:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

LLM-ist loodud tekst voogesitatakse väljundisse, nagu on näidatud järgmises animatsioonis.

Llama 2 13B vestluse vastuse voogesitus – LMI

Koristage

Tarbetute tasude vältimiseks kasutage AWS-i juhtimiskonsool postituses mainitud lähenemisviiside käitamise ajal loodud lõpp-punktide ja nendega seotud ressurside kustutamiseks. Mõlema juurutusviisi puhul tehke järgmine puhastusrutiin.

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

asendama <SageMaker_Real-time_Endpoint_Name> muutuja jaoks endpoint_name tegeliku lõpp-punktiga.

Teise lähenemisviisi jaoks salvestasime mudeli ja koodi artefaktid Amazon S3-le. Saate S3 ämbri puhastada järgmise koodi abil:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Järeldus

Selles postituses arutasime, kuidas erinev arv vastusemärke või erinev järeldusparameetrite komplekt võib mõjutada LLM-idega seotud latentsusaega. Näitasime, kuidas vastuse voogesituse abil probleemi lahendada. Seejärel tuvastasime kaks lähenemisviisi Llama 2 Chati mudelite juurutamiseks ja järeldamiseks AWS-i DLC-de abil - LMI ja Hugging Face TGI.

Nüüd peaksite mõistma voogesitusvastuse tähtsust ja seda, kuidas see võib tajutavat latentsust vähendada. Voogesitusvastus võib parandada kasutajakogemust, mis muidu sunniks teid ootama, kuni LLM koostab kogu vastuse. Lisaks parandab Llama 2 Chati mudelite juurutamine koos vastuste voogesitusega kasutajakogemust ja teeb teie kliendid õnnelikuks.

Võite vaadata ametlikke aws-proove amazon-sagemaker-lama2-response-streaming-recipes mis hõlmab teiste Llama 2 mudelivariantide kasutuselevõttu.

viited

Autoritest

Pavan Kumar Rao Navule on Amazon Web Servicesi lahenduste arhitekt. Ta teeb koostööd Indias ISV-dega, et aidata neil AWS-i uuendusi teha. Ta on avaldanud raamatu "Getting Started with V Programming". Ta omandas andmeteaduse magistrikraadi India Tehnoloogiainstituudis (IIT), Hyderabadis. Samuti omandas ta India ärijuhtimise ja halduse koolis IT-alase magistriõppe magistrikraadi ning Vaagdevi Tehnoloogia- ja Teadusinstituudis on tal elektroonika- ja kommunikatsioonitehnika bakalaureusekraad. Pavan on AWS-i sertifitseeritud lahenduste arhitekti professionaal ja omab muid sertifikaate, nagu AWS-i sertifitseeritud masinõppe eriala, Microsofti sertifitseeritud professionaal (MCP) ja Microsofti sertifitseeritud tehnoloogiaspetsialist (MCTS). Ta on ka avatud lähtekoodiga entusiast. Vabal ajal meeldib talle kuulata Sia ja Rihanna suurepäraseid maagilisi hääli.

Sudhanshu vihkamine on AWS-i peamine AI/ML-spetsialist ja teeb koostööd klientidega, et nõustada neid nende MLO-de ja generatiivse AI-teekonna kohta. Oma eelmises rollis enne Amazoni töötas ta välja ideede loomise, lõi ja juhtis meeskondi, et luua maapealseid avatud lähtekoodiga tehisintellekti- ja mänguplatvorme, ning turustas seda edukalt enam kui 100 kliendiga. Sudhanshu kiituseks on paar patenti, ta on kirjutanud kaks raamatut ja mitu paberit ja ajaveebi ning esitanud oma seisukohti erinevatel tehnilistel foorumitel. Ta on olnud mõttejuht ja kõneleja ning tegutsenud selles valdkonnas peaaegu 25 aastat. Ta on töötanud Fortune 1000 klientidega üle kogu maailma ja viimati digitaalsete kohalike klientidega Indias.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/

Ajatempel: Jaanuar 9, 2024

Ajatempel: Aprill 13, 2023

Värskendage andmestikku järk-järgult Amazon Personalize'i hulgiimpordi mehhanismiga

Allikaklaster:

AWS-i masinõpe

Allikasõlm: 1627701

Ajatempel: August 17, 2022

Taasavaldanud Platon

Generatiivne AI roadshow Põhja-Ameerikas koos AWS-i ja Hugging Face | Amazoni veebiteenused

Arukas dokumenditöötlus AWS AI teenustega: 2. osa

Tutvustame MLO-de jaoks mõeldud Amazon Comprehend hooratast

Kuidas Thomson Reuters pakub Amazon Personalize'i abil ulatuslikke isikupärastatud sisu tellimisplaane

Tuhandete ML-mudelite mõõtkavade väljaõpe ja järeldused rakendusega Amazon SageMaker | Amazoni veebiteenused

Värskendage andmestikku järk-järgult Amazon Personalize'i hulgiimpordi mehhanismiga

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto