Következtetés Llama 2 modellek valós idejű válaszfolyamattal az Amazon SageMaker használatával

Újra kiadta Platón

Követő: 0

A generatív mesterséges intelligencia-alkalmazások gyors elterjedésével szükség van arra, hogy ezek az alkalmazások időben reagáljanak, hogy csökkentsék az észlelt késleltetést nagyobb átviteli sebesség mellett. Az alapmodellek (FM-ek) gyakran előképzettek hatalmas adathalmazokra, amelyek paraméterei millióktól milliárdokig terjednek, vagy még tovább. A nagy nyelvi modellek (LLM) olyan FM-típusok, amelyek szöveget generálnak a felhasználói következtetés válaszaként. Ezeknek a modelleknek a következtetési paraméterek eltérő konfigurációjával történő következtetése inkonzisztens késésekhez vezethet. Az inkonzisztenciát a modelltől várt választokenek változó száma vagy a gyorsító típusa okozhatja, amelyen a modell telepítve van.

Mindkét esetben ahelyett, hogy megvárná a teljes választ, a következtetésekhez alkalmazhatja a válaszfolyamok megközelítését, amely azonnal visszaküldi az információdarabokat, amint azok létrejöttek. Ez interaktív élményt biztosít azáltal, hogy lehetővé teszi a részleges válaszok valós időben történő megtekintését a késleltetett teljes válasz helyett.

A hivatalos bejelentéssel, hogy Az Amazon SageMaker valós idejű következtetése mostantól támogatja a válaszfolyamatokat, mostantól folyamatosan visszaküldheti a következtetési válaszokat az ügyfélnek a használat során Amazon SageMaker valós idejű következtetés válaszfolyamattal. Ez a megoldás segít interaktív élmények kialakításában különféle generatív AI-alkalmazásokhoz, például chatbotokhoz, virtuális asszisztensekhez és zenegenerátorokhoz. Ez a bejegyzés bemutatja, hogyan valósíthat meg gyorsabb válaszidőt a Time to First Byte (TTFB) formájában, és hogyan csökkentheti az általános észlelt késleltetést, miközben a Llama 2 modellekre következtet.

A megoldás megvalósításához egy teljesen felügyelt SageMaker szolgáltatást használunk adatok előkészítésére, valamint gépi tanulási (ML) modellek készítésére, betanítására és üzembe helyezésére minden felhasználási esetre, teljesen felügyelt infrastruktúrával, eszközökkel és munkafolyamatokkal. A SageMaker által biztosított különféle telepítési lehetőségekről további információért tekintse meg a következőt: Amazon SageMaker Model Hosting GYIK. Nézzük meg, hogyan kezelhetjük a késleltetési problémákat valós idejű következtetések és válaszfolyamok segítségével.

Megoldás áttekintése

Mivel foglalkozni akarunk a fent említett, az LLM-ekkel kapcsolatos valós idejű következtetésekhez kapcsolódó késleltetésekkel, először is értsük meg, hogyan használhatjuk a válaszfolyam-támogatást a Llama 2 valós idejű következtetéseihez. Azonban bármely LLM kihasználhatja a válaszfolyam-támogatás előnyeit valós kapcsolattal. - időbeli következtetés.

A Llama 2 előre betanított és finomhangolt generatív szövegmodellek gyűjteménye 7 milliárdtól 70 milliárdig terjedő skálán. A Llama 2 modellek autoregresszív modellek csak dekóder architektúrával. Ha prompt és következtetési paraméterekkel látják el, a Llama 2 modellek képesek szöveges válaszokat generálni. Ezek a modellek fordításra, összegzésre, kérdések megválaszolására és chatre használhatók.

Ehhez a bejegyzéshez a Llama 2 Chat modellt alkalmazzuk meta-llama/Llama-2-13b-chat-hf a SageMakeren, hogy valós idejű következtetéseket lehessen levonni a válaszok streamelésével.

Amikor a modellek SageMaker-végpontokon történő üzembe helyezéséről van szó, konténerbe helyezheti a modelleket speciális használatával AWS Deep Learning Container (DLC) képek elérhetők a népszerű nyílt forráskódú könyvtárakhoz. A Llama 2 modellek szöveggeneráló modellek; használhatod akár a Hugging Face LLM következtetéstárolók a SageMakeren a Hugging Face hajtotta Szöveggenerálási következtetés (TGI) vagy AWS DLC-k számára Nagy modellkövetkeztetés (LMI).

Ebben a bejegyzésben a Llama 2 13B Chat modellt vezetjük be a SageMaker Hosting DLC-jeivel, hogy valós idejű következtetéseket lehessen levonni a G5-példányokkal. A G5-példányok nagy teljesítményű GPU-alapú példányok nagy grafikai igényű alkalmazásokhoz és ML következtetésekhez. A támogatott p4d, p3, g5 és g4dn példánytípusokat is használhatja a megfelelő változtatásokkal a példány konfigurációjának megfelelően.

Előfeltételek

A megoldás megvalósításához a következőkre van szükség:

Egy AWS-fiók egy AWS Identity and Access Management (IAM) szerepkör a megoldás részeként létrehozott erőforrások kezeléséhez szükséges engedélyekkel.
Ha most először dolgozik vele Amazon SageMaker Studio, először létre kell hoznia a SageMaker domain.
Egy Hugging Face fiók. Regisztrálj e-mail címével, ha még nem rendelkezik fiókkal.
- A Hugging Face-en elérhető modellek zökkenőmentes eléréséhez, különösen a kapuzott modellekhez, mint például a Llama, finomhangolási és következtetési célból, Hugging Face fiókkal kell rendelkeznie az olvasási hozzáférési token megszerzéséhez. Miután regisztráltál Hugging Face fiókodra, jelentkezzen be meglátogatni https://huggingface.co/settings/tokens olvasási hozzáférési token létrehozásához.
Hozzáférés a Llama 2-hez, ugyanazzal az e-mail-azonosítóval, amelyet a Hugging Face szolgáltatásra való feliratkozáskor használt.
- A Hugging Face-en keresztül elérhető Llama 2 modellek zárt modellek. A Llama modell használatát a Meta licenc szabályozza. A modellsúlyok és a tokenizátor letöltéséhez kérjen hozzáférést Lámához és elfogadják az engedélyüket.
- Miután megkapta a hozzáférést (általában néhány napon belül), visszaigazoló e-mailt kap. Ebben a példában a modellt használjuk Llama-2-13b-chat-hf, de más változatokhoz is hozzá kell férnie.

1. megközelítés: átölelő arc TGI

Ebben a részben bemutatjuk, hogyan telepítheti a meta-llama/Llama-2-13b-chat-hf modellt egy SageMaker valós idejű végpontra, válasz streameléssel Hugging Face TGI használatával. Az alábbi táblázat felvázolja ennek a telepítésnek a specifikációit.

Leírás	Érték
Konténer	Átölelő arc TGI
Modell neve	meta-láma/Llama-2-13b-chat-hf
ML példány	ml.g5.12xnagy
Következtetés	Valós idejű válaszfolyamattal

Telepítse a modellt

Először is le kell kérnie az alaplemezképet a telepítendő LLM számára. Ezután az alapképre építi a modellt. Végül telepítse a modellt a SageMaker Hosting ML-példányára a valós idejű következtetés érdekében.

Nézzük meg, hogyan lehet programozottan megvalósítani a telepítést. A rövidség kedvéért ebben a részben csak azt a kódot tárgyaljuk, amely segít a telepítési lépésekben. A központi telepítés teljes forráskódja elérhető a notebookban llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Töltse le a legújabb Hugging Face LLM DLC-t, amelyet TGI hajt előre beépítetten SageMaker DLC-k. Ezzel a képpel telepítheti a meta-llama/Llama-2-13b-chat-hf modell a SageMakeren. Lásd a következő kódot:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Határozza meg a modell környezetét az alábbiak szerint meghatározott konfigurációs paraméterekkel:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

Cserélje <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> a konfigurációs paraméterhez HUGGING_FACE_HUB_TOKEN a Hugging Face profilodból nyert token értékével, a jelen bejegyzés előfeltételek részében részletezettek szerint. A konfigurációban a modell replikánként használt GPU-k számát 4-re kell megadnia SM_NUM_GPUS. Ezután telepítheti a meta-llama/Llama-2-13b-chat-hf modell egy ml.g5.12xlarge példányon, amely 4 GPU-val érkezik.

Most elkészítheti a példányt HuggingFaceModel a fent említett környezetkonfigurációval:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Végül telepítse a modellt úgy, hogy argumentumokat ad meg a modellen elérhető telepítési metódushoz különféle paraméterértékekkel, például endpoint_name, initial_instance_countés instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Végezzen következtetést

A Hugging Face TGI DLC képes a válaszok streamelésére a modell testreszabása vagy kódmódosítása nélkül. Te tudod használni invoke_endpoint_with_response_stream ha Boto3 vagy InvokeEndpointWithResponseStream amikor a SageMaker Python SDK-val programozunk.

A InvokeEndpointWithResponseStream A SageMaker API-ja lehetővé teszi a fejlesztők számára, hogy visszaküldjék a SageMaker modellekből származó válaszokat, ami az észlelt késleltetés csökkentésével javíthatja az ügyfelek elégedettségét. Ez különösen fontos a generatív mesterséges intelligencia modellekkel épített alkalmazásoknál, ahol az azonnali feldolgozás fontosabb, mint a teljes válasz megvárása.

Ebben a példában a Boto3-at használjuk a modell kikövetkeztetésére, és a SageMaker API-t használjuk invoke_endpoint_with_response_stream az alábbiak szerint:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

A vita CustomAttributes értékre van állítva accept_eula=false. A accept_eula paramétert értékre kell állítani true hogy sikeresen megkapja a választ a Llama 2 modellektől. A sikeres meghívás után a segítségével invoke_endpoint_with_response_stream, a metódus bájtokból álló válaszfolyamot ad vissza.

A következő diagram ezt a munkafolyamatot mutatja be.

HF TGI Streaming építészeti diagram

Szüksége van egy iterátorra, amely a bájtok folyamán áthalad, és olvasható szöveggé elemzi azokat. A LineIterator megvalósítása a címen található llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Most készen áll a prompt és az utasítások elkészítésére, hogy hasznos teherként használhassa őket a modell következtetése során.

Készítsen felszólítást és utasításokat

Ebben a lépésben elkészíti a promptot és az utasításokat az LLM számára. A Llama 2 kéréséhez a következő prompt sablonnal kell rendelkeznie:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

A metódusban programozottan meghatározott prompt sablont kell létrehozni build_llama2_prompt, amely igazodik a fent említett prompt sablonhoz. Ezután meghatározza az utasításokat a használati esetnek megfelelően. Ebben az esetben arra utasítjuk a modellt, hogy hozzon létre egy e-mailt egy marketingkampányhoz, amint az a get_instructions módszer. Ezeknek a módszereknek a kódja a llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb jegyzetfüzet. Építse fel az utasítást az elvégzendő feladattal kombinálva a részletben leírtak szerint user_ask_1 az alábbiak szerint:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Átadjuk az utasításokat a prompt létrehozásához a build_llama2_prompt által generált prompt sablon szerint.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

A következtetési paramétereket a kulccsal együtt a prompttal együtt összekeverjük stream az értékkel True végső hasznos teher kialakításához. Küldje el a hasznos terhet get_realtime_response_stream, amely egy végpont meghívására lesz használva válaszfolyammal:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Az LLM-ből generált szöveg streamelésre kerül a kimenetre, ahogy az a következő animáción látható.

Llama 2 13B Chat Response Streaming – HF TGI

2. megközelítés: LMI DJL kiszolgálással

Ebben a részben bemutatjuk, hogyan kell telepíteni a meta-llama/Llama-2-13b-chat-hf modellt egy SageMaker valós idejű végpontra válasz streameléssel LMI és DJL szolgáltatás használatával. Az alábbi táblázat felvázolja ennek a telepítésnek a specifikációit.

Leírás	Érték
Konténer	LMI konténerkép DJL kiszolgálással
Modell neve	meta-láma/Llama-2-13b-chat-hf
ML példány	ml.g5.12xnagy
Következtetés	Valós idejű válaszfolyamattal

Először töltse le a modellt, és tárolja Amazon egyszerű tárolási szolgáltatás (Amazon S3). Ezután adja meg az S3 URI-t, amely a modell S3 előtagját jelzi a serving.properties fájlt. Ezután le kell kérnie az alaplemezképet a telepítendő LLM számára. Ezután az alapképre építi a modellt. Végül telepítse a modellt a SageMaker Hosting ML-példányára a valós idejű következtetés érdekében.

Nézzük meg, hogyan érhetjük el programozottan a fent említett telepítési lépéseket. A rövidség kedvéért ebben a szakaszban csak a telepítési lépéseket segítő kódot részletezzük. A telepítés teljes forráskódja elérhető a notebookban llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Töltse le a modell pillanatfelvételét a Hugging Face webhelyről, és töltse fel a modell műtermékeit az Amazon S3-ra

A fent említett előfeltételekkel töltse le a modellt a SageMaker notebook példányra, majd töltse fel az S3 tárolóba további telepítéshez:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Vegye figyelembe, hogy bár nem ad meg érvényes hozzáférési tokent, a modell letöltődik. De ha telepít egy ilyen modellt, a modellszolgáltatás nem fog sikerülni. Ezért javasolt a csere <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> az érveléshez token a Hugging Face profilodból nyert token értékével, az előfeltételekben részletezettek szerint. Ebben a bejegyzésben megadjuk a Llama 2 hivatalos modellnevét, ahogyan az Hugging Face-en az értékkel azonosítjuk meta-llama/Llama-2-13b-chat-hf. A tömörítetlen modell a következő helyre lesz letöltve local_model_path a fent említett kód futtatásának eredményeként.

Töltse fel a fájlokat az Amazon S3-ra, és szerezze be az URI-t, amelyet később felhasználni fog serving.properties.

Ön fogja csomagolni a meta-llama/Llama-2-13b-chat-hf modell az LMI konténerképen DJL-szolgáltatással a következőn megadott konfiguráció használatával serving.properties. Ezután telepítse a modellt a SageMaker ML példány ml.g5.12xlarge tárolóképére csomagolt modelltermékekkel együtt. Ezt az ML-példányt ezután a SageMaker Hostinghoz használja a valós idejű következtetésekhez.

Készítsen modelltermékeket a DJL-szolgáltatáshoz

Készítse elő a modell műtermékeit a létrehozásával serving.properties konfigurációs fájl:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Ebben a konfigurációs fájlban a következő beállításokat használjuk:

motor – Ez határozza meg a DJL által használandó futásidejű motort. A lehetséges értékek közé tartozik Python, DeepSpeed, FasterTransformerés MPI. Ebben az esetben azt állítjuk be MPI. A Model Parallelization and Inference (MPI) megkönnyíti a modell particionálását az összes elérhető GPU között, és ezáltal felgyorsítja a következtetést.
option.entryPoint – Ez az opció meghatározza, hogy a DJL Serving által kínált kezelőt melyiket szeretné használni. A lehetséges értékek a következők djl_python.huggingface, djl_python.deepspeedés djl_python.stable-diffusion. Használunk djl_python.huggingface a Hugging Face Accelerate számára.
opció.tensor_parallel_degree – Ez az opció határozza meg a modellen végrehajtott tenzoros párhuzamos partíciók számát. Beállíthatja, hogy hány GPU-eszközön kell az Accelerate-nak particionálnia a modellt. Ez a paraméter azt is szabályozza, hogy a DJL-kiszolgálás futásakor a modellenkénti dolgozók száma hányan indul el. Például, ha van egy 4 GPU-s gépünk és négy partíciót hozunk létre, akkor modellenként egy dolgozónk lesz a kérések kiszolgálására.
option.low_cpu_mem_usage – Ez csökkenti a CPU memóriahasználatát a modellek betöltésekor. Javasoljuk, hogy ezt állítsa be TRUE.
option.rolling_batch – Ez lehetővé teszi az iterációs szintű kötegelést a támogatott stratégiák egyikével. Az értékek közé tartozik auto, schedulerés lmi-dist. Használunk lmi-dist a folyamatos adagolás bekapcsolásához a Llama 2-nél.
opció.max_rolling_batch_size – Ez korlátozza az egyidejű kérések számát a folyamatos kötegben. Az alapértelmezett érték 32.
option.model_id - Cserélned kellene {{model_id}} egy előre betanított modell modellazonosítójával, amely a modelltár a Hugging Face-n vagy S3 elérési útja a modell műtermékekhez.

További konfigurációs lehetőségeket itt találhat Konfigurációk és beállítások.

Mivel a DJL Serving elvárja, hogy a modellműtermékeket .tar fájlba csomagolják és formázzák, futtassa a következő kódrészletet a .tar fájl tömörítéséhez és feltöltéséhez az Amazon S3-ba:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Töltse le a legújabb LMI-tárolóképet a DJL szolgáltatással

Ezután használja a SageMaker for LMI-hez elérhető DLC-ket a modell üzembe helyezéséhez. Kérje le a SageMaker kép URI-jét a djl-deepspeed tároló programozottan a következő kód használatával:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Használhatja a fent említett képet a telepítéshez meta-llama/Llama-2-13b-chat-hf modell a SageMakeren. Most folytathatja a modell létrehozását.

Készítse el a modellt

Létrehozhatja azt a modellt, amelynek tárolója a következővel épül fel inference_image_uri és az S3 URI-n található modellkiszolgáló kódot, amelyet jelöl s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Most létrehozhatja a modell konfigurációját a végpont konfigurációjának minden részletével.

Hozza létre a modell konfigurációját

A következő kóddal hozzon létre egy modellkonfigurációt a által azonosított modellhez model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

A modell konfigurációja a ProductionVariants paraméter InstanceType az ML példányhoz ml.g5.12xlarge. Ön is biztosítja a ModelName ugyanazt a nevet használja, amelyet az előző lépésben a modell létrehozásához használt, ezzel kapcsolatot létesítve a modell és a végpont konfigurációja között.

Most, hogy meghatározta a modellt és a modell konfigurációját, létrehozhatja a SageMaker végpontot.

Hozza létre a SageMaker végpontot

A következő kódrészlet segítségével hozza létre a végpontot a modell üzembe helyezéséhez:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

A telepítés előrehaladását a következő kódrészlet segítségével tekintheti meg:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

A sikeres üzembe helyezés után a végpont állapota a következő lesz InService. Most, hogy a végpont készen áll, hajtsunk végre következtetést a válaszfolyamokkal.

Valós idejű következtetés válaszfolyamattal

Amint azt a Hugging Face TGI korábbi megközelítésében leírtuk, ugyanazt a módszert használhatja get_realtime_response_stream válaszfolyam meghívásához a SageMaker végpontról. Az LMI megközelítést használó következtetés kódja a llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb jegyzetfüzet. A LineIterator a megvalósítás található llama-2-lmi/utils/LineIterator.py. Vegye figyelembe, hogy a LineIterator az LMI tárolón telepített Llama 2 Chat modell esetében eltér a LineIterator hivatkozik Hugging Face TGI szakaszban. A LineIterator hurkok a bájtfolyamon a Llama 2 Chat modellekből, amelyek az LMI tárolóból következtetnek djl-deepspeed 0.25.0 verzió. A következő segítő funkció elemzi a következőn keresztül küldött következtetési kérésből kapott válaszfolyamot invoke_endpoint_with_response_stream API-k:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Az előző módszer kiírja a beolvasott adatfolyamot LineIterator ember által olvasható formátumban.

Fedezzük fel, hogyan készítsük elő a promptot és az utasításokat, hogy hasznos teherként használhassuk őket a modell következtetése során.

Mivel a Hugging Face TGI-ben és az LMI-ben is ugyanarra a modellre következtet, a felszólítás és az utasítások elkészítésének folyamata ugyanaz. Ezért használhatja a módszereket get_instructions és a build_llama2_prompt következtetéshez.

A get_instructions metódus visszaadja az utasításokat. Építsd össze az utasításokat az elvégzendő feladattal kombinálva a részletben leírtak szerint user_ask_2 az alábbiak szerint:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Adja át az utasításokat a prompt létrehozásához a által generált prompt sablon szerint build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

A következtetési paramétereket a prompttal együtt a végső hasznos terhelés kialakításához kötjük össze. Ezután elküldi a rakományt a címre get_realtime_response_stream, amely egy végpont meghívására szolgál válaszfolyammal:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Az LLM-ből generált szöveg streamelésre kerül a kimenetre, ahogy az a következő animáción látható.

Llama 2 13B Chat Response Streaming – LMI

Tisztítsuk meg

A felesleges költségek elkerülése érdekében használja a AWS felügyeleti konzol a végpontok és a hozzájuk tartozó erőforrások törléséhez, amelyek a bejegyzésben említett megközelítések futtatása közben jöttek létre. Mindkét telepítési megközelítéshez hajtsa végre a következő tisztítási rutint:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

Cserélje <SageMaker_Real-time_Endpoint_Name> változóhoz endpoint_name a tényleges végponttal.

A második megközelítéshez a modell- és kódtermékeket az Amazon S3-on tároltuk. Az S3 vödröt a következő kóddal tisztíthatja meg:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Következtetés

Ebben a bejegyzésben megvitattuk, hogy a változó számú válaszjogkivonat vagy a következtetési paraméterek eltérő halmaza hogyan befolyásolhatja az LLM-ekhez társított késéseket. Megmutattuk, hogyan lehet megoldani a problémát válaszfolyam segítségével. Ezután két megközelítést azonosítottunk a Llama 2 Chat modellek AWS DLC-k használatával történő üzembe helyezésére és következtetésére: LMI és Hugging Face TGI.

Most már meg kell értenie a streamelési válasz fontosságát, és azt, hogy hogyan csökkentheti az észlelt késleltetést. A streamelési válasz javíthatja a felhasználói élményt, ami egyébként arra késztetné, hogy megvárja, amíg az LLM felépíti a teljes választ. Ezenkívül a Llama 2 Chat modellek válaszfolyamatokkal történő telepítése javítja a felhasználói élményt, és boldoggá teszi ügyfeleit.

Hivatkozhat a hivatalos aws-mintákra amazon-sagemaker-llama2-response-streaming-receptek amely magában foglalja a Llama 2 modellváltozatok telepítését.

Referenciák

A szerzőkről

Pavan Kumar Rao Navule az Amazon Web Services megoldástervezője. Indiában ISV-kkel dolgozik, hogy segítsen nekik az AWS-re vonatkozó innovációban. A „Getting Started with V Programming” című könyv megjelent szerzője. Az Indiai Technológiai Intézetben (IIT), Hyderabadban szerzett Executive M.Tech fokozatot adattudományból. Emellett Executive MBA fokozatot szerzett informatikai szakirányon az Indian School of Business Management and Administration-ben, és B.Tech diplomát szerzett elektronikai és kommunikációs mérnökökből a Vaagdevi Institute of Technology and Science-en. Pavan egy AWS Certified Solutions Architect Professional, és más minősítésekkel is rendelkezik, mint például az AWS Certified Machine Learning Specialty, a Microsoft Certified Professional (MCP) és a Microsoft Certified Technology Specialist (MCTS) minősítéssel. Ő is a nyílt forráskód rajongója. Szabadidejében szívesen hallgatja Sia és Rihanna nagyszerű varázslatos hangját.

Sudhanshu Gyűlölet az AWS fő AI/ML specialistája, és az ügyfelekkel együttműködve tanácsot ad nekik MLOp-jukkal és generatív AI-útjukkal kapcsolatban. Korábbi, az Amazon előtti beosztásában ötleteket fogalmazott meg, alkotott és csapatokat vezetett, amelyek nyílt forráskódú mesterséges intelligencia- és játékplatformokat építettek fel, és több mint 100 ügyféllel sikeresen kereskedelmi forgalomba hozta. Sudhanshu érdeme néhány szabadalmat, írt két könyvet és számos közleményt és blogot, és ismertette álláspontját különböző technikai fórumokon. Gondolatvezető és előadó volt, és közel 25 éve dolgozik a szakmában. Dolgozott a Fortune 1000 ügyfeleivel szerte a világon, legutóbb pedig digitális natív ügyfelekkel Indiában.