Modelli Inference Llama 2 con streaming di risposta in tempo reale utilizzando Amazon SageMaker

Ripubblicato da Platone

Seguaci: 0

Con la rapida adozione di applicazioni di intelligenza artificiale generativa, è necessario che queste rispondano in tempo per ridurre la latenza percepita con un throughput più elevato. I Foundation Model (FM) sono spesso pre-addestrati su vasti corpora di dati con parametri che vanno da milioni a miliardi e oltre. I modelli linguistici di grandi dimensioni (LLM) sono un tipo di FM che genera testo come risposta all'inferenza dell'utente. L'inferenza di questi modelli con diverse configurazioni dei parametri di inferenza può portare a latenze incoerenti. L'incoerenza potrebbe essere dovuta al numero variabile di token di risposta previsti dal modello o al tipo di acceleratore su cui viene distribuito il modello.

In entrambi i casi, invece di attendere la risposta completa, puoi adottare l'approccio dello streaming di risposta per le tue inferenze, che invia blocchi di informazioni non appena vengono generate. Ciò crea un'esperienza interattiva consentendoti di vedere le risposte parziali trasmesse in streaming in tempo reale invece di una risposta completa ritardata.

Con l'annuncio ufficiale che L'inferenza in tempo reale di Amazon SageMaker ora supporta lo streaming di risposta, ora puoi trasmettere continuamente le risposte di inferenza al client durante l'utilizzo Amazon Sage Maker inferenza in tempo reale con streaming di risposta. Questa soluzione ti aiuterà a creare esperienze interattive per varie applicazioni di intelligenza artificiale generativa come chatbot, assistenti virtuali e generatori di musica. Questo post mostra come realizzare tempi di risposta più rapidi sotto forma di Time to First Byte (TTFB) e ridurre la latenza complessiva percepita mentre si inferiscono i modelli Llama 2.

Per implementare la soluzione, utilizziamo SageMaker, un servizio completamente gestito per preparare dati e creare, addestrare e distribuire modelli di machine learning (ML) per qualsiasi caso d'uso con infrastruttura, strumenti e flussi di lavoro completamente gestiti. Per ulteriori informazioni sulle varie opzioni di distribuzione fornite da SageMaker, fare riferimento a Domande frequenti sull'hosting di modelli Amazon SageMaker. Capiamo come possiamo affrontare i problemi di latenza utilizzando l'inferenza in tempo reale con lo streaming di risposta.

Panoramica della soluzione

Poiché vogliamo affrontare le suddette latenze associate all'inferenza in tempo reale con LLM, comprendiamo innanzitutto come possiamo utilizzare il supporto del flusso di risposta per l'inferenza in tempo reale per Llama 2. Tuttavia, qualsiasi LLM può trarre vantaggio dal supporto del flusso di risposta con reali -inferenza temporale.

Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati che vanno da 7 miliardi a 70 miliardi di parametri. I modelli Llama 2 sono modelli autoregressivi con architettura solo decoder. Se forniti con un prompt e parametri di inferenza, i modelli Llama 2 sono in grado di generare risposte testuali. Questi modelli possono essere utilizzati per la traduzione, il riepilogo, la risposta alle domande e la chat.

Per questo post, implementiamo il modello Llama 2 Chat meta-llama/Llama-2-13b-chat-hf su SageMaker per l'inferenza in tempo reale con streaming di risposta.

Quando si tratta di distribuire modelli sugli endpoint SageMaker, è possibile containerizzare i modelli utilizzando Specialized Contenitore per l'apprendimento profondo di AWS (DLC) immagini disponibili per le librerie open source più diffuse. I modelli Llama 2 sono modelli di generazione di testo; puoi usare sia il Contenitori di inferenza Hugging Face LLM su SageMaker alimentato da Hugging Face Inferenza sulla generazione del testo (TGI) o DLC AWS per Inferenza di modelli di grandi dimensioni (LMI).

In questo post, distribuiamo il modello di chat Llama 2 13B utilizzando i DLC su SageMaker Hosting per l'inferenza in tempo reale basata su istanze G5. Le istanze G5 sono istanze basate su GPU ad alte prestazioni per applicazioni ad uso intensivo di grafica e inferenza ML. Puoi anche utilizzare i tipi di istanza supportati p4d, p3, g5 e g4dn con le modifiche appropriate secondo la configurazione dell'istanza.

Prerequisiti

Per implementare questa soluzione, dovresti avere quanto segue:

Un account AWS con un Gestione dell'identità e dell'accesso di AWS (IAM) ruolo con autorizzazioni per gestire le risorse create come parte della soluzione.
Se è la prima volta che lavori con Amazon Sage Maker Studio, devi prima creare un file dominio SageMaker.
Un account che abbraccia il volto. Iscriviti adesso con la tua email se non hai già un account.
- Per un accesso senza interruzioni ai modelli disponibili su Hugging Face, in particolare ai modelli con gate come Llama, per scopi di perfezionamento e inferenza, dovresti disporre di un account Hugging Face per ottenere un token di accesso in lettura. Dopo aver registrato il tuo account Hugging Face, log in visitare https://huggingface.co/settings/tokens per creare un token di accesso in lettura.
Accedi a Llama 2, utilizzando lo stesso ID e-mail che hai utilizzato per iscriverti a Hugging Face.
- I modelli Llama 2 disponibili tramite Hugging Face sono modelli con cancello. L'utilizzo del modello Llama è regolato dalla licenza Meta. Per scaricare i pesi del modello e il tokenizzatore, richiedere l'accesso a Llama e accettare la loro licenza.
- Dopo che ti è stato concesso l'accesso (in genere entro un paio di giorni), riceverai un'e-mail di conferma. Per questo esempio utilizziamo il modello Llama-2-13b-chat-hf, ma dovresti essere in grado di accedere anche ad altre varianti.

Approccio 1: Abbracciare il viso TGI

In questa sezione ti mostriamo come distribuire il file meta-llama/Llama-2-13b-chat-hf modello su un endpoint in tempo reale SageMaker con streaming di risposta utilizzando Hugging Face TGI. La tabella seguente descrive le specifiche per questa distribuzione.

Specificazione	Valore
Contenitore	TGI che abbraccia il viso
Nome del modello	meta-llama/Llama-2-13b-chat-hf
Istanza di machine learning	ml.g5.12xgrande
Inferenza	In tempo reale con streaming di risposta

Distribuire il modello

Innanzitutto, recuperi l'immagine di base per il LLM da distribuire. Quindi costruisci il modello sull'immagine di base. Infine, distribuisci il modello sull'istanza ML per SageMaker Hosting per l'inferenza in tempo reale.

Osserviamo come ottenere la distribuzione a livello di codice. Per brevità, in questa sezione viene discusso solo il codice che aiuta con i passaggi di distribuzione. Il codice sorgente completo per la distribuzione è disponibile nel notebook llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Recupera l'ultimo DLC Hugging Face LLM fornito da TGI tramite pre-costruito DLC SageMaker. Utilizza questa immagine per distribuire il file meta-llama/Llama-2-13b-chat-hf modello su SageMaker. Vedere il seguente codice:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Definire l'ambiente per il modello con i parametri di configurazione definiti come segue:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

sostituire <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> per il parametro di configurazione HUGGING_FACE_HUB_TOKEN con il valore del token ottenuto dal tuo profilo Hugging Face come dettagliato nella sezione prerequisiti di questo post. Nella configurazione, definisci il numero di GPU utilizzate per replica di un modello come 4 per SM_NUM_GPUS. Quindi puoi distribuire il file meta-llama/Llama-2-13b-chat-hf modello su un'istanza ml.g5.12xlarge fornita con 4 GPU.

Ora puoi creare l'istanza di HuggingFaceModel con la suddetta configurazione dell'ambiente:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Infine, distribuisci il modello fornendo argomenti al metodo di distribuzione disponibile sul modello con vari valori di parametri come endpoint_name, initial_instance_counte instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Eseguire l'inferenza

Il DLC Hugging Face TGI offre la possibilità di trasmettere in streaming le risposte senza alcuna personalizzazione o modifica del codice del modello. Puoi usare invoca_endpoint_with_response_stream se stai utilizzando Boto3 o InvokeEndpointWithResponseStream durante la programmazione con SageMaker Python SDK.

Il InvokeEndpointWithResponseStream L'API di SageMaker consente agli sviluppatori di trasmettere in streaming le risposte dai modelli SageMaker, il che può aiutare a migliorare la soddisfazione del cliente riducendo la latenza percepita. Ciò è particolarmente importante per le applicazioni realizzate con modelli di intelligenza artificiale generativa, dove l’elaborazione immediata è più importante dell’attesa dell’intera risposta.

Per questo esempio, utilizziamo Boto3 per dedurre il modello e utilizzare l'API SageMaker invoke_endpoint_with_response_stream come segue:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

L'argomento CustomAttributes è impostato sul valore accept_eula=false. Il accept_eula il parametro deve essere impostato su true per ottenere con successo la risposta dai modelli Llama 2. Dopo l'invocazione riuscita utilizzando invoke_endpoint_with_response_stream, il metodo restituirà un flusso di risposta di byte.

Il diagramma seguente illustra questo flusso di lavoro.

Diagramma architettonico dello streaming HF TGI

Hai bisogno di un iteratore che esegua il loop sul flusso di byte e li analizzi in testo leggibile. IL LineIterator l'implementazione può essere trovata su llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Ora sei pronto per preparare il prompt e le istruzioni per utilizzarli come carico utile durante l'inferenza del modello.

Preparare un prompt e le istruzioni

In questo passaggio, prepari il prompt e le istruzioni per il tuo LLM. Per richiedere Llama 2, dovresti avere il seguente modello di prompt:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Si crea il modello di prompt definito a livello di codice nel metodo build_llama2_prompt, che è in linea con il modello di prompt sopra menzionato. Quindi definisci le istruzioni in base al caso d'uso. In questo caso, stiamo indicando al modello di generare un'e-mail per una campagna di marketing come spiegato nel get_instructions metodo. Il codice per questi metodi è nel file llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb taccuino. Costruire l'istruzione combinata con l'attività da eseguire come dettagliato in user_ask_1 come segue:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Passiamo le istruzioni per creare il prompt secondo il modello di prompt generato da build_llama2_prompt.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Associamo i parametri di inferenza insieme al prompt con la chiave stream con il valore True per formare un carico utile finale. Invia il carico utile a get_realtime_response_stream, che verrà utilizzato per richiamare un endpoint con streaming di risposta:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Il testo generato da LLM verrà trasmesso in streaming all'output come mostrato nell'animazione seguente.

Llama 2 13B Streaming di risposta alla chat - HF TGI

Approccio 2: LMI con DJL Serving

In questa sezione viene illustrato come distribuire il file meta-llama/Llama-2-13b-chat-hf modello a un endpoint in tempo reale SageMaker con streaming di risposta utilizzando LMI con DJL Serving. La tabella seguente descrive le specifiche per questa distribuzione.

Specificazione	Valore
Contenitore	Immagine del contenitore LMI con DJL Serving
Nome del modello	meta-llama/Llama-2-13b-chat-hf
Istanza di machine learning	ml.g5.12xgrande
Inferenza	In tempo reale con streaming di risposta

Per prima cosa scarichi il modello e lo memorizzi Servizio di archiviazione semplice Amazon (Amazon S3). Successivamente si specifica l'URI S3 indicando il prefisso S3 del modello nel file serving.properties file. Successivamente, recupererai l'immagine di base per il LLM da distribuire. Quindi costruisci il modello sull'immagine di base. Infine, distribuisci il modello sull'istanza ML per SageMaker Hosting per l'inferenza in tempo reale.

Osserviamo come ottenere a livello di codice i passaggi di distribuzione sopra menzionati. Per brevità, in questa sezione viene descritto in dettaglio solo il codice che aiuta con i passaggi di distribuzione. Il codice sorgente completo per questa distribuzione è disponibile nel notebook llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Scarica l'istantanea del modello da Hugging Face e carica gli artefatti del modello su Amazon S3

Con i prerequisiti sopra menzionati, scarica il modello sull'istanza notebook SageMaker e quindi caricalo nel bucket S3 per un'ulteriore distribuzione:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Tieni presente che anche se non fornisci un token di accesso valido, il modello verrà scaricato. Ma quando distribuisci un modello di questo tipo, la pubblicazione del modello non avrà esito positivo. Pertanto, si consiglia di sostituire <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> per l'argomento token con il valore del token ottenuto dal tuo profilo Hugging Face come dettagliato nei prerequisiti. Per questo post specifichiamo il nome del modello ufficiale di Llama 2 come identificato su Hugging Face con il valore meta-llama/Llama-2-13b-chat-hf. Il modello non compresso verrà scaricato in local_model_path come risultato dell'esecuzione del suddetto codice.

Carica i file su Amazon S3 e ottieni l'URI, che verrà utilizzato successivamente serving.properties.

Imballerai il meta-llama/Llama-2-13b-chat-hf modello sull'immagine del contenitore LMI con DJL Serving utilizzando la configurazione specificata tramite serving.properties. Quindi distribuisci il modello insieme agli artefatti del modello assemblati nell'immagine del contenitore sull'istanza SageMaker ML ml.g5.12xlarge. Utilizzerai quindi questa istanza ML per SageMaker Hosting per l'inferenza in tempo reale.

Prepara gli artefatti del modello per DJL Serving

Prepara gli artefatti del tuo modello creando un file serving.properties file di configurazione:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Utilizziamo le seguenti impostazioni in questo file di configurazione:

motore – Specifica il motore di runtime che DJL potrà utilizzare. I possibili valori includono Python, DeepSpeed, FasterTransformere MPI. In questo caso, lo impostiamo su MPI. Model Parallelization and Inference (MPI) facilita il partizionamento del modello su tutte le GPU disponibili e quindi accelera l'inferenza.
opzione.entryPoint – Questa opzione specifica quale gestore offerto da DJL Serving desideri utilizzare. I possibili valori sono djl_python.huggingface, djl_python.deepspeede djl_python.stable-diffusion. Noi usiamo djl_python.huggingface per l'accelerazione del viso abbracciato.
opzione.tensore_parallelo_grado – Questa opzione specifica il numero di partizioni parallele tensoriali eseguite sul modello. È possibile impostare il numero di dispositivi GPU su cui Accelerate deve partizionare il modello. Questo parametro controlla anche il numero di lavoratori per modello che verrà avviato durante l'esecuzione del servizio DJL. Ad esempio, se disponiamo di una macchina da 4 GPU e stiamo creando quattro partizioni, avremo un lavoratore per modello per soddisfare le richieste.
opzione.low_cpu_mem_usage – Ciò riduce l'utilizzo della memoria della CPU durante il caricamento dei modelli. Ti consigliamo di impostarlo su TRUE.
opzione.rolling_batch – Ciò consente l'invio in batch a livello di iterazione utilizzando una delle strategie supportate. I valori includono auto, schedulere lmi-dist. Noi usiamo lmi-dist per attivare il dosaggio continuo per Llama 2.
opzione.max_rolling_batch_size – Ciò limita il numero di richieste simultanee nel batch continuo. Il valore predefinito è 32.
opzione.model_id – Dovresti sostituire {{model_id}} con l'ID modello di un modello pre-addestrato ospitato all'interno di a repository di modelli su Hugging Face o percorso S3 agli artefatti del modello.

È possibile trovare ulteriori opzioni di configurazione in Configurazioni e impostazioni.

Poiché DJL Serving prevede che gli artefatti del modello siano compressi e formattati in un file .tar, esegui il seguente snippet di codice per comprimere e caricare il file .tar su Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Recupera l'ultima immagine del contenitore LMI con DJL Serving

Successivamente, utilizzerai i DLC disponibili con SageMaker per LMI per distribuire il modello. Recupera l'URI dell'immagine SageMaker per il file djl-deepspeed contenitore a livello di codice utilizzando il seguente codice:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

È possibile utilizzare l'immagine sopra menzionata per distribuire il file meta-llama/Llama-2-13b-chat-hf modello su SageMaker. Ora puoi procedere con la creazione del modello.

Crea il modello

È possibile creare il modello il cui contenitore viene creato utilizzando il file inference_image_uri e il codice di servizio del modello situato nell'URI S3 indicato da s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Ora puoi creare la configurazione del modello con tutti i dettagli per la configurazione dell'endpoint.

Creare la configurazione del modello

Utilizzare il codice seguente per creare una configurazione del modello per il modello identificato da model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

La configurazione del modello è definita per ProductionVariants parametro InstanceType per l'istanza ML ml.g5.12xlarge. Fornisci anche il file ModelName utilizzando lo stesso nome utilizzato per creare il modello nel passaggio precedente, stabilendo così una relazione tra il modello e la configurazione dell'endpoint.

Ora che hai definito il modello e la configurazione del modello, puoi creare l'endpoint SageMaker.

Crea l'endpoint SageMaker

Crea l'endpoint per distribuire il modello utilizzando il seguente snippet di codice:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Puoi visualizzare l'avanzamento della distribuzione utilizzando il seguente snippet di codice:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Una volta completata la distribuzione, lo stato dell'endpoint sarà InService. Ora che l'endpoint è pronto, eseguiamo l'inferenza con lo streaming di risposta.

Inferenza in tempo reale con streaming di risposta

Come abbiamo spiegato nell'approccio precedente per Hugging Face TGI, puoi utilizzare lo stesso metodo get_realtime_response_stream per richiamare il flusso di risposta dall'endpoint SageMaker. Il codice per l'inferenza utilizzando l'approccio LMI è nel file llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb taccuino. IL LineIterator l'implementazione si trova in llama-2-lmi/utils/LineIterator.py. Si noti che il LineIterator per il modello Llama 2 Chat distribuito sul contenitore LMI è diverso da LineIterator citato nella sezione Hugging Face TGI. IL LineIterator esegue il loop sul flusso di byte dai modelli Llama 2 Chat inferenza con il contenitore LMI con djl-deepspeed versione 0.25.0. La seguente funzione di supporto analizzerà il flusso di risposta ricevuto dalla richiesta di inferenza effettuata tramite il file invoke_endpoint_with_response_stream API:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Il metodo precedente stampa il flusso di dati letti da LineIterator in un formato leggibile dall'uomo.

Esploriamo come preparare il prompt e le istruzioni per utilizzarli come carico utile durante l'inferenza del modello.

Poiché stai deducendo lo stesso modello sia in Hugging Face TGI che in LMI, il processo di preparazione del prompt e delle istruzioni è lo stesso. Pertanto, è possibile utilizzare i metodi get_instructions ed build_llama2_prompt per inferenza.

Il get_instructions metodo restituisce le istruzioni. Costruisci le istruzioni combinate con l'attività da eseguire come dettagliato in user_ask_2 come segue:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Passare le istruzioni per creare il prompt secondo il modello di prompt generato da build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Associamo i parametri di inferenza al prompt per formare un carico utile finale. Quindi invii il carico utile a get_realtime_response_stream, che viene utilizzato per richiamare un endpoint con lo streaming di risposta:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Il testo generato da LLM verrà trasmesso in streaming all'output come mostrato nell'animazione seguente.

Llama 2 13B Streaming di risposta alla chat - LMI

ripulire

Per evitare di incorrere in addebiti inutili, utilizzare il Console di gestione AWS per eliminare gli endpoint e le relative risorse associate che sono stati creati durante l'esecuzione degli approcci menzionati nel post. Per entrambi gli approcci di distribuzione, eseguire la seguente routine di pulizia:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

sostituire <SageMaker_Real-time_Endpoint_Name> per variabile endpoint_name con il punto finale effettivo.

Per il secondo approccio, abbiamo archiviato il modello e gli artefatti del codice su Amazon S3. Puoi pulire il bucket S3 utilizzando il seguente codice:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Conclusione

In questo post abbiamo discusso di come un numero variabile di token di risposta o un diverso insieme di parametri di inferenza possano influenzare le latenze associate ai LLM. Abbiamo mostrato come affrontare il problema con l'aiuto dello streaming di risposta. Abbiamo quindi identificato due approcci per la distribuzione e l'inferenza dei modelli di chat di Llama 2 utilizzando i DLC AWS: LMI e Hugging Face TGI.

Ora dovresti comprendere l'importanza della risposta dello streaming e come può ridurre la latenza percepita. La risposta in streaming può migliorare l'esperienza dell'utente, che altrimenti ti costringerebbe ad attendere fino a quando LLM non crea l'intera risposta. Inoltre, l'implementazione dei modelli di Llama 2 Chat con streaming di risposta migliora l'esperienza dell'utente e rende felici i tuoi clienti.

Puoi fare riferimento agli esempi ufficiali di AWS amazon-sagemaker-llama2-risposta-streaming-ricette che copre la distribuzione per altre varianti del modello Llama 2.

Riferimenti

Informazioni sugli autori

Pavan Kumar Rao Navule è un Solutions Architect presso Amazon Web Services. Collabora con gli ISV in India per aiutarli a innovare su AWS. È autore del libro "Getting Started with V Programming". Ha conseguito un Executive M.Tech in Data Science presso l'Indian Institute of Technology (IIT), Hyderabad. Ha inoltre conseguito un Executive MBA in specializzazione IT presso la Indian School of Business Management and Administration e ha conseguito un B.Tech in Ingegneria elettronica e delle comunicazioni presso il Vaagdevi Institute of Technology and Science. Pavan è un AWS Certified Solutions Architect Professional e possiede altre certificazioni come AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) e Microsoft Certified Technology Specialist (MCTS). È anche un appassionato di open source. Nel tempo libero ama ascoltare le grandi voci magiche di Sia e Rihanna.

Odio Sudhanshu è il principale specialista di AI/ML con AWS e lavora con i clienti per consigliarli sul loro percorso MLOps e sull'intelligenza artificiale generativa. Nel suo precedente ruolo prima di Amazon, ha concettualizzato, creato e guidato team per costruire piattaforme di intelligenza artificiale e gamification basate su open source e le ha commercializzate con successo con oltre 100 clienti. Sudhanshu ha al suo attivo un paio di brevetti, ha scritto due libri e diversi articoli e blog, e ha presentato i suoi punti di vista in vari forum tecnici. È stato un leader di pensiero e oratore ed opera nel settore da quasi 25 anni. Ha lavorato con clienti Fortune 1000 in tutto il mondo e, più recentemente, con clienti nativi digitali in India.