Inferenz von Llama 2-Modellen mit Echtzeit-Antwort-Streaming mithilfe von Amazon SageMaker

Neuauflage von Plato

Verfolger: 0

Mit der schnellen Einführung generativer KI-Anwendungen müssen diese Anwendungen rechtzeitig reagieren, um die wahrgenommene Latenz bei höherem Durchsatz zu reduzieren. Foundation-Modelle (FMs) werden häufig auf der Grundlage riesiger Datenkorpora mit Parametern im Größenbereich von Millionen bis Milliarden und mehr vorab trainiert. Große Sprachmodelle (LLMs) sind eine Art FM, die Text als Reaktion auf die Benutzerinferenz generieren. Die Inferenz dieser Modelle mit unterschiedlichen Konfigurationen von Inferenzparametern kann zu inkonsistenten Latenzen führen. Die Inkonsistenz kann auf die unterschiedliche Anzahl von Antworttokens zurückzuführen sein, die Sie vom Modell erwarten, oder auf die Art des Beschleunigers, auf dem das Modell bereitgestellt wird.

Anstatt auf die vollständige Antwort zu warten, können Sie in beiden Fällen den Ansatz des Antwort-Streamings für Ihre Schlussfolgerungen anwenden, der Informationsblöcke zurücksendet, sobald sie generiert werden. Dadurch entsteht ein interaktives Erlebnis, da Sie Teilantworten in Echtzeit gestreamt sehen können, statt einer verzögerten vollständigen Antwort.

Mit der offiziellen Ankündigung, dass Die Echtzeit-Inferenz von Amazon SageMaker unterstützt jetzt das Antwort-Streamingkönnen Sie nun bei der Verwendung kontinuierlich Rückschlussantworten an den Client zurückströmen Amazon Sage Maker Echtzeit-Inferenz mit Antwort-Streaming. Mit dieser Lösung können Sie interaktive Erlebnisse für verschiedene generative KI-Anwendungen wie Chatbots, virtuelle Assistenten und Musikgeneratoren erstellen. Dieser Beitrag zeigt Ihnen, wie Sie schnellere Antwortzeiten in Form von Time to First Byte (TTFB) realisieren und die insgesamt wahrgenommene Latenz reduzieren können, während Sie auf Llama-2-Modelle schließen.

Zur Implementierung der Lösung verwenden wir SageMaker, einen vollständig verwalteten Dienst zur Vorbereitung von Daten sowie zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen (ML) für jeden Anwendungsfall mit vollständig verwalteter Infrastruktur, Tools und Workflows. Weitere Informationen zu den verschiedenen Bereitstellungsoptionen, die SageMaker bietet, finden Sie unter Häufig gestellte Fragen zum Amazon SageMaker-Modellhosting. Lassen Sie uns verstehen, wie wir die Latenzprobleme mithilfe von Echtzeit-Inferenz mit Antwort-Streaming beheben können.

Lösungsüberblick

Da wir die oben genannten Latenzen im Zusammenhang mit der Echtzeit-Inferenz mit LLMs beheben möchten, wollen wir zunächst verstehen, wie wir die Antwort-Streaming-Unterstützung für die Echtzeit-Inferenz für Llama 2 nutzen können. Allerdings kann jedes LLM die Antwort-Streaming-Unterstützung mit Real nutzen -Zeitableitung.

Llama 2 ist eine Sammlung vorab trainierter und fein abgestimmter generativer Textmodelle mit einer Größenordnung von 7 bis 70 Milliarden Parametern. Llama 2-Modelle sind autoregressive Modelle mit reiner Decoder-Architektur. Wenn Llama-2-Modelle mit einer Eingabeaufforderung und Inferenzparametern ausgestattet sind, können sie Textantworten generieren. Diese Modelle können für Übersetzungen, Zusammenfassungen, Fragenbeantwortungen und Chats verwendet werden.

Für diesen Beitrag stellen wir das Llama 2 Chat-Modell bereit meta-llama/Llama-2-13b-chat-hf auf SageMaker für Echtzeit-Inferenzierung mit Antwort-Streaming.

Wenn es um die Bereitstellung von Modellen auf SageMaker-Endpunkten geht, können Sie die Modelle mithilfe spezieller Containerisieren AWS Deep Learning-Container (DLC)-Bilder für beliebte Open-Source-Bibliotheken verfügbar. Llama 2-Modelle sind Modelle zur Textgenerierung; Sie können entweder das verwenden Hugging Face LLM-Inferenzcontainer auf SageMaker Unterstützt von Hugging Face Inferenz zur Textgenerierung (TGI) oder AWS DLCs für Große Modellinferenz (LMI).

In diesem Beitrag stellen wir das Llama 2 13B Chat-Modell mithilfe von DLCs auf SageMaker Hosting für Echtzeit-Inferenz auf Basis von G5-Instanzen bereit. G5-Instanzen sind leistungsstarke GPU-basierte Instanzen für grafikintensive Anwendungen und ML-Inferenz. Sie können auch die unterstützten Instanztypen p4d, p3, g5 und g4dn mit entsprechenden Änderungen gemäß der Instanzkonfiguration verwenden.

Voraussetzungen:

Um diese Lösung zu implementieren, sollten Sie Folgendes haben:

Ein AWS-Konto mit einem AWS Identity and Access Management and (IAM)-Rolle mit Berechtigungen zum Verwalten von Ressourcen, die als Teil der Lösung erstellt wurden.
Wenn Sie zum ersten Mal damit arbeiten Amazon SageMaker-Studio, müssen Sie zunächst eine erstellen SageMaker-Domäne.
Ein Hugging Face-Konto. Verein registrieren mit Ihrer E-Mail-Adresse, falls Sie noch kein Konto haben.
- Für einen nahtlosen Zugriff auf die auf Hugging Face verfügbaren Modelle, insbesondere auf geschlossene Modelle wie Llama, für Feinabstimmungs- und Rückschlusszwecke, sollten Sie über ein Hugging Face-Konto verfügen, um ein Lesezugriffstoken zu erhalten. Nachdem Sie sich für Ihr Hugging Face-Konto angemeldet haben, Einloggen besuchen https://huggingface.co/settings/tokens um ein Lesezugriffstoken zu erstellen.
Zugriff auf Llama 2 mit derselben E-Mail-ID, mit der Sie sich für Hugging Face angemeldet haben.
- Die über Hugging Face erhältlichen Llama 2-Modelle sind geschlossene Modelle. Die Nutzung des Llama-Modells unterliegt der Meta-Lizenz. Um die Modellgewichte und den Tokenizer herunterzuladen, Fordern Sie Zugang zu Lama an und akzeptieren ihre Lizenz.
- Nachdem Ihnen der Zugriff gewährt wurde (normalerweise innerhalb weniger Tage), erhalten Sie eine E-Mail-Bestätigung. Für dieses Beispiel verwenden wir das Modell Llama-2-13b-chat-hf, aber Sie sollten auch auf andere Varianten zugreifen können.

Ansatz 1: Hugging Face TGI

In diesem Abschnitt zeigen wir Ihnen, wie Sie das bereitstellen meta-llama/Llama-2-13b-chat-hf Modell an einen SageMaker-Echtzeitendpunkt mit Antwortstreaming mithilfe von Hugging Face TGI. In der folgenden Tabelle sind die Spezifikationen für diese Bereitstellung aufgeführt.

Normen	Wert
Container	Umarmendes Gesicht TGI
Modell	meta-lama/Llama-2-13b-chat-hf
ML-Instanz	ml.g5.12xgroß
Inferenz	Echtzeit mit Antwort-Streaming

Stellen Sie das Modell bereit

Zuerst rufen Sie das Basis-Image für das bereitzustellende LLM ab. Anschließend erstellen Sie das Modell auf dem Basis-Image. Schließlich stellen Sie das Modell zur Echtzeitinferenz auf der ML-Instanz für SageMaker Hosting bereit.

Sehen wir uns an, wie die Bereitstellung programmgesteuert erreicht wird. Der Kürze halber wird in diesem Abschnitt nur der Code erläutert, der bei den Bereitstellungsschritten hilft. Der vollständige Quellcode für die Bereitstellung ist im Notebook verfügbar llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Holen Sie sich den neuesten Hugging Face LLM DLC von TGI über vorgefertigte Versionen SageMaker-DLCs. Sie verwenden dieses Image, um das bereitzustellen meta-llama/Llama-2-13b-chat-hf Modell auf SageMaker. Siehe den folgenden Code:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Definieren Sie die Umgebung für das Modell mit den wie folgt definierten Konfigurationsparametern:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

Ersetzen <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> für den Konfigurationsparameter HUGGING_FACE_HUB_TOKEN mit dem Wert des Tokens, den Sie aus Ihrem Hugging Face-Profil erhalten haben, wie im Abschnitt „Voraussetzungen“ dieses Beitrags beschrieben. In der Konfiguration definieren Sie die Anzahl der pro Replikat eines Modells verwendeten GPUs als 4 für SM_NUM_GPUS. Dann können Sie das bereitstellen meta-llama/Llama-2-13b-chat-hf Modell auf einer ml.g5.12xlarge-Instanz, die mit 4 GPUs ausgestattet ist.

Jetzt können Sie die Instanz von erstellen HuggingFaceModel mit der oben genannten Umgebungskonfiguration:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Stellen Sie abschließend das Modell bereit, indem Sie Argumente für die im Modell verfügbare Bereitstellungsmethode mit verschiedenen Parameterwerten bereitstellen, z endpoint_name, initial_instance_count und instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Führen Sie eine Schlussfolgerung durch

Der Hugging Face TGI DLC bietet die Möglichkeit, Antworten ohne Anpassungen oder Codeänderungen am Modell zu streamen. Sie können verwenden invoke_endpoint_with_response_stream wenn Sie Boto3 verwenden oder InvokeEndpointWithResponseStream beim Programmieren mit dem SageMaker Python SDK.

Das InvokeEndpointWithResponseStream Mit der API von SageMaker können Entwickler Antworten von SageMaker-Modellen zurückstreamen, was durch die Reduzierung der wahrgenommenen Latenz zur Verbesserung der Kundenzufriedenheit beitragen kann. Dies ist besonders wichtig für Anwendungen, die mit generativen KI-Modellen erstellt wurden, bei denen die sofortige Verarbeitung wichtiger ist als das Warten auf die gesamte Antwort.

In diesem Beispiel verwenden wir Boto3, um das Modell abzuleiten und die SageMaker-API zu verwenden invoke_endpoint_with_response_stream wie folgt:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Das Argument CustomAttributes wird auf den Wert gesetzt accept_eula=false. Das accept_eula Parameter muss auf gesetzt sein true um die Antwort von den Llama 2-Modellen erfolgreich zu erhalten. Nach dem erfolgreichen Aufruf mit invoke_endpoint_with_response_stream, gibt die Methode einen Antwortstrom von Bytes zurück.

Das folgende Diagramm veranschaulicht diesen Workflow.

HF-TGI-Streaming-Architekturdiagramm

Sie benötigen einen Iterator, der den Bytestrom durchläuft und ihn in lesbaren Text analysiert. Der LineIterator Die Umsetzung finden Sie unter llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Jetzt können Sie die Eingabeaufforderung und Anweisungen vorbereiten, um sie als Nutzlast beim Ableiten des Modells zu verwenden.

Bereiten Sie eine Aufforderung und Anweisungen vor

In diesem Schritt bereiten Sie die Eingabeaufforderung und Anweisungen für Ihr LLM vor. Um Llama 2 aufzufordern, sollten Sie über die folgende Aufforderungsvorlage verfügen:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Sie erstellen die in der Methode programmgesteuert definierte Eingabeaufforderungsvorlage build_llama2_prompt, die mit der oben genannten Eingabeaufforderungsvorlage übereinstimmt. Anschließend definieren Sie die Anweisungen je nach Anwendungsfall. In diesem Fall weisen wir das Modell an, eine E-Mail für eine Marketingkampagne zu generieren, wie im Abschnitt beschrieben get_instructions Methode. Der Code für diese Methoden befindet sich im llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb Notizbuch. Erstellen Sie die Anweisung in Kombination mit der auszuführenden Aufgabe, wie in beschrieben user_ask_1 wie folgt:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Wir übergeben die Anweisungen zum Erstellen der Eingabeaufforderung gemäß der von build_llama2_prompt generierten Eingabeaufforderungsvorlage.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Wir schlagen die Inferenzparameter zusammen mit der Eingabeaufforderung mit dem Schlüssel stream mit dem Wert True um eine endgültige Nutzlast zu bilden. Senden Sie die Nutzlast an get_realtime_response_stream, das zum Aufrufen eines Endpunkts mit Antwort-Streaming verwendet wird:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Der vom LLM generierte Text wird an die Ausgabe gestreamt, wie in der folgenden Animation gezeigt.

Lama 2 13B Chat-Antwort-Streaming – HF TGI

Ansatz 2: LMI mit DJL-Serving

In diesem Abschnitt zeigen wir, wie Sie das bereitstellen meta-llama/Llama-2-13b-chat-hf Modell an einen SageMaker-Echtzeit-Endpunkt mit Antwort-Streaming mithilfe von LMI mit DJL Serving. In der folgenden Tabelle sind die Spezifikationen für diese Bereitstellung aufgeführt.

Normen	Wert
Container	LMI-Container-Image mit DJL-Serving
Modell	meta-lama/Llama-2-13b-chat-hf
ML-Instanz	ml.g5.12xgroß
Inferenz	Echtzeit mit Antwort-Streaming

Sie laden zunächst das Modell herunter und speichern es in Amazon Simple Storage-Service (Amazon S3). Anschließend geben Sie den S3-URI an, der das S3-Präfix des Modells im angibt serving.properties Datei. Als Nächstes rufen Sie das Basis-Image für das bereitzustellende LLM ab. Anschließend erstellen Sie das Modell auf dem Basis-Image. Schließlich stellen Sie das Modell zur Echtzeitinferenz auf der ML-Instanz für SageMaker Hosting bereit.

Sehen wir uns an, wie die oben genannten Bereitstellungsschritte programmgesteuert ausgeführt werden. Der Kürze halber wird in diesem Abschnitt nur der Code detailliert beschrieben, der bei den Bereitstellungsschritten hilft. Der vollständige Quellcode für diese Bereitstellung ist im Notebook verfügbar llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Laden Sie den Modellschnappschuss von Hugging Face herunter und laden Sie die Modellartefakte auf Amazon S3 hoch

Laden Sie das Modell mit den oben genannten Voraussetzungen auf die SageMaker-Notebook-Instanz herunter und laden Sie es dann zur weiteren Bereitstellung in den S3-Bucket hoch:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Beachten Sie, dass das Modell heruntergeladen wird, auch wenn Sie kein gültiges Zugriffstoken angeben. Wenn Sie jedoch ein solches Modell bereitstellen, ist die Modellbereitstellung nicht erfolgreich. Daher wird ein Austausch empfohlen <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> für das Argument token mit dem Wert des Tokens, den Sie aus Ihrem Hugging Face-Profil erhalten haben, wie in den Voraussetzungen beschrieben. Für diesen Beitrag geben wir den offiziellen Modellnamen für Llama 2 an, wie er auf Hugging Face mit dem Wert angegeben ist meta-llama/Llama-2-13b-chat-hf. Das unkomprimierte Modell wird heruntergeladen local_model_path als Ergebnis der Ausführung des oben genannten Codes.

Laden Sie die Dateien auf Amazon S3 hoch und erhalten Sie den URI, der später verwendet wird serving.properties.

Sie werden das verpacken meta-llama/Llama-2-13b-chat-hf Modell auf dem LMI-Container-Image mit DJL Serving unter Verwendung der über angegebenen Konfiguration serving.properties. Anschließend stellen Sie das Modell zusammen mit den im Container-Image gepackten Modellartefakten auf der SageMaker ML-Instanz ml.g5.12xlarge bereit. Anschließend verwenden Sie diese ML-Instanz für SageMaker Hosting für Echtzeit-Inferenzen.

Bereiten Sie Modellartefakte für die DJL-Bereitstellung vor

Bereiten Sie Ihre Modellartefakte vor, indem Sie ein erstellen serving.properties Konfigurationsdatei:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Wir verwenden die folgenden Einstellungen in dieser Konfigurationsdatei:

Sie – Dies gibt die Laufzeit-Engine an, die DJL verwenden soll. Zu den möglichen Werten gehören: Python, DeepSpeed, FasterTransformer und MPI. In diesem Fall setzen wir es auf MPI. Model Parallelization and Inference (MPI) erleichtert die Partitionierung des Modells auf alle verfügbaren GPUs und beschleunigt so die Inferenz.
option.entryPoint – Diese Option gibt an, welchen von DJL Serving angebotenen Handler Sie verwenden möchten. Die möglichen Werte sind djl_python.huggingface, djl_python.deepspeed und djl_python.stable-diffusion. Wir gebrauchen djl_python.huggingface für Hugging Face Accelerate.
option.tensor_parallel_degree – Diese Option gibt die Anzahl der Tensor-Parallelpartitionen an, die für das Modell durchgeführt werden. Sie können die Anzahl der GPU-Geräte festlegen, über die Accelerate das Modell partitionieren muss. Dieser Parameter steuert auch die Anzahl der Worker pro Modell, die gestartet werden, wenn die DJL-Bereitstellung ausgeführt wird. Wenn wir beispielsweise über eine Maschine mit 4 GPUs verfügen und vier Partitionen erstellen, haben wir einen Worker pro Modell, der die Anforderungen bedient.
option.low_cpu_mem_usage – Dies reduziert die CPU-Speicherauslastung beim Laden von Modellen. Wir empfehlen, dies auf einzustellen TRUE.
option.rolling_batch – Dies ermöglicht die Stapelverarbeitung auf Iterationsebene mit einer der unterstützten Strategien. Werte umfassen auto, scheduler und lmi-dist. Wir gebrauchen lmi-dist zum Einschalten der kontinuierlichen Dosierung für Llama 2.
option.max_rolling_batch_size – Dadurch wird die Anzahl gleichzeitiger Anforderungen im kontinuierlichen Stapel begrenzt. Der Standardwert ist 32.
option.model_id – Sie sollten ersetzen {{model_id}} mit der Modell-ID eines vorab trainierten Modells, das in a gehostet wird Modell-Repository auf Hugging Face oder S3-Pfad zu den Modellartefakten.

Weitere Konfigurationsmöglichkeiten finden Sie in Konfigurationen und Einstellungen.

Da DJL Serving davon ausgeht, dass die Modellartefakte in einer .tar-Datei gepackt und formatiert werden, führen Sie den folgenden Codeausschnitt aus, um die .tar-Datei zu komprimieren und auf Amazon S3 hochzuladen:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Rufen Sie mit DJL Serving das neueste LMI-Container-Image ab

Als Nächstes verwenden Sie die mit SageMaker für LMI verfügbaren DLCs, um das Modell bereitzustellen. Rufen Sie den SageMaker-Bild-URI für ab djl-deepspeed Container programmgesteuert mit dem folgenden Code:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Sie können das oben genannte Image verwenden, um das bereitzustellen meta-llama/Llama-2-13b-chat-hf Modell auf SageMaker. Jetzt können Sie mit der Erstellung des Modells fortfahren.

Modell erstellen

Sie können das Modell erstellen, dessen Container mit erstellt wird inference_image_uri und der Modellbereitstellungscode, der sich am S3-URI befindet, der durch angegeben ist s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Jetzt können Sie die Modellkonfiguration mit allen Details für die Endpunktkonfiguration erstellen.

Erstellen Sie die Modellkonfiguration

Verwenden Sie den folgenden Code, um eine Modellkonfiguration für das durch identifizierte Modell zu erstellen model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Die Modellkonfiguration ist für definiert ProductionVariants Parameter InstanceType für die ML-Instanz ml.g5.12xlarge. Sie stellen auch die zur Verfügung ModelName Verwenden Sie denselben Namen, den Sie beim Erstellen des Modells im vorherigen Schritt verwendet haben, und stellen Sie so eine Beziehung zwischen dem Modell und der Endpunktkonfiguration her.

Nachdem Sie nun das Modell und die Modellkonfiguration definiert haben, können Sie den SageMaker-Endpunkt erstellen.

Erstellen Sie den SageMaker-Endpunkt

Erstellen Sie den Endpunkt zum Bereitstellen des Modells mithilfe des folgenden Codeausschnitts:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Sie können den Fortschritt der Bereitstellung mithilfe des folgenden Codeausschnitts anzeigen:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Nach erfolgreicher Bereitstellung lautet der Endpunktstatus InService. Nachdem der Endpunkt nun bereit ist, führen wir eine Inferenz mit Antwort-Streaming durch.

Echtzeit-Inferenz mit Antwort-Streaming

Wie wir im früheren Ansatz für Hugging Face TGI beschrieben haben, können Sie dieselbe Methode verwenden get_realtime_response_stream um das Antwort-Streaming vom SageMaker-Endpunkt aufzurufen. Der Code für die Inferenzierung mithilfe des LMI-Ansatzes befindet sich im llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb Notizbuch. Der LineIterator Die Implementierung befindet sich in llama-2-lmi/utils/LineIterator.py. Notiere dass der LineIterator für das auf dem LMI-Container bereitgestellte Llama 2-Chat-Modell unterscheidet sich vom LineIterator referenziert im Abschnitt Hugging Face TGI. Der LineIterator durchläuft den Bytestrom von Llama 2 Chat-Modellen, der mit dem LMI-Container abgeleitet wurde djl-deepspeed Version 0.25.0. Die folgende Hilfsfunktion analysiert den Antwortstrom, der von der über die gestellten Rückschlussanforderung empfangen wurde invoke_endpoint_with_response_stream API:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Die vorhergehende Methode druckt den vom gelesenen Datenstrom LineIterator in einem für Menschen lesbaren Format.

Lassen Sie uns untersuchen, wie Sie die Eingabeaufforderung und die Anweisungen vorbereiten, um sie beim Ableiten des Modells als Nutzlast zu verwenden.

Da Sie sowohl in Hugging Face TGI als auch in LMI auf dasselbe Modell schließen, ist der Prozess der Vorbereitung der Eingabeaufforderung und der Anweisungen derselbe. Daher können Sie die Methoden verwenden get_instructions und build_llama2_prompt für Schlussfolgerungen.

Das get_instructions Die Methode gibt die Anweisungen zurück. Erstellen Sie die Anweisungen in Kombination mit der auszuführenden Aufgabe, wie in beschrieben user_ask_2 wie folgt:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Übergeben Sie die Anweisungen zum Erstellen der Eingabeaufforderung gemäß der von generierten Eingabeaufforderungsvorlage build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Wir kombinieren die Inferenzparameter mit der Aufforderung, eine endgültige Nutzlast zu bilden. Dann senden Sie die Nutzlast an get_realtime_response_stream, Dies wird verwendet, um einen Endpunkt mit Antwort-Streaming aufzurufen:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Der vom LLM generierte Text wird an die Ausgabe gestreamt, wie in der folgenden Animation gezeigt.

Lama 2 13B Chat-Antwort-Streaming – LMI

Aufräumen

Um unnötige Gebühren zu vermeiden, verwenden Sie die AWS-Managementkonsole um die Endpunkte und die zugehörigen Ressourcen zu löschen, die während der Ausführung der im Beitrag erwähnten Ansätze erstellt wurden. Führen Sie für beide Bereitstellungsansätze die folgende Bereinigungsroutine durch:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

Ersetzen <SageMaker_Real-time_Endpoint_Name> für variabel endpoint_name mit dem tatsächlichen Endpunkt.

Für den zweiten Ansatz haben wir die Modell- und Codeartefakte auf Amazon S3 gespeichert. Sie können den S3-Bucket mit dem folgenden Code bereinigen:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Zusammenfassung

In diesem Beitrag haben wir diskutiert, wie sich eine unterschiedliche Anzahl von Antworttokens oder ein unterschiedlicher Satz von Inferenzparametern auf die mit LLMs verbundenen Latenzen auswirken kann. Wir haben gezeigt, wie man das Problem mit Hilfe von Response-Streaming angehen kann. Anschließend haben wir zwei Ansätze für die Bereitstellung und Inferenz von Llama 2 Chat-Modellen mithilfe von AWS DLCs identifiziert – LMI und Hugging Face TGI.

Sie sollten jetzt verstehen, wie wichtig die Streaming-Reaktion ist und wie sie die wahrgenommene Latenz reduzieren kann. Durch Streaming-Antworten kann das Benutzererlebnis verbessert werden, da Sie andernfalls warten müssten, bis der LLM die gesamte Antwort erstellt. Darüber hinaus verbessert der Einsatz von Llama 2-Chat-Modellen mit Antwort-Streaming das Benutzererlebnis und macht Ihre Kunden zufrieden.

Sie können sich auf die offiziellen AWS-Beispiele beziehen amazon-sagemaker-llama2-response-streaming-recipes Dies deckt den Einsatz für andere Llama 2-Modellvarianten ab.

Bibliographie

Über die Autoren

Pavan Kumar Rao Navule ist Lösungsarchitekt bei Amazon Web Services. Er arbeitet mit ISVs in Indien zusammen, um sie bei der Innovation auf AWS zu unterstützen. Er ist Autor des Buches „Getting Started with V Programming“. Er absolvierte einen Executive M.Tech in Data Science am Indian Institute of Technology (IIT) in Hyderabad. Er absolvierte außerdem einen Executive MBA in IT-Spezialisierung von der Indian School of Business Management and Administration und verfügt über einen B.Tech in Elektronik und Kommunikationstechnik vom Vaagdevi Institute of Technology and Science. Pavan ist ein AWS Certified Solutions Architect Professional und verfügt über weitere Zertifizierungen wie AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) und Microsoft Certified Technology Specialist (MCTS). Er ist auch ein Open-Source-Enthusiast. In seiner Freizeit hört er gerne den großartigen magischen Stimmen von Sia und Rihanna.

Sudhanshu-Hass ist Haupt-KI/ML-Spezialist bei AWS und arbeitet mit Kunden zusammen, um sie auf ihrem Weg zu MLOps und generativer KI zu beraten. In seiner vorherigen Rolle bei Amazon konzipierte, gründete und leitete er Teams zum Aufbau grundlegender Open-Source-basierter KI- und Gamification-Plattformen und vermarktete diese erfolgreich mit über 100 Kunden. Sudhanshu verfügt über mehrere Patente, hat zwei Bücher sowie mehrere Aufsätze und Blogs geschrieben und seine Standpunkte in verschiedenen technischen Foren dargelegt. Er ist ein Vordenker und Redner und seit fast 25 Jahren in der Branche tätig. Er hat mit Fortune-1000-Kunden auf der ganzen Welt und zuletzt mit Digital-Native-Kunden in Indien zusammengearbeitet.