Mit der schnellen Einführung generativer KI-Anwendungen müssen diese Anwendungen rechtzeitig reagieren, um die wahrgenommene Latenz bei höherem Durchsatz zu reduzieren. Foundation-Modelle (FMs) werden häufig auf der Grundlage riesiger Datenkorpora mit Parametern im Größenbereich von Millionen bis Milliarden und mehr vorab trainiert. Große Sprachmodelle (LLMs) sind eine Art FM, die Text als Reaktion auf die Benutzerinferenz generieren. Die Inferenz dieser Modelle mit unterschiedlichen Konfigurationen von Inferenzparametern kann zu inkonsistenten Latenzen führen. Die Inkonsistenz kann auf die unterschiedliche Anzahl von Antworttokens zurückzuführen sein, die Sie vom Modell erwarten, oder auf die Art des Beschleunigers, auf dem das Modell bereitgestellt wird.
Anstatt auf die vollständige Antwort zu warten, können Sie in beiden Fällen den Ansatz des Antwort-Streamings für Ihre Schlussfolgerungen anwenden, der Informationsblöcke zurücksendet, sobald sie generiert werden. Dadurch entsteht ein interaktives Erlebnis, da Sie Teilantworten in Echtzeit gestreamt sehen können, statt einer verzögerten vollständigen Antwort.
Mit der offiziellen Ankündigung, dass Die Echtzeit-Inferenz von Amazon SageMaker unterstützt jetzt das Antwort-Streamingkönnen Sie nun bei der Verwendung kontinuierlich Rückschlussantworten an den Client zurückströmen Amazon Sage Maker Echtzeit-Inferenz mit Antwort-Streaming. Mit dieser Lösung können Sie interaktive Erlebnisse für verschiedene generative KI-Anwendungen wie Chatbots, virtuelle Assistenten und Musikgeneratoren erstellen. Dieser Beitrag zeigt Ihnen, wie Sie schnellere Antwortzeiten in Form von Time to First Byte (TTFB) realisieren und die insgesamt wahrgenommene Latenz reduzieren können, während Sie auf Llama-2-Modelle schließen.
Zur Implementierung der Lösung verwenden wir SageMaker, einen vollständig verwalteten Dienst zur Vorbereitung von Daten sowie zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen (ML) für jeden Anwendungsfall mit vollständig verwalteter Infrastruktur, Tools und Workflows. Weitere Informationen zu den verschiedenen Bereitstellungsoptionen, die SageMaker bietet, finden Sie unter Häufig gestellte Fragen zum Amazon SageMaker-Modellhosting. Lassen Sie uns verstehen, wie wir die Latenzprobleme mithilfe von Echtzeit-Inferenz mit Antwort-Streaming beheben können.
Lösungsüberblick
Da wir die oben genannten Latenzen im Zusammenhang mit der Echtzeit-Inferenz mit LLMs beheben möchten, wollen wir zunächst verstehen, wie wir die Antwort-Streaming-Unterstützung für die Echtzeit-Inferenz für Llama 2 nutzen können. Allerdings kann jedes LLM die Antwort-Streaming-Unterstützung mit Real nutzen -Zeitableitung.
Llama 2 ist eine Sammlung vorab trainierter und fein abgestimmter generativer Textmodelle mit einer Größenordnung von 7 bis 70 Milliarden Parametern. Llama 2-Modelle sind autoregressive Modelle mit reiner Decoder-Architektur. Wenn Llama-2-Modelle mit einer Eingabeaufforderung und Inferenzparametern ausgestattet sind, können sie Textantworten generieren. Diese Modelle können für Übersetzungen, Zusammenfassungen, Fragenbeantwortungen und Chats verwendet werden.
Für diesen Beitrag stellen wir das Llama 2 Chat-Modell bereit meta-llama/Llama-2-13b-chat-hf
auf SageMaker für Echtzeit-Inferenzierung mit Antwort-Streaming.
Wenn es um die Bereitstellung von Modellen auf SageMaker-Endpunkten geht, können Sie die Modelle mithilfe spezieller Containerisieren AWS Deep Learning-Container (DLC)-Bilder für beliebte Open-Source-Bibliotheken verfügbar. Llama 2-Modelle sind Modelle zur Textgenerierung; Sie können entweder das verwenden Hugging Face LLM-Inferenzcontainer auf SageMaker Unterstützt von Hugging Face Inferenz zur Textgenerierung (TGI) oder AWS DLCs für Große Modellinferenz (LMI).
In diesem Beitrag stellen wir das Llama 2 13B Chat-Modell mithilfe von DLCs auf SageMaker Hosting für Echtzeit-Inferenz auf Basis von G5-Instanzen bereit. G5-Instanzen sind leistungsstarke GPU-basierte Instanzen für grafikintensive Anwendungen und ML-Inferenz. Sie können auch die unterstützten Instanztypen p4d, p3, g5 und g4dn mit entsprechenden Änderungen gemäß der Instanzkonfiguration verwenden.
Voraussetzungen:
Um diese Lösung zu implementieren, sollten Sie Folgendes haben:
- Ein AWS-Konto mit einem AWS Identity and Access Management and (IAM)-Rolle mit Berechtigungen zum Verwalten von Ressourcen, die als Teil der Lösung erstellt wurden.
- Wenn Sie zum ersten Mal damit arbeiten Amazon SageMaker-Studio, müssen Sie zunächst eine erstellen SageMaker-Domäne.
- Ein Hugging Face-Konto. Verein registrieren mit Ihrer E-Mail-Adresse, falls Sie noch kein Konto haben.
- Für einen nahtlosen Zugriff auf die auf Hugging Face verfügbaren Modelle, insbesondere auf geschlossene Modelle wie Llama, für Feinabstimmungs- und Rückschlusszwecke, sollten Sie über ein Hugging Face-Konto verfügen, um ein Lesezugriffstoken zu erhalten. Nachdem Sie sich für Ihr Hugging Face-Konto angemeldet haben, Einloggen besuchen https://huggingface.co/settings/tokens um ein Lesezugriffstoken zu erstellen.
- Zugriff auf Llama 2 mit derselben E-Mail-ID, mit der Sie sich für Hugging Face angemeldet haben.
- Die über Hugging Face erhältlichen Llama 2-Modelle sind geschlossene Modelle. Die Nutzung des Llama-Modells unterliegt der Meta-Lizenz. Um die Modellgewichte und den Tokenizer herunterzuladen, Fordern Sie Zugang zu Lama an und akzeptieren ihre Lizenz.
- Nachdem Ihnen der Zugriff gewährt wurde (normalerweise innerhalb weniger Tage), erhalten Sie eine E-Mail-Bestätigung. Für dieses Beispiel verwenden wir das Modell
Llama-2-13b-chat-hf
, aber Sie sollten auch auf andere Varianten zugreifen können.
Ansatz 1: Hugging Face TGI
In diesem Abschnitt zeigen wir Ihnen, wie Sie das bereitstellen meta-llama/Llama-2-13b-chat-hf
Modell an einen SageMaker-Echtzeitendpunkt mit Antwortstreaming mithilfe von Hugging Face TGI. In der folgenden Tabelle sind die Spezifikationen für diese Bereitstellung aufgeführt.
Normen | Wert |
Container | Umarmendes Gesicht TGI |
Modell | meta-lama/Llama-2-13b-chat-hf |
ML-Instanz | ml.g5.12xgroß |
Inferenz | Echtzeit mit Antwort-Streaming |
Stellen Sie das Modell bereit
Zuerst rufen Sie das Basis-Image für das bereitzustellende LLM ab. Anschließend erstellen Sie das Modell auf dem Basis-Image. Schließlich stellen Sie das Modell zur Echtzeitinferenz auf der ML-Instanz für SageMaker Hosting bereit.
Sehen wir uns an, wie die Bereitstellung programmgesteuert erreicht wird. Der Kürze halber wird in diesem Abschnitt nur der Code erläutert, der bei den Bereitstellungsschritten hilft. Der vollständige Quellcode für die Bereitstellung ist im Notebook verfügbar llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Holen Sie sich den neuesten Hugging Face LLM DLC von TGI über vorgefertigte Versionen SageMaker-DLCs. Sie verwenden dieses Image, um das bereitzustellen meta-llama/Llama-2-13b-chat-hf
Modell auf SageMaker. Siehe den folgenden Code:
Definieren Sie die Umgebung für das Modell mit den wie folgt definierten Konfigurationsparametern:
Ersetzen <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
für den Konfigurationsparameter HUGGING_FACE_HUB_TOKEN
mit dem Wert des Tokens, den Sie aus Ihrem Hugging Face-Profil erhalten haben, wie im Abschnitt „Voraussetzungen“ dieses Beitrags beschrieben. In der Konfiguration definieren Sie die Anzahl der pro Replikat eines Modells verwendeten GPUs als 4 für SM_NUM_GPUS
. Dann können Sie das bereitstellen meta-llama/Llama-2-13b-chat-hf
Modell auf einer ml.g5.12xlarge-Instanz, die mit 4 GPUs ausgestattet ist.
Jetzt können Sie die Instanz von erstellen HuggingFaceModel
mit der oben genannten Umgebungskonfiguration:
Stellen Sie abschließend das Modell bereit, indem Sie Argumente für die im Modell verfügbare Bereitstellungsmethode mit verschiedenen Parameterwerten bereitstellen, z endpoint_name
, initial_instance_count
und instance_type
:
Führen Sie eine Schlussfolgerung durch
Der Hugging Face TGI DLC bietet die Möglichkeit, Antworten ohne Anpassungen oder Codeänderungen am Modell zu streamen. Sie können verwenden invoke_endpoint_with_response_stream wenn Sie Boto3 verwenden oder InvokeEndpointWithResponseStream beim Programmieren mit dem SageMaker Python SDK.
Das InvokeEndpointWithResponseStream
Mit der API von SageMaker können Entwickler Antworten von SageMaker-Modellen zurückstreamen, was durch die Reduzierung der wahrgenommenen Latenz zur Verbesserung der Kundenzufriedenheit beitragen kann. Dies ist besonders wichtig für Anwendungen, die mit generativen KI-Modellen erstellt wurden, bei denen die sofortige Verarbeitung wichtiger ist als das Warten auf die gesamte Antwort.
In diesem Beispiel verwenden wir Boto3, um das Modell abzuleiten und die SageMaker-API zu verwenden invoke_endpoint_with_response_stream
wie folgt:
Das Argument CustomAttributes
wird auf den Wert gesetzt accept_eula=false
. Das accept_eula
Parameter muss auf gesetzt sein true
um die Antwort von den Llama 2-Modellen erfolgreich zu erhalten. Nach dem erfolgreichen Aufruf mit invoke_endpoint_with_response_stream
, gibt die Methode einen Antwortstrom von Bytes zurück.
Das folgende Diagramm veranschaulicht diesen Workflow.
Sie benötigen einen Iterator, der den Bytestrom durchläuft und ihn in lesbaren Text analysiert. Der LineIterator
Die Umsetzung finden Sie unter llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Jetzt können Sie die Eingabeaufforderung und Anweisungen vorbereiten, um sie als Nutzlast beim Ableiten des Modells zu verwenden.
Bereiten Sie eine Aufforderung und Anweisungen vor
In diesem Schritt bereiten Sie die Eingabeaufforderung und Anweisungen für Ihr LLM vor. Um Llama 2 aufzufordern, sollten Sie über die folgende Aufforderungsvorlage verfügen:
Sie erstellen die in der Methode programmgesteuert definierte Eingabeaufforderungsvorlage build_llama2_prompt
, die mit der oben genannten Eingabeaufforderungsvorlage übereinstimmt. Anschließend definieren Sie die Anweisungen je nach Anwendungsfall. In diesem Fall weisen wir das Modell an, eine E-Mail für eine Marketingkampagne zu generieren, wie im Abschnitt beschrieben get_instructions
Methode. Der Code für diese Methoden befindet sich im llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb Notizbuch. Erstellen Sie die Anweisung in Kombination mit der auszuführenden Aufgabe, wie in beschrieben user_ask_1
wie folgt:
Wir übergeben die Anweisungen zum Erstellen der Eingabeaufforderung gemäß der von build_llama2_prompt generierten Eingabeaufforderungsvorlage.
Wir schlagen die Inferenzparameter zusammen mit der Eingabeaufforderung mit dem Schlüssel stream
mit dem Wert True
um eine endgültige Nutzlast zu bilden. Senden Sie die Nutzlast an get_realtime_response_stream
, das zum Aufrufen eines Endpunkts mit Antwort-Streaming verwendet wird:
Der vom LLM generierte Text wird an die Ausgabe gestreamt, wie in der folgenden Animation gezeigt.
Ansatz 2: LMI mit DJL-Serving
In diesem Abschnitt zeigen wir, wie Sie das bereitstellen meta-llama/Llama-2-13b-chat-hf
Modell an einen SageMaker-Echtzeit-Endpunkt mit Antwort-Streaming mithilfe von LMI mit DJL Serving. In der folgenden Tabelle sind die Spezifikationen für diese Bereitstellung aufgeführt.
Normen | Wert |
Container | LMI-Container-Image mit DJL-Serving |
Modell | meta-lama/Llama-2-13b-chat-hf |
ML-Instanz | ml.g5.12xgroß |
Inferenz | Echtzeit mit Antwort-Streaming |
Sie laden zunächst das Modell herunter und speichern es in Amazon Simple Storage-Service (Amazon S3). Anschließend geben Sie den S3-URI an, der das S3-Präfix des Modells im angibt serving.properties
Datei. Als Nächstes rufen Sie das Basis-Image für das bereitzustellende LLM ab. Anschließend erstellen Sie das Modell auf dem Basis-Image. Schließlich stellen Sie das Modell zur Echtzeitinferenz auf der ML-Instanz für SageMaker Hosting bereit.
Sehen wir uns an, wie die oben genannten Bereitstellungsschritte programmgesteuert ausgeführt werden. Der Kürze halber wird in diesem Abschnitt nur der Code detailliert beschrieben, der bei den Bereitstellungsschritten hilft. Der vollständige Quellcode für diese Bereitstellung ist im Notebook verfügbar llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Laden Sie den Modellschnappschuss von Hugging Face herunter und laden Sie die Modellartefakte auf Amazon S3 hoch
Laden Sie das Modell mit den oben genannten Voraussetzungen auf die SageMaker-Notebook-Instanz herunter und laden Sie es dann zur weiteren Bereitstellung in den S3-Bucket hoch:
Beachten Sie, dass das Modell heruntergeladen wird, auch wenn Sie kein gültiges Zugriffstoken angeben. Wenn Sie jedoch ein solches Modell bereitstellen, ist die Modellbereitstellung nicht erfolgreich. Daher wird ein Austausch empfohlen <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
für das Argument token
mit dem Wert des Tokens, den Sie aus Ihrem Hugging Face-Profil erhalten haben, wie in den Voraussetzungen beschrieben. Für diesen Beitrag geben wir den offiziellen Modellnamen für Llama 2 an, wie er auf Hugging Face mit dem Wert angegeben ist meta-llama/Llama-2-13b-chat-hf
. Das unkomprimierte Modell wird heruntergeladen local_model_path
als Ergebnis der Ausführung des oben genannten Codes.
Laden Sie die Dateien auf Amazon S3 hoch und erhalten Sie den URI, der später verwendet wird serving.properties
.
Sie werden das verpacken meta-llama/Llama-2-13b-chat-hf
Modell auf dem LMI-Container-Image mit DJL Serving unter Verwendung der über angegebenen Konfiguration serving.properties
. Anschließend stellen Sie das Modell zusammen mit den im Container-Image gepackten Modellartefakten auf der SageMaker ML-Instanz ml.g5.12xlarge bereit. Anschließend verwenden Sie diese ML-Instanz für SageMaker Hosting für Echtzeit-Inferenzen.
Bereiten Sie Modellartefakte für die DJL-Bereitstellung vor
Bereiten Sie Ihre Modellartefakte vor, indem Sie ein erstellen serving.properties
Konfigurationsdatei:
Wir verwenden die folgenden Einstellungen in dieser Konfigurationsdatei:
- Sie – Dies gibt die Laufzeit-Engine an, die DJL verwenden soll. Zu den möglichen Werten gehören:
Python
,DeepSpeed
,FasterTransformer
undMPI
. In diesem Fall setzen wir es aufMPI
. Model Parallelization and Inference (MPI) erleichtert die Partitionierung des Modells auf alle verfügbaren GPUs und beschleunigt so die Inferenz. - option.entryPoint – Diese Option gibt an, welchen von DJL Serving angebotenen Handler Sie verwenden möchten. Die möglichen Werte sind
djl_python.huggingface
,djl_python.deepspeed
unddjl_python.stable-diffusion
. Wir gebrauchendjl_python.huggingface
für Hugging Face Accelerate. - option.tensor_parallel_degree – Diese Option gibt die Anzahl der Tensor-Parallelpartitionen an, die für das Modell durchgeführt werden. Sie können die Anzahl der GPU-Geräte festlegen, über die Accelerate das Modell partitionieren muss. Dieser Parameter steuert auch die Anzahl der Worker pro Modell, die gestartet werden, wenn die DJL-Bereitstellung ausgeführt wird. Wenn wir beispielsweise über eine Maschine mit 4 GPUs verfügen und vier Partitionen erstellen, haben wir einen Worker pro Modell, der die Anforderungen bedient.
- option.low_cpu_mem_usage – Dies reduziert die CPU-Speicherauslastung beim Laden von Modellen. Wir empfehlen, dies auf einzustellen
TRUE
. - option.rolling_batch – Dies ermöglicht die Stapelverarbeitung auf Iterationsebene mit einer der unterstützten Strategien. Werte umfassen
auto
,scheduler
undlmi-dist
. Wir gebrauchenlmi-dist
zum Einschalten der kontinuierlichen Dosierung für Llama 2. - option.max_rolling_batch_size – Dadurch wird die Anzahl gleichzeitiger Anforderungen im kontinuierlichen Stapel begrenzt. Der Standardwert ist 32.
- option.model_id – Sie sollten ersetzen
{{model_id}}
mit der Modell-ID eines vorab trainierten Modells, das in a gehostet wird Modell-Repository auf Hugging Face oder S3-Pfad zu den Modellartefakten.
Weitere Konfigurationsmöglichkeiten finden Sie in Konfigurationen und Einstellungen.
Da DJL Serving davon ausgeht, dass die Modellartefakte in einer .tar-Datei gepackt und formatiert werden, führen Sie den folgenden Codeausschnitt aus, um die .tar-Datei zu komprimieren und auf Amazon S3 hochzuladen:
Rufen Sie mit DJL Serving das neueste LMI-Container-Image ab
Als Nächstes verwenden Sie die mit SageMaker für LMI verfügbaren DLCs, um das Modell bereitzustellen. Rufen Sie den SageMaker-Bild-URI für ab djl-deepspeed
Container programmgesteuert mit dem folgenden Code:
Sie können das oben genannte Image verwenden, um das bereitzustellen meta-llama/Llama-2-13b-chat-hf
Modell auf SageMaker. Jetzt können Sie mit der Erstellung des Modells fortfahren.
Modell erstellen
Sie können das Modell erstellen, dessen Container mit erstellt wird inference_image_uri
und der Modellbereitstellungscode, der sich am S3-URI befindet, der durch angegeben ist s3_code_artifact:
Jetzt können Sie die Modellkonfiguration mit allen Details für die Endpunktkonfiguration erstellen.
Erstellen Sie die Modellkonfiguration
Verwenden Sie den folgenden Code, um eine Modellkonfiguration für das durch identifizierte Modell zu erstellen model_name
:
Die Modellkonfiguration ist für definiert ProductionVariants
Parameter InstanceType
für die ML-Instanz ml.g5.12xlarge. Sie stellen auch die zur Verfügung ModelName
Verwenden Sie denselben Namen, den Sie beim Erstellen des Modells im vorherigen Schritt verwendet haben, und stellen Sie so eine Beziehung zwischen dem Modell und der Endpunktkonfiguration her.
Nachdem Sie nun das Modell und die Modellkonfiguration definiert haben, können Sie den SageMaker-Endpunkt erstellen.
Erstellen Sie den SageMaker-Endpunkt
Erstellen Sie den Endpunkt zum Bereitstellen des Modells mithilfe des folgenden Codeausschnitts:
Sie können den Fortschritt der Bereitstellung mithilfe des folgenden Codeausschnitts anzeigen:
Nach erfolgreicher Bereitstellung lautet der Endpunktstatus InService
. Nachdem der Endpunkt nun bereit ist, führen wir eine Inferenz mit Antwort-Streaming durch.
Echtzeit-Inferenz mit Antwort-Streaming
Wie wir im früheren Ansatz für Hugging Face TGI beschrieben haben, können Sie dieselbe Methode verwenden get_realtime_response_stream
um das Antwort-Streaming vom SageMaker-Endpunkt aufzurufen. Der Code für die Inferenzierung mithilfe des LMI-Ansatzes befindet sich im llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb Notizbuch. Der LineIterator
Die Implementierung befindet sich in llama-2-lmi/utils/LineIterator.py. Notiere dass der LineIterator
für das auf dem LMI-Container bereitgestellte Llama 2-Chat-Modell unterscheidet sich vom LineIterator
referenziert im Abschnitt Hugging Face TGI. Der LineIterator
durchläuft den Bytestrom von Llama 2 Chat-Modellen, der mit dem LMI-Container abgeleitet wurde djl-deepspeed
Version 0.25.0. Die folgende Hilfsfunktion analysiert den Antwortstrom, der von der über die gestellten Rückschlussanforderung empfangen wurde invoke_endpoint_with_response_stream
API:
Die vorhergehende Methode druckt den vom gelesenen Datenstrom LineIterator
in einem für Menschen lesbaren Format.
Lassen Sie uns untersuchen, wie Sie die Eingabeaufforderung und die Anweisungen vorbereiten, um sie beim Ableiten des Modells als Nutzlast zu verwenden.
Da Sie sowohl in Hugging Face TGI als auch in LMI auf dasselbe Modell schließen, ist der Prozess der Vorbereitung der Eingabeaufforderung und der Anweisungen derselbe. Daher können Sie die Methoden verwenden get_instructions
und build_llama2_prompt
für Schlussfolgerungen.
Das get_instructions
Die Methode gibt die Anweisungen zurück. Erstellen Sie die Anweisungen in Kombination mit der auszuführenden Aufgabe, wie in beschrieben user_ask_2
wie folgt:
Übergeben Sie die Anweisungen zum Erstellen der Eingabeaufforderung gemäß der von generierten Eingabeaufforderungsvorlage build_llama2_prompt:
Wir kombinieren die Inferenzparameter mit der Aufforderung, eine endgültige Nutzlast zu bilden. Dann senden Sie die Nutzlast an get_realtime_response_stream,
Dies wird verwendet, um einen Endpunkt mit Antwort-Streaming aufzurufen:
Der vom LLM generierte Text wird an die Ausgabe gestreamt, wie in der folgenden Animation gezeigt.
Aufräumen
Um unnötige Gebühren zu vermeiden, verwenden Sie die AWS-Managementkonsole um die Endpunkte und die zugehörigen Ressourcen zu löschen, die während der Ausführung der im Beitrag erwähnten Ansätze erstellt wurden. Führen Sie für beide Bereitstellungsansätze die folgende Bereinigungsroutine durch:
Ersetzen <SageMaker_Real-time_Endpoint_Name>
für variabel endpoint_name
mit dem tatsächlichen Endpunkt.
Für den zweiten Ansatz haben wir die Modell- und Codeartefakte auf Amazon S3 gespeichert. Sie können den S3-Bucket mit dem folgenden Code bereinigen:
Zusammenfassung
In diesem Beitrag haben wir diskutiert, wie sich eine unterschiedliche Anzahl von Antworttokens oder ein unterschiedlicher Satz von Inferenzparametern auf die mit LLMs verbundenen Latenzen auswirken kann. Wir haben gezeigt, wie man das Problem mit Hilfe von Response-Streaming angehen kann. Anschließend haben wir zwei Ansätze für die Bereitstellung und Inferenz von Llama 2 Chat-Modellen mithilfe von AWS DLCs identifiziert – LMI und Hugging Face TGI.
Sie sollten jetzt verstehen, wie wichtig die Streaming-Reaktion ist und wie sie die wahrgenommene Latenz reduzieren kann. Durch Streaming-Antworten kann das Benutzererlebnis verbessert werden, da Sie andernfalls warten müssten, bis der LLM die gesamte Antwort erstellt. Darüber hinaus verbessert der Einsatz von Llama 2-Chat-Modellen mit Antwort-Streaming das Benutzererlebnis und macht Ihre Kunden zufrieden.
Sie können sich auf die offiziellen AWS-Beispiele beziehen amazon-sagemaker-llama2-response-streaming-recipes Dies deckt den Einsatz für andere Llama 2-Modellvarianten ab.
Bibliographie
Über die Autoren
Pavan Kumar Rao Navule ist Lösungsarchitekt bei Amazon Web Services. Er arbeitet mit ISVs in Indien zusammen, um sie bei der Innovation auf AWS zu unterstützen. Er ist Autor des Buches „Getting Started with V Programming“. Er absolvierte einen Executive M.Tech in Data Science am Indian Institute of Technology (IIT) in Hyderabad. Er absolvierte außerdem einen Executive MBA in IT-Spezialisierung von der Indian School of Business Management and Administration und verfügt über einen B.Tech in Elektronik und Kommunikationstechnik vom Vaagdevi Institute of Technology and Science. Pavan ist ein AWS Certified Solutions Architect Professional und verfügt über weitere Zertifizierungen wie AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) und Microsoft Certified Technology Specialist (MCTS). Er ist auch ein Open-Source-Enthusiast. In seiner Freizeit hört er gerne den großartigen magischen Stimmen von Sia und Rihanna.
Sudhanshu-Hass ist Haupt-KI/ML-Spezialist bei AWS und arbeitet mit Kunden zusammen, um sie auf ihrem Weg zu MLOps und generativer KI zu beraten. In seiner vorherigen Rolle bei Amazon konzipierte, gründete und leitete er Teams zum Aufbau grundlegender Open-Source-basierter KI- und Gamification-Plattformen und vermarktete diese erfolgreich mit über 100 Kunden. Sudhanshu verfügt über mehrere Patente, hat zwei Bücher sowie mehrere Aufsätze und Blogs geschrieben und seine Standpunkte in verschiedenen technischen Foren dargelegt. Er ist ein Vordenker und Redner und seit fast 25 Jahren in der Branche tätig. Er hat mit Fortune-1000-Kunden auf der ganzen Welt und zuletzt mit Digital-Native-Kunden in Indien zusammengearbeitet.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :hast
- :Ist
- :Wo
- $UP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1.
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- Fähigkeit
- Fähig
- Über Uns
- beschleunigen
- beschleunigt
- Beschleuniger
- Akzeptieren
- Zugang
- Konto
- Erreichen
- über
- Action
- präsentieren
- zusätzlich
- Adresse
- Verwaltung
- adoptieren
- Adoption
- Vorteil
- beraten
- beeinflussen
- Nach der
- AI
- KI-Modelle
- AI / ML
- Alice
- Richtet sich aus
- Alle
- Zulassen
- erlaubt
- entlang
- bereits
- ebenfalls
- Amazon
- Amazon Sage Maker
- Amazon Web Services
- an
- und
- Animation
- angekündigt
- Ankündigung
- jedem
- Bienen
- Anwendungen
- Ansatz
- Ansätze
- angemessen
- architektonisch
- Architektur
- SIND
- Argument
- Argumente
- AS
- Assistenten
- damit verbundenen
- At
- Autor
- verfügbar
- vermeiden
- AWS
- Zurück
- Base
- Dosierung
- BE
- weil
- war
- Bevor
- zwischen
- Beyond
- Milliarde
- Milliarden
- BIN
- Blogs
- Körper
- buchen
- Bücher
- beide
- bauen
- baut
- erbaut
- Geschäft
- aber
- by
- rufen Sie uns an!
- Kampagnen (Campaign)
- CAN
- fähig
- Häuser
- Zertifizierungen
- Zertifzierte
- Änderungen
- Gebühren
- Chat
- Chatbots
- reinigen
- Auftraggeber
- Kunden
- Club
- Code
- Sammlung
- COM
- kombiniert
- kommt
- Kommunikation
- Wettbewerber
- Konfiguration
- Bestätigung
- Container
- Behälter
- kontinuierlich
- ständig
- Steuerung
- könnte
- Paar
- Gutschein
- bedeckt
- Covers
- erstellen
- erstellt
- schafft
- Erstellen
- Kredit
- Kunde
- Kundenzufriedenheit
- Kunden
- technische Daten
- Datenwissenschaft
- Tage
- tief
- tiefe Lernen
- defaults
- definieren
- definiert
- Verspätet
- zeigen
- einsetzen
- Einsatz
- Bereitstellen
- Einsatz
- detailliert
- Details
- Entwickler
- Geräte
- anders
- digital
- diskutiert
- Nicht
- herunterladen
- im
- Früher
- entweder
- Elektronik
- ermöglicht
- Endpunkt
- Motor
- Entwicklung
- Enthusiast
- Ganz
- Arbeitsumfeld
- insbesondere
- Festlegung
- Sogar
- Beispiel
- Exekutive
- erwartet
- erwartet
- ERFAHRUNGEN
- Erfahrungen
- ERKUNDEN
- Gesicht
- erleichtert
- falsch
- beschleunigt
- Reichen Sie das
- Mappen
- Finale
- Endlich
- Vorname
- erstes Mal
- Folgende
- folgt
- Aussichten für
- unten stehende Formular
- Format
- Vermögen
- Foren
- gefunden
- Foundation
- vier
- Frei
- für
- voller
- voll
- Funktion
- weiter
- gamification
- gated
- erzeugen
- erzeugt
- Erzeugung
- Generation
- generativ
- Generative KI
- Generatoren
- bekommen
- gif
- Globus
- Go
- geregelt
- GPU
- GPUs
- erteilt
- groß
- glücklich
- hassen
- Haben
- he
- Hilfe
- hilft
- Hohe Leistungsfähigkeit
- höher
- seine
- hält
- gehostet
- Hosting
- Ultraschall
- Hilfe
- aber
- HTML
- http
- HTTPS
- Umarmendes Gesicht
- für Menschen lesbar
- ID
- identifiziert
- Identitätsschutz
- if
- zeigt
- Image
- Bilder
- unmittelbar
- implementieren
- Implementierung
- importieren
- Bedeutung
- wichtig
- zu unterstützen,
- verbessert
- in
- das
- Einschließlich
- Indien
- Indisch
- angegeben
- Energiegewinnung
- Information
- Infrastruktur
- wir innovieren
- Varianten des Eingangssignals:
- Eingänge
- innerhalb
- Instanz
- beantragen müssen
- Institut
- Anleitung
- interaktive
- Internet
- Probleme
- IT
- SEINE
- Reise
- JSON
- Wesentliche
- kumar
- Sprache
- grosse
- Latency
- Latenzprobleme
- später
- neueste
- starten
- führen
- Führer
- lernen
- geführt
- Länge
- Bibliotheken
- Lizenz
- Gefällt mir
- Grenzen
- Line
- hören
- Lama
- LLM
- Laden
- located
- liebt
- Maschine
- Maschinelles Lernen
- gemacht
- um
- MACHT
- verwalten
- verwaltet
- Management
- Marketing
- max
- Kann..
- MCP
- Memory
- erwähnt
- Meta
- Methode
- Methoden
- Microsoft
- Millionen
- ML
- MLOps
- Modell
- für
- Monat
- mehr
- vor allem warme
- Musik
- sollen
- Name
- Namens
- nativen
- fast
- Need
- Bedürfnisse
- Neu
- weiter
- beachten
- Notizbuch
- jetzt an
- Anzahl
- Objekte
- beobachten
- erhalten
- erhalten
- of
- angeboten
- offiziell
- vorgenommen,
- on
- EINEM
- einzige
- XNUMXh geöffnet
- Open-Source-
- Option
- Optionen
- or
- Andere
- Andernfalls
- Umrissen
- Möglichkeiten für das Ausgangssignal:
- übrig
- Gesamt-
- verpackt
- Verpackung
- Papiere
- Parallel
- Parameter
- Parameter
- Teil
- passieren
- Patente
- Weg
- für
- wahrgenommen
- Ausführen
- durchgeführt
- Berechtigungen
- Plattformen
- Plato
- Datenintelligenz von Plato
- PlatoData
- Punkte
- Beliebt
- möglich
- Post
- angetriebene
- vor
- Danach
- Vorbereitung
- Voraussetzungen
- vorgeführt
- früher
- Principal
- Drucke
- Aufgabenstellung:
- vorgehen
- Prozessdefinierung
- Verarbeitet
- Verarbeitung
- Produkt
- Produkteinführung
- Professionell
- Profil
- Programmierung
- Fortschritt
- immobilien
- die
- vorausgesetzt
- bietet
- Bereitstellung
- veröffentlicht
- Zwecke
- Python
- Pytorch
- Frage
- Bereich
- schnell
- lieber
- Lesen Sie mehr
- bereit
- echt
- Echtzeit
- realisieren
- erhalten
- Received
- kürzlich
- empfehlen
- empfohlen
- Veteran
- reduziert
- Reduzierung
- siehe
- Beziehung
- ersetzen
- antworten
- Quelle
- Anforderung
- Zugriffe
- Downloads
- Reagieren
- Antwort
- Antworten
- Folge
- Rückkehr
- Rückgabe
- Rollen
- Routine
- Führen Sie
- Laufen
- läuft
- Laufzeit
- sagemaker
- gleich
- Zufriedenheit
- Skalieren
- Schule
- Wissenschaft
- Sdk
- nahtlos
- Zweite
- Abschnitt
- sehen
- senden
- sendet
- brauchen
- Lösungen
- Dienst
- kompensieren
- Einstellungen
- mehrere
- Short
- sollte
- erklären
- zeigte
- gezeigt
- Konzerte
- Schild
- Einfacher
- Schnappschuss
- Schnipsel
- Lösung
- Lösungen
- bald
- Quelle
- Quellcode
- Speaker
- Spezialist
- spezialisiert
- Spezialprodukte
- Spezifikationen
- angegeben
- begonnen
- Status
- Schritt
- Shritte
- Stoppen
- Lagerung
- speichern
- gelagert
- Strategien
- Strom
- gestreamt
- Streaming
- Streaming-Service
- Erfolg haben
- erfolgreich
- Erfolgreich
- so
- Support
- Unterstützte
- Unterstützt
- Tabelle
- Nehmen
- Aufgabe
- Teams
- Tech
- Technische
- Technologie
- Vorlage
- Text
- als
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- ihr
- Sie
- dann
- Dort.
- damit
- deswegen
- Diese
- vom Nutzer definierten
- fehlen uns die Worte.
- obwohl?
- dachte
- Durchsatz
- Zeit
- mal
- zu
- Zeichen
- Tokens
- Werkzeuge
- Training
- Übersetzungen
- was immer dies auch sein sollte.
- Drehung
- XNUMX
- tippe
- Typen
- typisch
- verstehen
- unnötig
- bis
- Anwendungsbereich
- -
- Anwendungsfall
- benutzt
- Mitglied
- Benutzererfahrung
- Verwendung von
- gültig
- Wert
- Werte
- Variable
- verschiedene
- Variieren
- riesig
- Version
- Anzeigen
- Assistent
- Besuchen Sie
- STIMMEN
- warten
- Warten
- wollen
- we
- Netz
- Web-Services
- GUT
- waren
- wann
- welche
- während
- ganze
- deren
- werden wir
- mit
- .
- ohne
- gearbeitet
- Arbeiter
- Arbeiter
- Arbeitsablauf.
- Workflows
- arbeiten,
- Werk
- würde
- schreiben
- geschrieben
- Jahr
- Du
- Ihr
- Zephyrnet