Optimieren Sie das Preis-Leistungs-Verhältnis der LLM-Inferenz auf NVIDIA-GPUs mithilfe der Amazon SageMaker-Integration mit NVIDIA NIM Microservices

Neuauflage von Plato

Verfolger: 0

NVIDIA NIM m Mikroservices Jetzt integrieren mit Amazon Sage MakerDamit können Sie branchenführende Large Language Models (LLMs) einsetzen und die Modellleistung und -kosten optimieren. Mithilfe von Technologien wie z. B. können Sie hochmoderne LLMs innerhalb von Minuten statt Tagen bereitstellen NVIDIA TensorRT, NVIDIA TensorRT-LLM und NVIDIA Triton-Inferenzserver auf NVIDIA-beschleunigten Instanzen, die von SageMaker gehostet werden.

NIM, Teil der NVIDIA AI Enterprise Softwareplattform aufgeführt auf AWS-Marktplatzist eine Reihe von Inferenz-Microservices, die die Leistungsfähigkeit modernster LLMs in Ihre Anwendungen integrieren und Funktionen zur Verarbeitung natürlicher Sprache (NLP) und zum Verstehen bereitstellen, unabhängig davon, ob Sie Chatbots entwickeln, Dokumente zusammenfassen oder andere NLP-Anwendungen implementieren. angetriebene Anwendungen. Sie können vorgefertigte NVIDIA-Container verwenden, um beliebte LLMs zu hosten, die für eine schnelle Bereitstellung für bestimmte NVIDIA-GPUs optimiert sind, oder NIM-Tools verwenden, um Ihre eigenen Container zu erstellen.

In diesem Beitrag bieten wir eine umfassende Einführung in NIM und zeigen, wie Sie es mit SageMaker verwenden können.

Eine Einführung in NVIDIA NIM

NIM bietet optimierte und vorgenerierte Engines für eine Vielzahl beliebter Inferenzmodelle. Diese Microservices unterstützen eine Vielzahl von LLMs, wie z. B. Llama 2 (7B, 13B und 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona und Code Llama 70B, sofort einsatzbereit mit vorinstallierten Microservices. Entwickelte NVIDIA TensorRT-Engines, die auf bestimmte NVIDIA-GPUs zugeschnitten sind, um maximale Leistung und Auslastung zu erzielen. Diese Modelle werden mit den optimalen Hyperparametern für die Modell-Hosting-Leistung kuratiert, um Anwendungen problemlos bereitzustellen.

Wenn sich Ihr Modell nicht in den kuratierten Modellen von NVIDIA befindet, bietet NIM wichtige Dienstprogramme wie den Model Repo Generator, der die Erstellung einer TensorRT-LLM-beschleunigten Engine und eines Modellverzeichnisses im NIM-Format über eine einfache YAML-Datei erleichtert. Darüber hinaus bietet ein integriertes Community-Backend von vLLM Unterstützung für hochmoderne Modelle und neue Funktionen, die möglicherweise nicht nahtlos in den für TensorRT-LLM optimierten Stack integriert wurden.

Zusätzlich zur Erstellung optimierter LLMs für die Inferenz bietet NIM fortschrittliche Hosting-Technologien wie optimierte Planungstechniken wie In-Flight-Batching, die den gesamten Textgenerierungsprozess für ein LLM in mehrere Iterationen des Modells aufteilen können. Beim In-Flight-Batching muss die NIM-Laufzeitumgebung nicht darauf warten, dass der gesamte Batch abgeschlossen ist, bevor mit dem nächsten Satz von Anforderungen fortgefahren wird, sondern sofort abgeschlossene Sequenzen aus dem Batch entfernen. Die Laufzeit beginnt dann mit der Ausführung neuer Anforderungen, während andere Anforderungen noch ausgeführt werden, wodurch Ihre Recheninstanzen und GPUs optimal genutzt werden.

Bereitstellung von NIM auf SageMaker

NIM lässt sich in SageMaker integrieren, sodass Sie Ihre LLMs leistungs- und kostenoptimiert hosten und gleichzeitig von den Funktionen von SageMaker profitieren können. Wenn Sie NIM auf SageMaker verwenden, können Sie Funktionen wie die Skalierung der Anzahl der Instanzen zum Hosten Ihres Modells, die Durchführung von Blau/Grün-Bereitstellungen und die Bewertung von Arbeitslasten mithilfe von Schattentests nutzen – und das alles mit erstklassiger Beobachtbarkeit und Überwachung Amazon CloudWatch.

Zusammenfassung

Die Verwendung von NIM zur Bereitstellung optimierter LLMs kann sowohl hinsichtlich der Leistung als auch der Kosten eine großartige Option sein. Es trägt auch dazu bei, die Bereitstellung von LLMs mühelos zu gestalten. Zukünftig wird NIM auch PEFT-Anpassungsmethoden (Parameter-Efficient Fine-Tuning) wie LoRA und P-Tuning ermöglichen. NIM plant außerdem LLM-Unterstützung durch die Unterstützung von Triton Inference Server, TensorRT-LLM und vLLM-Backends.

Wir empfehlen Ihnen, mehr über NVIDIA-Microservices und die Bereitstellung Ihrer LLMs mit SageMaker zu erfahren und die Vorteile auszuprobieren, die Ihnen zur Verfügung stehen. NIM ist als kostenpflichtiges Angebot im Rahmen des NVIDIA AI Enterprise-Softwareabonnements verfügbar verfügbar auf AWS Marketplace.

In naher Zukunft werden wir einen ausführlichen Leitfaden für NIM auf SageMaker veröffentlichen.

Über die Autoren

Optimieren Sie das Preis-Leistungs-Verhältnis der LLM-Inferenz auf NVIDIA-GPUs mithilfe der Amazon SageMaker-Integration mit NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. James Park ist Lösungsarchitekt bei Amazon Web Services. Er arbeitet mit Amazon.com zusammen, um Technologielösungen auf AWS zu entwerfen, zu erstellen und bereitzustellen, und hat ein besonderes Interesse an KI und maschinellem Lernen. In seiner Freizeit erkundet er gerne neue Kulturen, neue Erfahrungen und bleibt über die neuesten Technologietrends auf dem Laufenden. Sie finden ihn auf LinkedIn.

Saurabh Trikande ist Senior Product Manager für Amazon SageMaker Inference. Er arbeitet leidenschaftlich gerne mit Kunden zusammen und ist motiviert von dem Ziel, maschinelles Lernen zu demokratisieren. Er konzentriert sich auf die Kernherausforderungen im Zusammenhang mit der Bereitstellung komplexer ML-Anwendungen, mandantenfähigen ML-Modellen, Kostenoptimierungen und der leichteren Bereitstellung von Deep-Learning-Modellen. In seiner Freizeit wandert Saurabh gerne, lernt etwas über innovative Technologien, folgt TechCrunch und verbringt Zeit mit seiner Familie.

Optimieren Sie das Preis-Leistungs-Verhältnis der LLM-Inferenz auf NVIDIA-GPUs mithilfe der Amazon SageMaker-Integration mit NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Qing Lan ist Softwareentwicklungsingenieur bei AWS. Er hat an mehreren herausfordernden Produkten bei Amazon gearbeitet, darunter Hochleistungs-ML-Inferenzlösungen und Hochleistungs-Protokollierungssysteme. Das Team von Qing führte erfolgreich das erste Billion-Parameter-Modell in Amazon Advertising mit sehr geringer Latenz ein. Qing verfügt über fundierte Kenntnisse in den Bereichen Infrastrukturoptimierung und Deep-Learning-Beschleunigung.

Nikhil Kulkarni ist ein Softwareentwickler bei AWS Machine Learning, der sich darauf konzentriert, Arbeitslasten des maschinellen Lernens in der Cloud leistungsfähiger zu machen, und ist Mitentwickler von AWS Deep Learning Containern für Training und Inferenz. Seine Leidenschaft gilt verteilten Deep-Learning-Systemen. Außerhalb der Arbeit liest er gerne Bücher, spielt Gitarre und backt Pizza.

Optimieren Sie das Preis-Leistungs-Verhältnis der LLM-Inferenz auf NVIDIA-GPUs mithilfe der Amazon SageMaker-Integration mit NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikale Suche. Ai. Harish Tummalacherla ist Softwareentwickler im Deep Learning Performance-Team bei SageMaker. Er arbeitet an der Leistungstechnik zur effizienten Bereitstellung großer Sprachmodelle auf SageMaker. In seiner Freizeit geht er gerne laufen, Rad fahren und Skibergsteigen.

Eliuth Triana Isaza ist Developer Relations Manager bei NVIDIA und befähigt die KI-MLOps, DevOps, Wissenschaftler und AWS-Technikexperten von Amazon, den NVIDIA-Computing-Stack zur Beschleunigung und Optimierung von Generative AI Foundation-Modellen zu beherrschen, die von Datenkuration, GPU-Training, Modellinferenz und Produktionsbereitstellung auf AWS-GPU-Instanzen reichen . Darüber hinaus ist Eliuth ein leidenschaftlicher Mountainbiker, Skifahrer, Tennis- und Pokerspieler.

Jiahong Liu ist Solution Architect im Cloud Service Provider-Team bei NVIDIA. Er unterstützt Kunden bei der Einführung von Lösungen für maschinelles Lernen und KI, die NVIDIA Accelerated Computing nutzen, um ihre Trainings- und Inferenzherausforderungen zu bewältigen. In seiner Freizeit beschäftigt er sich gerne mit Origami, DIY-Projekten und spielt Basketball.

Kshitiz Gupta ist Lösungsarchitekt bei NVIDIA. Es macht ihm Spaß, Cloud-Kunden über die GPU-KI-Technologien von NVIDIA aufzuklären und sie bei der Beschleunigung ihrer Anwendungen für maschinelles Lernen und Deep Learning zu unterstützen. Außerhalb der Arbeit geht er gerne laufen, wandern und Wildtiere beobachten.

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Zeitstempel: 18. März 2024

Zeitstempel: 15. Juni 2022

Neuauflage von Plato

Durchbrechen Sie Sprachbarrieren mit Amazon Transcribe, Amazon Translate und Amazon Polly

Das Datenerlebnis neu erfinden: Nutzen Sie generative KI und moderne Datenarchitektur, um Erkenntnisse zu gewinnen | Amazon Web Services

Team- und Benutzerverwaltung mit Amazon SageMaker und AWS SSO

Bereiten Sie Daten schneller mit PySpark- und Altair-Code-Snippets in Amazon SageMaker Data Wrangler vor

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto