Optimaliseer de prijs-prestatieverhouding van LLM-inferentie op NVIDIA GPU's met behulp van de Amazon SageMaker-integratie met NVIDIA NIM Microservices

Heruitgegeven door Plato

volgers: 0

NVIDIA NIM m icrodiensten nu integreren met Amazon Sage Maker, waardoor u toonaangevende grote taalmodellen (LLM's) kunt implementeren en de modelprestaties en kosten kunt optimaliseren. U kunt state-of-the-art LLM's binnen enkele minuten in plaats van dagen implementeren met behulp van technologieën zoals NVIDIA TensorRT, NVIDIA TensorRT-LLM en NVIDIA Triton Inference-server op versnelde NVIDIA-instanties gehost door SageMaker.

NIM, onderdeel van de NVIDIA AI Enterprise softwareplatform vermeld op AWS-marktplaats, is een reeks inferentie-microservices die de kracht van de modernste LLM's naar uw toepassingen brengen en natuurlijke taalverwerking (NLP) en begripsmogelijkheden bieden, of u nu chatbots ontwikkelt, documenten samenvat of andere NLP-implementaties implementeert. aangedreven toepassingen. U kunt vooraf gebouwde NVIDIA-containers gebruiken om populaire LLM's te hosten die zijn geoptimaliseerd voor specifieke NVIDIA GPU's voor snelle implementatie, of u kunt NIM-tools gebruiken om uw eigen containers te maken.

In dit bericht geven we een introductie op hoog niveau over NIM en laten we zien hoe u het kunt gebruiken met SageMaker.

Een inleiding tot NVIDIA NIM

NIM biedt geoptimaliseerde en vooraf gegenereerde motoren voor een verscheidenheid aan populaire modellen voor gevolgtrekking. Deze microservices ondersteunen een verscheidenheid aan LLM's, zoals Llama 2 (7B, 13B en 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona en Code Llama 70B, kant-en-klaar met behulp van pre- ingebouwde NVIDIA TensorRT-motoren die zijn afgestemd op specifieke NVIDIA GPU's voor maximale prestaties en gebruik. Deze modellen zijn samengesteld met de optimale hyperparameters voor modelhostingprestaties, zodat applicaties gemakkelijk kunnen worden geïmplementeerd.

Als uw model niet in de reeks samengestelde modellen van NVIDIA staat, biedt NIM essentiële hulpprogramma's zoals de Model Repo Generator, die het maken van een TensorRT-LLM-versnelde engine en een modelmap in NIM-formaat mogelijk maakt via een eenvoudig YAML-bestand. Bovendien biedt een geïntegreerde community-backend van vLLM ondersteuning voor geavanceerde modellen en opkomende functies die mogelijk niet naadloos zijn geïntegreerd in de voor TensorRT-LLM geoptimaliseerde stack.

Naast het creëren van geoptimaliseerde LLM's voor gevolgtrekking, biedt NIM geavanceerde hostingtechnologieën zoals geoptimaliseerde planningstechnieken zoals in-flight batching, waarmee het algemene tekstgeneratieproces voor een LLM kan worden opgesplitst in meerdere iteraties van het model. Bij in-flight batching verwijdert de NIM-runtime voltooide reeksen onmiddellijk uit de batch, in plaats van te wachten tot de hele batch is voltooid voordat doorgaat naar de volgende reeks verzoeken. De runtime begint vervolgens met het uitvoeren van nieuwe verzoeken terwijl andere verzoeken nog in behandeling zijn, waardoor uw rekeninstances en GPU's optimaal worden benut.

NIM implementeren op SageMaker

NIM kan worden geïntegreerd met SageMaker, waardoor u uw LLM's kunt hosten met prestatie- en kostenoptimalisatie terwijl u profiteert van de mogelijkheden van SageMaker. Wanneer u NIM op SageMaker gebruikt, kunt u gebruik maken van mogelijkheden zoals het uitschalen van het aantal instances om uw model te hosten, het uitvoeren van blauw/groene implementaties en het evalueren van workloads met behulp van schaduwtests, allemaal met de beste observatie- en monitoringmogelijkheden in zijn klasse. Amazon Cloud Watch.

Conclusie

Het gebruik van NIM om geoptimaliseerde LLM's te implementeren kan een goede optie zijn voor zowel prestaties als kosten. Het helpt ook om de implementatie van LLM's moeiteloos te maken. In de toekomst zal NIM ook aanpassingsmethoden voor Parameter-Efficient Fine-Tuning (PEFT) mogelijk maken, zoals LoRA en P-tuning. NIM is ook van plan om LLM-ondersteuning te krijgen door ondersteuning van Triton Inference Server, TensorRT-LLM en vLLM-backends.

We moedigen u aan meer te leren over NVIDIA-microservices en hoe u uw LLM's kunt implementeren met SageMaker en de voordelen uit te proberen die voor u beschikbaar zijn. NIM is beschikbaar als betaald aanbod als onderdeel van het NVIDIA AI Enterprise-softwareabonnement beschikbaar op AWS Marktplaats.

In de nabije toekomst zullen we een uitgebreide handleiding voor NIM op SageMaker plaatsen.

Over de auteurs

Optimaliseer de prijs-prestatieverhouding van LLM-inferentie op NVIDIA GPU's met behulp van de Amazon SageMaker-integratie met NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. James Park is een oplossingsarchitect bij Amazon Web Services. Hij werkt samen met Amazon.com aan het ontwerpen, bouwen en implementeren van technologische oplossingen op AWS, en heeft een bijzondere interesse in AI en machine learning. In zijn vrije tijd gaat hij graag op zoek naar nieuwe culturen, nieuwe ervaringen en op de hoogte blijven van de nieuwste technologische trends. Je kunt hem vinden op LinkedIn.

Saurabh Trikande is Senior Product Manager voor Amazon SageMaker Inference. Hij heeft een passie voor het werken met klanten en wordt gemotiveerd door het doel om machine learning te democratiseren. Hij richt zich op kernuitdagingen met betrekking tot het inzetten van complexe ML-applicaties, multi-tenant ML-modellen, kostenoptimalisaties en het toegankelijker maken van de inzet van deep learning-modellen. In zijn vrije tijd houdt Saurabh van wandelen, leren over innovatieve technologieën, TechCrunch volgen en tijd doorbrengen met zijn gezin.

Optimaliseer de prijs-prestatieverhouding van LLM-inferentie op NVIDIA GPU's met behulp van de Amazon SageMaker-integratie met NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Qing Lan is een Software Development Engineer bij AWS. Hij heeft aan verschillende uitdagende producten in Amazon gewerkt, waaronder hoogwaardige ML-inferentieoplossingen en een hoogwaardig logsysteem. Het team van Qing lanceerde met succes het eerste miljard-parametermodel in Amazon Advertising met een zeer lage latentie vereist. Qing heeft diepgaande kennis over de optimalisatie van de infrastructuur en de versnelling van Deep Learning.

Nikhil Kulkarni is een softwareontwikkelaar met AWS Machine Learning, gericht op het performanter maken van machine learning-workloads in de cloud, en is mede-maker van AWS Deep Learning Containers voor training en gevolgtrekking. Hij heeft een passie voor gedistribueerde Deep Learning Systems. Buiten zijn werk leest hij graag boeken, speelt hij met gitaar en maakt hij pizza.

Optimaliseer de prijs-prestatieverhouding van LLM-inferentie op NVIDIA GPU's met behulp van de Amazon SageMaker-integratie met NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Harish Tummalacherla is Software Engineer bij het Deep Learning Performance-team bij SageMaker. Hij werkt aan prestatie-engineering voor het efficiënt bedienen van grote taalmodellen op SageMaker. In zijn vrije tijd houdt hij van hardlopen, fietsen en skiën.

Eliuth Triana Isaza is een Developer Relations Manager bij NVIDIA die Amazon's AI MLOps, DevOps, wetenschappers en technische experts van AWS in staat stelt de NVIDIA-computingstack onder de knie te krijgen voor het versnellen en optimaliseren van Genative AI Foundation-modellen, variërend van datacuratie, GPU-training, modelinferentie en productie-implementatie op AWS GPU-instanties . Daarnaast is Eliuth een gepassioneerd mountainbiker, skiër, tennis- en pokerspeler.

Jiahong Liu is Solution Architect in het Cloud Service Provider-team van NVIDIA. Hij helpt klanten bij het adopteren van machine learning en AI-oplossingen die gebruikmaken van NVIDIA Accelerated Computing om hun trainings- en inferentie-uitdagingen aan te pakken. In zijn vrije tijd houdt hij van origami, doe-het-zelfprojecten en basketbal.

Kshitiz Gupta is Solutions Architect bij NVIDIA. Hij vindt het leuk om cloudklanten te informeren over de GPU AI-technologieën die NVIDIA te bieden heeft en hen te helpen bij het versnellen van hun machine learning en deep learning-applicaties. Naast zijn werk houdt hij van hardlopen, wandelen en het spotten van dieren in het wild.