Optimizați performanța preț-performanță a inferenței LLM pe GPU-urile NVIDIA utilizând integrarea Amazon SageMaker cu microservicii NVIDIA NIM | Amazon Web Services

Optimizați performanța preț-performanță a inferenței LLM pe GPU-urile NVIDIA utilizând integrarea Amazon SageMaker cu microservicii NVIDIA NIM | Amazon Web Services

NVIDIA NIM microservicii acum se integrează cu Amazon SageMaker, permițându-vă să implementați modele de limbaj mari (LLM) de vârf în industrie și să optimizați performanța și costul modelului. Puteți implementa LLM-uri de ultimă generație în câteva minute în loc de zile folosind tehnologii precum NVIDIA TensorRT, NVIDIA TensorRT-LLM, și NVIDIA Triton Inference Server pe instanțele accelerate NVIDIA găzduite de SageMaker.

NIM, parte a NVIDIA AI Enterprise platforma software listată pe Piața AWS, este un set de microservicii de inferență care aduc aplicațiile dvs. puterea LLM-urilor de ultimă generație, oferind capabilități de procesare a limbajului natural (NLP) și înțelegere, indiferent dacă dezvoltați chatbot-uri, rezumați documente sau implementați alte NLP- aplicații alimentate. Puteți folosi containere NVIDIA preconstruite pentru a găzdui LLM-uri populare care sunt optimizate pentru anumite GPU-uri NVIDIA pentru implementare rapidă sau puteți utiliza instrumente NIM pentru a vă crea propriile containere.

În această postare, oferim o introducere la nivel înalt despre NIM și arătăm cum îl puteți utiliza cu SageMaker.

O introducere în NVIDIA NIM

NIM oferă motoare optimizate și pregenerate pentru o varietate de modele populare pentru inferență. Aceste microservicii acceptă o varietate de LLM-uri, cum ar fi Llama 2 (7B, 13B și 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona și Code Llama 70B, din cutie folosind pre- a construit motoare NVIDIA TensorRT adaptate pentru anumite GPU-uri NVIDIA pentru performanță și utilizare maximă. Aceste modele sunt organizate cu hiperparametrii optimi pentru performanța de găzduire a modelelor pentru implementarea cu ușurință a aplicațiilor.

Dacă modelul dvs. nu se află în setul de modele organizate de NVIDIA, NIM oferă utilități esențiale, cum ar fi Model Repo Generator, care facilitează crearea unui motor accelerat de TensorRT-LLM și a unui director de modele în format NIM printr-un fișier YAML simplu. În plus, un backend comunitar integrat al vLLM oferă suport pentru modele de ultimă oră și caracteristici emergente care este posibil să nu fi fost integrate perfect în stiva optimizată pentru TensorRT-LLM.

Pe lângă crearea de LLM-uri optimizate pentru inferență, NIM oferă tehnologii avansate de găzduire, cum ar fi tehnici de programare optimizate, cum ar fi loturile în timpul zborului, care pot descompune procesul general de generare a textului pentru un LLM în mai multe iterații ale modelului. Cu lotul în timpul zborului, în loc să așteptați ca întregul lot să se termine înainte de a trece la următorul set de solicitări, timpul de execuție NIM scoate imediat secvențele terminate din lot. Timpul de execuție începe apoi să ruleze solicitări noi în timp ce alte solicitări sunt încă în curs de desfășurare, valorificând cel mai bine instanțele de calcul și GPU-urile.

Implementarea NIM pe SageMaker

NIM se integrează cu SageMaker, permițându-vă să vă găzduiți LLM-urile cu performanță și optimizare a costurilor, beneficiind în același timp de capacitățile SageMaker. Când utilizați NIM pe SageMaker, puteți utiliza capabilități precum extinderea numărului de instanțe pentru a găzdui modelul dvs., efectuarea de implementări albastru/verde și evaluarea sarcinilor de lucru utilizând testarea umbră - toate cu cea mai bună observabilitate și monitorizare din clasă. Amazon CloudWatch.

Concluzie

Utilizarea NIM pentru a implementa LLM-uri optimizate poate fi o opțiune excelentă atât pentru performanță, cât și pentru cost. De asemenea, ajută la implementarea LLM-urilor fără efort. În viitor, NIM va permite, de asemenea, metode de personalizare de reglare fină eficientă a parametrilor (PEFT) precum LoRA și P-tuning. NIM intenționează, de asemenea, să aibă suport LLM prin suportul Triton Inference Server, TensorRT-LLM și backend-urile vLLM.

Vă încurajăm să aflați mai multe despre microservicii NVIDIA și despre cum să vă implementați LLM-urile folosind SageMaker și să încercați beneficiile disponibile pentru dvs. NIM este disponibil ca ofertă plătită ca parte a abonamentului software NVIDIA AI Enterprise disponibil pe AWS Marketplace.

În viitorul apropiat, vom posta un ghid aprofundat pentru NIM pe SageMaker.


Despre autori

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.James Park este arhitect de soluții la Amazon Web Services. El lucrează cu Amazon.com pentru a proiecta, construi și implementa soluții tehnologice pe AWS și are un interes deosebit pentru AI și învățarea automată. În timpul liber, îi place să caute noi culturi, experiențe noi și să fie la curent cu cele mai recente tendințe tehnologice. Îl puteți găsi pe LinkedIn.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Saurabh Trikande este Senior Product Manager pentru Amazon SageMaker Inference. Este pasionat de lucrul cu clienții și este motivat de obiectivul democratizării învățării automate. El se concentrează pe provocările de bază legate de implementarea de aplicații ML complexe, modele ML multi-locatari, optimizări ale costurilor și de a face implementarea modelelor de învățare profundă mai accesibilă. În timpul liber, lui Saurabh îi place să facă drumeții, să învețe despre tehnologii inovatoare, să urmeze TechCrunch și să petreacă timpul cu familia sa.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Qing Lan este inginer de dezvoltare software în AWS. El a lucrat la mai multe produse provocatoare în Amazon, inclusiv soluții de inferență ML de înaltă performanță și un sistem de înregistrare de înaltă performanță. Echipa Qing a lansat cu succes primul model cu miliard de parametri în Amazon Advertising, cu o latență foarte scăzută necesară. Qing are cunoștințe aprofundate despre optimizarea infrastructurii și accelerarea Deep Learning.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Nikhil Kulkarni este un dezvoltator de software cu AWS Machine Learning, concentrându-se pe a face sarcinile de lucru de învățare automată mai performante pe cloud și este co-creator al AWS Deep Learning Containers pentru instruire și inferență. Este pasionat de sistemele de Deep Learning distribuite. În afara serviciului, îi place să citească cărți, să se joace cu chitara și să facă pizza.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Harish Tummalacherla este inginer software cu echipa Deep Learning Performance la SageMaker. Lucrează la inginerie de performanță pentru a servi eficient modele de limbaj mari pe SageMaker. În timpul liber, îi place alergarea, ciclismul și schi alpinism.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Eliuth Triana Isaza este manager de relații cu dezvoltatori la NVIDIA, împuternicește AI MLOps, DevOps, oamenii de știință și experții tehnici AWS de la Amazon să stăpânească stiva de calcul NVIDIA pentru accelerarea și optimizarea modelelor Generative AI Foundation, de la curatarea datelor, instruirea GPU, inferența modelului și implementarea producției pe instanțele GPU AWS . În plus, Eliuth este un pasionat de ciclism montan, schior, tenis și poker.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Jiahong Liu este arhitect de soluții în echipa de furnizori de servicii cloud de la NVIDIA. El ajută clienții să adopte soluții de învățare automată și inteligență artificială care folosesc calcularea accelerată NVIDIA pentru a-și aborda provocările de formare și inferență. În timpul liber, îi place origami, proiecte de bricolaj și joacă baschet.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Kshitiz Gupta este arhitect de soluții la NVIDIA. Îi face plăcere să educe clienții din cloud despre tehnologiile GPU AI pe care le oferă NVIDIA și să-i ajute să-și accelereze învățarea automată și aplicațiile de deep learning. În afara serviciului, îi place să alerge, să facă drumeții și să urmărească fauna sălbatică.

Timestamp-ul:

Mai mult de la Învățare automată AWS