Ottimizza il rapporto prezzo-prestazioni dell'inferenza LLM sulle GPU NVIDIA utilizzando l'integrazione di Amazon SageMaker con i microservizi NVIDIA NIM

Ripubblicato da Platone

Seguaci: 0

NVIDIA NIM m icroservizi ora integra con Amazon Sage Maker, consentendoti di implementare modelli LLM (Large Language Model) leader del settore e di ottimizzare le prestazioni e i costi del modello. Puoi implementare LLM all'avanguardia in pochi minuti invece che in giorni utilizzando tecnologie come NVIDIA TensorRT, NVIDIA TensorRT-LLMe Server di inferenza NVIDIA Triton su istanze accelerate NVIDIA ospitate da SageMaker.

NIM, parte del NVIDIA AI aziendale piattaforma software elencata su Mercato AWS, è un insieme di microservizi di inferenza che apportano la potenza dei LLM all'avanguardia alle tue applicazioni, fornendo funzionalità di elaborazione del linguaggio naturale (PNL) e di comprensione, sia che tu stia sviluppando chatbot, riepilogando documenti o implementando altri metodi di PNL. applicazioni alimentate. Puoi utilizzare contenitori NVIDIA precostruiti per ospitare LLM popolari ottimizzati per GPU NVIDIA specifiche per una distribuzione rapida oppure utilizzare strumenti NIM per creare i tuoi contenitori.

In questo post forniamo un'introduzione di alto livello al NIM e mostriamo come utilizzarlo con SageMaker.

Un'introduzione a NVIDIA NIM

NIM fornisce motori ottimizzati e pregenerati per una varietà di modelli popolari per l'inferenza. Questi microservizi supportano una varietà di LLM, come Llama 2 (7B, 13B e 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona e Code Llama 70B, immediatamente utilizzando pre- ha costruito motori NVIDIA TensorRT su misura per GPU NVIDIA specifiche per prestazioni e utilizzo massimi. Questi modelli sono curati con gli iperparametri ottimali per le prestazioni di hosting del modello per la distribuzione semplice delle applicazioni.

Se il tuo modello non è nel set di modelli curati di NVIDIA, NIM offre utilità essenziali come Model Repo Generator, che facilita la creazione di un motore accelerato TensorRT-LLM e una directory di modelli in formato NIM tramite un semplice file YAML. Inoltre, un backend comunitario integrato di vLLM fornisce supporto per modelli all'avanguardia e funzionalità emergenti che potrebbero non essere state perfettamente integrate nello stack ottimizzato per TensorRT-LLM.

Oltre a creare LLM ottimizzati per l'inferenza, NIM fornisce tecnologie di hosting avanzate come tecniche di pianificazione ottimizzate come il batching in volo, che possono suddividere il processo complessivo di generazione del testo per un LLM in più iterazioni sul modello. Con il batching in-flight, invece di attendere il completamento dell'intero batch prima di passare alla serie successiva di richieste, il runtime NIM elimina immediatamente le sequenze completate dal batch. Il runtime inizia quindi a eseguire nuove richieste mentre altre richieste sono ancora in corso, sfruttando al meglio le istanze di calcolo e le GPU.

Distribuzione di NIM su SageMaker

NIM si integra con SageMaker, consentendoti di ospitare i tuoi LLM con prestazioni e ottimizzazione dei costi, beneficiando al tempo stesso delle funzionalità di SageMaker. Quando utilizzi NIM su SageMaker, puoi sfruttare funzionalità come l'aumento del numero di istanze per ospitare il tuo modello, l'esecuzione di distribuzioni blu/verdi e la valutazione dei carichi di lavoro utilizzando il test shadow, il tutto con osservabilità e monitoraggio best-in-class con Amazon Cloud Watch.

Conclusione

L'utilizzo di NIM per distribuire LLM ottimizzati può rappresentare un'ottima opzione sia in termini di prestazioni che di costi. Aiuta anche a semplificare la distribuzione di LLM. In futuro, NIM consentirà anche metodi di personalizzazione PEFT (Parameter-Efficient Fine-Tuning) come LoRA e P-tuning. NIM prevede inoltre di avere il supporto LLM supportando i backend Triton Inference Server, TensorRT-LLM e vLLM.

Ti invitiamo a saperne di più sui microservizi NVIDIA e su come distribuire i tuoi LLM utilizzando SageMaker e a provare i vantaggi a tua disposizione. NIM è disponibile come offerta a pagamento come parte dell'abbonamento al software NVIDIA AI Enterprise disponibile su AWS Marketplace.

Nel prossimo futuro pubblicheremo una guida approfondita per NIM su SageMaker.

Circa gli autori

Ottimizza il rapporto prezzo-prestazioni dell'inferenza LLM sulle GPU NVIDIA utilizzando l'integrazione di Amazon SageMaker con i microservizi NVIDIA NIM | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. James Park è un architetto di soluzioni presso Amazon Web Services. Collabora con Amazon.com per progettare, creare e distribuire soluzioni tecnologiche su AWS e ha un interesse particolare per l'intelligenza artificiale e il machine learning. Nel tempo libero ama scoprire nuove culture, nuove esperienze e tenersi aggiornato sulle ultime tendenze tecnologiche. Lo puoi trovare su LinkedIn.

Saurabh Trikande è un Senior Product Manager per Amazon SageMaker Inference. È appassionato di lavorare con i clienti ed è motivato dall'obiettivo di democratizzare l'apprendimento automatico. Si concentra sulle sfide principali relative all'implementazione di applicazioni ML complesse, modelli ML multi-tenant, ottimizzazioni dei costi e rendere più accessibile l'implementazione di modelli di deep learning. Nel tempo libero, Saurabh ama fare escursioni, conoscere tecnologie innovative, seguire TechCrunch e trascorrere del tempo con la sua famiglia.

Ottimizza il rapporto prezzo-prestazioni dell'inferenza LLM sulle GPU NVIDIA utilizzando l'integrazione di Amazon SageMaker con i microservizi NVIDIA NIM | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Qing Lan è un ingegnere di sviluppo software in AWS. Ha lavorato su diversi prodotti impegnativi in Amazon, tra cui soluzioni di inferenza ML ad alte prestazioni e sistema di registrazione ad alte prestazioni. Il team di Qing ha lanciato con successo il primo modello di miliardi di parametri in Amazon Advertising con una latenza molto bassa richiesta. Qing ha una conoscenza approfondita dell'ottimizzazione dell'infrastruttura e dell'accelerazione del Deep Learning.

Nikhil Kulkarni è uno sviluppatore di software con AWS Machine Learning, che si concentra sul rendere i carichi di lavoro di machine learning più performanti sul cloud ed è un co-creatore di AWS Deep Learning Containers per la formazione e l'inferenza. È appassionato di Deep Learning Systems distribuiti. Al di fuori del lavoro, gli piace leggere libri, giocherellare con la chitarra e fare la pizza.

Ottimizza il rapporto prezzo-prestazioni dell'inferenza LLM sulle GPU NVIDIA utilizzando l'integrazione di Amazon SageMaker con i microservizi NVIDIA NIM | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Harish Tummalacherla è ingegnere del software con il team Deep Learning Performance presso SageMaker. Lavora sull'ingegneria delle prestazioni per servire in modo efficiente modelli linguistici di grandi dimensioni su SageMaker. Nel tempo libero gli piace correre, andare in bicicletta e fare sci alpinismo.

Eliuth Triana Isaza è un Developer Relations Manager presso NVIDIA che consente agli esperti MLOps, DevOps, scienziati ed AWS di AI di Amazon di padroneggiare lo stack di elaborazione NVIDIA per accelerare e ottimizzare i modelli Generative AI Foundation che spaziano dalla cura dei dati, alla formazione su GPU, all'inferenza di modelli e alla distribuzione di produzione su istanze GPU di AWS . Inoltre, Eliuth è un appassionato ciclista di mountain bike, sciatore, tennis e giocatore di poker.

Jiahong Liu è un Solution Architect nel team di Cloud Service Provider di NVIDIA. Assiste i clienti nell'adozione di soluzioni di apprendimento automatico e intelligenza artificiale che sfruttano l'informatica accelerata NVIDIA per affrontare le loro sfide di formazione e inferenza. Nel tempo libero ama gli origami, i progetti fai-da-te e gioca a basket.

Kshitiz Gupta è un architetto di soluzioni presso NVIDIA. Gli piace educare i clienti del cloud sulle tecnologie di intelligenza artificiale GPU che NVIDIA ha da offrire e assisterli nell'accelerazione delle loro applicazioni di machine learning e deep learning. Al di fuori del lavoro, gli piace correre, fare escursioni e osservare la fauna selvatica.