Optimaliser prisytelse for LLM-inferens på NVIDIA GPUer ved å bruke Amazon SageMaker-integrasjonen med NVIDIA NIM Microservices

Publisert av Platon

Følgere: 0

NVIDIA HIM m icrotjenester nå integreres med Amazon SageMaker, slik at du kan distribuere bransjeledende store språkmodeller (LLM) og optimalisere modellytelse og kostnad. Du kan distribuere state-of-the-art LLM-er på minutter i stedet for dager ved å bruke teknologier som f.eks NVIDIA TensorRT, NVIDIA TensorRT-LLMog NVIDIA Triton Inference Server på NVIDIA-akselererte forekomster hostet av SageMaker.

NIM, en del av NVIDIA AI Enterprise programvareplattform oppført på AWS markedsplass, er et sett med slutningsmikrotjenester som bringer kraften til toppmoderne LLM-er til applikasjonene dine, og gir naturlig språkbehandling (NLP) og forståelsesmuligheter, enten du utvikler chatboter, oppsummerer dokumenter eller implementerer andre NLP- drevne applikasjoner. Du kan bruke forhåndsbygde NVIDIA-beholdere til å være vert for populære LLM-er som er optimalisert for spesifikke NVIDIA-GPU-er for rask distribusjon, eller bruke NIM-verktøy for å lage dine egne beholdere.

I dette innlegget gir vi en introduksjon på høyt nivå til NIM og viser hvordan du kan bruke det med SageMaker.

En introduksjon til NVIDIA NIM

NIM tilbyr optimaliserte og forhåndsgenererte motorer for en rekke populære modeller for slutninger. Disse mikrotjenestene støtter en rekke LLM-er, som Llama 2 (7B, 13B og 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona og Code Llama 70B, ut av esken ved hjelp av pre- bygde NVIDIA TensorRT-motorer skreddersydd for spesifikke NVIDIA GPUer for maksimal ytelse og utnyttelse. Disse modellene er kuratert med de optimale hyperparametrene for modellvertytelse for enkel distribusjon av applikasjoner.

Hvis modellen din ikke er i NVIDIAs sett med kurerte modeller, tilbyr NIM essensielle verktøy som Model Repo Generator, som gjør det lettere å lage en TensorRT-LLM-akselerert motor og en modellkatalog i NIM-format gjennom en enkel YAML-fil. Videre gir en integrert fellesskapsbackend av vLLM støtte for banebrytende modeller og nye funksjoner som kanskje ikke har blitt sømløst integrert i den TensorRT-LLM-optimaliserte stabelen.

I tillegg til å lage optimaliserte LLM-er for inferens, tilbyr NIM avanserte vertsteknologier som optimaliserte planleggingsteknikker som batching under fly, som kan bryte ned den generelle tekstgenereringsprosessen for en LLM i flere iterasjoner på modellen. Med batching under flyging, i stedet for å vente på at hele batchen er ferdig før du går videre til neste sett med forespørsler, fjerner NIM-kjøringen umiddelbart ferdige sekvenser fra batchen. Kjøretiden begynner deretter å kjøre nye forespørsler mens andre forespørsler fortsatt er under flyt, og utnytter dataforekomstene og GPU-ene på best mulig måte.

Distribuerer NIM på SageMaker

NIM integreres med SageMaker, slik at du kan være vert for LLM-ene dine med ytelse og kostnadsoptimalisering mens du drar nytte av egenskapene til SageMaker. Når du bruker NIM på SageMaker, kan du bruke funksjoner som å skalere ut antall forekomster for å være vert for modellen din, utføre blå/grønne distribusjoner og evaluere arbeidsbelastninger ved hjelp av skyggetesting – alt med klassens beste observerbarhet og overvåking med Amazon CloudWatch.

konklusjonen

Å bruke NIM til å distribuere optimaliserte LLM-er kan være et flott alternativ for både ytelse og kostnad. Det bidrar også til å gjøre distribusjon av LLM-er uanstrengt. I fremtiden vil NIM også tillate Parameter-Efficient Fine-Tuning (PEFT) tilpasningsmetoder som LoRA og P-tuning. NIM planlegger også å ha LLM-støtte ved å støtte Triton Inference Server, TensorRT-LLM og vLLM backends.

Vi oppfordrer deg til å lære mer om NVIDIAs mikrotjenester og hvordan du distribuerer LLM-ene dine ved å bruke SageMaker og prøve ut fordelene som er tilgjengelige for deg. NIM er tilgjengelig som et betalt tilbud som en del av NVIDIA AI Enterprise-programvareabonnementet tilgjengelig på AWS Marketplace.

I nær fremtid vil vi legge ut en utdypende guide for NIM på SageMaker.

Om forfatterne

Optimaliser pris-ytelse av LLM-slutning på NVIDIA GPUer ved å bruke Amazon SageMaker-integrasjonen med NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. James Park er løsningsarkitekt hos Amazon Web Services. Han jobber med Amazon.com for å designe, bygge og distribuere teknologiløsninger på AWS, og har en spesiell interesse for AI og maskinlæring. På fritiden liker han å oppsøke nye kulturer, nye opplevelser og holde seg oppdatert med de nyeste teknologitrendene. Du finner ham på Linkedin.

Saurabh Trikande er senior produktsjef for Amazon SageMaker Inference. Han brenner for å jobbe med kunder og er motivert av målet om å demokratisere maskinlæring. Han fokuserer på kjerneutfordringer knyttet til distribusjon av komplekse ML-applikasjoner, multi-tenant ML-modeller, kostnadsoptimaliseringer og å gjøre distribusjon av dyplæringsmodeller mer tilgjengelig. På fritiden liker Saurabh å gå tur, lære om innovative teknologier, følge TechCrunch og tilbringe tid med familien.

Optimaliser pris-ytelse av LLM-slutning på NVIDIA GPUer ved å bruke Amazon SageMaker-integrasjonen med NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Qing Lan er en programvareutviklingsingeniør i AWS. Han har jobbet med flere utfordrende produkter i Amazon, inkludert høyytelses ML-slutningsløsninger og høyytelses loggingssystem. Qings team lanserte den første milliardparametermodellen i Amazon Advertising med svært lav ventetid. Qing har inngående kunnskap om infrastrukturoptimalisering og Deep Learning-akselerasjon.

Nikhil Kulkarni er en programvareutvikler med AWS Machine Learning, med fokus på å gjøre maskinlæringsarbeidsmengder mer effektive på skyen, og er medskaper av AWS Deep Learning Containers for opplæring og slutninger. Han brenner for distribuerte Deep Learning-systemer. Utenom jobben liker han å lese bøker, fikle med gitaren og lage pizza.

Optimaliser pris-ytelse av LLM-slutning på NVIDIA GPUer ved å bruke Amazon SageMaker-integrasjonen med NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Harish Tummalacherla er programvareingeniør med Deep Learning Performance-teamet hos SageMaker. Han jobber med ytelsesteknikk for å betjene store språkmodeller effektivt på SageMaker. På fritiden liker han å løpe, sykle og stå på ski.

Eliuth Triana Isaza er en Developer Relations Manager hos NVIDIA som gir Amazons AI MLOps, DevOps, Scientists og AWS tekniske eksperter mulighet til å mestre NVIDIA-datamaskinstakken for å akselerere og optimalisere Generative AI Foundation-modeller som spenner fra datakurering, GPU-opplæring, modellslutning og produksjonsdistribusjon på AWS GPU-forekomster . I tillegg er Eliuth en lidenskapelig terrengsyklist, skiløper, tennis- og pokerspiller.

Jiahong Liu er løsningsarkitekt i Cloud Service Provider-teamet hos NVIDIA. Han hjelper klienter med å ta i bruk maskinlæring og AI-løsninger som utnytter NVIDIA-akselerert databehandling for å møte deres trenings- og slutningsutfordringer. På fritiden liker han origami, DIY-prosjekter og å spille basketball.

Kshitiz Gupta er løsningsarkitekt hos NVIDIA. Han liker å utdanne skykunder om GPU AI-teknologiene NVIDIA har å tilby og hjelpe dem med å akselerere maskinlærings- og dyplæringsapplikasjonene deres. Utenom jobben liker han å løpe, gå på fotturer og se på dyrelivet.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Tidstempel: Mars 18, 2024

Tidstempel: Juni 15, 2022

Publisert av Platon

Bryt gjennom språkbarrierer med Amazon Transcribe, Amazon Translate og Amazon Polly

Gjenoppfinne dataopplevelsen: Bruk generativ AI og moderne dataarkitektur for å låse opp innsikt | Amazon Web Services

Team- og brukeradministrasjon med Amazon SageMaker og AWS SSO

Forbered data raskere med PySpark og Altair-kodebiter i Amazon SageMaker Data Wrangler

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn