Optimer pris-ydelse af LLM-slutning om NVIDIA GPU'er ved hjælp af Amazon SageMaker-integration med NVIDIA NIM Microservices | Amazon Web Services

Optimer pris-ydelse af LLM-slutning om NVIDIA GPU'er ved hjælp af Amazon SageMaker-integration med NVIDIA NIM Microservices | Amazon Web Services

NVIDIA Hej M microservices nu integreres med Amazon SageMaker, hvilket giver dig mulighed for at implementere brancheførende store sprogmodeller (LLM'er) og optimere modellens ydeevne og omkostninger. Du kan implementere state-of-the-art LLM'er på få minutter i stedet for dage ved hjælp af teknologier som f.eks NVIDIA TensorRT, NVIDIA TensorRT-LLMog NVIDIA Triton Inference Server på NVIDIA accelererede instanser hostet af SageMaker.

NIM, en del af NVIDIA AI Enterprise softwareplatform opført på AWS markedsplads, er et sæt slutningsmikrotjenester, der bringer kraften fra avancerede LLM'er til dine applikationer, som giver naturlig sprogbehandling (NLP) og forståelsesmuligheder, uanset om du udvikler chatbots, opsummerer dokumenter eller implementerer andre NLP- drevne applikationer. Du kan bruge forudbyggede NVIDIA-containere til at hoste populære LLM'er, der er optimeret til specifikke NVIDIA GPU'er til hurtig implementering eller bruge NIM-værktøjer til at oprette dine egne containere.

I dette indlæg giver vi en introduktion på højt niveau til NIM og viser, hvordan du kan bruge det med SageMaker.

En introduktion til NVIDIA NIM

NIM leverer optimerede og prægenererede motorer til en række populære modeller til slutning. Disse mikrotjenester understøtter en række LLM'er, såsom Llama 2 (7B, 13B og 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona og Code Llama 70B, ud af æsken ved hjælp af præ- bygget NVIDIA TensorRT-motorer skræddersyet til specifikke NVIDIA GPU'er for maksimal ydeevne og udnyttelse. Disse modeller er kurateret med de optimale hyperparametre for model-hosting-ydeevne for let implementering af applikationer.

Hvis din model ikke er i NVIDIAs sæt af kuraterede modeller, tilbyder NIM vigtige værktøjer såsom Model Repo Generator, som letter oprettelsen af ​​en TensorRT-LLM-accelereret motor og en NIM-format modelmappe gennem en ligetil YAML-fil. Ydermere giver en integreret community-backend af vLLM understøttelse af banebrydende modeller og nye funktioner, der muligvis ikke er blevet integreret problemfrit i den TensorRT-LLM-optimerede stak.

Ud over at skabe optimerede LLM'er til slutninger, leverer NIM avancerede hostingteknologier såsom optimerede planlægningsteknikker som batching under flyvning, som kan nedbryde den overordnede tekstgenereringsproces for en LLM i flere iterationer på modellen. Med batching under flyvningen, i stedet for at vente på, at hele batchen er færdig, før du går videre til næste sæt anmodninger, fjerner NIM-runtiden øjeblikkeligt færdige sekvenser fra batchen. Kørselstiden begynder derefter at køre nye anmodninger, mens andre anmodninger stadig er i gang, hvilket gør den bedste brug af dine computerforekomster og GPU'er.

Implementering af NIM på SageMaker

NIM integreres med SageMaker, så du kan hoste dine LLM'er med ydeevne og omkostningsoptimering, mens du drager fordel af SageMakers muligheder. Når du bruger NIM på SageMaker, kan du bruge funktioner såsom at udskalere antallet af forekomster til at hoste din model, udføre blå/grønne implementeringer og evaluere arbejdsbelastninger ved hjælp af skyggetest – alt sammen med klassens bedste observerbarhed og overvågning med amazoncloudwatch.

Konklusion

Brug af NIM til at implementere optimerede LLM'er kan være en god mulighed for både ydeevne og omkostninger. Det hjælper også med at gøre implementeringen af ​​LLM'er ubesværet. I fremtiden vil NIM også give mulighed for Parameter-Efficient Fine-Tuning (PEFT) tilpasningsmetoder som LoRA og P-tuning. NIM planlægger også at have LLM-understøttelse ved at understøtte Triton Inference Server, TensorRT-LLM og vLLM-backends.

Vi opfordrer dig til at lære mere om NVIDIA-mikrotjenester og hvordan du implementerer dine LLM'er ved hjælp af SageMaker og afprøve de fordele, der er tilgængelige for dig. NIM er tilgængelig som et betalt tilbud som en del af NVIDIA AI Enterprise-softwareabonnementet tilgængelig på AWS Marketplace.

I den nærmeste fremtid vil vi lægge en dybdegående guide til NIM på SageMaker.


Om forfatterne

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.James Park er Solutions Architect hos Amazon Web Services. Han arbejder sammen med Amazon.com om at designe, bygge og implementere teknologiløsninger på AWS og har en særlig interesse for kunstig intelligens og maskinlæring. I fritiden nyder han at opsøge nye kulturer, nye oplevelser og holde sig ajour med de nyeste teknologitrends. Du kan finde ham på LinkedIn.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Saurabh Trikande er Senior Product Manager for Amazon SageMaker Inference. Han brænder for at arbejde med kunder og er motiveret af målet om at demokratisere machine learning. Han fokuserer på kerneudfordringer relateret til implementering af komplekse ML-applikationer, multi-tenant ML-modeller, omkostningsoptimeringer og at gøre implementering af deep learning-modeller mere tilgængelig. I sin fritid nyder Saurabh at vandre, lære om innovative teknologier, følge TechCrunch og tilbringe tid med sin familie.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Qing Lan er softwareudviklingsingeniør i AWS. Han har arbejdet på adskillige udfordrende produkter i Amazon, herunder højtydende ML-inferensløsninger og højtydende logningssystem. Qings team lancerede med succes den første Billion-parameter model i Amazon Advertising med meget lav forsinkelse påkrævet. Qing har indgående viden om infrastrukturoptimering og Deep Learning acceleration.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Nikhil Kulkarni er en softwareudvikler med AWS Machine Learning, der fokuserer på at gøre maskinlæringsarbejdsbelastninger mere effektive i skyen, og er medskaber af AWS Deep Learning Containers til træning og inferens. Han brænder for distribuerede Deep Learning-systemer. Uden for arbejdet nyder han at læse bøger, pille ved guitaren og lave pizza.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Harish Tummalacherla er softwareingeniør med Deep Learning Performance-teamet hos SageMaker. Han arbejder på performance engineering for at betjene store sprogmodeller effektivt på SageMaker. I sin fritid nyder han at løbe, cykle og stå på ski.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Eliuth Triana Isaza er en Developer Relations Manager hos NVIDIA, der giver Amazons AI MLOps, DevOps, Scientists og AWS tekniske eksperter mulighed for at mestre NVIDIA-computerstakken til at accelerere og optimere Generative AI Foundation-modeller, der spænder fra datakuration, GPU-træning, modelslutning og produktionsimplementering på AWS GPU-instanser . Derudover er Eliuth en passioneret mountainbiker, skiløber, tennis- og pokerspiller.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Jiahong Liu er løsningsarkitekt på Cloud Service Provider-teamet hos NVIDIA. Han hjælper kunder med at anvende machine learning og AI-løsninger, der udnytter NVIDIA accelereret computing til at løse deres trænings- og inferensudfordringer. I sin fritid nyder han origami, gør-det-selv-projekter og at spille basketball.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Kshitiz Gupta er Solutions Architect hos NVIDIA. Han nyder at uddanne cloud-kunder om de GPU AI-teknologier, NVIDIA har at tilbyde, og at hjælpe dem med at accelerere deres maskinlærings- og deep learning-applikationer. Uden for arbejdet nyder han at løbe, vandre og se på dyrelivet.

Tidsstempel:

Mere fra AWS maskinindlæring