Optimoi LLM-päätelmän hinta-suorituskyky NVIDIA-grafiikkasuorittimissa käyttämällä Amazon SageMaker -integraatiota NVIDIA NIM -mikropalveluiden kanssa

Julkaissut Platon

seuraajia: 0

NVIDIA HIM m icro-palvelut integroi nyt kanssa Amazon Sage Maker, jonka avulla voit ottaa käyttöön alan johtavia suuria kielimalleja (LLM) ja optimoida mallin suorituskykyä ja kustannuksia. Voit ottaa käyttöön huippuluokan LLM:t muutamassa minuutissa päivien sijaan käyttämällä teknologioita, kuten NVIDIA TensorRT, NVIDIA TensorRT-LLMja NVIDIA Triton Inference Server SageMakerin isännöidyissä NVIDIA-kiihdytetyissä instansseissa.

NIM, osa NVIDIA AI Enterprise ohjelmistoalusta lueteltu AWS-markkinapaikka, on joukko päättelymikropalveluita, jotka tuovat huippuluokan LLM:ien tehon sovelluksiisi ja tarjoavat luonnollisen kielen käsittelyn (NLP) ja ymmärryksen ominaisuuksia, olitpa sitten kehittämässä chatbotteja, tiivistämässä asiakirjoja tai toteuttamassa muita NLP- sähkökäyttöisiä sovelluksia. Voit käyttää valmiita NVIDIA-säilöjä isännöimään suosittuja LLM:itä, jotka on optimoitu tietyille NVIDIA-grafiikkasuorittimille nopeaa käyttöönottoa varten, tai käyttää NIM-työkaluja omien säiliöiden luomiseen.

Tässä viestissä tarjoamme korkean tason johdannon NIM:iin ja näytämme, kuinka voit käyttää sitä SageMakerin kanssa.

Johdatus NVIDIA NIM:iin

NIM tarjoaa optimoituja ja esigeneroituja moottoreita useille suosituille malleille johtopäätösten tekemiseksi. Nämä mikropalvelut tukevat useita LLM-palveluita, kuten Llama 2 (7B, 13B ja 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona ja Code Llama 70B, valmiiksi käyttöön otettuna. rakennetut NVIDIA TensorRT -moottorit, jotka on räätälöity tietyille NVIDIA-grafiikkasuorittimille maksimaalisen suorituskyvyn ja käytön takaamiseksi. Näissä malleissa on optimaaliset hyperparametrit mallin isännöintisuorituskykyä varten, jotta sovellusten käyttöönotto on helppoa.

Jos mallisi ei ole NVIDIAn kuratoitujen mallien joukossa, NIM tarjoaa tärkeitä apuohjelmia, kuten Model Repo Generatorin, joka helpottaa TensorRT-LLM-kiihdytetyn moottorin ja NIM-muotoisen mallihakemiston luomista yksinkertaisen YAML-tiedoston avulla. Lisäksi vLLM:n integroitu yhteisön taustaohjelma tukee huippuluokan malleja ja uusia ominaisuuksia, joita ei ehkä ole integroitu saumattomasti TensorRT-LLM-optimoituun pinoon.

Sen lisäksi, että NIM luo optimoituja LLM:itä johtopäätöksiä varten, se tarjoaa kehittyneitä isännöintitekniikoita, kuten optimoituja aikataulutekniikoita, kuten lennon aikana tapahtuvaa eräajoa, jotka voivat hajottaa LLM:n tekstinmuodostusprosessin useisiin mallin iteraatioihin. Kun NIM-ajoaika on lennon aikana, sen sijaan, että odotettaisiin koko erän valmistumista ennen siirtymistä seuraavaan pyyntösarjaan, NIM-ajoaika häätää välittömästi valmiit sekvenssit erästä. Suoritusaika alkaa sitten suorittaa uusia pyyntöjä muiden pyyntöjen ollessa vielä kesken, mikä hyödyntää laskentaesiintymiäsi ja grafiikkasuorittimiasi parhaalla mahdollisella tavalla.

NIM:n käyttöönotto SageMakerissa

NIM integroituu SageMakeriin, jolloin voit isännöidä LLM:iäsi suorituskyvyn ja kustannusten optimoinnin avulla samalla, kun hyödyt SageMakerin ominaisuuksista. Kun käytät NIM:ää SageMakerissa, voit käyttää ominaisuuksia, kuten mallin isännöivien esiintymien määrän skaalaamista, sinisten/vihreiden käyttöönottojen suorittamista ja työkuormien arviointia varjotestauksen avulla – kaikki luokkansa parhaalla havainnolla ja seurannalla amazonin pilvikello.

Yhteenveto

NIM:n käyttäminen optimoitujen LLM:ien käyttöönotossa voi olla loistava vaihtoehto sekä suorituskyvyn että kustannusten kannalta. Se auttaa myös tekemään LLM:ien käyttöönotosta vaivatonta. Jatkossa NIM mahdollistaa myös Parameter-Efficient Fine-Tuning (PEFT) -muokkausmenetelmät, kuten LoRA- ja P-virityksen. NIM aikoo myös saada LLM-tuen tukemalla Triton Inference Server-, TensorRT-LLM- ja vLLM-taustaohjelmia.

Suosittelemme, että opit lisää NVIDIA-mikropalveluista ja kuinka otat LLM:t käyttöön SageMakerin avulla ja kokeile käytettävissäsi olevia etuja. NIM on saatavilla maksullisena tarjouksena osana NVIDIA AI Enterprise -ohjelmistotilausta saatavilla AWS Marketplacesta.

Julkaisemme lähitulevaisuudessa perusteellisen oppaan NIM:stä SageMakerissa.

Tietoja kirjoittajista

Optimoi LLM-päätelmän hinta-suorituskyky NVIDIA GPU:illa käyttämällä Amazon SageMaker -integraatiota NVIDIA NIM Microservices -palveluiden kanssa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. James Park on ratkaisuarkkitehti Amazon Web Servicesissä. Hän työskentelee Amazon.comin kanssa suunnitella, rakentaa ja ottaa käyttöön teknologiaratkaisuja AWS:ssä, ja hän on erityisen kiinnostunut tekoälystä ja koneoppimisesta. Vapaa-ajallaan hän etsii uusia kulttuureja, uusia kokemuksia ja pysyy ajan tasalla uusimpien teknologiatrendien kanssa. Löydät hänet osoitteessa LinkedIn.

Saurabh Trikande on Amazon SageMaker Inferencen -tuotepäällikkö. Hän on intohimoinen asiakkaiden kanssa työskentelyyn, ja häntä motivoi tavoite demokratisoida koneoppimista. Hän keskittyy ydinhaasteisiin, jotka liittyvät monimutkaisten ML-sovellusten käyttöönottoon, usean vuokralaisen ML-malleihin, kustannusten optimointiin ja syvän oppimismallien käyttöönoton helpottamiseen. Vapaa-ajallaan Saurabh nauttii vaelluksesta, innovatiivisten teknologioiden oppimisesta, TechCrunchia seuraamisesta ja perheen kanssa viettämisestä.

Optimoi LLM-päätelmän hinta-suorituskyky NVIDIA GPU:illa käyttämällä Amazon SageMaker -integraatiota NVIDIA NIM Microservices -palveluiden kanssa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. Qing Lan on ohjelmistokehitysinsinööri AWS:ssä. Hän on työskennellyt useiden haastavien tuotteiden parissa Amazonissa, mukaan lukien korkean suorituskyvyn ML-johtopäätösratkaisut ja korkean suorituskyvyn lokijärjestelmä. Qingin tiimi lanseerasi onnistuneesti ensimmäisen Billion-parametrin mallin Amazon Advertisingissä erittäin alhaisella latenssilla. Qingillä on syvällinen tietämys infrastruktuurin optimoinnista ja Deep Learning -kiihdytyksestä.

Nikhil Kulkarni on AWS-koneoppimisen ohjelmistokehittäjä, joka keskittyy koneoppimistyökuormien tehostamiseen pilvessä, ja on yksi AWS Deep Learning Containers -säilöjen luomisesta koulutusta ja päätelmiä varten. Hän on intohimoinen hajautettuihin Deep Learning Systems -järjestelmiin. Työn ulkopuolella hän lukee kirjoja, soittaa kitaraa ja tekee pizzaa.

Optimoi LLM-päätelmän hinta-suorituskyky NVIDIA GPU:illa käyttämällä Amazon SageMaker -integraatiota NVIDIA NIM Microservices -palveluiden kanssa | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. Harish Tummalacherla on SageMakerin ohjelmistosuunnittelija Deep Learning Performance -tiimillä. Hän työskentelee suorituskyvyn suunnittelussa palvellakseen tehokkaasti suuria kielimalleja SageMakerissa. Vapaa-ajallaan hän harrastaa juoksemista, pyöräilyä ja hiihtoa.

Eliuth Triana Isaza on NVIDIA:n kehittäjäsuhdepäällikkö, joka antaa Amazonin AI MLOpsille, DevOpsille, tutkijoille ja AWS:n teknisille asiantuntijoille mahdollisuuden hallita NVIDIA-laskentapinoa Generative AI Foundation -mallien nopeuttamiseksi ja optimoimiseksi, jotka kattavat tietojen kuroinnin, GPU-koulutuksen, mallin päättelyn ja tuotannon käyttöönoton AWS GPU -esiintymissä. . Lisäksi Eliuth on intohimoinen maastopyöräilijä, hiihtäjä, tennis- ja pokerinpelaaja.

Jiahong Liu on ratkaisuarkkitehti NVIDIA:n Cloud Service Provider -tiimissä. Hän auttaa asiakkaita ottamaan käyttöön koneoppimis- ja tekoälyratkaisuja, jotka hyödyntävät NVIDIA:n nopeutettua tietojenkäsittelyä vastaamaan heidän koulutus- ja päättelyhaasteisiinsa. Vapaa-ajallaan hän nauttii origamista, tee-se-itse-projekteista ja koripallon pelaamisesta.

Kshitiz Gupta on NVIDIA:n ratkaisuarkkitehti. Hän nauttii pilviasiakkaiden kouluttamisesta NVIDIAn tarjoamista GPU-AI-tekniikoista ja heidän avustamisestaan heidän koneoppimis- ja syväoppimissovellustensa nopeuttamisessa. Työn ulkopuolella hän nauttii juoksemisesta, patikoinnista ja villieläinten katselusta.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Aikaleima: Maaliskuussa 18, 2024

Aikaleima: Kesäkuu 15, 2022

Julkaissut Platon

Murtaudu kielimuurien läpi Amazon Transcriben, Amazon Translaten ja Amazon Pollyn avulla

Datakokemuksen uudistaminen: Käytä luovaa tekoälyä ja modernia dataarkkitehtuuria saadaksesi oivalluksia | Amazon Web Services

Tiimin ja käyttäjien hallinta Amazon SageMakerin ja AWS SSO:n avulla

Valmistele tietoja nopeammin PySpark- ja Altair-koodinpätkäillä Amazon SageMaker Data Wranglerissa

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili