LLM-i järelduste hinna-jõudluse optimeerimine NVIDIA GPU-del, kasutades Amazon SageMakeri integratsiooni NVIDIA NIM-i mikroteenustega

Taasavaldanud Platon

järgijaid: 0

NVIDIA Tema m icroservices nüüd integreerida Amazon SageMaker, mis võimaldab teil juurutada valdkonna juhtivaid suuri keelemudeleid (LLM) ning optimeerida mudeli jõudlust ja kulusid. Nüüdisaegseid LLM-e saate juurutada päevade asemel minutitega, kasutades selliseid tehnoloogiaid nagu NVIDIA TensorRT, NVIDIA TensorRT-LLMja NVIDIA Tritoni järeldusserver SageMakeri hostitud NVIDIA kiirendatud eksemplaridel.

NIM, osa NVIDIA AI Enterprise loetletud tarkvaraplatvormil AWS-i turg, on järelduste mikroteenuste komplekt, mis toovad teie rakendustesse tipptasemel LLM-ide võimsuse, pakkudes loomuliku keele töötlemise (NLP) ja mõistmisvõimalusi, olenemata sellest, kas arendate vestlusroboteid, koostate dokumente kokkuvõtteid või rakendate muid NLP-sid. toitega rakendused. Saate kasutada eelehitatud NVIDIA konteinereid populaarsete LLM-ide majutamiseks, mis on kiireks juurutamiseks optimeeritud konkreetsete NVIDIA GPU-de jaoks, või kasutada NIM-i tööriistu oma konteinerite loomiseks.

Selles postituses tutvustame NIM-i kõrgel tasemel ja näitame, kuidas saate seda SageMakeriga kasutada.

Sissejuhatus NVIDIA NIM-i

NIM pakub optimeeritud ja eelgenereeritud mootoreid mitmesuguste populaarsete mudelite jaoks järelduste tegemiseks. Need mikroteenused toetavad mitmesuguseid LLM-e, nagu Llama 2 (7B, 13B ja 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona ja Code Llama 70B, kasutades eelseadet. ehitatud NVIDIA TensorRT mootorid, mis on kohandatud konkreetsete NVIDIA GPU-de jaoks, et tagada maksimaalne jõudlus ja kasutamine. Need mudelid on kureeritud optimaalsete hüperparameetritega, mis tagavad mudeli hostimise jõudluse ja rakenduste hõlpsaks juurutamiseks.

Kui teie mudelit NVIDIA kureeritud mudelite komplektis ei ole, pakub NIM olulisi utiliite, nagu Model Repo Generator, mis hõlbustab TensorRT-LLM-kiirendusega mootori ja NIM-vormingus mudelikataloogi loomist lihtsa YAML-faili kaudu. Lisaks pakub vLLM-i integreeritud kogukonna taustaprogramm tuge tipptasemel mudelitele ja uutele funktsioonidele, mis ei pruugi olla TensorRT-LLM-i optimeeritud virnaga sujuvalt integreeritud.

Lisaks optimeeritud LLM-ide loomisele järelduste tegemiseks pakub NIM täiustatud hostimistehnoloogiaid, nagu optimeeritud ajastamise tehnikad, nagu näiteks lennu ajal komplekteerimine, mis võib jagada LLM-i teksti genereerimise protsessi mitmeks mudeli iteratsiooniks. Lennu ajal komplekteerimisel, selle asemel, et oodata, kuni kogu partii lõpetab enne järgmise päringukomplekti juurde liikumist, tõstab NIM-i käituskeskkond valmis jadad komplektist kohe välja. Seejärel hakkab käitusaeg uusi päringuid käitama, samal ajal kui teised päringud on veel pooleli, kasutades teie arvutusjuhte ja GPU-sid parimal viisil ära.

NIM-i juurutamine SageMakeris

NIM integreerub SageMakeriga, võimaldades teil oma LLM-e majutada koos jõudluse ja kulude optimeerimisega, saades samas kasu SageMakeri võimalustest. Kui kasutate SageMakeris NIM-i, saate kasutada selliseid võimalusi nagu mudeli hostimise eksemplaride arvu skaleerimine, sinise/rohelise juurutamise teostamine ja töökoormuse hindamine varitestimise abil – kõik koos oma klassi parima jälgitavuse ja jälgimisega Amazon CloudWatch.

Järeldus

NIM-i kasutamine optimeeritud LLM-ide juurutamiseks võib olla suurepärane võimalus nii jõudluse kui ka kulude osas. Samuti aitab see muuta LLM-ide juurutamise lihtsaks. Tulevikus võimaldab NIM ka parameetrite tõhusa peenhäälestuse (PEFT) kohandamismeetodeid, nagu LoRA ja P-häälestus. NIM plaanib omada ka LLM-i tuge, toetades Triton Inference Serveri, TensorRT-LLM-i ja vLLM-i taustaprogramme.

Soovitame teil õppida lisateavet NVIDIA mikroteenuste ja SageMakeri abil LLM-ide juurutamise kohta ning proovida teile saadaolevaid eeliseid. NIM on saadaval tasulise pakkumisena NVIDIA AI Enterprise'i tarkvara tellimuse osana saadaval AWS Marketplace'is.

Lähitulevikus postitame SageMakerisse NIM-i põhjaliku juhendi.

Autoritest

LLM-i järelduste hinna ja kvaliteedi optimeerimine NVIDIA GPU-del, kasutades Amazon SageMakeri integratsiooni NVIDIA NIM-i mikroteenustega | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Jamesi park on Amazon Web Servicesi lahenduste arhitekt. Ta teeb koostööd Amazon.com-iga, et kavandada, ehitada ja juurutada AWS-is tehnoloogilised lahendused ning ta on eriti huvitatud AI-st ja masinõppest. Vabal ajal meeldib talle otsida uusi kultuure, uusi kogemusi ja olla kursis uusimate tehnoloogiatrendidega. Leiate ta aadressilt LinkedIn.

Saurabh Trikande on Amazon SageMaker Inference'i vanemtootejuht. Ta on kirglik töö klientidega ja teda motiveerib eesmärk demokratiseerida masinõpe. Ta keskendub põhiprobleemidele, mis on seotud keeruliste ML-rakenduste, mitme rentniku ML-mudelite, kulude optimeerimise ja süvaõppemudelite juurutamise kättesaadavamaks muutmisega. Vabal ajal naudib Saurabh matkamist, uuenduslike tehnoloogiate õppimist, TechCrunchi jälgimist ja perega aega veetmist.

LLM-i järelduste hinna ja kvaliteedi optimeerimine NVIDIA GPU-del, kasutades Amazon SageMakeri integratsiooni NVIDIA NIM-i mikroteenustega | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Qing Lan on AWS-i tarkvaraarenduse insener. Ta on Amazonis töötanud mitmete väljakutset pakkuvate toodetega, sealhulgas suure jõudlusega ML järelduslahenduste ja suure jõudlusega logimissüsteemiga. Qingi meeskond käivitas Amazon Advertisingis edukalt esimese miljardi parameetriga mudeli, mille latentsusaeg on väga väike. Qingil on põhjalikud teadmised infrastruktuuri optimeerimise ja süvaõppe kiirendamise kohta.

Nikhil Kulkarni on AWS-i masinõppega tarkvaraarendaja, kes keskendub masinõppe töökoormuse muutmisele pilves, ning on AWS-i süvaõppekonteinerite kaaslooja koolituse ja järelduste tegemiseks. Ta on kirglik hajutatud süvaõppesüsteemide vastu. Töövälisel ajal meeldib talle raamatuid lugeda, kitarri kallal askeldada ja pitsat valmistada.

LLM-i järelduste hinna ja kvaliteedi optimeerimine NVIDIA GPU-del, kasutades Amazon SageMakeri integratsiooni NVIDIA NIM-i mikroteenustega | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Harish Tummalacherla on tarkvarainsener koos SageMakeri sügava õppimisvõime meeskonnaga. Ta töötab jõudlustehnoloogia alal, et teenindada SageMakeris tõhusalt suuri keelemudeleid. Vabal ajal meeldib talle joosta, rattaga sõita ja suusatada mägironimist.

Eliuth Triana Isaza on NVIDIA arendajasuhete juht, andes Amazoni AI MLOps-idele, DevOps-idele, teadlastele ja AWS-i tehnilistele ekspertidele võimaluse hallata NVIDIA andmetöötluspinu, et kiirendada ja optimeerida generatiivse AI Foundationi mudeleid, mis hõlmavad andmete kureerimist, GPU koolitust, mudeli järeldusi ja tootmise juurutamist AWS-i GPU eksemplaridel. . Lisaks on Eliuth kirglik maastikurattur, suusataja, tennise- ja pokkerimängija.

Jiahong Liu on lahenduse arhitekt NVIDIA pilveteenuse pakkuja meeskonnas. Ta abistab kliente masinõppe ja AI-lahenduste kasutuselevõtul, mis võimendavad NVIDIA kiirendatud andmetöötlust, et lahendada nende koolitus- ja järeldusprobleemid. Vabal ajal naudib ta origamit, isetegemisprojekte ja korvpalli mängimist.

Kshitiz Gupta on NVIDIA lahenduste arhitekt. Talle meeldib õpetada pilve kliente NVIDIA pakutavate GPU AI tehnoloogiate kohta ning aidata neil kiirendada masinõppe ja süvaõppe rakendusi. Väljaspool tööd naudib ta jooksmist, matkamist ja metsloomade jälgimist.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Ajatempel: Märtsil 18, 2024

Ajatempel: Juuni 15, 2022

Taasavaldanud Platon

Murra keelebarjääridest Amazon Transcribe, Amazon Translate ja Amazon Polly abil

Andmekogemuse taasleiutamine: kasutage generatiivset AI-d ja kaasaegset andmearhitektuuri, et saada ülevaadet | Amazoni veebiteenused

Meeskonna- ja kasutajahaldus Amazon SageMakeri ja AWS SSO-ga

Valmistage andmeid kiiremini ette PySparki ja Altairi koodilõikudega rakenduses Amazon SageMaker Data Wrangler

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto