NVIDIA Neki microservices most integrálja Amazon SageMaker, amely lehetővé teszi az iparágvezető nagy nyelvi modellek (LLM) telepítését, valamint a modell teljesítményének és költségének optimalizálását. A legmodernebb LLM-eket napok helyett percek alatt telepítheti olyan technológiák használatával, mint pl NVIDIA TensorRT, NVIDIA TensorRT-LLMés NVIDIA Triton következtetés szerver a SageMaker által üzemeltetett NVIDIA gyorsított példányokon.
NIM, része a NVIDIA AI Enterprise szoftverplatformon szerepel AWS piactér, olyan következtetési mikroszolgáltatások készlete, amelyek a legkorszerűbb LLM-ek erejét hozzák az alkalmazásaihoz, természetes nyelvi feldolgozási (NLP) és megértési képességeket biztosítva, akár chatbotokat fejleszt, dokumentumokat összegez, akár más NLP-t implementál. meghajtású alkalmazások. Használhat előre beépített NVIDIA-tárolókat olyan népszerű LLM-ek tárolására, amelyek adott NVIDIA GPU-kra vannak optimalizálva a gyors üzembe helyezés érdekében, vagy használhat NIM-eszközöket saját tárolók létrehozásához.
Ebben a bejegyzésben magas szintű bevezetést nyújtunk a NIM-hez, és bemutatjuk, hogyan használhatod a SageMakerrel.
Az NVIDIA NIM bemutatása
A NIM optimalizált és előre generált motorokat kínál számos népszerű modellhez a következtetések levonására. Ezek a mikroszolgáltatások számos LLM-et támogatnak, például a Llama 2-t (7B, 13B és 70B), a Mistral-7B-Instructot, a Mixtral-8x7B-t, az NVIDIA Nemotron-3 22B Personát és a Code Llama 70B-t. speciális NVIDIA GPU-khoz épített NVIDIA TensorRT motorok a maximális teljesítmény és kihasználtság érdekében. Ezek a modellek az optimális hiperparaméterekkel vannak összeállítva a modell-hoszting teljesítményhez, és az alkalmazások egyszerű telepítéséhez.
Ha az Ön modellje nem szerepel az NVIDIA válogatott modelljei között, a NIM olyan alapvető segédprogramokat kínál, mint a Model Repo Generator, amely megkönnyíti a TensorRT-LLM-gyorsítású motor és a NIM-formátumú modellkönyvtár létrehozását egy egyszerű YAML-fájlon keresztül. Ezenkívül a vLLM integrált közösségi háttere támogatja az élvonalbeli modelleket és a feltörekvő funkciókat, amelyek esetleg nem integrálódtak zökkenőmentesen a TensorRT-LLM által optimalizált verembe.
A következtetések levonására szolgáló optimalizált LLM-ek létrehozása mellett a NIM fejlett hosting technológiákat is kínál, például optimalizált ütemezési technikákat, például repülés közbeni kötegelést, amelyek az LLM általános szöveggenerálási folyamatát több iterációra bonthatják a modellen. A repülés közbeni kötegelésnél ahelyett, hogy megvárná a teljes köteg befejezését, mielőtt továbblépne a következő kérésekre, a NIM futási környezet azonnal kiüríti a kész sorozatokat a kötegből. A futási környezet ezután új kéréseket kezd futtatni, miközben a többi kérés még folyamatban van, így a legjobban kihasználva a számítási példányokat és a GPU-kat.
A NIM telepítése a SageMakeren
A NIM integrálódik a SageMakerrel, lehetővé téve az LLM-ek üzemeltetését teljesítmény- és költségoptimalizálással, miközben kihasználja a SageMaker képességeit. Amikor a NIM-et SageMakeren használja, olyan lehetőségeket használhat, mint például a példányok számának skálázása a modell tárolására, kék/zöld telepítések végrehajtása és a munkaterhelések árnyéktesztekkel történő kiértékelése – mindezt a kategóriájában a legjobb megfigyelhetőség és felügyelet mellett. amazonfelhőóra.
Következtetés
A NIM használata az optimalizált LLM-ek telepítésére kiváló választás lehet mind a teljesítmény, mind a költség szempontjából. Ezenkívül megkönnyíti az LLM-ek telepítését. A jövőben a NIM lehetővé teszi a Parameter-Efficient Fine-Tuning (PEFT) testreszabási módszereket is, mint például a LoRA és a P-tuning. A NIM a Triton Inference Server, a TensorRT-LLM és a vLLM háttérrendszerek támogatásával LLM támogatást is tervez.
Javasoljuk, hogy tudjon meg többet az NVIDIA mikroszolgáltatásokról és arról, hogyan telepítheti LLM-jeit a SageMaker segítségével, és próbálja ki az Ön számára elérhető előnyöket. A NIM fizetős ajánlatként érhető el az NVIDIA AI Enterprise szoftver-előfizetés részeként elérhető az AWS Marketplace-en.
A közeljövőben egy részletes útmutatót fogunk közzétenni a NIM-hez a SageMakeren.
A szerzőkről
James Parker az Amazon Web Services megoldástervezője. Együttműködik az Amazon.com-tal az AWS technológiai megoldások tervezésében, kiépítésében és üzembe helyezésében, és különösen érdeklődik az AI és a gépi tanulás iránt. Szabadidejében szívesen keres új kultúrákat, új tapasztalatokat, és naprakész marad a legújabb technológiai trendekkel. LinkedIn.
Saurabh Trikande az Amazon SageMaker Inference vezető termékmenedzsere. Szenvedélyesen dolgozik az ügyfelekkel, és a gépi tanulás demokratizálásának célja motiválja. A komplex ML-alkalmazások telepítésével, a több bérlős ML-modellekkel, a költségoptimalizálással és a mély tanulási modellek bevezetésének elérhetőbbé tételével kapcsolatos alapvető kihívásokra összpontosít. Szabadidejében Saurabh szeret túrázni, innovatív technológiákat tanulni, követi a TechCrunch-ot, és a családjával tölt időt.
Qing Lan az AWS szoftverfejlesztő mérnöke. Számos kihívást jelentő terméken dolgozott az Amazonban, beleértve a nagy teljesítményű ML következtetési megoldásokat és a nagy teljesítményű naplózási rendszert. Qing csapata sikeresen elindította az Amazon Advertising első milliárdos paraméterű modelljét, nagyon alacsony késleltetéssel. Qing mélyreható ismeretekkel rendelkezik az infrastruktúra optimalizálásával és a Deep Learning gyorsításával kapcsolatban.
Nikhil Kulkarni az AWS Machine Learning szoftverfejlesztője, aki arra összpontosít, hogy a gépi tanulási munkaterheléseket hatékonyabbá tegye a felhőben, és társalkotója az AWS Deep Learning Containers képzési és következtetési célú tárolóinak. Szenvedélye az elosztott Deep Learning Systems. A munkán kívül szívesen olvas könyveket, gitároz és pizzát készít.
Harish Tummalacherla szoftvermérnök a SageMaker Deep Learning Performance csapatával. Teljesítménytervezésen dolgozik a nagy nyelvi modellek hatékony kiszolgálása érdekében a SageMakeren. Szabadidejében szeret futni, kerékpározni és síalpinászni.
Eliuth Triana Isaza az NVIDIA fejlesztői kapcsolatok menedzsere, aki felhatalmazza az Amazon AI MLOps-okat, DevOps-okat, tudósokat és AWS műszaki szakértőket, hogy elsajátítsák az NVIDIA számítástechnikai veremét a Generative AI Foundation modellek felgyorsítása és optimalizálása érdekében, az adatok kezelésétől, a GPU-oktatástól, a modellkövetkeztetéstől és az AWS GPU-példányok éles üzembe helyezésétől. . Emellett Eliuth szenvedélyes hegyikerékpáros, síelő, teniszező és pókerjátékos.
Jiahong Liu az NVIDIA Cloud Service Provider csapatának megoldástervezője. Segíti az ügyfeleket a gépi tanulási és mesterséges intelligencia-megoldások elfogadásában, amelyek az NVIDIA gyorsított számítástechnikáját használják ki a képzési és következtetési kihívások megoldására. Szabadidejében szereti az origamit, a barkácsprojekteket és a kosárlabdát.
Kshitiz Gupta az NVIDIA megoldástervezője. Szívesen oktatja felhőügyfeleit az NVIDIA által kínált GPU AI-technológiákról, és segít nekik gépi tanulási és mély tanulási alkalmazásaik felgyorsításában. Munkán kívül szeret futni, túrázni és vadvilágot nézni.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/
- :van
- :is
- :nem
- $ UP
- 100
- 121
- 7
- a
- Rólunk
- felgyorsult
- gyorsuló
- gyorsulás
- hozzáférhető
- mellett
- cím
- Elfogadása
- fejlett
- Hirdetés
- AI
- lehetővé
- lehetővé téve
- Is
- amazon
- Amazon SageMaker
- Az Amazon Web Services
- Amazon.com
- an
- és a
- alkalmazások
- VANNAK
- AS
- segítő
- segítséget nyújt
- At
- elérhető
- AWS
- AWS gépi tanulás
- háttér
- backendek
- Kosárlabda
- adagoló
- BE
- óta
- előtt
- elkezdődik
- részesülő
- Előnyök
- BEST
- Könyvek
- mindkét
- Doboz
- szünet
- hoz
- épít
- by
- TUD
- képességek
- kihívások
- kihívást
- chatbots
- ügyfél részére
- felhő
- kód
- COM
- közösség
- bonyolult
- Kiszámít
- számítástechnika
- Konténerek
- Mag
- Költség
- teremt
- létrehozása
- teremtés
- kultúrák
- a válogatott
- curation
- Ügyfelek
- testreszabás
- élvonalbeli
- dátum
- találka
- Nap
- mély
- mély tanulás
- demokratizálásának
- telepíteni
- bevezetéséhez
- bevetés
- bevetések
- Design
- Fejlesztő
- fejlesztése
- Fejlesztés
- könyvtár
- megosztott
- diy
- dokumentumok
- le-
- könnyű
- nevelése
- eredményesen
- megerőltetés nélküli
- csiszolókő
- képessé
- ösztönzése
- Motor
- mérnök
- Mérnöki
- Motorok
- Vállalkozás
- vállalati szoftver
- alapvető
- értékelő
- Tapasztalatok
- szakértők
- megkönnyíti
- család
- Jellemzők
- filé
- Találjon
- befejezni
- vezetéknév
- repülés
- koncentrál
- összpontosítás
- következő
- A
- Alapítvány
- ból ből
- Továbbá
- jövő
- generáció
- nemző
- Generatív AI
- generátor
- cél
- GPU
- GPU
- nagy
- útmutató
- Legyen
- he
- segít
- Magas
- magas szinten
- őt
- övé
- vendéglátó
- házigazdája
- tárhely
- Hogyan
- How To
- http
- HTTPS
- azonnal
- végrehajtási
- in
- mélyreható
- Beleértve
- iparágvezető
- Infrastruktúra
- újító
- innovatív technológiák
- helyette
- integrálni
- integrált
- integrál
- integráció
- kamat
- bele
- Bevezetés
- IT
- iterációk
- jpeg
- jpg
- tudás
- nyelv
- nagy
- Késleltetés
- legutolsó
- indított
- TANUL
- tanulás
- Tőkeáttétel
- mint
- Listázott
- Láma
- LLM
- fakitermelés
- Elő/Utó
- gép
- gépi tanulás
- csinál
- Gyártás
- menedzser
- mester
- maximális
- Lehet..
- mód
- microservices
- Perc
- ML
- MLOps
- modell
- modellek
- ellenőrzés
- több
- motivált
- hegy
- mozgó
- többszörös
- Természetes
- Természetes nyelvi feldolgozás
- Közel
- Új
- következő
- NLP
- Most
- szám
- Nvidia
- of
- ajánlat
- felajánlás
- Ajánlatok
- on
- optimálisan
- optimalizálás
- optimalizáció
- Optimalizálja
- optimalizált
- optimalizálása
- opció
- or
- Más
- ki
- kívül
- átfogó
- saját
- fizetett
- rész
- különös
- szenvedélyes
- teljesítmény
- előadó
- Pizza
- tervek
- emelvény
- Plató
- Platón adatintelligencia
- PlatoData
- játékos
- játék
- póker
- Népszerű
- állás
- hatalom
- folyamat
- feldolgozás
- Termékek
- termék menedzser
- Termelés
- Termékek
- projektek
- ad
- ellátó
- biztosít
- amely
- Quick
- Inkább
- Olvasás
- összefüggő
- kapcsolatok
- kéri
- kötelező
- futás
- futásidejű
- sagemaker
- SageMaker következtetés
- skálázás
- ütemezés
- tudósok
- zökkenőmentesen
- keres
- idősebb
- szerver
- szolgáltatás
- Szolgáltató
- Szolgáltatások
- szolgáló
- készlet
- számos
- árnyék
- előadás
- szoftver
- szoftverfejlesztés
- Software Engineer
- megoldások
- Megoldások
- feszültség
- különleges
- Költési
- verem
- csúcs-
- tartózkodás
- Még mindig
- egyértelmű
- előfizetés
- sikeresen
- ilyen
- támogatás
- Támogató
- rendszer
- Systems
- szabott
- csapat
- TechCrunch
- Műszaki
- technikák
- Technologies
- Technológia
- tenisz
- szöveg
- mint
- hogy
- A
- A jövő
- azok
- Őket
- akkor
- Ezek
- ezt
- Keresztül
- idő
- nak nek
- szerszámok
- Képzések
- Trends
- Triton
- megpróbál
- megértés
- használ
- segítségével
- segédprogramok
- fajta
- nagyon
- Várakozás
- őrzés
- we
- háló
- webes szolgáltatások
- amikor
- vajon
- ami
- míg
- egész
- lesz
- val vel
- Munka
- dolgozó
- művek
- yaml
- te
- A te
- zephyrnet