Zoptymalizuj stosunek ceny do wydajności wnioskowania LLM na procesorach graficznych NVIDIA, korzystając z integracji Amazon SageMaker z mikrousługami NVIDIA NIM

Opublikowane ponownie przez Plato

Obserwuje: 0

NVIDIA NIM m mikroserwisy teraz zintegruj się z Amazon Sage Maker, umożliwiając wdrażanie wiodących w branży modeli wielkojęzykowych (LLM) oraz optymalizację wydajności i kosztów modeli. Możesz wdrożyć najnowocześniejsze LLM w ciągu kilku minut zamiast dni, korzystając z technologii takich jak NVIDIA TensorRT, NVIDIA TensorRT-LLM, Serwer wnioskowania NVIDIA Triton w instancjach przyspieszanych przez firmę NVIDIA hostowanych przez SageMaker.

NIM, część Przedsiębiorstwo oparte na sztucznej inteligencji NVIDIA platforma oprogramowania wymieniona na Rynek AWS, to zestaw mikrousług wnioskowania, które wnoszą do aplikacji moc najnowocześniejszych rozwiązań LLM, zapewniając przetwarzanie języka naturalnego (NLP) i możliwości zrozumienia, niezależnie od tego, czy tworzysz chatboty, podsumowujesz dokumenty, czy wdrażasz inne rozwiązania NLP zasilane aplikacje. Możesz używać gotowych kontenerów NVIDIA do hostowania popularnych LLM zoptymalizowanych pod kątem określonych procesorów graficznych NVIDIA w celu szybkiego wdrożenia lub używać narzędzi NIM do tworzenia własnych kontenerów.

W tym poście przedstawiamy ogólne wprowadzenie do NIM i pokazujemy, jak można go używać z SageMakerem.

Wprowadzenie do NVIDIA NIM

NIM zapewnia zoptymalizowane i wstępnie wygenerowane silniki dla różnych popularnych modeli do wnioskowania. Te mikrousługi obsługują różne LLM, takie jak Llama 2 (7B, 13B i 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona i Code Llama 70B, od razu po wyjęciu z pudełka przy użyciu wstępnie zbudowaliśmy silniki NVIDIA TensorRT dostosowane do konkretnych procesorów graficznych NVIDIA w celu zapewnienia maksymalnej wydajności i wykorzystania. Modele te są dobrane przy użyciu optymalnych hiperparametrów zapewniających wydajność hostowania modeli w celu łatwego wdrażania aplikacji.

Jeśli Twojego modelu nie ma w zestawie wybranych modeli firmy NVIDIA, NIM oferuje niezbędne narzędzia, takie jak Model Repo Generator, który ułatwia tworzenie silnika akcelerowanego przez TensorRT-LLM i katalogu modeli w formacie NIM za pomocą prostego pliku YAML. Co więcej, zintegrowany backend społeczności vLLM zapewnia obsługę najnowocześniejszych modeli i nowych funkcji, które mogły nie zostać bezproblemowo zintegrowane ze stosem zoptymalizowanym pod kątem TensorRT-LLM.

Oprócz tworzenia zoptymalizowanych LLM na potrzeby wnioskowania, NIM zapewnia zaawansowane technologie hostingu, takie jak zoptymalizowane techniki planowania, takie jak przetwarzanie wsadowe w locie, które mogą rozbić ogólny proces generowania tekstu dla LLM na wiele iteracji w modelu. Dzięki przetwarzaniu wsadowemu w trakcie przetwarzania zamiast czekać na zakończenie całej partii przed przejściem do następnego zestawu żądań, środowisko wykonawcze NIM natychmiast usuwa ukończone sekwencje z partii. Następnie środowisko wykonawcze rozpoczyna uruchamianie nowych żądań, podczas gdy inne żądania są nadal realizowane, maksymalnie wykorzystując instancje obliczeniowe i procesory graficzne.

Wdrażanie NIM w SageMaker

NIM integruje się z SageMaker, umożliwiając hostowanie LLM z optymalizacją wydajności i kosztów, jednocześnie korzystając z możliwości SageMaker. Używając NIM w SageMaker, możesz korzystać z takich możliwości, jak skalowanie liczby instancji hostujących Twój model, przeprowadzanie wdrożeń niebieskich/zielonych i ocena obciążeń przy użyciu testów w tle — a wszystko to z najlepszą w swojej klasie obserwowalnością i monitorowaniem za pomocą Amazon Cloud Watch.

Wnioski

Korzystanie z NIM do wdrażania zoptymalizowanych rozwiązań LLM może być świetną opcją zarówno pod względem wydajności, jak i kosztów. Pomaga także w łatwym wdrażaniu LLM. W przyszłości NIM umożliwi także metody dostosowywania z wykorzystaniem efektywnego parametrów (PEFT), takie jak LoRA i P-tuning. NIM planuje także obsługę LLM poprzez obsługę Triton Inference Server, TensorRT-LLM i backendów vLLM.

Zachęcamy Cię do dowiedzenia się więcej o mikrousługach NVIDIA i sposobach wdrażania LLM za pomocą SageMaker oraz wypróbowania dostępnych korzyści. NIM jest dostępny jako oferta płatna w ramach subskrypcji oprogramowania NVIDIA AI Enterprise dostępne na AWS Marketplace.

W najbliższej przyszłości opublikujemy szczegółowy przewodnik po NIM w SageMaker.

O autorach

Zoptymalizuj stosunek ceny do wydajności wnioskowania LLM na procesorach graficznych NVIDIA, korzystając z integracji Amazon SageMaker z mikrousługami NVIDIA NIM | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. James Park jest architektem rozwiązań w Amazon Web Services. Współpracuje z Amazon.com przy projektowaniu, budowaniu i wdrażaniu rozwiązań technologicznych w AWS, a szczególnie interesuje się sztuczną inteligencją i uczeniem maszynowym. W wolnym czasie lubi poznawać nowe kultury, nowe doświadczenia i być na bieżąco z najnowszymi trendami technologicznymi. Możesz go znaleźć na LinkedIn.

Saurabha Trikande jest starszym menedżerem produktu w firmie Amazon SageMaker Inference. Pasjonuje go praca z klientami i motywuje go cel, jakim jest demokratyzacja uczenia maszynowego. Koncentruje się na podstawowych wyzwaniach związanych z wdrażaniem złożonych aplikacji ML, wielodostępnych modeli ML, optymalizacji kosztów oraz zwiększaniem dostępności wdrażania modeli uczenia głębokiego. W wolnym czasie Saurabh lubi wędrować, poznawać innowacyjne technologie, śledzić TechCrunch i spędzać czas z rodziną.

Zoptymalizuj stosunek ceny do wydajności wnioskowania LLM na procesorach graficznych NVIDIA, korzystając z integracji Amazon SageMaker z mikrousługami NVIDIA NIM | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. QingLan jest inżynierem rozwoju oprogramowania w AWS. Pracował nad kilkoma wymagającymi produktami w Amazon, w tym wysokowydajnymi rozwiązaniami wnioskowania ML i wysokowydajnym systemem rejestrowania. Zespół Qing z powodzeniem uruchomił pierwszy model miliarda parametrów w Amazon Advertising z wymaganym bardzo niskim opóźnieniem. Qing posiada dogłębną wiedzę na temat optymalizacji infrastruktury i akceleracji Deep Learning.

Nihil Kulkarni jest programistą w AWS Machine Learning, koncentrującym się na zwiększaniu wydajności obciążeń uczenia maszynowego w chmurze i współtwórcą kontenerów AWS Deep Learning do szkoleń i wnioskowania. Pasjonuje się rozproszonymi systemami głębokiego uczenia się. Poza pracą lubi czytać książki, bawić się na gitarze i robić pizzę.

Zoptymalizuj stosunek ceny do wydajności wnioskowania LLM na procesorach graficznych NVIDIA, korzystając z integracji Amazon SageMaker z mikrousługami NVIDIA NIM | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Harisha Tummalacherli jest inżynierem oprogramowania w zespole Deep Learning Performance w SageMaker. Pracuje nad inżynierią wydajności, aby efektywnie obsługiwać duże modele językowe w SageMaker. W wolnym czasie biega, jeździ na rowerze i uprawia narciarstwo alpejskie.

Eliutha Triany Isazy jest menedżerem ds. relacji z programistami w firmie NVIDIA, który umożliwia specjalistom ds. rozwiązań AI MLOps, DevOps, naukowcom i ekspertom technicznym AWS firmy Amazon w opanowaniu stosu obliczeniowego NVIDIA w celu przyspieszania i optymalizacji modeli generatywnej AI Foundation, obejmujących przechowywanie danych, szkolenie GPU, wnioskowanie o modelach i wdrażanie produkcyjne na instancjach GPU AWS . Ponadto Eliuth jest zapalonym kolarzem górskim, narciarzem, tenisistą i pokerzystą.

Jiahong Liu jest architektem rozwiązań w zespole Cloud Service Provider firmy NVIDIA. Pomaga klientom we wdrażaniu rozwiązań uczenia maszynowego i sztucznej inteligencji, które wykorzystują akcelerowane obliczenia NVIDIA, aby sprostać wyzwaniom związanym ze szkoleniem i wnioskowaniem. W wolnym czasie lubi origami, projekty DIY i grę w koszykówkę.

Kszitiz Gupta jest architektem rozwiązań w firmie NVIDIA. Lubi edukować klientów korzystających z chmury na temat technologii GPU AI, które firma NVIDIA ma do zaoferowania, i pomagać im w przyspieszaniu ich aplikacji do uczenia maszynowego i uczenia głębokiego. Poza pracą lubi biegać, wędrować i obserwować dziką przyrodę.