Оптимізуйте співвідношення ціна-продуктивність висновку LLM на графічних процесорах NVIDIA за допомогою інтеграції Amazon SageMaker із мікросервісами NVIDIA NIM | Веб-сервіси Amazon

Оптимізуйте співвідношення ціна-продуктивність висновку LLM на графічних процесорах NVIDIA за допомогою інтеграції Amazon SageMaker із мікросервісами NVIDIA NIM | Веб-сервіси Amazon

NVIDIA NIM microservices тепер інтегрувати з Amazon SageMaker, що дозволяє розгортати провідні в галузі великі мовні моделі (LLM) і оптимізувати продуктивність і вартість моделі. Ви можете розгорнути найсучасніші LLM за лічені хвилини замість днів, використовуючи такі технології, як NVIDIA TensorRT, NVIDIA TensorRT-LLM та Сервер NVIDIA Triton Inference на прискорених екземплярах NVIDIA, розміщених на SageMaker.

НІМ, частина в NVIDIA AI Enterprise програмна платформа, зазначена в списку Ринок AWS, це набір мікросервісів для висновків, які передають потужність найсучасніших LLM у ваші програми, забезпечуючи обробку природної мови (NLP) і можливості розуміння, незалежно від того, розробляєте ви чат-ботів, узагальнюєте документи чи впроваджуєте інші NLP- потужні програми. Ви можете використовувати готові контейнери NVIDIA для розміщення популярних LLM, оптимізованих для конкретних графічних процесорів NVIDIA для швидкого розгортання, або використовувати інструменти NIM для створення власних контейнерів.

У цій публікації ми пропонуємо загальний вступ до NIM і показуємо, як його можна використовувати з SageMaker.

Знайомство з NVIDIA NIM

NIM надає оптимізовані та попередньо створені механізми для різноманітних популярних моделей для висновків. Ці мікросервіси підтримують різноманітні LLM, такі як Llama 2 (7B, 13B та 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona та Code Llama 70B, із використанням попереднього вбудовані механізми NVIDIA TensorRT, розроблені для конкретних графічних процесорів NVIDIA для максимальної продуктивності та використання. Ці моделі підбираються з оптимальними гіперпараметрами для продуктивності розміщення моделей для легкого розгортання програм.

Якщо вашої моделі немає в наборі підібраних моделей NVIDIA, NIM пропонує такі важливі утиліти, як Model Repo Generator, який полегшує створення механізму прискорення TensorRT-LLM і каталогу моделей у форматі NIM за допомогою простого файлу YAML. Крім того, інтегрований бекенд спільноти vLLM забезпечує підтримку найсучасніших моделей і нових функцій, які, можливо, не були повністю інтегровані в стек, оптимізований TensorRT-LLM.

Окрім створення оптимізованих LLM для висновків, NIM надає передові технології хостингу, такі як оптимізовані методи планування, як-от пакетне формування під час польоту, яке може розбити загальний процес генерації тексту для LLM на кілька ітерацій моделі. Замість того, щоб чекати, поки весь пакет завершиться, перш ніж переходити до наступного набору запитів, за допомогою пакетування під час виконання, середовище виконання NIM негайно вилучає готові послідовності з пакету. Потім середовище виконання починає запускати нові запити, поки інші запити все ще виконуються, найкраще використовуючи ваші обчислювальні екземпляри та графічні процесори.

Розгортання NIM на SageMaker

NIM інтегрується з SageMaker, дозволяючи вам розміщувати ваші LLM з оптимізацією продуктивності та витрат, одночасно користуючись можливостями SageMaker. Коли ви використовуєте NIM на SageMaker, ви можете використовувати такі можливості, як масштабування кількості екземплярів для розміщення вашої моделі, виконання синьо-зелених розгортань і оцінка робочих навантажень за допомогою тіньового тестування — усе з найкращою у своєму класі можливістю спостереження та моніторингу за допомогою Amazon CloudWatch.

Висновок

Використання NIM для розгортання оптимізованих LLM може бути чудовим варіантом як для продуктивності, так і для вартості. Це також допомагає полегшити розгортання LLM. У майбутньому NIM також дозволить використовувати методи налаштування PEFT, такі як LoRA та P-налаштування. NIM також планує мати підтримку LLM шляхом підтримки серверів Triton Inference Server, TensorRT-LLM і vLLM.

Ми рекомендуємо вам дізнатися більше про мікросервіси NVIDIA та про те, як розгортати ваші LLM за допомогою SageMaker, а також спробувати доступні вам переваги. NIM доступний як платна пропозиція в рамках підписки на програмне забезпечення NVIDIA AI Enterprise доступний на AWS Marketplace.

Найближчим часом ми опублікуємо докладний посібник для NIM на SageMaker.


Про авторів

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Джеймс Парк є архітектором рішень в Amazon Web Services. Він працює з Amazon.com над проектуванням, створенням і розгортанням технологічних рішень на AWS, і особливо цікавиться ШІ та машинним навчанням. У вільний час він любить шукати нові культури, нові враження та бути в курсі останніх технологічних тенденцій. Ви можете знайти його на LinkedIn.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Саураб Тріканде є старшим менеджером із продуктів Amazon SageMaker Inference. Він захоплений роботою з клієнтами та мотивований метою демократизації машинного навчання. Він зосереджується на основних проблемах, пов’язаних із розгортанням складних програм ML, моделями ML з кількома клієнтами, оптимізацією витрат і забезпеченням більшої доступності розгортання моделей глибокого навчання. У вільний час Саураб любить піші прогулянки, вивчає інноваційні технології, стежить за TechCrunch і проводить час із сім’єю.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Цин Лан є інженером з розробки програмного забезпечення в AWS. Він працював над декількома складними продуктами в Amazon, включаючи високоефективні рішення ML inference та високоефективну систему журналювання. Команда Ціна успішно запустила першу модель із мільярдами параметрів у Amazon Advertising із дуже малою затримкою. Qing має глибокі знання щодо оптимізації інфраструктури та прискорення глибокого навчання.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Ніхіл Кулкарні є розробником програмного забезпечення з AWS Machine Learning, який зосереджується на тому, щоб зробити робочі навантаження машинного навчання більш продуктивними в хмарі, і є співавтором AWS Deep Learning Containers для навчання та висновків. Він захоплюється розподіленими системами глибокого навчання. Поза роботою він любить читати книги, грати на гітарі та готувати піцу.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Харіш Туммалачерла є інженером-програмістом у команді Deep Learning Performance у SageMaker. Він працює над розробкою продуктивності для ефективного обслуговування великих мовних моделей на SageMaker. У вільний час захоплюється бігом, їздою на велосипеді та скі-альпінізмом.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Еліут Тріана Ісаза є менеджером зі зв’язків із розробниками в NVIDIA, який надає можливості Amazon MLOps, DevOps, науковцям і технічним експертам AWS оволодіти обчислювальним стеком NVIDIA для прискорення й оптимізації моделей Generative AI Foundation, які охоплюють курацію даних, навчання графічного процесора, визначення моделі та розгортання виробництва на екземплярах графічного процесора AWS . Крім того, Елют є пристрасним гірським велосипедистом, лижником, гравцем у теніс і покер.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Цзяхон Лю є архітектором рішень у команді постачальників хмарних послуг у NVIDIA. Він допомагає клієнтам у прийнятті рішень машинного навчання та штучного інтелекту, які використовують прискорені обчислення NVIDIA для вирішення їхніх проблем навчання та висновків. У вільний час він любить орігамі, DIY-проекти та грає в баскетбол.

Optimize price-performance of LLM inference on NVIDIA GPUs using the Amazon SageMaker integration with NVIDIA NIM Microservices | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Кшітіз Гупта є архітектором рішень у NVIDIA. Йому подобається навчати клієнтів хмарних технологій технологіям штучного інтелекту графічного процесора, які може запропонувати NVIDIA, і допомагати їм у прискоренні машинного та глибокого навчання програм. Поза роботою він захоплюється бігом, пішим туризмом і спостереженням за дикою природою.

Часова мітка:

Більше від AWS Машинне навчання