NVIDIA NIM microservices тепер інтегрувати з Amazon SageMaker, що дозволяє розгортати провідні в галузі великі мовні моделі (LLM) і оптимізувати продуктивність і вартість моделі. Ви можете розгорнути найсучасніші LLM за лічені хвилини замість днів, використовуючи такі технології, як NVIDIA TensorRT, NVIDIA TensorRT-LLM та Сервер NVIDIA Triton Inference на прискорених екземплярах NVIDIA, розміщених на SageMaker.
НІМ, частина в NVIDIA AI Enterprise програмна платформа, зазначена в списку Ринок AWS, це набір мікросервісів для висновків, які передають потужність найсучасніших LLM у ваші програми, забезпечуючи обробку природної мови (NLP) і можливості розуміння, незалежно від того, розробляєте ви чат-ботів, узагальнюєте документи чи впроваджуєте інші NLP- потужні програми. Ви можете використовувати готові контейнери NVIDIA для розміщення популярних LLM, оптимізованих для конкретних графічних процесорів NVIDIA для швидкого розгортання, або використовувати інструменти NIM для створення власних контейнерів.
У цій публікації ми пропонуємо загальний вступ до NIM і показуємо, як його можна використовувати з SageMaker.
Знайомство з NVIDIA NIM
NIM надає оптимізовані та попередньо створені механізми для різноманітних популярних моделей для висновків. Ці мікросервіси підтримують різноманітні LLM, такі як Llama 2 (7B, 13B та 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona та Code Llama 70B, із використанням попереднього вбудовані механізми NVIDIA TensorRT, розроблені для конкретних графічних процесорів NVIDIA для максимальної продуктивності та використання. Ці моделі підбираються з оптимальними гіперпараметрами для продуктивності розміщення моделей для легкого розгортання програм.
Якщо вашої моделі немає в наборі підібраних моделей NVIDIA, NIM пропонує такі важливі утиліти, як Model Repo Generator, який полегшує створення механізму прискорення TensorRT-LLM і каталогу моделей у форматі NIM за допомогою простого файлу YAML. Крім того, інтегрований бекенд спільноти vLLM забезпечує підтримку найсучасніших моделей і нових функцій, які, можливо, не були повністю інтегровані в стек, оптимізований TensorRT-LLM.
Окрім створення оптимізованих LLM для висновків, NIM надає передові технології хостингу, такі як оптимізовані методи планування, як-от пакетне формування під час польоту, яке може розбити загальний процес генерації тексту для LLM на кілька ітерацій моделі. Замість того, щоб чекати, поки весь пакет завершиться, перш ніж переходити до наступного набору запитів, за допомогою пакетування під час виконання, середовище виконання NIM негайно вилучає готові послідовності з пакету. Потім середовище виконання починає запускати нові запити, поки інші запити все ще виконуються, найкраще використовуючи ваші обчислювальні екземпляри та графічні процесори.
Розгортання NIM на SageMaker
NIM інтегрується з SageMaker, дозволяючи вам розміщувати ваші LLM з оптимізацією продуктивності та витрат, одночасно користуючись можливостями SageMaker. Коли ви використовуєте NIM на SageMaker, ви можете використовувати такі можливості, як масштабування кількості екземплярів для розміщення вашої моделі, виконання синьо-зелених розгортань і оцінка робочих навантажень за допомогою тіньового тестування — усе з найкращою у своєму класі можливістю спостереження та моніторингу за допомогою Amazon CloudWatch.
Висновок
Використання NIM для розгортання оптимізованих LLM може бути чудовим варіантом як для продуктивності, так і для вартості. Це також допомагає полегшити розгортання LLM. У майбутньому NIM також дозволить використовувати методи налаштування PEFT, такі як LoRA та P-налаштування. NIM також планує мати підтримку LLM шляхом підтримки серверів Triton Inference Server, TensorRT-LLM і vLLM.
Ми рекомендуємо вам дізнатися більше про мікросервіси NVIDIA та про те, як розгортати ваші LLM за допомогою SageMaker, а також спробувати доступні вам переваги. NIM доступний як платна пропозиція в рамках підписки на програмне забезпечення NVIDIA AI Enterprise доступний на AWS Marketplace.
Найближчим часом ми опублікуємо докладний посібник для NIM на SageMaker.
Про авторів
Джеймс Парк є архітектором рішень в Amazon Web Services. Він працює з Amazon.com над проектуванням, створенням і розгортанням технологічних рішень на AWS, і особливо цікавиться ШІ та машинним навчанням. У вільний час він любить шукати нові культури, нові враження та бути в курсі останніх технологічних тенденцій. Ви можете знайти його на LinkedIn.
Саураб Тріканде є старшим менеджером із продуктів Amazon SageMaker Inference. Він захоплений роботою з клієнтами та мотивований метою демократизації машинного навчання. Він зосереджується на основних проблемах, пов’язаних із розгортанням складних програм ML, моделями ML з кількома клієнтами, оптимізацією витрат і забезпеченням більшої доступності розгортання моделей глибокого навчання. У вільний час Саураб любить піші прогулянки, вивчає інноваційні технології, стежить за TechCrunch і проводить час із сім’єю.
Цин Лан є інженером з розробки програмного забезпечення в AWS. Він працював над декількома складними продуктами в Amazon, включаючи високоефективні рішення ML inference та високоефективну систему журналювання. Команда Ціна успішно запустила першу модель із мільярдами параметрів у Amazon Advertising із дуже малою затримкою. Qing має глибокі знання щодо оптимізації інфраструктури та прискорення глибокого навчання.
Ніхіл Кулкарні є розробником програмного забезпечення з AWS Machine Learning, який зосереджується на тому, щоб зробити робочі навантаження машинного навчання більш продуктивними в хмарі, і є співавтором AWS Deep Learning Containers для навчання та висновків. Він захоплюється розподіленими системами глибокого навчання. Поза роботою він любить читати книги, грати на гітарі та готувати піцу.
Харіш Туммалачерла є інженером-програмістом у команді Deep Learning Performance у SageMaker. Він працює над розробкою продуктивності для ефективного обслуговування великих мовних моделей на SageMaker. У вільний час захоплюється бігом, їздою на велосипеді та скі-альпінізмом.
Еліут Тріана Ісаза є менеджером зі зв’язків із розробниками в NVIDIA, який надає можливості Amazon MLOps, DevOps, науковцям і технічним експертам AWS оволодіти обчислювальним стеком NVIDIA для прискорення й оптимізації моделей Generative AI Foundation, які охоплюють курацію даних, навчання графічного процесора, визначення моделі та розгортання виробництва на екземплярах графічного процесора AWS . Крім того, Елют є пристрасним гірським велосипедистом, лижником, гравцем у теніс і покер.
Цзяхон Лю є архітектором рішень у команді постачальників хмарних послуг у NVIDIA. Він допомагає клієнтам у прийнятті рішень машинного навчання та штучного інтелекту, які використовують прискорені обчислення NVIDIA для вирішення їхніх проблем навчання та висновків. У вільний час він любить орігамі, DIY-проекти та грає в баскетбол.
Кшітіз Гупта є архітектором рішень у NVIDIA. Йому подобається навчати клієнтів хмарних технологій технологіям штучного інтелекту графічного процесора, які може запропонувати NVIDIA, і допомагати їм у прискоренні машинного та глибокого навчання програм. Поза роботою він захоплюється бігом, пішим туризмом і спостереженням за дикою природою.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/
- : має
- :є
- : ні
- $UP
- 100
- 121
- 7
- a
- МЕНЮ
- прискорений
- прискорення
- прискорення
- доступною
- доповнення
- адреса
- Прийняття
- просунутий
- реклама
- AI
- дозволяти
- Дозволити
- Також
- Amazon
- Amazon SageMaker
- Amazon Web Services
- Amazon.com
- an
- та
- застосування
- ЕСТЬ
- AS
- допомагати
- допомагає
- At
- доступний
- AWS
- AWS Машинне навчання
- Backend
- бекенд
- баскетбол
- дозування
- BE
- було
- перед тим
- починається
- вигода
- Переваги
- КРАЩЕ
- книги
- обидва
- Box
- Перерва
- приносити
- будувати
- by
- CAN
- можливості
- проблеми
- складні
- chatbots
- клієнтів
- хмара
- код
- COM
- співтовариство
- комплекс
- обчислення
- обчислення
- Контейнери
- Core
- Коштувати
- створювати
- створення
- створення
- культур
- Куратор
- курація
- Клієнти
- настройка
- передовий
- дані
- Дата
- Днів
- глибокий
- глибоке навчання
- Демократизувати
- розгортання
- розгортання
- розгортання
- розгортання
- дизайн
- Розробник
- розвивається
- розробка
- каталог
- розподілений
- Diy
- документація
- вниз
- простота
- освіту
- продуктивно
- без зусиль
- з'являються
- уповноважують
- заохочувати
- двигун
- інженер
- Машинобудування
- Двигуни
- підприємство
- програмне забезпечення підприємства
- істотний
- оцінки
- Досліди
- experts
- полегшує
- сім'я
- риси
- філе
- знайти
- закінчення
- Перший
- політ
- фокусується
- фокусування
- після
- для
- фонд
- від
- Крім того
- майбутнє
- покоління
- генеративний
- Генеративний ШІ
- generator
- мета
- GPU
- Графічні процесори
- великий
- керівництво
- Мати
- he
- допомагає
- Високий
- на вищому рівні
- його
- його
- господар
- відбувся
- хостинг
- Як
- How To
- HTTP
- HTTPS
- негайно
- реалізації
- in
- поглиблений
- У тому числі
- провідний в галузі
- Інфраструктура
- інноваційний
- інноваційні технології
- замість
- інтегрувати
- інтегрований
- Інтеграція
- інтеграція
- інтерес
- в
- Вступ
- IT
- ітерації
- JPEG
- JPG
- знання
- мова
- великий
- Затримка
- останній
- запущений
- УЧИТЬСЯ
- вивчення
- Важіль
- як
- Перераховані
- Лама
- LLM
- каротаж
- низький
- машина
- навчання за допомогою машини
- зробити
- Робить
- менеджер
- майстер
- максимальний
- Може..
- методика
- мікросервіс
- хвилин
- ML
- MLOps
- модель
- Моделі
- моніторинг
- більше
- мотивовані
- Гора
- переміщення
- множинний
- Природний
- Обробка природних мов
- Близько
- Нові
- наступний
- nlp
- зараз
- номер
- Nvidia
- of
- пропонувати
- пропонує
- Пропозиції
- on
- оптимальний
- оптимізація
- оптимізації
- Оптимізувати
- оптимізований
- оптимізуючий
- варіант
- or
- Інше
- з
- поза
- загальний
- власний
- оплачувану
- частина
- приватність
- пристрасний
- продуктивність
- виконанні
- Піца
- плани
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- гравець
- ігри
- покер
- популярний
- пошта
- влада
- процес
- обробка
- Product
- менеджер по продукції
- Production
- Продукти
- проектів
- забезпечувати
- Постачальник
- забезпечує
- забезпечення
- Швидко
- швидше
- читання
- пов'язаний
- відносини
- запитів
- вимагається
- біг
- час виконання
- мудрець
- Висновок SageMaker
- Масштабування
- планування
- Вчені
- плавно
- пошук
- старший
- сервер
- обслуговування
- Постачальник послуг
- Послуги
- виступаючої
- комплект
- кілька
- тінь
- Показувати
- Софтвер
- розробка програмного забезпечення
- Інженер-програміст
- рішення
- Рішення
- напруга
- конкретний
- Витрати
- стек
- впроваджений
- перебування
- Як і раніше
- просто
- передплата
- Успішно
- такі
- підтримка
- Підтримуючий
- система
- Systems
- з урахуванням
- команда
- TechCrunch
- технічний
- методи
- Технології
- Технологія
- теніс
- текст
- ніж
- Що
- Команда
- Майбутнє
- їх
- Їх
- потім
- Ці
- це
- через
- час
- до
- інструменти
- Навчання
- Тенденції
- Triton
- намагатися
- розуміння
- використання
- використання
- комунальні послуги
- різноманітність
- дуже
- Очікування
- спостереження
- we
- Web
- веб-сервіси
- коли
- Чи
- який
- в той час як
- всі
- волі
- з
- Work
- робочий
- працює
- ямл
- Ти
- вашу
- зефірнет