Оптимизация соотношения цена-производительность вывода LLM на графических процессорах NVIDIA с помощью интеграции Amazon SageMaker с микросервисами NVIDIA NIM

Переиздано Платоном

Читают: 0

NVIDIA NIM m микросервисы теперь интегрируемся с Создатель мудреца Амазонки, что позволяет развертывать ведущие в отрасли модели больших языков (LLM) и оптимизировать производительность и стоимость моделей. Вы можете развернуть самые современные LLM за считанные минуты, а не дни, используя такие технологии, как NVIDIA ТензорРТ, NVIDIA ТензорРТ-LLMи Сервер вывода NVIDIA Triton на инстансах с ускорением NVIDIA, размещенных на SageMaker.

НИМ, часть Корпоративный ИИ NVIDIA программная платформа, указанная на Торговая площадка AWS, представляет собой набор микросервисов вывода, которые привносят в ваши приложения мощь современных LLM, обеспечивая обработку естественного языка (NLP) и возможности понимания, независимо от того, разрабатываете ли вы чат-ботов, обобщаете документы или реализуете другие NLP-технологии. работающие приложения. Вы можете использовать готовые контейнеры NVIDIA для размещения популярных LLM, оптимизированных для конкретных графических процессоров NVIDIA для быстрого развертывания, или использовать инструменты NIM для создания собственных контейнеров.

В этом посте мы даем общее представление о NIM и показываем, как его можно использовать с SageMaker.

Введение в NVIDIA NIM

NIM предоставляет оптимизированные и предварительно созданные механизмы для множества популярных моделей для вывода. Эти микросервисы поддерживают различные LLM, такие как Llama 2 (7B, 13B и 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona и Code Llama 70B, «из коробки», используя предварительно установленные созданы механизмы NVIDIA TensorRT, адаптированные для конкретных графических процессоров NVIDIA для максимальной производительности и использования. Эти модели подобраны с оптимальными гиперпараметрами для обеспечения производительности размещения моделей и простоты развертывания приложений.

Если ваша модель не входит в набор курируемых моделей NVIDIA, NIM предлагает необходимые утилиты, такие как Model Repo Generator, который упрощает создание механизма с ускорением TensorRT-LLM и каталога модели в формате NIM с помощью простого файла YAML. Кроме того, интегрированная серверная часть vLLM сообщества обеспечивает поддержку передовых моделей и новых функций, которые, возможно, не были полностью интегрированы в стек, оптимизированный для TensorRT-LLM.

Помимо создания оптимизированных LLM для вывода, NIM предоставляет передовые технологии хостинга, такие как оптимизированные методы планирования, такие как пакетная обработка в реальном времени, которые могут разбить общий процесс генерации текста для LLM на несколько итераций модели. При пакетной обработке в реальном времени, вместо ожидания завершения всего пакета перед переходом к следующему набору запросов, среда выполнения NIM немедленно удаляет готовые последовательности из пакета. Затем среда выполнения начинает выполнять новые запросы, в то время как другие запросы все еще выполняются, что позволяет максимально эффективно использовать ваши вычислительные экземпляры и графические процессоры.

Развертывание NIM в SageMaker

NIM интегрируется с SageMaker, что позволяет вам размещать ваши LLM с оптимизацией производительности и затрат, одновременно используя возможности SageMaker. При использовании NIM в SageMaker вы можете использовать такие возможности, как масштабирование количества экземпляров для размещения вашей модели, выполнение синего/зеленого развертывания и оценка рабочих нагрузок с помощью теневого тестирования — и все это с лучшими в своем классе возможностями наблюдения и мониторинга с помощью Amazon CloudWatch.

Заключение

Использование NIM для развертывания оптимизированных LLM может стать отличным вариантом как с точки зрения производительности, так и с точки зрения затрат. Это также помогает упростить развертывание LLM. В будущем NIM также позволит использовать методы тонкой настройки параметров (PEFT), такие как LoRA и P-настройка. NIM также планирует обеспечить поддержку LLM, поддерживая серверы Triton Inference Server, TensorRT-LLM и vLLM.

Мы рекомендуем вам узнать больше о микросервисах NVIDIA и о том, как развернуть ваши LLM с помощью SageMaker, а также опробовать доступные вам преимущества. NIM доступен в качестве платного предложения в рамках подписки на программное обеспечение NVIDIA AI Enterprise. доступно на AWS Marketplace.

В ближайшем будущем мы опубликуем подробное руководство по NIM в SageMaker.

Об авторах

Оптимизируйте соотношение цены и качества вывода LLM на графических процессорах NVIDIA с помощью интеграции Amazon SageMaker с микросервисами NVIDIA NIM | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Джеймс Парк работает архитектором решений в Amazon Web Services. Он работает с Amazon.com над проектированием, созданием и развертыванием технологических решений на AWS и проявляет особый интерес к искусственному интеллекту и машинному обучению. В свободное время ему нравится знакомиться с новыми культурами, получать новый опыт и быть в курсе последних технологических тенденций. Вы можете найти его на LinkedIn.

Саураб Триканде является старшим менеджером по продуктам Amazon SageMaker Inference. Он увлечен работой с клиентами и мотивирован целью демократизации машинного обучения. Он фокусируется на основных проблемах, связанных с развертыванием сложных приложений машинного обучения, мультитенантных моделей машинного обучения, оптимизацией затрат и обеспечением более доступного развертывания моделей глубокого обучения. В свободное время Саураб любит ходить в походы, узнавать об инновационных технологиях, следить за TechCrunch и проводить время со своей семьей.

Оптимизируйте соотношение цены и качества вывода LLM на графических процессорах NVIDIA с помощью интеграции Amazon SageMaker с микросервисами NVIDIA NIM | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Цин Лан является инженером-разработчиком программного обеспечения в AWS. Он работал над несколькими сложными продуктами в Amazon, включая высокопроизводительные решения для логического вывода машинного обучения и высокопроизводительную систему ведения журналов. Команда Цин успешно запустила первую модель с миллиардом параметров в Amazon Advertising с очень низкой задержкой. Цин обладает глубокими знаниями по оптимизации инфраструктуры и ускорению глубокого обучения.

Нихил Кулкарни — разработчик программного обеспечения с помощью AWS Machine Learning, который занимается повышением производительности рабочих нагрузок машинного обучения в облаке, а также является одним из создателей контейнеров AWS Deep Learning для обучения и логических выводов. Он увлечен распределенными системами глубокого обучения. Вне работы он любит читать книги, играть на гитаре и готовить пиццу.

Оптимизируйте соотношение цены и качества вывода LLM на графических процессорах NVIDIA с помощью интеграции Amazon SageMaker с микросервисами NVIDIA NIM | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Хариш Туммалачерла — инженер-программист в команде Deep Learning Performance в SageMaker. Он занимается разработкой производительности для эффективного обслуживания больших языковых моделей в SageMaker. В свободное время он любит бег, езду на велосипеде и лыжный альпинизм.

Элиут Триана Исаза является менеджером по связям с разработчиками в NVIDIA, который помогает AI MLOps, DevOps, ученым и техническим экспертам AWS компании Amazon осваивать вычислительный стек NVIDIA для ускорения и оптимизации моделей Generative AI Foundation, включая курирование данных, обучение графических процессоров, вывод моделей и производственное развертывание на экземплярах графических процессоров AWS. . Кроме того, Элиут — страстный велосипедист, лыжник, теннисист и игрок в покер.

Цзяхонг Лю является архитектором решений в команде поставщиков облачных услуг в NVIDIA. Он помогает клиентам внедрить решения для машинного обучения и искусственного интеллекта, которые используют ускоренные вычисления NVIDIA для решения их задач обучения и логических выводов. В свободное время он увлекается оригами, проектами «сделай сам» и играет в баскетбол.

Кшитиз Гупта является архитектором решений в NVIDIA. Ему нравится обучать клиентов облачных вычислений технологиям искусственного интеллекта на графических процессорах, которые NVIDIA может предложить, и помогать им в ускорении их приложений машинного и глубокого обучения. Вне работы он любит бегать, ходить в походы и наблюдать за дикой природой.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Отметка времени: 18 марта 2024

Отметка времени: Июнь 15, 2022

Переиздано Платоном

Преодолевайте языковые барьеры с помощью Amazon Transcribe, Amazon Translate и Amazon Polly

Управление командой и пользователями с помощью Amazon SageMaker и AWS SSO

Ускорьте подготовку данных с помощью фрагментов кода PySpark и Altair в Amazon SageMaker Data Wrangler

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись