Сокращение затрат на инференс Amazon SageMaker с помощью AWS Graviton

Переиздано Платоном

Читают: 0

Создатель мудреца Амазонки предоставляет широкий выбор инфраструктуры машинного обучения (ML) и вариантов развертывания модели, которые помогут удовлетворить ваши потребности в выводе ML. Это полностью управляемый сервис, который интегрируется с инструментами MLOps, поэтому вы можете работать над масштабированием развертывания модели, снижать затраты на логические выводы, более эффективно управлять моделями в производственной среде и снижать эксплуатационную нагрузку. SageMaker предоставляет несколько варианты вывода так что вы можете выбрать вариант, который лучше всего подходит для вашей рабочей нагрузки.

ЦП нового поколения предлагают значительное повышение производительности при выводе ML благодаря специализированным встроенным инструкциям. В этом посте мы сосредоточимся на том, как вы можете воспользоваться АМС Гравитон3на базе Amazon Elastic Compute Cloud (EC2) Экземпляры C7g чтобы помочь сократить затраты на вывод до 50% по сравнению с сопоставимыми инстансами EC2 для вывод в реальном времени на Amazon SageMaker. Мы покажем, как всего за несколько шагов оценить производительность логического вывода и переключить рабочие нагрузки машинного обучения на инстансы AWS Graviton.

Чтобы охватить популярный и широкий спектр клиентских приложений, в этом посте мы обсудим производительность вывода фреймворков PyTorch, TensorFlow, XGBoost и scikit-learn. Мы охватываем сценарии компьютерного зрения (CV), обработки естественного языка (NLP), классификации и ранжирования для моделей и экземпляров ml.c6g, ml.c7g, ml.c5 и ml.c6i SageMaker для сравнительного анализа.

Результаты сравнительного анализа

Для сравнения мы использовали четыре разных типа инстансов:

Все четыре экземпляра имеют 16 виртуальных ЦП и 32 ГБ памяти.

На следующем графике мы измерили стоимость вывода на миллион для четырех типов экземпляров. Далее мы нормализовали стоимость за миллион результатов логического вывода к экземпляру c5.4xlarge, который измеряется как 1 по оси Y диаграммы. Вы можете видеть, что для моделей XGBoost стоимость вывода на миллион для c7g.4xlarge (AWS Graviton3) составляет около 50 % от c5.4xlarge и 40 % от c6i.4xlarge; для моделей PyTorch NLP экономия средств составляет около 30–50 % по сравнению с экземплярами c5 и c6i.4xlarge. Для других моделей и платформ мы оценили экономию затрат не менее 30 % по сравнению с экземплярами c5 и c6i.4xlarge.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Как и на предыдущем графике сравнения стоимости вывода, на следующем графике показана задержка модели p90 для тех же четырех типов инстансов. Далее мы нормализовали результаты задержки для экземпляра c5.4xlarge, который измеряется как 1 по оси Y диаграммы. Задержка логического вывода модели c7g.4xlarge (AWS Graviton3) до 50 % лучше, чем задержки, измеренные на c5.4xlarge и c6i.4xlarge.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Перенос на инстансы AWS Graviton

Чтобы развернуть свои модели в экземплярах AWS Graviton, вы можете либо использовать Контейнеры глубокого обучения AWS (DLC) или привозите свои контейнеры которые совместимы с архитектурой ARMv8.2.

Миграция (или новое развертывание) ваших моделей в инстансы AWS Graviton выполняется просто, поскольку AWS не только предоставляет контейнеры для размещения моделей с помощью PyTorch, TensorFlow, scikit-learn и XGBoost, но и сами модели не зависят от архитектуры. Вы также можете принести свои собственные библиотеки, но убедитесь, что ваш контейнер создан в среде, поддерживающей архитектуру ARMv8.2. Для получения дополнительной информации см. Создание собственного контейнера алгоритмов.

Для развертывания модели вам потребуется выполнить три шага:

Создайте модель SageMaker. Среди прочих параметров он будет содержать информацию о расположении файла модели, контейнере, который будет использоваться для развертывания, и расположении сценария вывода. (Если у вас есть существующая модель, уже развернутая в экземпляре вывода, оптимизированном для вычислений, вы можете пропустить этот шаг.)
Создайте конфигурацию конечной точки. Он будет содержать информацию о типе экземпляра, который вы хотите использовать для конечной точки (например, ml.c7g.xlarge для AWS Graviton3), имени модели, созданной на предыдущем шаге, и количестве экземпляров на конечную точку.
Запустите конечную точку с конфигурацией конечной точки, созданной на предыдущем шаге.

Подробные инструкции см. Запускайте рабочие нагрузки логического вывода машинного обучения на инстансах на базе AWS Graviton с помощью Amazon SageMaker.

Методология сравнительного анализа

Мы использовали Рекомендатор выводов Amazon SageMaker для автоматизации сравнительного анализа производительности в разных экземплярах. Эта служба сравнивает производительность вашей модели машинного обучения с точки зрения задержки и стоимости на разных экземплярах и рекомендует экземпляр и конфигурацию, которые обеспечивают наилучшую производительность при наименьших затратах. Мы собрали вышеупомянутые данные о производительности с помощью Inference Recommender. Для получения более подробной информации см. Репо GitHub.

Вы можете использовать образец тетради запустить тесты и воспроизвести результаты. Для бенчмаркинга мы использовали следующие модели:

Заключение

AWS оценила экономию средств до 50 % для PyTorch, TensorFlow, XGBoost и вывода модели scikit-learn с инстансами EC3 C2g на базе AWS Graviton7 по сравнению с сопоставимыми инстансами EC2 в Amazon SageMaker. Вы можете перенести существующие варианты использования логического вывода или развернуть новые модели машинного обучения на AWS Graviton, выполнив действия, описанные в этом посте. Вы также можете обратиться к Техническое руководство по AWS Graviton, в котором представлен список оптимизированных библиотек и рекомендаций, которые помогут вам добиться экономической выгоды с помощью инстансов AWS Graviton при различных рабочих нагрузках.

Если вы обнаружите случаи использования, в которых аналогичный прирост производительности не наблюдается на AWS Graviton, свяжитесь с нами. Мы продолжим добавлять дополнительные улучшения производительности, чтобы сделать AWS Graviton самым экономичным и эффективным процессором общего назначения для логического вывода машинного обучения.

Об авторах

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai. Сунита Надампалли является менеджером по разработке программного обеспечения в AWS. Она руководит оптимизацией производительности программного обеспечения Graviton для машинного обучения, высокопроизводительных вычислений и мультимедийных рабочих нагрузок. Она увлечена разработкой с открытым исходным кодом и предоставлением экономически эффективных программных решений с помощью SoC Arm.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai. Джеймин Десаи — инженер-разработчик программного обеспечения в команде Amazon SageMaker Inference. Он увлечен распространением ИИ в массы и повышением удобства использования современных активов ИИ путем превращения их в функции и услуги. В свободное время он любит заниматься музыкой и путешествовать.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai. Майк Шнайдер является системным разработчиком из Феникса, Аризона. Он является членом контейнеров Deep Learning, поддерживающих различные образы контейнеров Framework, включая Graviton Inference. Он занимается вопросами эффективности и стабильности инфраструктуры.

Мохан Ганди является старшим инженером-программистом в AWS. Он работает с AWS последние 10 лет и работал над различными сервисами AWS, такими как EMR, EFA и RDS. В настоящее время он сосредоточен на улучшении SageMaker Inference Experience. В свободное время любит пешие прогулки и марафоны.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai. Цинвэй Ли является специалистом по машинному обучению в Amazon Web Services. Он получил докторскую степень в Исследовании операций после того, как он сломал счет исследовательского гранта своего советника и был не в состоянии поставить Нобелевскую премию, которую он обещал. В настоящее время он помогает клиентам в сфере финансовых услуг и страхования создавать решения для машинного обучения на AWS. В свободное время он любит читать и преподавать.

Уэйн То является специалистом по архитектуре решений для Graviton в AWS. Он фокусируется на том, чтобы помочь клиентам внедрить архитектуру ARM для крупномасштабных контейнерных рабочих нагрузок. До прихода в AWS Уэйн работал с несколькими крупными поставщиками программного обеспечения, включая IBM и Red Hat.

Лорен Малленекс — архитектор решений из Денвера, штат Колорадо. Она работает с клиентами, помогая им разрабатывать решения на AWS. В свободное время она любит ходить в походы и готовить блюда гавайской кухни.

SEO-контент и PR-распределение. Получите усиление сегодня.
ПлатонАйСтрим. Анализ данных Web3. Расширение знаний. Доступ здесь.
Чеканка будущего с Эдриенн Эшли. Доступ здесь.
Покупайте и продавайте акции компаний PREIPO® с помощью PREIPO®. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/reduce-amazon-sagemaker-inference-cost-with-aws-graviton/

Отметка времени: 10 мая 2023

Отметка времени: 17 ноября, 2022

Защита потребителей и продвижение инноваций — регулирование ИИ и укрепление доверия к ответственному ИИ

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1765573

Отметка времени: Декабрь 1, 2022

Значительные новые возможности упрощают использование Amazon Bedrock для создания и масштабирования генеративных приложений искусственного интеллекта и достижения впечатляющих результатов | Веб-сервисы Amazon

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1967437

Отметка времени: 23 Апрель, 2024

Сократите затраты на вывод Amazon SageMaker с помощью AWS Graviton

Переиздано Платоном

Результаты сравнительного анализа

Перенос на инстансы AWS Graviton

Методология сравнительного анализа

Заключение

Об авторах

Больше от Машинное обучение AWS

Объявление об обновленном соединителе Salesforce (V2) для Amazon Kendra

Улучшите качество редактирования контента с помощью Contentful и Amazon Bedrock | Веб-сервисы Amazon

Как Patsnap использовал вывод GPT-2 в Amazon SageMaker с низкой задержкой и затратами | Веб-сервисы Амазонки

Создавайте готовые к машинному обучению наборы данных из офлайн-магазина функций Amazon SageMaker с помощью Amazon SageMaker Python SDK | Веб-сервисы Амазонки

Создание синтетических данных для конвейеров компьютерного зрения на AWS

Создавайте высокопроизводительные модели классификации изображений с помощью Amazon SageMaker JumpStart

Защита потребителей и продвижение инноваций — регулирование ИИ и укрепление доверия к ответственному ИИ

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись