Анализ расходов на Amazon SageMaker и определение возможностей оптимизации затрат в зависимости от использования, часть 5: Хостинг

Переиздано Платоном

Читают: 0

В 2021 году мы запустили Проактивные сервисы поддержки AWS в качестве части Поддержка предприятий AWS план. С момента его появления мы помогли сотням клиентов оптимизировать их рабочие нагрузки, установить ограничения и повысить прозрачность затрат и использования их рабочих нагрузок машинного обучения (ML).

В этой серии сообщений мы делимся извлеченными уроками об оптимизации затрат в Создатель мудреца Амазонки. В Часть 1, мы показали, как начать использовать Анализ затрат AWS определить возможности оптимизации затрат в SageMaker. В этом посте мы сосредоточимся на средах логического вывода SageMaker: логическом выводе в реальном времени, пакетном преобразовании, асинхронном логическом выводе и бессерверном логическом выводе.

SageMaker предлагает несколько вариантов вывода для вас на выбор в зависимости от ваших требований к рабочей нагрузке:

Вывод в реальном времени для работы в режиме онлайн, с низкой задержкой или высокой пропускной способностью
Пакетное преобразование для автономной обработки по расписанию и когда вам не нужна постоянная конечная точка
Асинхронный вывод когда у вас есть большие полезные нагрузки с длительным временем обработки и вы хотите ставить запросы в очередь
Бессерверный вывод для случаев, когда у вас есть прерывистые или непредсказуемые схемы трафика и вы можете терпеть холодные запуски

В следующих разделах мы обсудим каждый вариант вывода более подробно.

Вывод SageMaker в реальном времени

Когда вы создаете конечную точку, SageMaker прикрепляет Магазин эластичных блоков Amazon (Amazon EBS) на Эластичное вычислительное облако Amazon (Amazon EC2), на котором размещена конечная точка. Это верно для всех типов инстансов, которые не поставляются с хранилищем SSD. Поскольку типы инстансов d* поставляются с хранилищем NVMe SSD, SageMaker не подключает том хранилища EBS к этим вычислительным инстансам машинного обучения. Ссылаться на Объемы хранилища экземпляра хоста для размера томов хранилища, которые SageMaker подключает для каждого типа экземпляра для одной конечной точки и для конечной точки с несколькими моделями.

Стоимость конечных точек SageMaker в режиме реального времени зависит от количества часов работы каждого экземпляра во время работы конечной точки, стоимости гигабайт в месяц выделенного хранилища (объем EBS), а также гигабайтов обработанных и исходящих данных. экземпляра конечной точки, как указано в Цены на Amazon SageMaker. В Cost Explorer вы можете просматривать затраты конечной точки в реальном времени, применяя фильтр к типу использования. Имена этих типов использования структурированы следующим образом:

REGION-Host:instanceType (например, USE1-Host:ml.c5.9xlarge)
REGION-Host:VolumeUsage.gp2 (например, USE1-Host:VolumeUsage.gp2)
REGION-Hst:Data-Bytes-Out (например, USE2-Hst:Data-Bytes-In)
REGION-Hst:Data-Bytes-Out (например, USW2-Hst:Data-Bytes-Out)

Как показано на следующем снимке экрана, фильтрация по типу использования Host: покажет список типов использования хостинга в реальном времени в учетной записи.

Вы можете либо выбрать конкретные типы использования, либо выбрать Выбрать все , а затем выбрать Применить для отображения разбивки затрат на использование хостинга SageMaker в режиме реального времени. Чтобы увидеть разбивку затрат и использования по часам работы инстанса, вам нужно отменить выбор всех REGION-Host:VolumeUsage.gp2 типы использования перед применением фильтра типа использования. Вы также можете применить дополнительные фильтры, такие как номер счета, тип инстанса EC2, тег распределения затрат, регион и БОЛЕЕ . На следующем снимке экрана показаны графики стоимости и использования для выбранных типов использования хостинга.

Кроме того, вы можете изучить стоимость, связанную с одним или несколькими экземплярами хостинга, с помощью Тип экземпляра фильтр. На следующем снимке экрана показана разбивка стоимости и использования экземпляра хостинга ml.p2.xlarge.

Точно так же стоимость обработанных и обработанных данных в ГБ можно отобразить, выбрав связанные типы использования в качестве применяемого фильтра, как показано на следующем снимке экрана.

После того, как вы достигли желаемых результатов с помощью фильтров и группировок, вы можете загрузить свои результаты, выбрав Скачать в формате CSV или сохраните отчет, выбрав Сохранить в библиотеке отчетов. Общие рекомендации по использованию Cost Explorer см. Новый внешний вид AWS Cost Explorer и распространенные варианты использования.

По желанию можно включить Отчеты о расходах и использовании AWS (AWS CUR), чтобы получить представление о расходах и данных об использовании ваших аккаунтов. AWS CUR содержит сведения о почасовом потреблении AWS. Он хранится в Простой сервис хранения Amazon (Amazon S3) в учетной записи плательщика, которая объединяет данные для всех связанных учетных записей. Вы можете запускать запросы, чтобы анализировать тенденции использования и предпринимать соответствующие действия для оптимизации затрат. Амазонка Афина — это бессерверная служба запросов, которую можно использовать для анализа данных из AWS CUR в Amazon S3 с использованием стандартного SQL. Дополнительную информацию и примеры запросов можно найти в Библиотека запросов AWS CUR.

Вы также можете передать данные AWS CUR в Amazon QuickSight, где вы можете нарезать и нарезать его любым удобным для вас способом для создания отчетов или визуализации. Инструкции см. Как загрузить и визуализировать отчет о затратах и использовании AWS (CUR) в Amazon QuickSight.

Вы можете получить информацию об уровне ресурсов, такую как ARN конечной точки, типы инстансов конечной точки, почасовую скорость инстансов, часы ежедневного использования и многое другое из AWS CUR. Вы также можете включить теги распределения затрат в свой запрос для дополнительного уровня детализации. Следующий пример запроса возвращает использование ресурсов хостинга в реальном времени за последние 3 месяца для данной учетной записи плательщика:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%Host%' AND line_item_operation = 'RunInstance' AND bill_payer_account_id = 'xxxxxxxxxxxx' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

На следующем снимке экрана показаны результаты, полученные при выполнении запроса с помощью Athena. Для получения дополнительной информации см. Запрос отчетов о расходах и использовании с помощью Amazon Athena.

Результат запроса показывает, что конечная точка mme-xgboost-housing с экземпляром ml.x4.xlarge сообщает о 24 часах работы в течение нескольких дней подряд. Стоимость экземпляра составляет 0.24 доллара США в час, а ежедневная стоимость работы в течение 24 часов составляет 5.76 доллара США.

Результаты AWS CUR могут помочь вам определить закономерности работы конечных точек в течение нескольких дней подряд в каждой из связанных учетных записей, а также конечные точки с самой высокой ежемесячной стоимостью. Это также может помочь вам решить, можно ли удалить конечные точки в непроизводственных учетных записях для экономии средств.

Оптимизация затрат для конечных точек в режиме реального времени

С точки зрения управления затратами важно определить недоиспользуемые (или слишком большие) экземпляры и привести размер и количество экземпляров, если это необходимо, в соответствие с требованиями рабочей нагрузки. Общие системные показатели, такие как загрузка ЦП/ГП и использование памяти, записываются в Amazon CloudWatch для всех экземпляров хостинга. Для конечных точек, работающих в режиме реального времени, SageMaker предоставляет в CloudWatch несколько дополнительных показателей. Некоторые из часто отслеживаемых показателей включают количество вызовов и ошибки вызовов 4xx/5xx. Полный список показателей см. Мониторинг Amazon SageMaker с помощью Amazon CloudWatch.

Метрика CPUUtilization предоставляет сумму использования каждого отдельного ядра ЦП. Загрузка ЦП каждого диапазона ядер составляет 0–100. Например, при наличии четырех процессоров CPUUtilization диапазон 0–400%. Метрика MemoryUtilization — это процент памяти, который используется контейнерами в экземпляре. Этот диапазон значений составляет 0–100 %. На следующем снимке экрана показан пример метрик CloudWatch. CPUUtilization и MemoryUtilization для экземпляра конечной точки ml.m4.10xlarge с 40 виртуальными ЦП и 160 ГБ памяти.

Эти графики показателей показывают максимальное использование ЦП примерно на 3,000 %, что эквивалентно 30 виртуальным ЦП. Это означает, что эта конечная точка не использует более 30 виртуальных ЦП из общей емкости 40 виртуальных ЦП. Точно так же использование памяти ниже 6%. Используя эту информацию, вы, возможно, сможете поэкспериментировать с экземпляром меньшего размера, который может удовлетворить эту потребность в ресурсах. Кроме того, CPUUtilization метрика показывает классический образец периодической высокой и низкой загрузки ЦП, что делает эту конечную точку хорошим кандидатом для автоматического масштабирования. Вы можете начать с экземпляра меньшего размера и сначала масштабировать его по мере изменения требований к вычислительным ресурсам. Для получения информации см. Автоматическое масштабирование моделей Amazon SageMaker.

SageMaker отлично подходит для тестирования новых моделей, поскольку вы можете легко развернуть их в среде A/B-тестирования, используя варианты производства, и вы платите только за то, что используете. Каждый рабочий вариант работает на своем собственном вычислительном экземпляре, и вы платите за каждый час использования экземпляра за каждый экземпляр во время работы варианта.

SageMaker также поддерживает теневые варианты, которые имеют те же компоненты, что и рабочий вариант, и работают на собственном вычислительном экземпляре. С теневыми вариантами SageMaker автоматически развертывает модель в тестовой среде, направляет копию запросов на вывод, полученных производственной моделью, в тестовую модель в режиме реального времени и собирает такие показатели производительности, как задержка и пропускная способность. Это позволяет вам проверить любой новый компонент-кандидат в стеке обслуживания вашей модели, прежде чем продвигать его в производство.

Когда вы закончите свои тесты и больше не используете конечную точку или варианты, вам следует удалить ее, чтобы сэкономить деньги. Поскольку модель хранится в Amazon S3, при необходимости ее можно воссоздать. Вы можете автоматически обнаруживать эти конечные точки и предпринимать корректирующие действия (например, удалять их) с помощью События Amazon CloudWatch и AWS Lambda функции. Например, вы можете использовать Invocations метрика, чтобы получить общее количество запросов, отправленных на конечную точку модели, а затем определить, простаивали ли конечные точки в течение последних часов (без вызовов в течение определенного периода, например 24 часов).

Если у вас есть несколько малоиспользуемых экземпляров конечных точек, рассмотрите такие варианты хостинга, как мультимодельные конечные точки (ММЕ), многоконтейнерные конечные точки (МСЭ) и конвейеры последовательного вывода для объединения использования с меньшим количеством экземпляров конечных точек.

Для развертывания модели вывода в реальном времени и асинхронного вывода вы можете оптимизировать затраты и производительность, развернув модели в SageMaker с помощью АМС Гравитон. AWS Graviton — это семейство процессоров, разработанных AWS, которые обеспечивают лучшее соотношение цены и производительности и более энергоэффективны, чем их аналоги x86. Руководство по развертыванию модели машинного обучения в инстансах на базе AWS Graviton и подробные сведения о преимуществе цены и качества см. Запускайте рабочие нагрузки логического вывода машинного обучения на инстансах на базе AWS Graviton с помощью Amazon SageMaker.. SageMaker также поддерживает Вывод AWS ускорители через мл.inf2 семейство экземпляров для развертывания моделей машинного обучения для вывода в реальном времени и асинхронного вывода. Вы можете использовать эти экземпляры в SageMaker для достижения высокой производительности при низких затратах для генеративных моделей искусственного интеллекта (ИИ), включая большие языковые модели (LLM) и преобразователи зрения.

Кроме того, вы можете использовать Рекомендатор выводов Amazon SageMaker для запуска нагрузочных тестов и оценки преимуществ цены и производительности при развертывании вашей модели на этих экземплярах. Дополнительные инструкции по автоматическому обнаружению простаивающих конечных точек SageMaker, а также по правильному размеру экземпляра и автоматическому масштабированию для конечных точек SageMaker см. Обеспечение эффективных вычислительных ресурсов в Amazon SageMaker.

Пакетное преобразование SageMaker

Пакетный вывод или автономный вывод, — это процесс генерации прогнозов по пакету наблюдений. Автономные прогнозы подходят для больших наборов данных и в случаях, когда вы можете позволить себе ждать ответа несколько минут или часов.

Стоимость пакетного преобразования SageMaker основана на количестве часов, затраченных каждым экземпляром во время выполнения задания пакетного преобразования, как указано в Цены на Amazon SageMaker. В Cost Explorer вы можете изучить затраты на пакетное преобразование, применив фильтр к типу использования. Имя этого типа использования структурировано как REGION-Tsform:instanceType (например, USE1-Tsform:ml.c5.9xlarge).

Как показано на следующем снимке экрана, фильтрация по типу использования Tsform: покажет список типов использования пакетного преобразования SageMaker в учетной записи.

Анализ расходов на Amazon SageMaker и определение возможностей оптимизации затрат на основе использования. Часть 5: Хостинг | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Вы можете либо выбрать конкретные типы использования, либо выбрать Выбрать все , а затем выбрать Применить чтобы отобразить разбивку стоимости использования экземпляра пакетного преобразования для выбранных типов. Как упоминалось ранее, вы также можете применять дополнительные фильтры. На следующем снимке экрана показаны графики затрат и использования для выбранных типов использования пакетного преобразования.

Оптимизация затрат на пакетное преобразование

Пакетное преобразование SageMaker взимает плату только за экземпляры, используемые во время выполнения ваших заданий. Если ваши данные уже находятся в Amazon S3, вам не нужно платить за чтение входных данных из Amazon S3 и запись выходных данных в Amazon S3. Все выходные объекты пытаются загрузить в Amazon S3. Если все успешно, то задание пакетного преобразования помечается как выполненное. Если происходит сбой одного или нескольких объектов, задание пакетного преобразования помечается как не выполненное.

Плата за задания пакетного преобразования применяется в следующих сценариях:

Работа успешна
Неудача из-за ClientError а контейнер модели SageMaker или управляемая среда SageMaker
Неудача из-за AlgorithmError or ClientError а контейнер модели - это ваш собственный контейнер (BYOC)

Ниже приведены некоторые рекомендации по оптимизации задания пакетного преобразования SageMaker. Эти рекомендации могут сократить общее время выполнения задания пакетного преобразования, тем самым снизив затраты:

Поставьте Пакетная стратегия в MultiRecord и SplitType в Line если вам нужно задание пакетного преобразования для создания мини-пакетов из входного файла. Если он не может автоматически разделить набор данных на мини-пакеты, вы можете разделить его на мини-пакеты, поместив каждый пакет в отдельный входной файл, помещенный в корзину S3 источника данных.
Убедитесь, что размер пакета помещается в память. SageMaker обычно делает это автоматически; однако при разделении пакетов вручную это необходимо настроить на основе памяти.
Пакетное преобразование разделяет объекты S3 во входных данных по ключу и сопоставляет эти объекты с экземплярами. Если у вас несколько файлов, один экземпляр может обрабатывать input1.csv, а другой экземпляр может обрабатывать input2.csv. Если у вас есть один входной файл, но вы инициализируете несколько вычислительных экземпляров, только один экземпляр обрабатывает входной файл, а остальные экземпляры простаивают. Убедитесь, что количество файлов больше или равно количеству экземпляров.
Если у вас есть большое количество небольших файлов, может быть полезно объединить несколько файлов в небольшое количество больших файлов, чтобы сократить время взаимодействия с Amazon S3.
Если вы используете CreateTransformJob API, вы можете сократить время, необходимое для выполнения заданий пакетного преобразования, используя оптимальные значения для таких параметров, как МакспайлоадинМБ, Максконкурренттрансформсили Пакетная стратегия:
- MaxConcurrentTransforms указывает максимальное количество параллельных запросов, которые могут быть отправлены каждому экземпляру в задании преобразования. Идеальное значение для MaxConcurrentTransforms равно количеству ядер vCPU в экземпляре.
- MaxPayloadInMB максимально допустимый размер полезной нагрузки в МБ. Значение в MaxPayloadInMB должен быть больше или равен размеру одной записи. Чтобы оценить размер записи в МБ, разделите размер набора данных на количество записей. Чтобы записи соответствовали максимальному размеру полезной нагрузки, мы рекомендуем использовать немного большее значение. Значение по умолчанию — 6 МБ.
- MaxPayloadInMB не должен превышать 100 МБ. Если указать необязательный MaxConcurrentTransforms параметр, то значение (MaxConcurrentTransforms * MaxPayloadInMB) также не должен превышать 100 МБ.
- В случаях, когда полезная нагрузка может быть произвольно большой и передается с использованием кодирования HTTP по частям, установите для параметра MaxPayloadInMB значение 0. Эта функция работает только в поддерживаемых алгоритмах. В настоящее время встроенные алгоритмы SageMaker не поддерживают кодирование HTTP по частям.
Пакетные задачи логического вывода обычно являются хорошими кандидатами на горизонтальное масштабирование. Каждый рабочий процесс в кластере может работать с другим подмножеством данных без необходимости обмена информацией с другими рабочими процессами. AWS предлагает несколько вариантов хранения и вычислений, которые обеспечивают горизонтальное масштабирование. Если одного экземпляра недостаточно для удовлетворения ваших требований к производительности, рассмотрите возможность параллельного использования нескольких экземпляров для распределения рабочей нагрузки. Ключевые моменты при проектировании заданий пакетного преобразования см. Пакетный вывод в масштабе с помощью Amazon SageMaker.
Постоянно отслеживайте показатели производительности заданий пакетного преобразования SageMaker с помощью CloudWatch. Ищите узкие места, такие как высокая загрузка ЦП или ГП, использование памяти или пропускная способность сети, чтобы определить, нужно ли вам корректировать размеры или конфигурации экземпляров.
SageMaker использует Amazon S3 API многокомпонентной загрузки для загрузки результатов задания пакетного преобразования в Amazon S3. В случае возникновения ошибки загруженные результаты удаляются из Amazon S3. В некоторых случаях, например при сбое в сети, в Amazon S3 может остаться незавершенная составная загрузка. Чтобы избежать расходов на хранение, мы рекомендуем вам добавить Политика корзины S3 к правилам жизненного цикла корзины S3. Эта политика удаляет незавершенные составные загрузки, которые могут храниться в корзине S3. Для получения дополнительной информации см. Управление жизненным циклом хранилища.

Асинхронный вывод SageMaker

Асинхронный логический вывод — отличный выбор для чувствительных к стоимости рабочих нагрузок с большими полезными нагрузками и пакетным трафиком. Обработка запросов может занимать до 1 часа, а размер полезной нагрузки может достигать 1 ГБ, поэтому он больше подходит для рабочих нагрузок с умеренными требованиями к задержке.

Вызов асинхронных конечных точек отличается от конечных точек в реальном времени. Вместо передачи полезной нагрузки запроса синхронно с запросом вы загружаете полезную нагрузку в Amazon S3 и передаете S3 URI как часть запроса. Внутри SageMaker поддерживает очередь с этими запросами и обрабатывает их. Во время создания конечной точки вы можете дополнительно указать Amazon Простая служба уведомлений (Amazon SNS) для получения уведомлений об успешном завершении или ошибке. Когда вы получите уведомление об успешной обработке вашего запроса на вывод, вы сможете получить доступ к результату в выходном расположении Amazon S3.

Стоимость асинхронного логического вывода основана на расходе каждого экземпляра в час во время работы конечной точки, стоимости ГБ-месяца выделенного хранилища, а также ГБ данных, обрабатываемых в экземпляре конечной точки и из него, как указано в Цены на Amazon SageMaker. В Cost Explorer можно отфильтровать затраты на асинхронный вывод, применив фильтр к типу использования. Имя этого типа использования структурировано как REGION-AsyncInf:instanceType (например, USE1-AsyncInf:ml.c5.9xlarge). Обратите внимание, что типы использования тома в ГБ и обработанных данных в ГБ совпадают с конечными точками в реальном времени, как упоминалось ранее в этом посте.

Как показано на следующем снимке экрана, фильтрация по типу использования AsyncInf: в Cost Explorer отображается разбивка затрат по типам использования асинхронных конечных точек.

Чтобы увидеть разбивку затрат и использования по часам работы инстанса, вам нужно отменить выбор всех REGION-Host:VolumeUsage.gp2 типы использования перед применением фильтра типа использования. Вы также можете применить дополнительные фильтры. Информация об уровне ресурсов, такая как ARN конечной точки, типы экземпляров конечной точки, почасовая скорость экземпляров и количество часов ежедневного использования, можно получить из AWS CUR. Ниже приведен пример запроса AWS CUR для получения сведений об использовании ресурсов асинхронного хостинга за последние 3 месяца.

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%AsyncInf%' AND line_item_operation = 'RunInstance' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

На следующем снимке экрана показаны результаты, полученные при выполнении запроса AWS CUR с помощью Athena.

Результат запроса показывает, что конечная точка sagemaker-abc-model-5 с экземпляром ml.m5.xlarge сообщает о 24 часах работы в течение нескольких дней подряд. Стоимость экземпляра составляет 0.23 доллара США в час, а ежедневная стоимость работы в течение 24 часов составляет 5.52 доллара США.

Как упоминалось ранее, результаты AWS CUR могут помочь вам определить закономерности работы конечных точек в течение нескольких дней подряд, а также конечные точки с самой высокой ежемесячной стоимостью. Это также может помочь вам решить, можно ли удалить конечные точки в непроизводственных учетных записях для экономии средств.

Оптимизация затрат на асинхронный вывод

Как и в случае с конечными точками в реальном времени, стоимость асинхронных конечных точек зависит от типа использования экземпляра. Поэтому важно выявлять недостаточно используемые экземпляры и изменять их размер в соответствии с требованиями рабочей нагрузки. Для мониторинга асинхронных конечных точек SageMaker делает несколько показателей как ApproximateBacklogSize, HasBacklogWithoutCapacityи многое другое доступно в CloudWatch. Эти метрики могут отображать запросы в очереди для экземпляра и могут использоваться для автоматического масштабирования конечной точки. Асинхронный вывод SageMaker также включает метрики на уровне хоста. Сведения о метриках на уровне хоста см. Задания SageMaker и метрики конечной точки. Эти показатели могут отображать использование ресурсов, что может помочь вам правильно определить размер экземпляра.

SageMaker поддерживает автоматическое масштабирование для асинхронных конечных точек. В отличие от конечных точек, размещенных в режиме реального времени, конечные точки асинхронного вывода поддерживают масштабирование экземпляров до нуля путем установки нулевой минимальной емкости. Для асинхронных конечных точек SageMaker настоятельно рекомендует создать конфигурацию политики для масштабирования с отслеживанием целей для развернутой модели (вариант). Вам необходимо определить политику масштабирования, которая масштабируется на ApproximateBacklogPerInstance пользовательскую метрику и установите MinCapacity значение до нуля.

Асинхронный вывод позволяет сократить расходы за счет автоматического масштабирования количества экземпляров до нуля, когда нет запросов для обработки, поэтому вы платите только тогда, когда ваша конечная точка обрабатывает запросы. Запросы, полученные при нулевом количестве экземпляров, помещаются в очередь для обработки после масштабирования конечной точки. Таким образом, для случаев использования, которые могут выдержать штраф за холодный запуск в несколько минут, вы можете дополнительно уменьшить количество экземпляров конечной точки до нуля, когда нет невыполненных запросов, и масштабировать обратно по мере поступления новых запросов. Время холодного запуска зависит от времени, необходимого для запуска новой конечной точки с нуля. Также, если сама модель большая, то время может быть больше. Если ожидается, что ваша работа займет больше времени, чем 1 час обработки, вы можете рассмотреть возможность пакетного преобразования SageMaker.

Кроме того, вы также можете учитывать время ожидания вашего запроса в очереди в сочетании со временем обработки, чтобы выбрать тип экземпляра. Например, если ваш вариант использования может выдерживать часы ожидания, вы можете выбрать меньший экземпляр для экономии средств.

Дополнительные рекомендации по выбору правильного размера экземпляра и автоматическому масштабированию для конечных точек SageMaker см. Обеспечение эффективных вычислительных ресурсов в Amazon SageMaker.

Бессерверный вывод

Бессерверный вывод позволяет развертывать модели машинного обучения для логического вывода без необходимости настраивать или управлять базовой инфраструктурой. В зависимости от объема запросов на вывод, получаемых вашей моделью, бессерверный вывод SageMaker автоматически выделяет, масштабирует и отключает вычислительные мощности. В результате вы платите только за время вычислений для запуска вашего кода логического вывода и объем обработанных данных, а не за время простоя. Для бессерверных конечных точек подготовка экземпляра не требуется. Вам необходимо предоставить объем памяти и максимальный параллелизм. Поскольку бессерверные конечные точки предоставляют вычислительные ресурсы по запросу, ваша конечная точка может столкнуться с задержкой в несколько дополнительных секунд (холодный запуск) для первого вызова после периода простоя. Вы платите за вычислительные мощности, используемые для обработки запросов на логические выводы, за миллисекунды, ГБ-месяцы выделенного хранилища и объем обработанных данных. Стоимость вычислений зависит от выбранной вами конфигурации памяти.

В Cost Explorer вы можете отфильтровать затраты на бессерверные конечные точки, применив фильтр к типу использования. Имя этого типа использования структурировано как REGION-ServerlessInf:Mem-MemorySize (например, USE2-ServerlessInf:Mem-4GB). Обратите внимание, что типы использования тома в ГБ и обработанных данных в ГБ такие же, как и конечные точки в реальном времени.

Вы можете увидеть разбивку затрат, применив дополнительные фильтры, такие как номер счета, тип экземпляра, регион и т. д. На следующем снимке экрана показана разбивка затрат с применением фильтров для типа использования бессерверного вывода.

Оптимизация стоимости бессерверного логического вывода

При настройке вашей бессерверной конечной точки вы можете указать размер памяти и максимальное количество одновременных вызовов. Бессерверный логический вывод SageMaker автоматически назначает вычислительные ресурсы, пропорциональные выбранному вами объему памяти. Если вы выберете больший объем памяти, ваш контейнер получит доступ к большему количеству виртуальных ЦП. В случае бессерверного логического вывода вы платите только за вычислительные мощности, используемые для обработки запросов логического вывода, оплачиваемые по миллисекундам, и за объем обработанных данных. Стоимость вычислений зависит от выбранной вами конфигурации памяти. Вы можете выбрать следующие размеры памяти: 1024 МБ, 2048 МБ, 3072 МБ, 4096 МБ, 5120 МБ и 6144 МБ. Цена увеличивается с увеличением размера памяти, как описано в Цены на Amazon SageMaker, поэтому важно выбрать правильный объем памяти. Как правило, объем памяти должен быть не меньше размера вашей модели. Однако рекомендуется учитывать использование памяти при определении размера памяти конечной точки в дополнение к размеру самой модели.

Общие рекомендации по оптимизации затрат на вывод SageMaker

Оптимизация расходов на хостинг — это не разовое мероприятие. Это непрерывный процесс мониторинга развернутой инфраструктуры, шаблонов использования и производительности, а также пристального внимания к новым инновационным решениям, выпускаемым AWS, которые могут повлиять на стоимость. Рассмотрите следующие рекомендации:

Выберите подходящий тип экземпляра – SageMaker поддерживает несколько типов экземпляров, каждый из которых имеет различные комбинации ЦП, ГП, памяти и объема хранилища. В зависимости от требований к ресурсам вашей модели выберите тип экземпляра, который предоставляет необходимые ресурсы без избыточной подготовки. Для получения информации о доступных типах экземпляров SageMaker, их спецификациях и рекомендациях по выбору правильного экземпляра см. Обеспечение эффективных вычислительных ресурсов в Amazon SageMaker.
Протестируйте в локальном режиме – Для более быстрого выявления сбоев и отладки рекомендуется тестировать код и контейнер (в случае BYOC) в локальный режим перед запуском рабочей нагрузки логического вывода на удаленном экземпляре SageMaker. Локальный режим — отличный способ протестировать сценарии перед их запуском в управляемой среде хостинга SageMaker.
Оптимизируйте модели, чтобы повысить их производительность – Неоптимизированные модели могут привести к увеличению времени выполнения и использованию большего количества ресурсов. Вы можете использовать больше экземпляров или экземпляры большего размера для повышения производительности; однако это приводит к более высоким затратам. Оптимизируя свои модели для повышения производительности, вы можете снизить затраты за счет использования меньшего количества экземпляров или экземпляров меньшего размера, сохраняя при этом те же или лучшие характеристики производительности. Вы можете использовать Amazon SageMaker Neo с выводом SageMaker для автоматической оптимизации моделей. Более подробную информацию и образцы см. Оптимизируйте производительность модели с помощью Neo.
Используйте теги и инструменты управления стоимостью – Чтобы поддерживать видимость ваших рабочих нагрузок логического вывода, рекомендуется использовать теги, а также инструменты управления затратами AWS, такие как Бюджеты AWS, Биллинговая консоль AWSи функция прогнозирования Cost Explorer. Вы также можете изучить сберегательные планы SageMaker как гибкую модель ценообразования. Дополнительные сведения об этих параметрах см. Часть 1 из этой серии.

Заключение

В этом посте мы предоставили рекомендации по анализу затрат и передовым методам использования параметров логического вывода SageMaker. Поскольку машинное обучение зарекомендовало себя как мощный инструмент в разных отраслях, обучение и запуск моделей машинного обучения должны оставаться экономически эффективными. SageMaker предлагает широкий и глубокий набор функций для облегчения каждого шага конвейера машинного обучения и предоставляет возможности оптимизации затрат без ущерба для производительности или гибкости. Обратитесь к своей команде AWS за рекомендациями по стоимости рабочих нагрузок SageMaker.

Об авторах

Дипали Раджале является старшим специалистом по AI/ML в AWS. Она работает с корпоративными клиентами, предоставляя технические рекомендации с рекомендациями по развертыванию и обслуживанию решений AI/ML в экосистеме AWS. Она работала с широким кругом организаций над различными вариантами использования глубокого обучения, включающими НЛП и компьютерное зрение. Она увлечена тем, чтобы дать организациям возможность использовать генеративный ИИ для улучшения их опыта использования. В свободное время любит кино, музыку и литературу.

Ури Розенберг является техническим менеджером специалиста по искусственному интеллекту и машинному обучению в Европе, на Ближнем Востоке и в Африке. Находясь в Израиле, Ури работает над тем, чтобы предоставить корпоративным клиентам все, что связано с машинным обучением, для проектирования, создания и эксплуатации в масштабе. В свободное время он любит кататься на велосипеде, ходить в походы и заниматься скалолазанием.