Размещение моделей машинного обучения в Amazon SageMaker с использованием Triton: модели XGBoost, LightGBM и Treelite

Переиздано Платоном

Читают: 0

Одной из самых популярных моделей, доступных сегодня, является XGBoost. Благодаря возможности решать различные проблемы, такие как классификация и регрессия, XGBoost стал популярным вариантом, который также относится к категории древовидных моделей. В этом посте мы углубимся, чтобы увидеть, как Создатель мудреца Амазонки может обслуживать эти модели, используя Сервер вывода NVIDIA Triton. Рабочие нагрузки логических выводов в реальном времени могут иметь различные уровни требований и соглашений об уровне обслуживания (SLA) с точки зрения задержки и пропускной способности, и их можно удовлетворить с помощью конечных точек SageMaker в реальном времени.

SageMaker предоставляет конечные точки одной модели, которые позволяют развернуть единую модель машинного обучения (ML) для логической конечной точки. Для других вариантов использования вы можете управлять затратами и производительностью с помощью мультимодельные конечные точки, которые позволяют указать несколько моделей для размещения за логической конечной точкой. Независимо от того, какой вариант вы выберете, конечные точки SageMaker обеспечивают масштабируемый механизм даже для самых требовательных корпоративных клиентов, обеспечивая при этом множество функций, включая теневые варианты, автоматическое масштабированиеи нативная интеграция с Amazon CloudWatch (для получения дополнительной информации см. Метрики CloudWatch для мультимодальных развертываний конечных точек).

Triton поддерживает различные серверные части в качестве механизмов для поддержки запуска и обслуживания различных моделей машинного обучения для логического вывода. Для любого развертывания Triton крайне важно знать, как поведение серверной части влияет на ваши рабочие нагрузки и чего ожидать, чтобы добиться успеха. В этом посте мы поможем вам понять Серверная часть библиотеки вывода леса (FIL), который поддерживается Triton в SageMaker, так что вы можете принять обоснованное решение для своих рабочих нагрузок и получить наилучшую возможную производительность и оптимизацию затрат.

Глубокое погружение в серверную часть FIL

Тритон поддерживает Серверная часть FIL для обслуживания моделей деревьев, таких как XGBoost, светГБМ, scikit учиться Случайный Лес, RAPIDS cuML Случайный леси любая другая модель, поддерживаемая Трилайт. Эти модели уже давно используются для решения таких задач, как классификация или регрессия. Хотя эти типы моделей традиционно работали на процессорах, популярность этих моделей и требования к логическим выводам привели к появлению различных методов повышения производительности логических выводов. Серверная часть FIL использует многие из этих методов с помощью конструкций cuML и построена на C++ и базовой библиотеке CUDA для оптимизации производительности логических выводов на ускорителях GPU.

Серверная часть FIL использует библиотеки cuML для использования ядер ЦП или ГП для ускорения обучения. Чтобы использовать эти процессоры, на данные ссылаются из памяти хоста (например, массивы NumPy) или массивы GPU (uDF, Numba, cuPY или любая библиотека, поддерживающая __cuda_array_interface__) API. После размещения данных в памяти серверная часть FIL может выполнять обработку на всех доступных ядрах ЦП или ГП.

Потоки бэкенда FIL могут взаимодействовать друг с другом, не используя общую память хоста, но при рабочих нагрузках ансамбля следует учитывать память хоста. На следующей диаграмме показана архитектура среды выполнения ансамблевого планировщика, в которой у вас есть возможность точно настроить области памяти, включая разделяемую память с адресацией ЦП, которая используется для межпроцессного взаимодействия между Triton (C++) и процессом Python (серверная часть Python) для обмена тензоры (ввод/вывод) с бэкендом FIL.

Triton Inference Server предоставляет разработчикам настраиваемые параметры для настройки своих рабочих нагрузок и оптимизации производительности модели. Конфигурация dynamic_batching позволяет Triton удерживать запросы на стороне клиента и группировать их на стороне сервера, чтобы эффективно использовать параллельные вычисления FIL для вывода всего пакета вместе. Опция max_queue_delay_microseconds предлагает безотказный контроль того, как долго Triton ожидает формирования партии.

Существует ряд других специфичных для FIL доступные варианты которые влияют на производительность и поведение. Предлагаем начать с storage_type. При запуске серверной части на графическом процессоре FIL создает новую структуру памяти/данных, которая является представлением дерева, для которого FIL может влиять на производительность и занимаемую площадь. Это настраивается через параметр среды storage_type, который имеет параметры плотный, разреженный и автоматический. Выбор плотного варианта потребляет больше памяти графического процессора и не всегда приводит к повышению производительности, поэтому лучше проверить. Напротив, разреженный вариант будет потреблять меньше памяти графического процессора и, возможно, может работать так же или лучше, чем плотный. Выбор auto приведет к тому, что модель по умолчанию станет плотной, если только это не потребует значительно больше памяти графического процессора, чем разреженная.

Когда дело доходит до производительности модели, вы можете подумать о том, чтобы сделать акцент на threads_per_tree вариант. Одна вещь, которую вы можете переусердствовать в реальных сценариях, заключается в том, что threads_per_tree может иметь большее влияние на пропускную способность, чем любой другой параметр. Установка его в любую степень 2 от 1 до 32 является законной. Оптимальное значение для этого параметра трудно предсказать, но когда ожидается, что сервер будет работать с более высокой нагрузкой или обрабатывать большие объемы пакетов, он, как правило, выиграет от большего значения, чем при обработке нескольких строк за раз.

Еще один параметр, о котором следует знать, это algo, который также доступен, если вы работаете на графическом процессоре. Этот параметр определяет алгоритм, используемый для обработки запросов на вывод. Для этого поддерживаются следующие параметры: ALGO_AUTO, NAIVE, TREE_REORGи BATCH_TREE_REORG. Эти параметры определяют, как организованы узлы в дереве, а также могут привести к повышению производительности. ALGO_AUTO опция по умолчанию NAIVE для редкого хранения и BATCH_TREE_REORG для плотного хранения.

Наконец, FIL поставляется с эксплейнером Shapley, который можно активировать с помощью treeshap_output параметр. Однако вы должны иметь в виду, что выходные данные Shapley снижают производительность из-за размера вывода.

Формат модели

В настоящее время не существует стандартного формата файла для хранения моделей леса; каждый фреймворк имеет тенденцию определять свой собственный формат. Для поддержки нескольких форматов входных файлов FIL импортирует данные, используя открытый исходный код. Трилайт библиотека. Это позволяет FIL поддерживать модели, обученные в популярных средах, таких как XGBoost и СветGBM. Обратите внимание, что формат модели, которую вы предоставляете, должен быть установлен в model_type значение конфигурации, указанное в config.pbtxt .

Конфиг.pbtxt

Каждая модель в хранилище моделей должен включать конфигурацию модели, которая предоставляет необходимую и необязательную информацию о модели. Как правило, эта конфигурация предоставляется в config.pbtxt файл, указанный как Протобуф ModelConfig. Чтобы узнать больше о настройках конфигурации, см. Конфигурация модели. Ниже приведены некоторые параметры конфигурации модели:

max_batch_size – Это определяет максимальный размер пакета, который может быть передан в эту модель. Как правило, единственным ограничением на размер пакетов, передаваемых на серверную часть FIL, является доступная память для их обработки. Для запуска GPU доступная память определяется размером пула памяти CUDA Triton, который можно установить с помощью аргумента командной строки при запуске сервера.
вход – Параметры в этом разделе сообщают Triton количество функций, которые следует ожидать для каждого входного образца.
выходной – Параметры в этом разделе сообщают Triton, сколько выходных значений будет для каждого образца. Если predict_proba option установлено значение true, то значение вероятности будет возвращено для каждого класса. В противном случае будет возвращено одно значение, указывающее класс, предсказанный для данной выборки.
группа_экземпляра – Это определяет, сколько экземпляров этой модели будет создано и будут ли они использовать GPU или CPU.
модель_тип – Эта строка указывает, в каком формате находится модель (xgboost_json в этом примере, но xgboost, lightgbmи tl_checkpoint также являются допустимыми форматами).
предсказать_вероятность – Если установлено значение true, значения вероятности будут возвращены для каждого класса, а не просто предсказание класса.
выход_класс – Для моделей классификации установлено значение true, а для моделей регрессии – false.
порог – Это пороговое значение для определения классификации. Когда output_class установлено значение true, это необходимо указать, хотя оно не будет использоваться, если predict_proba также установлено значение true.
тип_хранилища – В целом, использование АВТО для этой настройки подходит для большинства случаев использования. Если выбрано хранилище AUTO, FIL загрузит модель, используя либо разреженное, либо плотное представление в зависимости от приблизительного размера модели. В некоторых случаях может потребоваться явно установить для этого параметра значение SPARSE, чтобы уменьшить объем памяти, занимаемой большими моделями.

Сервер инференса Triton на SageMaker

SageMaker позволяет вы можете развернуть конечные точки как с одной моделью, так и с несколькими моделями с помощью NVIDIA Triton Inference Server. На следующем рисунке показана высокоуровневая архитектура Triton Inference Server. хранилище моделей представляет собой репозиторий моделей на основе файловой системы, которые Triton сделает доступными для логического вывода. Запросы на вывод поступают на сервер и направляются в соответствующий планировщик для каждой модели. Тритон реализует несколько алгоритмов планирования и пакетной обработки которые можно настроить для каждой модели отдельно. Планировщик каждой модели дополнительно выполняет группирование запросов на вывод, а затем передает запросы в бэкэнда соответствующий типу модели. Серверная часть выполняет вывод, используя входные данные, предоставленные в пакетных запросах, для получения запрошенных выходных данных. Затем результаты возвращаются.

При настройке групп автоматического масштабирования для конечных точек SageMaker вы можете рассмотреть SageMakerVariantInvocationsPerInstance в качестве основного критерия для определения характеристик масштабирования вашей группы автоматического масштабирования. Кроме того, в зависимости от того, работают ли ваши модели на графическом или центральном процессоре, вы также можете рассмотреть возможность использования CPUUtilization или GPUUtilization в качестве дополнительных критериев. Обратите внимание, что для конечных точек с одной моделью, поскольку все развернутые модели одинаковы, довольно просто установить правильные политики для соответствия вашим соглашениям об уровне обслуживания. Для конечных точек с несколькими моделями мы рекомендуем развертывать аналогичные модели за данной конечной точкой, чтобы обеспечить более стабильную предсказуемую производительность. В случаях, когда используются модели разных размеров и требований, вы можете разделить эти рабочие нагрузки между несколькими конечными точками с несколькими моделями или потратить некоторое время на точную настройку групповой политики автоматического масштабирования, чтобы получить наилучший баланс затрат и производительности.

Список контейнеров глубокого обучения (DLC) NVIDIA Triton, поддерживаемых выводом SageMaker, см. Доступные образы контейнеров глубокого обучения.

Пошаговое руководство по блокноту SageMaker

Приложения машинного обучения сложны и часто требуют предварительной обработки данных. В этой записной книжке мы подробно рассмотрим, как развернуть древовидную модель машинного обучения, такую как XGBoost, с использованием серверной части FIL в Triton на мультимодельной конечной точке SageMaker. Мы также расскажем, как реализовать конвейер логического вывода предварительной обработки данных на основе Python для вашей модели, используя функцию ансамбля в Triton. Это позволит нам отправлять необработанные данные со стороны клиента и выполнять предварительную обработку данных и вывод модели в конечной точке Triton SageMaker для оптимальной производительности вывода.

Особенность ансамбля модели Triton

Triton Inference Server значительно упрощает развертывание моделей ИИ в масштабе производства. Triton Inference Server поставляется с удобным решением, упрощающим построение конвейеров предварительной и постобработки. Платформа Triton Inference Server предоставляет планировщик ансамбля, который отвечает за конвейерную обработку моделей, участвующих в процессе логического вывода, обеспечивая при этом эффективность и оптимизацию пропускной способности. Использование ансамблевых моделей позволяет избежать накладных расходов на передачу промежуточных тензоров и свести к минимуму количество запросов, которые необходимо отправить в Triton.

В этой записной книжке мы покажем, как использовать функцию ансамбля для построения конвейера предварительной обработки данных с выводом модели XGBoost, и вы можете экстраполировать его, чтобы добавить в конвейер пользовательскую постобработку.

Настройте среду

Начнем с настройки необходимой среды. Мы устанавливаем зависимости, необходимые для упаковки конвейера нашей модели, и запускаем выводы с помощью Triton Inference Server. Мы также определяем Управление идентификацией и доступом AWS (IAM), которая предоставит SageMaker доступ к артефактам модели и NVIDIA Triton. Реестр Amazon Elastic Container (Amazon ECR) изображение. См. следующий код:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Создайте среду Conda для предварительной обработки зависимостей

Серверная часть Python в Triton требует, чтобы мы использовали Конда среду для любых дополнительных зависимостей. В этом случае мы используем серверную часть Python для предварительной обработки необработанных данных перед их подачей в модель XGBoost, работающую в серверной части FIL. Несмотря на то, что изначально мы использовали RAPIDS cuDF и cuML для предварительной обработки данных, здесь мы используем Pandas и scikit-learn в качестве зависимостей предварительной обработки во время логического вывода. Мы делаем это по трем причинам:

Мы покажем, как создать среду Conda для ваших зависимостей и как упаковать ее в ожидаемый формат бэкендом Triton Python.
Показывая модель предварительной обработки, работающую в бэкэнде Python на ЦП, в то время как XGBoost работает на графическом процессоре в бэкэнде FIL, мы показываем, как каждая модель в ансамблевом конвейере Triton может работать на другом бэкэнде фреймворка, а также на разных аппаратных конфигурациях.
В нем показано, как библиотеки RAPIDS (cuDF, cuML) совместимы с их аналогами для ЦП (Pandas, scikit-learn). Например, мы можем показать, как LabelEncoders созданный в cuML, можно использовать в scikit-learn и наоборот.

Следуем инструкциям из Документация по Тритону для упаковки зависимостей предварительной обработки (scikit-learn и Pandas), которые будут использоваться в бэкэнде Python в виде файла TAR среды Conda. Баш-скрипт create_prep_env.sh создает файл TAR среды Conda, затем мы перемещаем его в каталог модели предварительной обработки. См. следующий код:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

После того, как мы запустим предыдущий скрипт, он сгенерирует preprocessing_env.tar.gz, который мы копируем в каталог препроцессинга:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Настройте предварительную обработку с помощью бэкэнда Triton Python.

Для предварительной обработки мы используем Triton's Серверная часть Python выполнять предобработку табличных данных (категориальное кодирование) при выводе запросов необработанных данных, поступающих на сервер. Дополнительные сведения о предварительной обработке, выполненной во время обучения, см. учебный блокнот.

Серверная часть Python позволяет выполнять предварительную обработку, постобработку и любую другую пользовательскую логику, которая может быть реализована в Python и обслуживаться с помощью Triton. Использование Triton в SageMaker требует, чтобы мы сначала создали папку репозитория моделей, содержащую модели, которые мы хотим обслуживать. Мы уже настроили модель предварительной обработки данных Python, называемую предварительной обработкой в cpu_model_repository и gpu_model_repository.

У Triton есть особые требования к компоновке репозитория моделей. В каталоге репозитория моделей верхнего уровня каждая модель имеет собственный подкаталог, содержащий информацию о соответствующей модели. Каждый каталог модели в Triton должен иметь по крайней мере один числовой подкаталог, представляющий версию модели. Значение 1 представляет версию 1 нашей модели предварительной обработки Python. Каждая модель управляется определенным бэкэндом, поэтому в подкаталоге каждой версии должен быть артефакт модели, требуемый этим бэкендом. В этом примере мы используем серверную часть Python, которая требует, чтобы файл Python, который вы обслуживаете, назывался model.py, и файл должен реализовать определенные функции. Если бы мы использовали серверную часть PyTorch, потребовался бы файл model.pt и так далее. Дополнительные сведения о правилах именования файлов моделей см. Файлы модели.

Ассоциация модель.py Используемый здесь файл Python реализует всю логику предварительной обработки табличных данных для преобразования необработанных данных в функции, которые можно передать в нашу модель XGBoost.

Каждая модель Triton также должна обеспечивать config.pbtxt файл, описывающий конфигурацию модели. Чтобы узнать больше о настройках конфигурации, см. Конфигурация модели. Наши config.pbtxt файл указывает серверную часть как python и все входные столбцы для необработанных данных, а также предварительно обработанный вывод, который состоит из 15 функций. Мы также указываем, что хотим запустить эту модель предварительной обработки Python на ЦП. См. следующий код:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Настройте древовидную модель машинного обучения для серверной части FIL.

Затем мы настраиваем каталог модели для древовидной модели машинного обучения, такой как XGBoost, которая будет использовать серверную часть FIL.

Ожидаемый макет для cpu_memory_repository и gpu_memory_repository похожи на тот, который мы показали ранее.

Здесь, FIL это название модели. Мы можем дать ему другое имя, например xgboost если захотим. 1 это подкаталог версии, который содержит артефакт модели. В данном случае это xgboost.json модель, которую мы сохранили. Давайте создадим этот ожидаемый макет:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Нам нужен файл конфигурации config.pbtxt описание конфигурации модели для древовидной модели машинного обучения, чтобы серверная часть FIL в Triton могла понять, как ее обслуживать. Для получения дополнительной информации обратитесь к последнему универсальному Варианты конфигурации Тритон и параметры конфигурации, характерные для Серверная часть FIL. В этом примере мы сосредоточимся лишь на нескольких наиболее распространенных и актуальных параметрах.

Создавай config.pbtxt для model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Точно так же настроить config.pbtxt для model_gpu_repository (обратите внимание, что разница USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Настройте конвейер вывода для предварительной обработки данных бэкэнда Python и бэкенда FIL с использованием ансамблей.

Теперь мы готовы настроить конвейер вывода для предварительной обработки данных и вывода древовидной модели с помощью модель ансамбля. Ансамблевая модель представляет собой конвейер одной или нескольких моделей и связь входных и выходных тензоров между этими моделями. Здесь мы используем ансамблевую модель для создания конвейера предварительной обработки данных в бэкэнде Python, за которым следует XGBoost в бэкэнде FIL.

Ожидаемый макет для ensemble каталог модели аналогичен тем, которые мы показывали ранее:

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Мы создали модель ансамбля config.pbtxt следуя указаниям в Модели ансамбля. Важно отметить, что нам нужно настроить планировщик ансамбля в config.pbtxt, который определяет поток данных между моделями в ансамбле. Планировщик ансамбля собирает выходные тензоры на каждом шаге и предоставляет их в качестве входных тензоров для других шагов в соответствии со спецификацией.

Упакуйте репозиторий модели и загрузите его в Amazon S3.

Наконец, мы получаем следующую структуру каталогов репозитория моделей, содержащую модель предварительной обработки Python и ее зависимости, а также модель XGBoost FIL и ансамбль моделей.

Мы упаковываем каталог и его содержимое как model.tar.gz для загрузки в Простой сервис хранения Amazon (Амазон С3). В этом примере у нас есть два варианта: использование экземпляра на базе процессора или экземпляра на основе графического процессора. Инстанс на основе графического процессора больше подходит, когда вам нужна более высокая вычислительная мощность и вы хотите использовать ядра CUDA.

Создайте и загрузите пакет модели для экземпляра на основе ЦП (оптимизированного для ЦП) со следующим кодом:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Создайте и загрузите пакет модели для экземпляра на базе графического процессора (оптимизированного для графического процессора) со следующим кодом:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Создайте конечную точку SageMaker

Теперь у нас есть артефакты модели, хранящиеся в корзине S3. На этом шаге мы также можем предоставить дополнительную переменную среды SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, который указывает имя модели, которую Triton загружает. Значение этого ключа должно соответствовать имени папки в пакете модели, загруженном в Amazon S3. Эта переменная необязательна в случае одной модели. В случае ансамблевых моделей этот ключ необходимо указать для запуска Triton в SageMaker.

Дополнительно вы можете установить SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT и SAGEMAKER_TRITON_THREAD_COUNT для оптимизации количества потоков.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Мы используем предыдущую модель для создания конфигурации конечной точки, где мы можем указать тип и количество экземпляров, которые мы хотим в конечной точке.

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Мы используем эту конфигурацию конечной точки для создания конечной точки SageMaker и ждем завершения развертывания. С помощью SageMaker MME у нас есть возможность размещать несколько моделей ансамблей, повторяя этот процесс, но для этого примера мы придерживаемся одного развертывания:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Статус изменится на InService когда развертывание прошло успешно.

Вызовите свою модель, размещенную на конечной точке SageMaker.

После запуска конечной точки мы можем использовать некоторые образцы необработанных данных для выполнения логического вывода, используя JSON в качестве формата полезной нагрузки. Для формата запроса на вывод Triton использует KFServing стандарт сообщества протоколы вывода, Смотрите следующий код:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

Блокнот, упомянутый в блоге, можно найти в Репозиторий GitHub.

Лучшие практики

В дополнение к параметрам точной настройки параметров серверной части FIL, о которых мы упоминали ранее, специалисты по обработке и анализу данных также могут обеспечить оптимизацию входных данных для серверной части для обработки движком. По возможности вводите данные в формате строк в массив графического процессора. Другие форматы потребуют внутреннего преобразования и занимают много циклов, снижая производительность.

Из-за того, что структуры данных FIL поддерживаются в памяти графического процессора, помните о глубине дерева. Чем больше глубина дерева, тем больше будет объем памяти вашего графического процессора.

Использовать instance_group_count параметр для добавления рабочих процессов и увеличения пропускной способности серверной части FIL, что приведет к большему потреблению памяти процессора и графического процессора. Кроме того, рассмотрите переменные, специфичные для SageMaker, которые доступны для увеличения пропускной способности, такие как потоки HTTP, размер буфера HTTP, размер пакета и максимальная задержка.

Заключение

В этом посте мы углубимся в бэкэнд FIL, который Triton Inference Server поддерживает в SageMaker. Этот бэкэнд обеспечивает ускорение как ЦП, так и ГП ваших древовидных моделей, таких как популярный алгоритм XGBoost. Существует множество вариантов, которые следует учитывать, чтобы получить наилучшую производительность для логических выводов, таких как размеры пакетов, форматы ввода данных и другие факторы, которые можно настроить в соответствии с вашими потребностями. SageMaker позволяет использовать эту возможность с конечными точками с одной и несколькими моделями, чтобы сбалансировать производительность и экономию средств.

Мы рекомендуем вам ознакомиться с информацией в этом посте и посмотреть, сможет ли SageMaker удовлетворить ваши потребности в хостинге для обслуживания древовидных моделей, удовлетворяя вашим требованиям по снижению затрат и производительности рабочей нагрузки.

Блокнот, на который ссылается этот пост, можно найти в примерах SageMaker. Репозиторий GitHub. Кроме того, вы можете найти последнюю документацию по серверной части FIL на GitHub.

Об авторах

Размещение моделей машинного обучения на Amazon SageMaker с использованием Triton: модели XGBoost, LightGBM и Treelite PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Рагху Рамеша является старшим архитектором решений машинного обучения в команде Amazon SageMaker Service. Он фокусируется на помощи клиентам в создании, развертывании и переносе производственных рабочих нагрузок машинного обучения в SageMaker в любом масштабе. Он специализируется на машинном обучении, искусственном интеллекте и компьютерном зрении, а также имеет степень магистра компьютерных наук UT Dallas. В свободное время любит путешествовать и фотографировать.

Джеймс Парк работает архитектором решений в Amazon Web Services. Он работает с Amazon.com над проектированием, созданием и развертыванием технологических решений на AWS и проявляет особый интерес к искусственному интеллекту и машинному обучению. В свободное время он любит искать новые культуры, новый опыт и быть в курсе последних технологических тенденций.

Дхавал Патель является главным архитектором машинного обучения в AWS. Он работал с организациями, начиная от крупных предприятий и заканчивая стартапами среднего размера, над проблемами, связанными с распределенными вычислениями и искусственным интеллектом. Он фокусируется на глубоком обучении, включая НЛП и области компьютерного зрения. Он помогает клиентам добиться высокопроизводительного логического вывода моделей в Amazon SageMaker.

Цзяхонг Лю является архитектором решений в команде поставщиков облачных услуг в NVIDIA. Он помогает клиентам внедрить решения для машинного обучения и искусственного интеллекта, которые используют ускоренные вычисления NVIDIA для решения их задач обучения и логических выводов. В свободное время он увлекается оригами, проектами «сделай сам» и играет в баскетбол.

Кшитиз Гупта является архитектором решений в NVIDIA. Ему нравится обучать клиентов облачных вычислений технологиям искусственного интеллекта на графических процессорах, которые NVIDIA может предложить, и помогать им в ускорении их приложений машинного и глубокого обучения. Вне работы он любит бегать, ходить в походы и наблюдать за дикой природой.

SEO-контент и PR-распределение. Получите усиление сегодня.
ПлатонАйСтрим. Анализ данных Web3. Расширение знаний. Доступ здесь.
Чеканка будущего с Эдриенн Эшли. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Отметка времени: 2 мая 2023

Отметка времени: 30 Апрель, 2024

Перенос обучения для моделей обнаружения объектов TensorFlow в Amazon SageMaker

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1736165

Отметка времени: 4 ноября, 2022

Переиздано Платоном

Как Sophos обучает мощный и легкий детектор вредоносных программ PDF в сверхмасштабе с помощью Amazon SageMaker

Получайте больше информации из обзоров с помощью Amazon Comprehend

Создайте решение для проверки вакцинации, используя функцию запросов в Amazon Textract | Веб-сервисы Amazon

Объявление об обновленном соединителе Salesforce (V2) для Amazon Kendra

Amazon SageMaker Autopilot работает до восьми раз быстрее благодаря новому режиму ансамблевого обучения на базе AutoGluon.

Как Yara использует функции MLOps Amazon SageMaker для масштабирования оптимизации энергопотребления на своих заводах по производству аммиака

Перенос обучения для моделей обнаружения объектов TensorFlow в Amazon SageMaker

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись