使用 Triton 在 Amazon SageMaker 上托管机器学习模型：XGBoost、LightGBM 和 Treelite 模型

由柏拉图重新发布

关注： 0

XGBoost 是当今最流行的模型之一。凭借解决分类和回归等各种问题的能力，XGBoost 成为一种流行的选择，也属于基于树的模型类别。在这篇文章中，我们深入了解如何亚马逊SageMaker 可以使用这些模型服务 NVIDIA Triton 推理服务器. 实时推理工作负载在延迟和吞吐量方面可能具有不同级别的要求和服务级别协议 (SLA)，并且可以使用 SageMaker 实时端点来满足。

SageMaker 提供单一模型端点，它允许您针对逻辑端点部署单个机器学习 (ML) 模型。对于其他用例，您可以选择使用来管理成本和性能多模型端点，它允许您指定多个模型托管在一个逻辑端点后面。无论您选择哪个选项，SageMaker 端点都允许一种可扩展的机制，即使是最苛刻的企业客户也能使用，同时在众多功能中提供价值，包括阴影变体, 自动缩放, 和本机集成亚马逊CloudWatch （有关更多信息，请参阅多模型终端节点部署的 CloudWatch 指标).

Triton 支持各种后端作为引擎，以支持各种 ML 模型的运行和服务以进行推理。对于任何 Triton 部署，了解后端行为如何影响您的工作负载以及预期的结果对于您取得成功至关重要。在这篇文章中，我们帮助您了解森林推理库 (FIL) 后端，它由 SageMaker 上的 Triton 提供支持，因此您可以针对您的工作负载做出明智的决策，并尽可能获得最佳性能和成本优化。

深入了解 FIL 后端

Triton 支持 FIL 后端提供树模型，例如 XGBoost, 光GBM, scikit学习随机森林, RAPIDS cuML 随机森林，以及任何其他支持的模型小树. 这些模型长期以来一直用于解决分类或回归等问题。尽管这些类型的模型传统上在 CPU 上运行，但这些模型的流行和推理需求导致出现了各种提高推理性能的技术。 FIL 后端通过使用 cuML 结构利用其中许多技术，并构建在 C++ 和 CUDA 核心库上，以优化 GPU 加速器上的推理性能。

FIL 后端使用 cuML 的库来使用 CPU 或 GPU 内核来加速学习。为了使用这些处理器，从主机内存（例如 NumPy 数组）或 GPU 数组（uDF、Numba、cuPY 或任何支持 __cuda_array_interface__) 应用程序接口。数据在内存中暂存后，FIL 后端可以在所有可用的 CPU 或 GPU 内核上运行处理。

FIL 后端线程可以在不使用主机共享内存的情况下相互通信，但在集成工作负载中，应考虑主机内存。下图显示了集成调度程序运行时架构，您可以在其中微调内存区域，包括 CPU 可寻址共享内存，用于 Triton (C++) 和 Python 进程（Python 后端）之间的进程间通信以进行交换带有 FIL 后端的张量（输入/输出）。

使用 Triton 在 Amazon SageMaker 上托管 ML 模型：XGBoost、LightGBM 和 Treelite 模型 PlatoBlockchain 数据智能。垂直搜索。人工智能。

Triton 推理服务器为开发人员提供可配置的选项，以调整他们的工作负载并优化模型性能。配置 dynamic_batching 允许 Triton 保存客户端请求并在服务器端对它们进行批处理，以便有效地使用 FIL 的并行计算来一起推断整个批处理。选项 max_queue_delay_microseconds 提供对 Triton 等待形成批次的时间的故障安全控制。

还有许多其他 FIL 特定的可用选项影响性能和行为。我们建议从 storage_type. 在 GPU 上运行后端时，FIL 会创建一个新的内存/数据结构，该结构表示 FIL 会影响性能和占用空间的树。这可以通过环境参数配置 storage_type，它具有密集、稀疏和自动选项。选择密集选项会消耗更多 GPU 内存，并不总是会带来更好的性能，因此最好检查一下。相比之下，稀疏选项将消耗更少的 GPU 内存，并且可能比密集的表现更好或更好。选择自动将导致模型默认为密集模式，除非这样做会比稀疏模式消耗更多的 GPU 内存。

当谈到模型性能时，您可能会考虑强调 threads_per_tree 选项。在现实场景中你可能过度服务的一件事是 threads_per_tree 对吞吐量的影响比任何其他参数都大。将它设置为 2-1 中的任何 32 次方都是合法的。这个参数的最佳值很难预测，但是当服务器需要处理更高的负载或处理更大的批处理时，它往往会受益于比一次处理几行时更大的值。

另一个需要注意的参数是 algo，如果您在 GPU 上运行，它也可用。此参数确定用于处理推理请求的算法。为此支持的选项是 ALGO_AUTO, NAIVE, TREE_REORG及 BATCH_TREE_REORG. 这些选项决定了树中节点的组织方式，还可以提高性能。这 ALGO_AUTO 选项默认为 NAIVE 用于稀疏存储和 BATCH_TREE_REORG 用于密集存储。

最后，FIL 自带 Shapley 解释器，可以使用 treeshap_output 范围。但是，您应该记住，Shapley 输出因其输出大小而损害性能。

模型格式

目前没有标准的文件格式来存储基于森林的模型；每个框架都倾向于定义自己的格式。为了支持多种输入文件格式，FIL使用开源的方式导入数据小树图书馆。这使 FIL 能够支持在流行框架中训练的模型，例如 XGBoost 和轻型GBM. 请注意，您提供的模型格式必须在 model_type 在指定的配置值 config.pbtxt 文件中。

配置.pbtxt

每个模型在模型库必须包含一个模型配置，该配置提供有关模型的必需和可选信息。通常，此配置在 config.pbtxt 文件指定为模型配置协议缓冲区. 要了解有关配置设置的更多信息，请参阅模型配置. 以下是部分模型配置参数：

最大批量大小 – 这决定了可以传递给该模型的最大批量大小。通常，传递给 FIL 后端的批次大小的唯一限制是用于处理它们的可用内存。对于 GPU 运行，可用内存由 Triton 的 CUDA 内存池的大小决定，可以在启动服务器时通过命令行参数设置。
输入 – 本节中的选项告诉 Triton 每个输入样本期望的特征数量。
产量 – 本节中的选项告诉 Triton 每个样本将有多少输出值。如果 predict_proba 选项设置为 true，则将为每个类返回一个概率值。否则，将返回单个值，指示为给定样本预测的类别。
实例组 – 这决定了将创建多少个该模型的实例，以及它们将使用 GPU 还是 CPU。
模型类型 – 此字符串表示模型的格式（xgboost_json 在这个例子中，但是 xgboost, lightgbm及 tl_checkpoint 也是有效格式）。
预测概率 – 如果设置为 true，将为每个类别返回概率值，而不仅仅是类别预测。
输出类 – 对于分类模型设置为 true，对于回归模型设置为 false。
门槛 – 这是确定分类的分数阈值。什么时候 output_class 设置为 true，必须提供，但如果 predict_proba 也设置为 true。
存储类型 – 通常，对此设置使用 AUTO 应该可以满足大多数用例。如果选择 AUTO 存储，FIL 将根据模型的近似大小使用稀疏或密集表示加载模型。在某些情况下，您可能希望将其显式设置为 SPARSE 以减少大型模型的内存占用。

SageMaker 上的 Triton 推理服务器

SageMaker 允许您可以使用 NVIDIA Triton 推理服务器部署单模型和多模型端点。下图显示了 Triton 推理服务器的高级架构。这模型库是一个基于文件系统的模型存储库，Triton 将使其可用于推理。推理请求到达服务器并路由到适当的每个模型调度程序。 Triton 工具多种调度和批处理算法可以在逐个模型的基础上进行配置。每个模型的调度程序可选择执行推理请求的批处理，然后将请求传递给后端对应模型类型。后端使用批处理请求中提供的输入执行推理以生成请求的输出。然后返回输出。

在为 SageMaker 终端节点配置 Auto Scaling 组时，您可能需要考虑 SageMakerVariantInvocationsPerInstance 作为确定 Auto Scaling 组的扩展特性的主要标准。此外，根据您的模型是在 GPU 还是 CPU 上运行，您还可以考虑使用 CPUUtilization 或 GPUUtilization 作为附加条件。请注意，对于单一模型端点，由于部署的模型都是相同的，因此设置适当的策略以满足您的 SLA 非常简单。对于多模型端点，我们建议在给定端点后面部署相似的模型以获得更稳定的可预测性能。在使用不同大小和要求的模型的用例中，您可能希望跨多个多模型端点分离这些工作负载，或者花一些时间微调您的 Auto Scaling 组策略以获得最佳的成本和性能平衡。

使用 Triton 在 Amazon SageMaker 上托管 ML 模型：XGBoost、LightGBM 和 Treelite 模型 PlatoBlockchain 数据智能。垂直搜索。人工智能。

有关 SageMaker 推理支持的 NVIDIA Triton 深度学习容器 (DLC) 的列表，请参阅可用的深度学习容器镜像.

SageMaker 笔记本演练

ML 应用程序很复杂，通常需要数据预处理。在此笔记本中，我们深入探讨了如何在 SageMaker 多模型端点上使用 Triton 中的 FIL 后端部署基于树的 ML 模型（如 XGBoost）。我们还介绍了如何使用 Triton 中的集成功能为您的模型实现基于 Python 的数据预处理推理管道。这将使我们能够从客户端发送原始数据，并在 Triton SageMaker 端点中进行数据预处理和模型推理，以获得最佳推理性能。

Triton 模型合奏功能

Triton 推理服务器大大简化了 AI 模型在生产中的大规模部署。 Triton Inference Server 附带一个方便的解决方案，可简化构建预处理和后处理管道。 Triton Inference Server 平台提供了集成调度器，负责对参与推理过程的模型进行流水线处理，同时确保效率和优化吞吐量。使用集成模型可以避免传输中间张量的开销，并最大限度地减少必须发送给 Triton 的请求数量。

使用 Triton 在 Amazon SageMaker 上托管 ML 模型：XGBoost、LightGBM 和 Treelite 模型 PlatoBlockchain 数据智能。垂直搜索。人工智能。

在此笔记本中，我们展示了如何使用集成功能通过 XGBoost 模型推理构建数据预处理管道，您可以从中推断以向管道添加自定义后处理。

搭建环境

我们首先设置所需的环境。我们安装打包模型管道所需的依赖项，并使用 Triton 推理服务器运行推理。我们还定义了 AWS身份和访问管理 (IAM) 角色，使 SageMaker 能够访问模型工件和 NVIDIA Triton Amazon Elastic Container注册（亚马逊 ECR）图像。请参见以下代码：

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

创建用于预处理依赖项的 Conda 环境

Triton 中的 Python 后端要求我们使用康达任何其他依赖项的环境。在这种情况下，我们使用 Python 后端对原始数据进行预处理，然后再将其输入到在 FIL 后端运行的 XGBoost 模型中。尽管我们最初使用 RAPIDS cuDF 和 cuML 进行数据预处理，但这里我们在推理过程中使用 Pandas 和 scikit-learn 作为预处理依赖项。我们这样做出于三个原因：

我们展示了如何为您的依赖项创建 Conda 环境以及如何将其打包到预期格式通过 Triton 的 Python 后端。
通过展示在 CPU 上的 Python 后端中运行的预处理模型，而 XGBoost 在 FIL 后端中的 GPU 上运行，我们说明了 Triton 集成管道中的每个模型如何在不同的框架后端以及不同的硬件配置上运行。
它强调了 RAPIDS 库（cuDF、cuML）如何与其对应的 CPU（Pandas、scikit-learn）兼容。例如，我们可以展示如何 LabelEncoders 在 cuML 中创建的数据可以在 scikit-learn 中使用，反之亦然。

我们按照指示 Triton 文档用于打包预处理依赖项（scikit-learn 和 Pandas）以作为 Conda 环境 TAR 文件在 Python 后端中使用。脚本创建_prep_env.sh 创建 Conda 环境 TAR 文件，然后我们将其移动到预处理模型目录中。请参见以下代码：

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

我们运行前面的脚本后，它会生成 preprocessing_env.tar.gz，我们将其复制到预处理目录：

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

使用 Triton Python 后端设置预处理

对于预处理，我们使用 Triton 的 Python 后端在对进入服务器的原始数据请求进行推理期间执行表格数据预处理（分类编码）。有关训练期间进行的预处理的更多信息，请参阅培训笔记本.

Python 后端使预处理、后处理和任何其他自定义逻辑能够在 Python 中实现并与 Triton 一起提供。在 SageMaker 上使用 Triton 需要我们首先设置一个模型存储库文件夹，其中包含我们要服务的模型。我们已经建立了一个 Python 数据预处理模型，称为 preprocessing cpu_model_repository 和 gpu_model_repository.

使用 Triton 在 Amazon SageMaker 上托管 ML 模型：XGBoost、LightGBM 和 Treelite 模型 PlatoBlockchain 数据智能。垂直搜索。人工智能。

Triton 对模型存储库布局有特定要求。在顶级模型存储库目录中，每个模型都有自己的子目录，其中包含相应模型的信息。 Triton 中的每个模型目录必须至少有一个代表模型版本的数字子目录。值 1 表示我们的 Python 预处理模型的版本 1。每个模型都由特定的后端运行，因此在每个版本子目录中必须有该后端所需的模型工件。对于此示例，我们使用 Python 后端，这需要您提供的 Python 文件名为 model.py，并且该文件需要实现某些功能. 如果我们使用 PyTorch 后端，则需要一个 model.pt 文件，等等。有关模型文件命名约定的更多详细信息，请参阅模型文件.

模型.py 我们在此处使用的 Python 文件实现了所有表格数据预处理逻辑，以将原始数据转换为可输入到我们的 XGBoost 模型中的特征。

每个 Triton 型号还必须提供 config.pbtxt 描述模型配置的文件。要了解有关配置设置的更多信息，请参阅模型配置。我们的配置.pbtxt 文件将后端指定为 python，将原始数据的所有输入列以及经过预处理的输出指定为 15 个特征。我们还指定要在 CPU 上运行此 Python 预处理模型。请参见以下代码：

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

为 FIL 后端设置基于树的 ML 模型

接下来，我们为 XGBoost 等基于树的 ML 模型设置模型目录，它将使用 FIL 后端。

预期的布局 cpu_memory_repository 和 gpu_memory_repository 与我们之前展示的相似。

使用 Triton 在 Amazon SageMaker 上托管 ML 模型：XGBoost、LightGBM 和 Treelite 模型 PlatoBlockchain 数据智能。垂直搜索。人工智能。

在这里， FIL 是模型的名称。我们可以给它一个不同的名字，比如 xgboost 如果我们愿意。 1 是版本子目录，其中包含模型工件。在这种情况下，它是 xgboost.json 我们保存的模型。让我们创建这个预期的布局：

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

我们需要有配置文件 config.pbtxt 描述基于树的 ML 模型的模型配置，以便 Triton 中的 FIL 后端可以理解如何为其提供服务。有关详细信息，请参阅最新的通用 Triton 配置选项以及特定于的配置选项 FIL 后端. 在这个例子中，我们只关注几个最常见和相关的选项。

创建 config.pbtxt model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

同样，设 config.pbtxt model_gpu_repository （注意区别是 USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

使用集成设置数据预处理 Python 后端和 FIL 后端的推理管道

现在我们准备好使用集合模型. 集成模型表示一个或多个模型的管道以及这些模型之间输入和输出张量的连接。在这里，我们使用集成模型在 Python 后端构建数据预处理管道，然后在 FIL 后端构建 XGBoost。

预期的布局 ensemble 模型目录类似于我们之前展示的目录：

使用 Triton 在 Amazon SageMaker 上托管 ML 模型：XGBoost、LightGBM 和 Treelite 模型 PlatoBlockchain 数据智能。垂直搜索。人工智能。

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

我们创建了集成模型配置.pbtxt 遵循中的指导合奏模型. 重要的是，我们需要在 config.pbtxt，它指定了集成中模型之间的数据流。集成调度器收集每个步骤的输出张量，并根据规范将它们作为输入张量提供给其他步骤。

打包模型存储库并上传到 Amazon S3

最后，我们最终得到以下模型存储库目录结构，其中包含 Python 预处理模型及其依赖项以及 XGBoost FIL 模型和模型集成。

使用 Triton 在 Amazon SageMaker 上托管 ML 模型：XGBoost、LightGBM 和 Treelite 模型 PlatoBlockchain 数据智能。垂直搜索。人工智能。

我们将目录及其内容打包为 model.tar.gz 上传到亚马逊简单存储服务（亚马逊 S3）。在这个例子中我们有两个选择：使用基于 CPU 的实例或基于 GPU 的实例。当您需要更高的处理能力并希望使用 CUDA 内核时，基于 GPU 的实例更合适。

使用以下代码为基于 CPU 的实例（针对 CPU 优化）创建并上传模型包：

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

使用以下代码为基于 GPU 的实例（针对 GPU 优化）创建并上传模型包：

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

创建 SageMaker 端点

我们现在将模型工件存储在 S3 存储桶中。在这一步中，我们还可以提供额外的环境变量 SAGEMAKER_TRITON_DEFAULT_MODEL_NAME，它指定要由 Triton 加载的模型的名称。此键的值应与上传到 Amazon S3 的模型包中的文件夹名称匹配。在单个模型的情况下，此变量是可选的。对于集成模型，必须为 Triton 指定此密钥才能在 SageMaker 中启动。

此外，您可以设置 SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT 和 SAGEMAKER_TRITON_THREAD_COUNT 用于优化线程数。

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

我们使用前面的模型创建端点配置，我们可以在其中指定端点中所需实例的类型和数量

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

我们使用此端点配置来创建 SageMaker 端点并等待部署完成。借助 SageMaker MME，我们可以选择通过重复此过程来托管多个集成模型，但我们在此示例中坚持使用一个部署：

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

状态将变为 InService 当部署成功时。

调用托管在 SageMaker 端点上的模型

端点运行后，我们可以使用一些示例原始数据以 JSON 作为有效负载格式来执行推理。对于推理请求格式，Triton 使用 KFServing 社区标准推理协议。请参见以下代码：

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

博客中提到的笔记本可以在 GitHub存储库.

最佳实践

除了我们前面提到的微调 FIL 后端设置的选项外，数据科学家还可以确保后端的输入数据经过优化以供引擎处理。尽可能将行优先格式的数据输入到 GPU 阵列中。其他格式将需要内部转换并占用周期，从而降低性能。

由于 FIL 数据结构在 GPU 内存中的维护方式，请注意树的深度。树的深度越深，您的 GPU 内存占用就越大。

使用 instance_group_count 参数来增加worker进程，增加FIL后端的吞吐量，会导致CPU和GPU内存消耗较大。此外，请考虑可用于增加吞吐量的 SageMaker 特定变量，例如 HTTP 线程、HTTP 缓冲区大小、批处理大小和最大延迟。

结论

在本文中，我们深入探讨了 Triton 推理服务器在 SageMaker 上支持的 FIL 后端。此后端为基于树的模型（例如流行的 XGBoost 算法）提供 CPU 和 GPU 加速。要获得最佳推理性能，需要考虑许多选项，例如批量大小、数据输入格式和其他可以调整以满足您的需求的因素。 SageMaker 允许您将此功能与单模型和多模型端点结合使用，以平衡性能和成本节约。

我们鼓励您获取这篇文章中的信息，看看 SageMaker 是否可以满足您的托管需求以提供基于树的模型，满足您对降低成本和工作负载性能的要求。

这篇文章中引用的笔记本可以在 SageMaker 示例中找到 GitHub存储库. 此外，您可以在以下位置找到有关 FIL 后端的最新文档： GitHub上.

作者简介

使用 Triton 在 Amazon SageMaker 上托管 ML 模型：XGBoost、LightGBM 和 Treelite 模型 PlatoBlockchain 数据智能。垂直搜索。人工智能。 拉古·拉梅沙 是 Amazon SageMaker 服务团队的高级 ML 解决方案架构师。他专注于帮助客户大规模构建、部署 ML 生产工作负载并将其迁移到 SageMaker。他专注于机器学习、AI 和计算机视觉领域，并拥有 UT Dallas 的计算机科学硕士学位。在空闲时间，他喜欢旅行和摄影。

詹姆斯公园 是 Amazon Web Services 的解决方案架构师。他与 Amazon.com 合作，在 AWS 上设计、构建和部署技术解决方案，并且对 AI 和机器学习特别感兴趣。在业余时间，他喜欢寻找新的文化、新的体验并紧跟最新的技术趋势。

达瓦尔·帕特尔 是 AWS 的首席机器学习架构师。他曾与从大型企业到中型初创公司的组织合作，解决与分布式计算和人工智能相关的问题。他专注于深度学习，包括 NLP 和计算机视觉领域。他帮助客户在 Amazon SageMaker 上实现高性能模型推理。

刘家宏 是 NVIDIA 云服务提供商团队的解决方案架构师。他帮助客户采用机器学习和人工智能解决方案，利用 NVIDIA 加速计算来解决他们的训练和推理挑战。闲暇时间，他喜欢折纸、DIY项目和打篮球。

克什蒂兹·古普塔 是 NVIDIA 的解决方案架构师。他喜欢向云客户介绍 NVIDIA 必须提供的 GPU AI 技术，并帮助他们加速机器学习和深度学习应用程序。工作之余，他喜欢跑步、远足和观赏野生动物。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图爱流。 Web3 数据智能。知识放大。访问这里。
与 Adryenn Ashley 一起铸造未来。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

时间戳记： 2023 年 5 月 2 日

时间戳记： 2022 年 11 月 17 日

借助 Amazon Q 的生成式 AI 帮助，加速软件开发并利用您的业务数据 |亚马逊网络服务

源群集：

AWS机器学习

源节点： 1969883

时间戳记： 2024 年 4 月 30 日

Amazon SageMaker 中 TensorFlow 对象检测模型的迁移学习

源群集：

AWS机器学习

源节点： 1736165

时间戳记： 2022 年 11 月 4 日

由柏拉图重新发布

Sophos 如何使用 Amazon SageMaker 以超大规模训练强大的轻量级 PDF 恶意软件检测器

使用 Amazon Comprehend 从评论中获得更好的洞察力

使用 Amazon Textract 中的查询功能构建疫苗接种验证解决方案 |亚马逊网络服务

宣布更新适用于 Amazon Kendra 的 Salesforce 连接器 (V2)

借助由 AutoGluon 提供支持的新集成训练模式，Amazon SageMaker Autopilot 的速度提高了八倍

Yara 如何使用 Amazon SageMaker 的 MLOps 功能在其合成氨工厂中扩展能源优化

Amazon SageMaker 中 TensorFlow 对象检测模型的迁移学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

深入了解 FIL 后端

模型格式

配置.pbtxt

SageMaker 上的 Triton 推理服务器

SageMaker 笔记本演练

Triton 模型合奏功能

搭建环境

创建用于预处理依赖项的 Conda 环境

使用 Triton Python 后端设置预处理

为 FIL 后端设置基于树的 ML 模型

使用集成设置数据预处理 Python 后端和 FIL 后端的推理管道

打包模型存储库并上传到 Amazon S3

创建 SageMaker 端点

调用托管在 SageMaker 端点上的模型

最佳实践

结论

作者简介

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理