Triton を使用した Amazon SageMaker での ML モデルのホスト: XGBoost、LightGBM、および Treelite モデル

プラトン再発行

フォロワー： 0

現在利用可能な最も人気のあるモデルの XNUMX つは XGBoost です。分類や回帰などのさまざまな問題を解決する機能を備えた XGBoost は、ツリーベースモデルのカテゴリにも分類される人気のあるオプションになっています。この投稿では、その方法を詳しく見ていきます。アマゾンセージメーカーを使用してこれらのモデルを提供できます NVIDIATriton推論サーバー. リアルタイムの推論ワークロードは、レイテンシーとスループットに関してさまざまなレベルの要件とサービスレベル契約 (SLA) を持つことができ、SageMaker リアルタイムエンドポイントを使用して満たすことができます。

SageMaker が提供する単一モデルのエンドポイント、これにより、論理エンドポイントに対して単一の機械学習 (ML) モデルをデプロイできます。他のユースケースでは、次を使用してコストとパフォーマンスを管理することを選択できます。マルチモデルエンドポイントこれにより、論理エンドポイントの背後でホストする複数のモデルを指定できます。選択したオプションに関係なく、SageMaker エンドポイントは、最も要求の厳しい企業のお客様にもスケーラブルなメカニズムを提供しながら、以下を含む多くの機能で価値を提供します。影の亜種, 自動スケーリング、およびネイティブ統合アマゾンクラウドウォッチ (詳細については、マルチモデルエンドポイントデプロイの CloudWatch メトリクス).

Triton は、推論用のさまざまな ML モデルの実行と提供をサポートするエンジンとして、さまざまなバックエンドをサポートしています。 Triton の展開では、バックエンドの動作がワークロードにどのように影響し、何を期待できるかを知ることが重要です。この記事では、フォレスト推論ライブラリ (FIL) バックエンドこれは、SageMaker の Triton によってサポートされているため、ワークロードについて情報に基づいた決定を下し、可能な限り最高のパフォーマンスとコストの最適化を得ることができます。

FIL バックエンドの詳細

トリトンがサポートする FIL バックエンド次のようなツリーモデルを提供します XGブースト、LightGBM、 scikit-学ぶランダムフォレスト, RAPIDS cuML ランダムフォレスト、およびによってサポートされているその他のモデルツリーライト. これらのモデルは、分類や回帰などの問題を解決するために長い間使用されてきました。これらのタイプのモデルは伝統的に CPU 上で実行されてきましたが、これらのモデルの人気と推論の要求により、推論のパフォーマンスを向上させるためのさまざまな手法が生まれました。 FIL バックエンドは、cuML コンストラクトを使用してこれらの手法の多くを利用し、GPU アクセラレータでの推論パフォーマンスを最適化するために C++ および CUDA コアライブラリ上に構築されています。

FIL バックエンドは cuML のライブラリを使用して、CPU または GPU コアを使用して学習を加速します。これらのプロセッサを使用するために、ホストメモリ (NumPy 配列など) または GPU 配列 (uDF、Numba、cuPY、または __cuda_array_interface__) API。データがメモリにステージングされた後、FIL バックエンドは、使用可能なすべての CPU または GPU コアで処理を実行できます。

FIL バックエンドスレッドは、ホストの共有メモリを使用せずに相互に通信できますが、アンサンブルワークロードでは、ホストメモリを考慮する必要があります。次の図は、Triton (C++) と Python プロセス (Python バックエンド) の間のプロセス間通信に使用される CPU アドレス指定可能な共有メモリを含む、メモリ領域を微調整できるアンサンブルスケジューラランタイムアーキテクチャを示しています。 FIL バックエンドを使用したテンソル (入力/出力)。

Triton を使用した Amazon SageMaker での ML モデルのホスト: XGBoost、LightGBM、および Treelite モデル PlatoBlockchain Data Intelligence。垂直検索。あい。

Triton Inference Server は、開発者がワークロードを調整してモデルのパフォーマンスを最適化するための構成可能なオプションを提供します。構成 dynamic_batching Triton がクライアント側の要求を保持し、サーバー側でそれらをバッチ処理して、FIL の並列計算を効率的に使用してバッチ全体を一緒に推論できるようにします。オプション max_queue_delay_microseconds Triton がバッチを形成するまで待機する時間のフェールセーフコントロールを提供します。

他にも多くの FIL 固有の利用可能なオプションパフォーマンスと動作に影響を与えます。から始めることをお勧めします storage_type. GPU でバックエンドを実行する場合、FIL は、FIL がパフォーマンスとフットプリントに影響を与える可能性があるツリーの表現である新しいメモリ/データ構造を作成します。これは、環境パラメーターを介して構成可能です storage_typeこれには、dense、sparse、および auto のオプションがあります。高密度オプションを選択すると、より多くの GPU メモリが消費され、常にパフォーマンスが向上するとは限らないため、確認することをお勧めします。対照的に、sparse オプションは GPU メモリの消費が少なく、dense オプションと同等またはそれ以上のパフォーマンスを発揮する可能性があります。 auto を選択すると、スパースよりも大幅に多くの GPU メモリを消費しない限り、モデルはデフォルトで密に設定されます。

モデルのパフォーマンスに関しては、 threads_per_tree オプション。現実世界のシナリオでオーバーサーブする可能性があることの XNUMX つは、 threads_per_tree 他のどのパラメータよりもスループットに大きな影響を与える可能性があります。 2 ～ 1 の任意の 32 の累乗に設定することは正当です。このパラメーターの最適な値を予測するのは困難ですが、サーバーがより高い負荷を処理するか、より大きなバッチサイズを処理することが予想される場合は、一度に数行を処理する場合よりも大きな値を使用する方が効果的です。

注意すべきもう XNUMX つのパラメーターは、 algoこれは、GPU で実行している場合にも使用できます。このパラメーターは、推論要求の処理に使用されるアルゴリズムを決定します。このためにサポートされているオプションは次のとおりです。 ALGO_AUTO, NAIVE, TREE_REORG, BATCH_TREE_REORG. これらのオプションは、ツリー内のノードの編成方法を決定し、パフォーマンスの向上にもつながります。の ALGO_AUTO オプションのデフォルトは NAIVE まばらなストレージと BATCH_TREE_REORG 高密度収納に。

最後に、FIL には Shapley Explainer が付属しており、 treeshap_output パラメータ。ただし、Shapley の出力は、出力サイズが原因でパフォーマンスが低下することに注意してください。

モデル形式

現在、フォレストベースのモデルを格納するための標準的なファイル形式はありません。すべてのフレームワークは、独自の形式を定義する傾向があります。複数の入力ファイル形式をサポートするために、FIL はオープンソースを使用してデータをインポートします。ツリーライト図書館。これにより、FIL は、次のような一般的なフレームワークでトレーニングされたモデルをサポートできます。 XGブーストおよびライトGBM. 提供するモデルの形式は、 model_type で指定された構成値 config.pbtxt ファイルにソフトウェアを指定する必要があります。

構成.pbtxt

各モデルのモデルリポジトリモデルに関する必須およびオプションの情報を提供するモデル構成を含める必要があります。通常、この構成は config.pbtxt として指定されたファイル ModelConfig プロトバッファ. 構成設定の詳細については、次を参照してください。モデル構成. モデルコンフィギュレーションパラメーターの一部を次に示します。

最大バッチサイズ – これにより、このモデルに渡すことができる最大バッチサイズが決まります。一般に、FIL バックエンドに渡されるバッチのサイズの唯一の制限は、それらを処理するために使用できるメモリです。 GPU 実行の場合、使用可能なメモリは Triton の CUDA メモリプールのサイズによって決まります。これは、サーバーの起動時にコマンドライン引数を介して設定できます。
– このセクションのオプションは、各入力サンプルに期待される機能の数を Triton に伝えます。
出力 – このセクションのオプションは、各サンプルの出力値の数を Triton に伝えます。もし predict_proba オプションが true に設定されている場合、各クラスの確率値が返されます。それ以外の場合は、特定のサンプルに対して予測されたクラスを示す単一の値が返されます。
インスタンスグループ – これにより、このモデルのインスタンスがいくつ作成されるか、および GPU と CPU のどちらを使用するかが決まります。
モデルタイプ – この文字列は、モデルの形式を示します (xgboost_json この例では、しかし xgboost, lightgbm, tl_checkpoint も有効な形式です)。
予測プロバ – true に設定すると、単なるクラス予測ではなく、各クラスの確率値が返されます。
出力クラス – これは、分類モデルの場合は true に設定され、回帰モデルの場合は false に設定されます。
しきい値 – これは、分類を決定するためのスコアしきい値です。いつ output_class が true に設定されている場合、これを指定する必要がありますが、次の場合は使用されません predict_proba も true に設定されます。
ストレージタイプ – 一般に、この設定に AUTO を使用すると、ほとんどのユースケースに適合します。 AUTO ストレージが選択されている場合、FIL は、モデルのおおよそのサイズに基づいて疎または密な表現を使用してモデルをロードします。場合によっては、大規模なモデルのメモリフットプリントを削減するために、これを明示的に SPARSE に設定したい場合があります。

SageMaker 上の Triton 推論サーバー

セージメーカーことができます NVIDIA Triton Inference Server を使用して、単一モデルと複数モデルの両方のエンドポイントをデプロイできます。次の図は、Triton Inference Server の高レベルアーキテクチャを示しています。のモデルリポジトリは、Triton が推論に使用できるようにするモデルのファイルシステムベースのリポジトリです。推論リクエストはサーバーに到着し、適切なモデルごとのスケジューラにルーティングされます。トリトンの道具複数のスケジューリングおよびバッチ処理アルゴリズムモデルごとに設定できます。各モデルのスケジューラは、オプションで推論リクエストのバッチ処理を実行し、リクエストをバックエンドモデルタイプに対応。バックエンドは、バッチ処理されたリクエストで提供された入力を使用して推論を実行し、リクエストされた出力を生成します。その後、出力が返されます。

SageMaker エンドポイントの Auto Scaling グループを設定する場合、考慮すべきことがあります。 SageMakerVariantInvocationsPerInstance Auto Scaling グループのスケーリング特性を決定する主な基準として。さらに、モデルが GPU で実行されているか CPU で実行されているかに応じて、CPUUtilization または GPUUtilization を追加の基準として使用することも検討できます。単一モデルのエンドポイントの場合、展開されるモデルはすべて同じであるため、SLA を満たす適切なポリシーを設定するのはかなり簡単です。マルチモデルエンドポイントの場合、特定のエンドポイントの背後に同様のモデルを展開して、より安定した予測可能なパフォーマンスを実現することをお勧めします。さまざまなサイズと要件のモデルが使用されるユースケースでは、それらのワークロードを複数のマルチモデルエンドポイントに分割するか、Auto Scaling グループポリシーの微調整に時間を費やして、最適なコストとパフォーマンスのバランスを得ることができます。

Triton を使用した Amazon SageMaker での ML モデルのホスト: XGBoost、LightGBM、および Treelite モデル PlatoBlockchain Data Intelligence。垂直検索。あい。

SageMaker 推論でサポートされている NVIDIA Triton Deep Learning Containers (DLC) のリストについては、以下を参照してください。利用可能なディープラーニングコンテナの画像.

SageMaker ノートブックのチュートリアル

ML アプリケーションは複雑で、多くの場合、データの前処理が必要になる場合があります。このノートブックでは、SageMaker マルチモデルエンドポイントで Triton の FIL バックエンドを使用して、XGBoost のようなツリーベースの ML モデルをデプロイする方法について詳しく説明します。また、Triton のアンサンブル機能を使用して、モデルに Python ベースのデータ前処理推論パイプラインを実装する方法についても説明します。これにより、クライアント側から生データを送信し、最適な推論パフォーマンスのために Triton SageMaker エンドポイントでデータの前処理とモデル推論の両方を行うことができます。

トリトンモデルアンサンブル機能

Triton Inference Server は、本番環境での大規模な AI モデルの展開を大幅に簡素化します。 Triton Inference Server には、前処理パイプラインと後処理パイプラインの構築を簡素化する便利なソリューションが付属しています。 Triton Inference Server プラットフォームは、効率を確保し、スループットを最適化しながら、推論プロセスに参加するモデルをパイプライン化する役割を担う、アンサンブルスケジューラを提供します。アンサンブルモデルを使用すると、中間テンソルを転送するオーバーヘッドを回避し、Triton に送信する必要がある要求の数を最小限に抑えることができます。

Triton を使用した Amazon SageMaker での ML モデルのホスト: XGBoost、LightGBM、および Treelite モデル PlatoBlockchain Data Intelligence。垂直検索。あい。

このノートブックでは、アンサンブル機能を使用して、XGBoost モデル推論を使用してデータ前処理のパイプラインを構築する方法を示します。それから推定して、カスタムの後処理をパイプラインに追加できます。

環境をセットアップする

必要な環境をセットアップすることから始めます。モデルパイプラインをパッケージ化し、Triton Inference Server を使用して推論を実行するために必要な依存関係をインストールします。また、 AWS IDおよびアクセス管理モデルアーティファクトと NVIDIA Triton への SageMaker アクセスを許可する (IAM) ロール Amazon エラスティックコンテナレジストリ (Amazon ECR) 画像。次のコードを参照してください。

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

依存関係を前処理するための Conda 環境を作成する

Triton の Python バックエンドでは、コンダ追加の依存関係の環境。この場合、Python バックエンドを使用して生データを前処理してから、FIL バックエンドで実行されている XGBoost モデルにフィードします。もともと RAPIDS cuDF と cuML を使用してデータの前処理を行っていましたが、ここでは推論中の前処理の依存関係として Pandas と scikit-learn を使用します。これには次の XNUMX つの理由があります。

依存関係用の Conda 環境を作成する方法と、それをパッケージ化する方法を示します。期待される形式 Triton の Python バックエンドによる。
XGBoost が FIL バックエンドの GPU で実行されている間に、CPU の Python バックエンドで実行されている前処理モデルを示すことで、Triton のアンサンブルパイプラインの各モデルが異なるフレームワークバックエンドと異なるハードウェア構成でどのように実行できるかを示します。
RAPIDS ライブラリ (cuDF、cuML) が対応する CPU (Pandas、scikit-learn) とどのように互換性があるかを強調しています。たとえば、次の方法を示すことができます。 LabelEncoders cuML で作成されたものは scikit-learn で使用でき、その逆も可能です。

からの指示に従います。トリトンのドキュメント前処理の依存関係 (scikit-learn および Pandas) をパッケージ化して、Python バックエンドで Conda 環境の TAR ファイルとして使用します。バッシュスクリプト create_prep_env.sh Conda 環境の TAR ファイルを作成し、それを前処理モデルディレクトリに移動します。次のコードを参照してください。

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

上記のスクリプトを実行すると、 preprocessing_env.tar.gz、これを前処理ディレクトリにコピーします。

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Triton Python バックエンドで前処理をセットアップする

前処理には Triton の Python バックエンドサーバーに入ってくる生データ要求の推論中に、表形式のデータの前処理 (カテゴリエンコード) を実行します。トレーニング中に行われた前処理の詳細については、トレーニングノート.

Python バックエンドにより、前処理、後処理、およびその他のカスタムロジックを Python で実装し、Triton で提供できます。 SageMaker で Triton を使用するには、提供するモデルを含むモデルリポジトリフォルダーを最初に設定する必要があります。で前処理と呼ばれる Python データ前処理のモデルを既にセットアップしています。 cpu_model_repository および gpu_model_repository.

Triton を使用した Amazon SageMaker での ML モデルのホスト: XGBoost、LightGBM、および Treelite モデル PlatoBlockchain Data Intelligence。垂直検索。あい。

Triton には、モデルリポジトリのレイアウトに関する特定の要件があります。最上位のモデルリポジトリディレクトリ内に、各モデルには、対応するモデルの情報を含む独自のサブディレクトリがあります。 Triton の各モデルディレクトリには、モデルのバージョンを表す数値サブディレクトリが少なくとも 1 つ必要です。値 1 は、Python 前処理モデルのバージョン XNUMX を表します。各モデルは特定のバックエンドによって実行されるため、各バージョンのサブディレクトリ内には、そのバックエンドが必要とするモデルアーティファクトが存在する必要があります。この例では、Python バックエンドを使用します。これには、提供する Python ファイルが model.py と呼ばれる必要があり、ファイルは実装する必要があります。特定の機能. PyTorch バックエンドを使用していた場合、model.pt ファイルが必要になります。モデルファイルの命名規則の詳細については、次を参照してください。モデルファイル.

　モデル.py ここで使用する Python ファイルは、すべての表形式データの前処理ロジックを実装して、生データを XGBoost モデルに供給できる機能に変換します。

すべての Triton モデルは、 config.pbtxt モデル構成を記述したファイル。構成設定の詳細については、次を参照してください。モデル構成。私たちの config.pbtxt ファイルは、バックエンドを python として指定し、生データのすべての入力列と、15 の機能で構成される前処理された出力を指定します。また、この Python 前処理モデルを CPU で実行することも指定します。次のコードを参照してください。

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

FIL バックエンド用にツリーベースの ML モデルを設定する

次に、FIL バックエンドを使用する XGBoost のようなツリーベースの ML モデルのモデルディレクトリをセットアップします。

予想されるレイアウト cpu_memory_repository および gpu_memory_repository 前に示したものと似ています。

Triton を使用した Amazon SageMaker での ML モデルのホスト: XGBoost、LightGBM、および Treelite モデル PlatoBlockchain Data Intelligence。垂直検索。あい。

ここでは、 FIL モデルの名前です。次のように別の名前を付けることができます xgboost 必要に応じて。 1 モデルアーティファクトを含むバージョンサブディレクトリです。この場合、それは xgboost.json 保存したモデル。この予想されるレイアウトを作成しましょう。

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

構成ファイルが必要です config.pbtxt Triton の FIL バックエンドがそれを提供する方法を理解できるように、ツリーベースの ML モデルのモデル構成を記述します。詳細については、最新のジェネリックを参照してください。トリトン構成オプションおよびに固有の構成オプション FIL バックエンド. この例では、最も一般的で関連性のあるオプションのほんの一部に焦点を当てています。

創造する config.pbtxt for model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

同様に、セットアップ config.pbtxt for model_gpu_repository （違いに注意してください USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

アンサンブルを使用してデータ前処理 Python バックエンドと FIL バックエンドの推論パイプラインを設定する

これで、データの前処理とツリーベースのモデル推論のために、アンサンブルモデル. アンサンブルモデルは、XNUMX つ以上のモデルのパイプラインと、それらのモデル間の入力テンソルと出力テンソルの接続を表します。ここでは、アンサンブルモデルを使用して、Python バックエンドでデータ前処理のパイプラインを構築し、続いて FIL バックエンドで XGBoost を構築します。

の予想されるレイアウト ensemble モデルディレクトリは、以前に示したものと似ています。

Triton を使用した Amazon SageMaker での ML モデルのホスト: XGBoost、LightGBM、および Treelite モデル PlatoBlockchain Data Intelligence。垂直検索。あい。

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

アンサンブルモデルを作成しました config.pbtxt のガイダンスに従ってアンサンブルモデル. 重要なのは、アンサンブルスケジューラを設定する必要があることです。 config.pbtxt、アンサンブル内のモデル間のデータフローを指定します。アンサンブルスケジューラは、各ステップで出力テンソルを収集し、仕様に従って他のステップの入力テンソルとして提供します。

モデルリポジトリをパッケージ化し、Amazon S3 にアップロードする

最後に、次のモデルリポジトリディレクトリ構造が完成します。これには、Python 前処理モデルとその依存関係、および XGBoost FIL モデルとモデルアンサンブルが含まれます。

Triton を使用した Amazon SageMaker での ML モデルのホスト: XGBoost、LightGBM、および Treelite モデル PlatoBlockchain Data Intelligence。垂直検索。あい。

ディレクトリとその内容を次のようにパッケージ化します。 model.tar.gz へのアップロード用 Amazon シンプルストレージサービス (アマゾン S3)。この例には、CPU ベースのインスタンスまたは GPU ベースのインスタンスを使用する XNUMX つのオプションがあります。 GPU ベースのインスタンスは、より高い処理能力が必要で、CUDA コアを使用したい場合に適しています。

次のコードを使用して、CPU ベースのインスタンス (CPU 用に最適化) のモデルパッケージを作成してアップロードします。

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

次のコードを使用して、GPU ベースのインスタンス (GPU 用に最適化) のモデルパッケージを作成してアップロードします。

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

SageMakerエンドポイントを作成する

これで、モデルアーティファクトが S3 バケットに保存されました。このステップでは、追加の環境変数を提供することもできます SAGEMAKER_TRITON_DEFAULT_MODEL_NAMETriton によってロードされるモデルの名前を指定します。このキーの値は、Amazon S3 にアップロードされたモデルパッケージのフォルダー名と一致する必要があります。単一モデルの場合、この変数はオプションです。アンサンブルモデルの場合、Triton が SageMaker で起動するには、このキーを指定する必要があります。

さらに、設定することができます SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT および SAGEMAKER_TRITON_THREAD_COUNT スレッド数を最適化するため。

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

前のモデルを使用して、エンドポイントで必要なインスタンスのタイプと数を指定できるエンドポイント構成を作成します

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

このエンドポイント設定を使用して SageMaker エンドポイントを作成し、デプロイが完了するのを待ちます。 SageMaker MME では、このプロセスを繰り返すことで複数のアンサンブルモデルをホストするオプションがありますが、この例では XNUMX つのデプロイに固執します。

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

ステータスが変わります InService デプロイが成功したとき。

SageMaker エンドポイントでホストされているモデルを呼び出す

エンドポイントが実行された後、サンプルの生データを使用して、JSON をペイロード形式として使用して推論を実行できます。推論リクエスト形式の場合、Triton は KFServing コミュニティ標準推論プロトコル。次のコードを参照してください。

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

ブログで参照されているノートブックは、 GitHubリポジトリ.

ベストプラクティス

前述の FIL バックエンドの設定を微調整するオプションに加えて、データサイエンティストは、バックエンドの入力データがエンジンによる処理用に最適化されていることを確認することもできます。可能な限り、データを行優先形式で GPU 配列に入力します。他の形式は内部変換を必要とし、サイクルを消費するため、パフォーマンスが低下します。

FIL データ構造が GPU メモリで維持される方法のため、ツリーの深さに注意してください。ツリーの深さが深いほど、GPU メモリのフットプリントが大きくなります。

instance_group_count パラメータを使用してワーカープロセスを追加し、FIL バックエンドのスループットを向上させます。これにより、CPU と GPU のメモリ消費量が増加します。さらに、HTTP スレッド、HTTP バッファサイズ、バッチサイズ、最大遅延など、スループットを向上させるために使用できる SageMaker 固有の変数を検討してください。

まとめ

この投稿では、Triton Inference Server が SageMaker でサポートする FIL バックエンドについて深く掘り下げました。このバックエンドは、人気のある XGBoost アルゴリズムなど、ツリーベースのモデルの CPU と GPU アクセラレーションの両方を提供します。バッチサイズ、データ入力形式、およびニーズに合わせて調整できるその他の要因など、推論に最適なパフォーマンスを得るために考慮すべき多くのオプションがあります。 SageMaker では、この機能を単一および複数モデルのエンドポイントで使用して、パフォーマンスとコスト削減のバランスを取ることができます。

この投稿の情報を参考にして、SageMaker がツリーベースのモデルを提供するホスティングのニーズを満たし、コスト削減とワークロードパフォーマンスの要件を満たすことができるかどうかを確認することをお勧めします。

この投稿で参照されているノートブックは、SageMaker の例で見つけることができます GitHubリポジトリ. さらに、FIL バックエンドに関する最新のドキュメントは、 GitHubの.

著者について

Triton を使用した Amazon SageMaker での ML モデルのホスト: XGBoost、LightGBM、および Treelite モデル PlatoBlockchain Data Intelligence。垂直検索。あい。 ラグーラメシャ Amazon SageMaker サービスチームのシニア ML ソリューションアーキテクトです。彼は、お客様が ML 本番ワークロードを大規模に構築、デプロイ、および SageMaker に移行するのを支援することに重点を置いています。機械学習、AI、コンピュータービジョンの分野を専門とし、UT ダラスでコンピューターサイエンスの修士号を取得しています。余暇には、旅行と写真を楽しんでいます。

ジェームズ・パーク アマゾンウェブサービスのソリューションアーキテクトです。彼は Amazon.com と協力して、AWS でテクノロジーソリューションを設計、構築、デプロイしており、特に AI と機械学習に関心があります。余暇には、新しい文化、新しい経験を探し、最新のテクノロジートレンドを把握することを楽しんでいます。

ダワル・パテル AWS のプリンシパル機械学習アーキテクトです。大企業から中規模の新興企業まで、さまざまな組織と協力して、分散コンピューティングと人工知能に関連する問題に取り組んできました。彼は、NLP やコンピュータービジョンドメインなどのディープラーニングに焦点を当てています。彼は、お客様が Amazon SageMaker で高性能のモデル推論を実現するのを支援しています。

ジャホン・リュウ NVIDIAのクラウドサービスプロバイダーチームのソリューションアーキテクトです。彼は、クライアントがNVIDIAアクセラレーションコンピューティングを活用してトレーニングと推論の課題に対処する機械学習とAIソリューションを採用するのを支援しています。余暇には、折り紙、DIYプロジェクト、バスケットボールを楽しんでいます。

クシチズ・グプタ NVIDIA のソリューションアーキテクトです。彼は、NVIDIA が提供する GPU AI テクノロジについてクラウドの顧客を教育し、機械学習およびディープラーニングアプリケーションの高速化を支援することに喜びを感じています。仕事以外では、ランニング、ハイキング、野生動物の観察を楽しんでいます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
プラトアイストリーム。 Web3 データインテリジェンス。知識増幅。こちらからアクセスしてください。
未来を鋳造する w エイドリエン・アシュリー。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

タイムスタンプ： 2023 年 5 月 2 日

タイムスタンプ： 2023 年 9 月 7 日

プラトン再発行

Sophos が Amazon SageMaker を使用して、強力で軽量な PDF マルウェア検出器を超大規模にトレーニングする方法

ユーザーベクトルを使用した Amazon Rekognition Face Search の精度の向上 |アマゾンウェブサービス

Bundesliga Match Fact Pressure Handling: AWS でのプレッシャーの高い状況でのプレーヤーのパフォーマンスの評価

Amazon SageMaker 自動モデルチューニングは、使いやすさとコスト効率を向上させるためにチューニング設定を自動的に選択するようになりました。アマゾンウェブサービス

XNUMX 段階の Amazon Rekognition Custom Labels モデルを使用した高解像度画像での欠陥検出 | アマゾンウェブサービス

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

FIL バックエンドの詳細

モデル形式

構成.pbtxt

SageMaker 上の Triton 推論サーバー

SageMaker ノートブックのチュートリアル

トリトンモデルアンサンブル機能

環境をセットアップする

依存関係を前処理するための Conda 環境を作成する

Triton Python バックエンドで前処理をセットアップする

FIL バックエンド用にツリーベースの ML モデルを設定する

アンサンブルを使用してデータ前処理 Python バックエンドと FIL バックエンドの推論パイプラインを設定する

モデル リポジトリをパッケージ化し、Amazon S3 にアップロードする

SageMakerエンドポイントを作成する

SageMaker エンドポイントでホストされているモデルを呼び出す

ベストプラクティス

まとめ

著者について

より多くの AWS機械学習

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

モデルリポジトリをパッケージ化し、Amazon S3 にアップロードする