Värd för ML-modeller på Amazon SageMaker med Triton: XGBoost, LightGBM och Treelite-modeller

Återutgiven av Platon

anhängare: 0

En av de mest populära modellerna som finns tillgängliga idag är XGBoost. Med möjligheten att lösa olika problem som klassificering och regression har XGBoost blivit ett populärt alternativ som även hamnar i kategorin trädbaserade modeller. I det här inlägget dyker vi djupt för att se hur Amazon SageMaker kan tjäna dessa modeller med hjälp av NVIDIA Triton Inference Server. Arbetsbelastningar för slutledningar i realtid kan ha olika nivåer av krav och servicenivåavtal (SLA) när det gäller latens och genomströmning, och kan uppfyllas med SageMaker realtidsslutpunkter.

SageMaker tillhandahåller enda modellslutpunkter, som låter dig distribuera en enda maskininlärningsmodell (ML) mot en logisk slutpunkt. För andra användningsfall kan du välja att hantera kostnader och prestanda med hjälp av flermodell slutpunkter, som låter dig specificera flera modeller som ska vara värd bakom en logisk slutpunkt. Oavsett vilket alternativ du väljer tillåter SageMaker-slutpunkter en skalbar mekanism för även de mest krävande företagskunder samtidigt som de ger värde i en uppsjö av funktioner, inklusive skuggvarianter, automatisk skalning, och inbyggd integration med amazoncloudwatch (för mer information, se CloudWatch Metrics for Multi-Model Endpoint Deployment).

Triton stöder olika backends som motorer för att stödja körning och servering av olika ML-modeller för slutledning. För varje Triton-distribution är det avgörande att veta hur backend-beteendet påverkar dina arbetsbelastningar och vad du kan förvänta dig så att du kan bli framgångsrik. I det här inlägget hjälper vi dig att förstå Forest Inference Library (FIL) backend, som stöds av Triton på SageMaker, så att du kan fatta ett välgrundat beslut för dina arbetsbelastningar och få bästa möjliga prestanda och kostnadsoptimering.

Djupdyk in i FIL-backend

Triton stöder FIL backend att servera trädmodeller, som t.ex XGBoost, LightGBM, scikit lära Slumpmässig skog, RAPIDS cuML Random Forest, och alla andra modeller som stöds av Treelit. Dessa modeller har länge använts för att lösa problem som klassificering eller regression. Även om dessa typer av modeller traditionellt har körts på processorer, har dessa modellers popularitet och slutledningskrav lett till olika tekniker för att öka slutledningsprestanda. FIL-backend använder många av dessa tekniker genom att använda cuML-konstruktioner och är byggd på C++ och CUDA-kärnbiblioteket för att optimera slutledningsprestanda på GPU-acceleratorer.

FIL-backend använder cuMLs bibliotek för att använda CPU- eller GPU-kärnor för att påskynda inlärningen. För att kunna använda dessa processorer refereras data från värdminnet (till exempel NumPy-matriser) eller GPU-matriser (uDF, Numba, cuPY eller något bibliotek som stöder __cuda_array_interface__) API. Efter att data är iscensatt i minnet kan FIL-backend köra bearbetning över alla tillgängliga CPU- eller GPU-kärnor.

FIL-backend-trådarna kan kommunicera med varandra utan att använda värdens delade minne, men i ensemble-arbetsbelastningar bör värdminne övervägas. Följande diagram visar en runtime-arkitektur för ensembleschemaläggning där du har möjlighet att finjustera minnesområdena, inklusive CPU-adresserbart delat minne som används för kommunikation mellan Triton (C++) och Python-processen (Python-backend) för utbyte tensorer (ingång/utgång) med FIL-backend.

Värd för ML-modeller på Amazon SageMaker med Triton: XGBoost, LightGBM och Treelite Models PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Triton Inference Server tillhandahåller konfigurerbara alternativ för utvecklare att justera sina arbetsbelastningar och optimera modellens prestanda. Konfigurationen dynamic_batching tillåter Triton att hålla förfrågningar på klientsidan och batcha dem på serversidan för att effektivt kunna använda FIL:s parallella beräkningar för att sluta sig till hela batchen tillsammans. Alternativet max_queue_delay_microseconds erbjuder en felsäker kontroll över hur länge Triton väntar på att bilda en batch.

Det finns ett antal andra FIL-specifika tillgängliga alternativ som påverkar prestation och beteende. Vi föreslår att börja med storage_type. När du kör backend på GPU skapar FIL en ny minnes-/datastruktur som är en representation av trädet för vilket FIL kan påverka prestanda och fotavtryck. Detta är konfigurerbart via miljöparametern storage_type, som har alternativen tät, sparsam och auto. Att välja det täta alternativet kommer att förbruka mer GPU-minne och resulterar inte alltid i bättre prestanda, så det är bäst att kontrollera. Däremot kommer det sparsamma alternativet att förbruka mindre GPU-minne och kan möjligen prestera lika bra eller bättre än tätt. Om du väljer automatiskt kommer modellen att som standard bli tät om det inte kommer att förbruka betydligt mer GPU-minne än sparsamt.

När det kommer till modellprestanda kan du överväga att betona threads_per_tree alternativ. En sak som du kan överserva i verkliga scenarier är det threads_per_tree kan ha en större inverkan på genomströmningen än någon annan parameter. Att ställa in den till valfri styrka 2 från 1–32 är legitimt. Det optimala värdet är svårt att förutsäga för denna parameter, men när servern förväntas hantera högre belastning eller bearbeta större batchstorlekar, tenderar den att dra nytta av ett högre värde än när den bearbetar några rader åt gången.

En annan parameter att vara medveten om är algo, som också är tillgängligt om du kör på GPU. Denna parameter bestämmer algoritmen som används för att bearbeta slutledningsbegäranden. Alternativen som stöds för detta är ALGO_AUTO, NAIVE, TREE_REORGoch BATCH_TREE_REORG. Dessa alternativ bestämmer hur noder i ett träd är organiserade och kan också resultera i prestandavinster. De ALGO_AUTO alternativet är som standard NAIVE för sparsam förvaring och BATCH_TREE_REORG för tät förvaring.

Slutligen kommer FIL med Shapley-förklaring, som kan aktiveras genom att använda treeshap_output parameter. Du bör dock komma ihåg att Shapley-utgångar skadar prestandan på grund av dess utdatastorlek.

Modellformat

Det finns för närvarande inget standardfilformat för att lagra skogsbaserade modeller; varje ram tenderar att definiera sitt eget format. För att stödja flera indatafilformat importerar FIL data med öppen källkod Treelit bibliotek. Detta gör det möjligt för FIL att stödja modeller som tränats i populära ramverk, som t.ex XGBoost och LightGBM. Observera att formatet på modellen du tillhandahåller måste ställas in i model_type konfigurationsvärde som anges i config.pbtxt fil.

Config.pbtxt

Varje modell i en modellförråd måste inkludera en modellkonfiguration som ger den obligatoriska och valfria informationen om modellen. Vanligtvis tillhandahålls denna konfiguration i en config.pbtxt fil specificerad som ModelConfig protobuf. För att lära dig mer om konfigurationsinställningarna, se Modellkonfiguration. Följande är några av modellens konfigurationsparametrar:

max_batch_size – Detta bestämmer den maximala batchstorleken som kan överföras till denna modell. I allmänhet är den enda gränsen för storleken på batcher som skickas till en FIL-backend det tillgängliga minnet för att bearbeta dem. För GPU-körningar bestäms det tillgängliga minnet av storleken på Tritons CUDA-minnespool, som kan ställas in via ett kommandoradsargument när servern startas.
ingång – Alternativen i det här avsnittet talar om för Triton hur många funktioner som kan förväntas för varje ingångsprov.
produktion – Alternativen i det här avsnittet talar om för Triton hur många utgångsvärden det kommer att finnas för varje prov. Om predict_proba alternativet är satt till sant, då returneras ett sannolikhetsvärde för varje klass. Annars kommer ett enda värde att returneras, vilket indikerar klassen som förutspås för det givna provet.
instansgrupp – Detta avgör hur många instanser av den här modellen som kommer att skapas och om de kommer att använda GPU eller CPU.
modell typ – Denna sträng indikerar vilket format modellen är i (xgboost_json i detta exempel, men xgboost, lightgbmoch tl_checkpoint är också giltiga format).
predict_proba – Om satt till sant, kommer sannolikhetsvärden att returneras för varje klass snarare än bara en klassförutsägelse.
output_class – Detta är satt till sant för klassificeringsmodeller och falskt för regressionsmodeller.
tröskelvärde – Detta är en poängtröskel för att bestämma klassificering. När output_class är inställd på sant måste detta tillhandahållas, även om det inte kommer att användas om predict_proba är också satt till sant.
lagringstyp – Generellt sett bör användning av AUTO för denna inställning uppfylla de flesta användningsfall. Om AUTO-lagring väljs kommer FIL att ladda modellen med antingen en sparsam eller tät representation baserat på modellens ungefärliga storlek. I vissa fall kanske du uttryckligen vill ställa in detta på SPARSE för att minska minnesavtrycket för stora modeller.

Triton Inference Server på SageMaker

SageMaker tillåter du kan distribuera både enstaka modell- och multimodellslutpunkter med NVIDIA Triton Inference Server. Följande figur visar Triton Inference Server-arkitekturen på hög nivå. De modellförråd är ett filsystembaserat arkiv av modellerna som Triton kommer att göra tillgängliga för slutledning. Slutledningsbegäranden anländer till servern och dirigeras till lämplig schemaläggare per modell. Triton redskap flera schemaläggnings- och batchalgoritmer som kan konfigureras på modell för modell. Varje modells schemaläggare utför valfritt batchning av slutledningsförfrågningar och skickar sedan förfrågningarna till backend motsvarande modelltypen. Backend utför slutledning med hjälp av de ingångar som tillhandahålls i de batchade förfrågningarna för att producera de begärda utgångarna. Utgångarna returneras sedan.

När du konfigurerar dina automatiska skalningsgrupper för SageMaker-slutpunkter, kanske du vill överväga SageMakerVariantInvocationsPerInstance som det primära kriteriet för att bestämma skalningsegenskaperna för din automatiska skalningsgrupp. Dessutom, beroende på om dina modeller körs på GPU eller CPU, kan du också överväga att använda CPUUtilization eller GPUUtilization som ytterligare kriterier. Observera att för slutpunkter för enstaka modeller, eftersom de installerade modellerna alla är desamma, är det ganska enkelt att ställa in korrekta policyer för att uppfylla dina SLA:er. För flermodellslutpunkter rekommenderar vi att du använder liknande modeller bakom en given slutpunkt för att få mer stabil förutsägbar prestanda. I användningsfall där modeller av varierande storlek och krav används, kanske du vill separera dessa arbetsbelastningar över flera flermodellslutpunkter eller ägna lite tid åt att finjustera din automatiska skalningsgrupppolicy för att få bästa balans mellan kostnad och prestanda.

Värd för ML-modeller på Amazon SageMaker med Triton: XGBoost, LightGBM och Treelite Models PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

För en lista över NVIDIA Triton Deep Learning Containers (DLC) som stöds av SageMaker inference, se Tillgängliga bilder för Deep Learning Containers.

SageMaker anteckningsbok genomgång

ML-applikationer är komplexa och kan ofta kräva förbearbetning av data. I den här anteckningsboken fördjupar vi oss i hur man distribuerar en trädbaserad ML-modell som XGBoost med FIL-backend i Triton på en SageMaker multi-model endpoint. Vi täcker också hur man implementerar en Python-baserad dataförbehandlingspipeline för din modell med hjälp av ensemblefunktionen i Triton. Detta kommer att tillåta oss att skicka in rådata från klientsidan och få både dataförbearbetning och modellinferens att ske i en Triton SageMaker-slutpunkt för optimal slutledningsprestanda.

Triton modell ensemble funktion

Triton Inference Server förenklar distributionen av AI-modeller i stor skala i produktionen. Triton Inference Server kommer med en bekväm lösning som förenklar byggandet av förbearbetnings- och efterbearbetningspipelines. Triton Inference Server-plattformen tillhandahåller ensembleplaneraren, som är ansvarig för pipelining av modeller som deltar i inferensprocessen samtidigt som effektiviteten säkerställs och genomströmningen optimeras. Genom att använda ensemblemodeller kan man undvika överkostnaderna med att överföra mellantensorer och minimera antalet förfrågningar som måste skickas till Triton.

Värd för ML-modeller på Amazon SageMaker med Triton: XGBoost, LightGBM och Treelite Models PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

I den här anteckningsboken visar vi hur man använder ensemblefunktionen för att bygga en pipeline av dataförbearbetning med XGBoost-modellinferens, och du kan extrapolera från den för att lägga till anpassad efterbearbetning till pipelinen.

Ställ in miljön

Vi börjar med att sätta upp den miljö som krävs. Vi installerar de beroenden som krävs för att paketera vår modellpipeline och köra inferenser med hjälp av Triton Inference Server. Vi definierar också AWS identitets- och åtkomsthantering (IAM) roll som ger SageMaker tillgång till modellartefakterna och NVIDIA Triton Amazon Elastic Container Registry (Amazon ECR) bild. Se följande kod:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Skapa en Conda-miljö för förbearbetningsberoenden

Python-backend i Triton kräver att vi använder en Conda miljö för eventuella ytterligare beroenden. I det här fallet använder vi Python-backend för att förbehandla rådata innan vi matar in den i XGBoost-modellen som körs i FIL-backend. Även om vi ursprungligen använde RAPIDS cuDF och cuML för att göra förbearbetningen av data, använder vi här Pandas och scikit-learn som förbearbetningsberoenden under slutledning. Vi gör detta av tre anledningar:

Vi visar hur du skapar en Conda-miljö för dina beroenden och hur du paketerar den i format förväntat av Tritons Python-backend.
Genom att visa förbearbetningsmodellen som körs i Python-backend på CPU:n medan XGBoost körs på GPU i FIL-backend, illustrerar vi hur varje modell i Tritons ensemblepipeline kan köras på ett annat ramverksbackend samt olika hårdvarukonfigurationer.
Den belyser hur RAPIDS-biblioteken (cuDF, cuML) är kompatibla med sina CPU-motsvarigheter (Pandas, scikit-learn). Vi kan till exempel visa hur LabelEncoders skapad i cuML kan användas i scikit-learn och vice versa.

Vi följer instruktionerna från Triton dokumentation för paketering av förbearbetningsberoenden (scikit-learn och Pandas) som ska användas i Python-backend som en TAR-fil för Conda-miljö. Bash-manuset create_prep_env.sh skapar TAR-filen för Conda-miljön, sedan flyttar vi den till förbearbetningsmodellkatalogen. Se följande kod:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

När vi kört föregående skript genereras det preprocessing_env.tar.gz, som vi kopierar till förbearbetningskatalogen:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Ställ in förbearbetning med Triton Python-backend

För förbearbetning använder vi Tritons Python-backend att utföra förbearbetning av tabelldata (kategorisk kodning) under slutledning för rådataförfrågningar som kommer till servern. För mer information om förbearbetningen som gjordes under utbildningen, se träningsanteckningsbok.

Python-backend möjliggör förbearbetning, efterbearbetning och all annan anpassad logik som kan implementeras i Python och serveras med Triton. Att använda Triton på SageMaker kräver att vi först konfigurerar en modellförrådsmapp som innehåller de modeller vi vill betjäna. Vi har redan satt upp en modell för Python-dataförbearbetning som kallas förbearbetning i cpu_model_repository och gpu_model_repository.

Värd för ML-modeller på Amazon SageMaker med Triton: XGBoost, LightGBM och Treelite Models PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Triton har specifika krav för modellförvarslayout. Inom katalogen över modellförrådet på toppnivå har varje modell sin egen underkatalog som innehåller informationen för motsvarande modell. Varje modellkatalog i Triton måste ha minst en numerisk underkatalog som representerar en version av modellen. Värdet 1 representerar version 1 av vår Python-förbearbetningsmodell. Varje modell körs av en specifik backend, så inom varje versionsunderkatalog måste det finnas den modellartefakt som krävs av den backend. För det här exemplet använder vi Python-backend, som kräver att Python-filen du serverar ska heta model.py, och filen måste implementeras vissa funktioner. Om vi använde en PyTorch-backend skulle en model.pt-fil krävas, och så vidare. För mer information om namnkonventioner för modellfiler, se Modellfiler.

Smakämnen modell.py Python-filen som vi använder här implementerar all tabelldataförbehandlingslogik för att konvertera rådata till funktioner som kan matas in i vår XGBoost-modell.

Varje Triton-modell måste också ge en config.pbtxt fil som beskriver modellkonfigurationen. För att lära dig mer om konfigurationsinställningarna, se Modellkonfiguration. Vår config.pbtxt fil specificerar backend som python och alla indatakolumner för rådata tillsammans med förbehandlad utdata, som består av 15 funktioner. Vi anger också att vi vill köra denna Python-förbearbetningsmodell på CPU:n. Se följande kod:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Konfigurera en trädbaserad ML-modell för FIL-backend

Därefter satte vi upp modellkatalogen för en trädbaserad ML-modell som XGBoost, som kommer att använda FIL-backend.

Den förväntade layouten för cpu_memory_repository och gpu_memory_repository liknar den vi visade tidigare.

Värd för ML-modeller på Amazon SageMaker med Triton: XGBoost, LightGBM och Treelite Models PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Här, FIL är modellens namn. Vi kan ge det ett annat namn som xgboost om vi vill. 1 är versionens underkatalog, som innehåller modellartefakten. I det här fallet är det xgboost.json modell som vi sparat. Låt oss skapa den här förväntade layouten:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Vi måste ha konfigurationsfilen config.pbtxt beskriver modellkonfigurationen för den trädbaserade ML-modellen, så att FIL-backend i Triton kan förstå hur man servar den. För mer information, se den senaste generikan Triton konfigurationsalternativ och de specifika konfigurationsalternativen för FIL backend. Vi fokuserar på bara några av de vanligaste och mest relevanta alternativen i detta exempel.

Skapa config.pbtxt för model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

På samma sätt, ställ in config.pbtxt för model_gpu_repository (observera att skillnaden är USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Konfigurera en slutledningspipeline för dataförbehandlingen Python-backend och FIL-backend med hjälp av ensembler

Nu är vi redo att ställa in slutledningspipeline för dataförbehandling och trädbaserad modellinferens med hjälp av en ensemble modell. En ensemblemodell representerar en pipeline av en eller flera modeller och anslutningen av ingångs- och utgångstensorer mellan dessa modeller. Här använder vi ensemblemodellen för att bygga en pipeline av dataförbearbetning i Python-backend följt av XGBoost i FIL-backend.

Den förväntade layouten för ensemble modellkatalogen liknar de vi visade tidigare:

Värd för ML-modeller på Amazon SageMaker med Triton: XGBoost, LightGBM och Treelite Models PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Vi skapade ensemblemodellerna config.pbtxt följa anvisningarna i Ensemble modeller. Viktigt är att vi måste ställa in ensembleschemaläggaren i config.pbtxt, som anger dataflödet mellan modeller inom ensemblen. Ensembleschemaläggaren samlar in utgångstensorerna i varje steg och tillhandahåller dem som ingångstensorer för andra steg enligt specifikationen.

Paketera modellförrådet och ladda upp till Amazon S3

Slutligen slutar vi med följande modellförvarskatalogstruktur, som innehåller en Python-förbearbetningsmodell och dess beroenden tillsammans med XGBoost FIL-modellen och modellensemblen.

Värd för ML-modeller på Amazon SageMaker med Triton: XGBoost, LightGBM och Treelite Models PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vi paketerar katalogen och dess innehåll som model.tar.gz för uppladdning till Amazon enkel lagringstjänst (Amazon S3). Vi har två alternativ i det här exemplet: att använda en CPU-baserad instans eller en GPU-baserad instans. En GPU-baserad instans är mer lämplig när du behöver högre processorkraft och vill använda CUDA-kärnor.

Skapa och ladda upp modellpaketet för en CPU-baserad instans (optimerad för CPU) med följande kod:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Skapa och ladda upp modellpaketet för en GPU-baserad instans (optimerad för GPU) med följande kod:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Skapa en SageMaker-slutpunkt

Vi har nu modellartefakterna lagrade i en S3-hink. I det här steget kan vi också tillhandahålla den ytterligare miljövariabeln SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, som anger namnet på modellen som ska laddas av Triton. Värdet på denna nyckel bör matcha mappnamnet i modellpaketet som laddats upp till Amazon S3. Denna variabel är valfri för en enskild modell. När det gäller ensemblemodeller måste denna nyckel anges för att Triton ska starta i SageMaker.

Dessutom kan du ställa in SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT och SAGEMAKER_TRITON_THREAD_COUNT för att optimera antalet trådar.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Vi använder den föregående modellen för att skapa en slutpunktskonfiguration där vi kan specificera vilken typ och antal instanser vi vill ha i slutpunkten

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Vi använder denna slutpunktskonfiguration för att skapa en SageMaker-slutpunkt och väntar på att distributionen ska slutföras. Med SageMaker MMEs har vi möjlighet att vara värd för flera ensemblemodeller genom att upprepa den här processen, men vi håller oss till en distribution för detta exempel:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Status kommer att ändras till InService när distributionen är framgångsrik.

Anropa din modell på SageMaker-slutpunkten

Efter att slutpunkten har körts kan vi använda lite rådataexempel för att utföra slutledning med JSON som nyttolastformat. För formatet för inferensbegäran använder Triton KFServing gemenskapsstandard slutledningsprotokoll. Se följande kod:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

Anteckningsboken som hänvisas till i bloggen finns i GitHub repository.

Bästa praxis

Förutom alternativen för att finjustera inställningarna för FIL-backend som vi nämnde tidigare, kan datavetare också säkerställa att indata för backend är optimerad för bearbetning av motorn. När det är möjligt, mata in data i rad-huvudformat i GPU-matrisen. Andra format kräver intern konvertering och tar upp cykler, vilket minskar prestandan.

På grund av hur FIL-datastrukturer underhålls i GPU-minnet, var uppmärksam på träddjupet. Ju djupare träddjupet är, desto större blir ditt GPU-minne.

Använd instance_group_count parameter för att lägga till arbetsprocesser och öka genomströmningen av FIL-backend, vilket kommer att resultera i större CPU- och GPU-minnesförbrukning. Tänk dessutom på SageMaker-specifika variabler som är tillgängliga för att öka genomströmningen, såsom HTTP-trådar, HTTP-buffertstorlek, batchstorlek och maxfördröjning.

Slutsats

I det här inlägget dyker vi djupt in i FIL-backend som Triton Inference Server stöder på SageMaker. Denna backend ger både CPU- och GPU-acceleration av dina trädbaserade modeller som den populära XGBoost-algoritmen. Det finns många alternativ att överväga för att få bästa möjliga prestanda för slutledning, såsom batchstorlekar, datainmatningsformat och andra faktorer som kan anpassas för att möta dina behov. SageMaker låter dig använda den här kapaciteten med endpoints för enstaka och flera modeller för att balansera prestanda och kostnadsbesparingar.

Vi uppmuntrar dig att ta informationen i det här inlägget och se om SageMaker kan möta dina värdbehov för att tjäna trädbaserade modeller och uppfylla dina krav på kostnadsreduktion och arbetsbelastningsprestanda.

Anteckningsboken som refereras till i det här inlägget finns i SageMaker-exemplen GitHub repository. Dessutom kan du hitta den senaste dokumentationen om FIL-backend på GitHub.

Om författarna

Värd för ML-modeller på Amazon SageMaker med Triton: XGBoost, LightGBM och Treelite Models PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Raghu Ramesha är senior ML Solutions Architect med Amazon SageMaker Service-teamet. Han fokuserar på att hjälpa kunder att bygga, distribuera och migrera ML-produktionsarbetsbelastningar till SageMaker i stor skala. Han är specialiserad på domäner för maskininlärning, AI och datorseende och har en magisterexamen i datavetenskap från UT Dallas. På fritiden tycker han om att resa och fotografera.

James Park är en lösningsarkitekt på Amazon Web Services. Han arbetar med Amazon.com för att designa, bygga och distribuera tekniklösningar på AWS och har ett särskilt intresse för AI och maskininlärning. På fritiden tycker han om att söka nya kulturer, nya upplevelser och att hålla sig uppdaterad med de senaste tekniktrenderna.

Dhawal Patel är en huvudarkitekt för maskininlärning på AWS. Han har arbetat med organisationer som sträcker sig från stora företag till medelstora startups med problem relaterade till distribuerad datoranvändning och artificiell intelligens. Han fokuserar på djupinlärning, inklusive NLP och datorseende domäner. Han hjälper kunder att uppnå högpresterande modellslutledning på Amazon SageMaker.

Jiahong Liu är en lösningsarkitekt på Cloud Service Provider-teamet på NVIDIA. Han hjälper kunder att ta till sig maskininlärning och AI-lösningar som utnyttjar NVIDIAs accelererade datoranvändning för att hantera deras utbildnings- och slutledningsutmaningar. På sin fritid tycker han om origami, gör-det-själv-projekt och att spela basket.

Kshitiz Gupta är lösningsarkitekt på NVIDIA. Han tycker om att utbilda molnkunder om GPU AI-teknikerna NVIDIA har att erbjuda och hjälpa dem med att accelerera deras maskininlärning och djupinlärning. Utanför jobbet tycker han om att springa, vandra och titta på vilda djur.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoAiStream. Web3 Data Intelligence. Kunskap förstärkt. Tillgång här.
Minting the Future med Adryenn Ashley. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Tidsstämpel: Maj 2, 2023

Tidsstämpel: September 7, 2023

Återutgiven av Platon

Hur Sophos tränar en kraftfull, lätt PDF-skadeprogramdetektor i ultraskala med Amazon SageMaker

Förbättra noggrannheten i Amazon Rekognition Face Search med användarvektorer | Amazon webbtjänster

Bundesliga Match Fact Pressure Hantering: Utvärdera spelarnas prestationer i högtryckssituationer på AWS

Amazon SageMaker Automatic Model Tuning väljer nu automatiskt inställningskonfigurationer för att förbättra användbarheten och kostnadseffektiviteten | Amazon webbtjänster

Defektdetektering i högupplösta bilder med tvåstegs Amazon Rekognition Custom Labels-modeller | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto