Hosting ML-modeller på Amazon SageMaker ved å bruke Triton: XGBoost, LightGBM og Treelite-modeller

Publisert av Platon

Følgere: 0

En av de mest populære modellene tilgjengelig i dag er XGBoost. Med muligheten til å løse ulike problemer som klassifisering og regresjon, har XGBoost blitt et populært alternativ som også faller inn i kategorien trebaserte modeller. I dette innlegget dykker vi dypt for å se hvordan Amazon SageMaker kan betjene disse modellene ved hjelp av NVIDIA Triton Inference Server. Arbeidsbelastninger i sanntid kan ha varierende nivåer av krav og servicenivåavtaler (SLAer) når det gjelder ventetid og gjennomstrømning, og kan møtes ved å bruke SageMaker sanntidsendepunkter.

SageMaker gir enkeltmodellendepunkter, som lar deg distribuere en enkelt maskinlæringsmodell (ML) mot et logisk endepunkt. For andre brukstilfeller kan du velge å administrere kostnader og ytelse ved å bruke flermodell-endepunkter, som lar deg spesifisere flere modeller som skal være vert bak et logisk endepunkt. Uansett hvilket alternativ du velger, tillater SageMaker-endepunkter en skalerbar mekanisme for selv de mest krevende bedriftskunder samtidig som de gir verdi i en mengde funksjoner, inkludert skyggevarianter, automatisk skalering, og innfødt integrasjon med Amazon CloudWatch (for mer informasjon, se CloudWatch Metrics for Multi-Model Endpoint Deployment).

Triton støtter forskjellige backends som motorer for å støtte kjøring og servering av forskjellige ML-modeller for slutninger. For enhver Triton-distribusjon er det avgjørende å vite hvordan backend-atferden påvirker arbeidsbelastningene dine og hva du kan forvente, slik at du kan lykkes. I dette innlegget hjelper vi deg å forstå Forest Inference Library (FIL) backend, som støttes av Triton på SageMaker, slik at du kan ta en informert beslutning for arbeidsmengdene dine og få best mulig ytelse og kostnadsoptimalisering.

Dypdykk inn i FIL-backend

Triton støtter FIL-backend å servere tremodeller, som f.eks Xgboost, LightGBM, scikit lære Tilfeldig skog, RAPIDS cuML Random Forest, og alle andre modeller som støttes av Treelitt. Disse modellene har lenge vært brukt for å løse problemer som klassifisering eller regresjon. Selv om disse modellene tradisjonelt har kjørt på CPUer, har populariteten til disse modellene og slutningskravene ført til ulike teknikker for å øke slutningsytelsen. FIL-backend bruker mange av disse teknikkene ved å bruke cuML-konstruksjoner og er bygget på C++ og CUDA-kjernebiblioteket for å optimalisere slutningsytelsen på GPU-akseleratorer.

FIL-backend bruker cuMLs biblioteker for å bruke CPU- eller GPU-kjerner for å akselerere læring. For å bruke disse prosessorene blir data referert fra vertsminne (for eksempel NumPy-matriser) eller GPU-matriser (uDF, Numba, cuPY eller et hvilket som helst bibliotek som støtter __cuda_array_interface__) API. Etter at dataene er iscenesatt i minnet, kan FIL-backend kjøre prosessering på tvers av alle tilgjengelige CPU- eller GPU-kjerner.

FIL-backend-trådene kan kommunisere med hverandre uten å bruke delt minne til verten, men i ensemblearbeidsbelastninger bør vertsminne vurderes. Følgende diagram viser en kjøretidsarkitektur for ensembleplanlegger der du har muligheten til å finjustere minneområdene, inkludert CPU-adresserbart delt minne som brukes til kommunikasjon mellom Triton (C++) og Python-prosessen (Python-backend) for utveksling tensorer (input/output) med FIL-backend.

Hosting av ML-modeller på Amazon SageMaker ved å bruke Triton: XGBoost, LightGBM og Treelite Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Triton Inference Server gir konfigurerbare alternativer for utviklere for å justere arbeidsbelastningen og optimalisere modellytelsen. Konfigurasjonen dynamic_batching lar Triton holde forespørsler på klientsiden og gruppere dem på serversiden for å effektivt bruke FILs parallelle beregning for å konkludere hele batchen sammen. Valget max_queue_delay_microseconds tilbyr en feilsikker kontroll over hvor lenge Triton venter med å danne en batch.

Det finnes en rekke andre FIL-spesifikke tilgjengelige alternativer som påvirker ytelse og atferd. Vi foreslår å begynne med storage_type. Når du kjører backend på GPU, oppretter FIL en ny minne-/datastruktur som er en representasjon av treet som FIL kan påvirke ytelse og fotavtrykk for. Dette kan konfigureres via miljøparameteren storage_type, som har alternativene tett, sparsom og auto. Å velge det tette alternativet vil forbruke mer GPU-minne og resulterer ikke alltid i bedre ytelse, så det er best å sjekke. I kontrast vil det sparsomme alternativet forbruke mindre GPU-minne og kan muligens yte like bra eller bedre enn tett. Å velge auto vil føre til at modellen som standard blir tett med mindre dette vil forbruke betydelig mer GPU-minne enn sparsomt.

Når det gjelder modellytelse, kan du vurdere å legge vekt på threads_per_tree alternativ. En ting du kanskje overserver i virkelige scenarier er det threads_per_tree kan ha større innvirkning på gjennomstrømmingen enn noen annen parameter. Å sette den til en hvilken som helst potens av 2 fra 1–32 er legitim. Den optimale verdien er vanskelig å forutsi for denne parameteren, men når serveren forventes å håndtere høyere belastning eller behandle større batchstørrelser, har den en tendens til å dra nytte av en større verdi enn når den behandler noen få rader om gangen.

En annen parameter å være klar over er algo, som også er tilgjengelig hvis du kjører på GPU. Denne parameteren bestemmer algoritmen som brukes til å behandle slutningsforespørslene. Alternativene som støttes for dette er ALGO_AUTO, NAIVE, TREE_REORGog BATCH_TREE_REORG. Disse alternativene bestemmer hvordan noder i et tre er organisert og kan også resultere i ytelsesgevinster. De ALGO_AUTO alternativet er standard til NAIVE for sparsom lagring og BATCH_TREE_REORG for tett lagring.

Til slutt kommer FIL med Shapley-forklaring, som kan aktiveres ved å bruke treeshap_output parameter. Du bør imidlertid huske på at Shapley-utganger skader ytelsen på grunn av utdatastørrelsen.

Modellformat

Det er for øyeblikket ikke noe standard filformat for å lagre skogbaserte modeller; hvert rammeverk har en tendens til å definere sitt eget format. For å støtte flere inndatafilformater, importerer FIL data ved å bruke åpen kildekode Treelitt bibliotek. Dette gjør at FIL kan støtte modeller som er trent i populære rammeverk, som f.eks Xgboost og LightGBM. Merk at formatet til modellen du oppgir, må angis i model_type konfigurasjonsverdi spesifisert i config.pbtxt filen.

Config.pbtxt

Hver modell i en modelllager må inkludere en modellkonfigurasjon som gir nødvendig og valgfri informasjon om modellen. Vanligvis er denne konfigurasjonen gitt i en config.pbtxt fil spesifisert som ModelConfig protobuf. For å lære mer om konfigurasjonsinnstillingene, se Modellkonfigurasjon. Følgende er noen av modellkonfigurasjonsparametrene:

max_batch_size – Dette bestemmer den maksimale batchstørrelsen som kan overføres til denne modellen. Generelt sett er den eneste begrensningen på størrelsen på batcher som sendes til en FIL-backend tilgjengelig minne for å behandle dem. For GPU-kjøringer bestemmes tilgjengelig minne av størrelsen på Tritons CUDA-minnepool, som kan settes via et kommandolinjeargument når serveren startes.
inngang – Alternativer i denne delen forteller Triton hvor mange funksjoner du kan forvente for hver inngangsprøve.
produksjon – Alternativer i denne delen forteller Triton hvor mange utgangsverdier det vil være for hver prøve. Hvis predict_proba alternativet er satt til sant, vil en sannsynlighetsverdi returneres for hver klasse. Ellers vil en enkelt verdi bli returnert, som indikerer klassen forutsagt for den gitte prøven.
forekomstgruppe – Dette bestemmer hvor mange forekomster av denne modellen som skal opprettes og om de skal bruke GPU eller CPU.
modell_type – Denne strengen indikerer hvilket format modellen er i (xgboost_json i dette eksemplet, men xgboost, lightgbmog tl_checkpoint er også gyldige formater).
forutsi_proba – Hvis satt til sann, vil sannsynlighetsverdier bli returnert for hver klasse i stedet for bare en klasseprediksjon.
output_class – Dette er satt til sant for klassifikasjonsmodeller og usant for regresjonsmodeller.
terskel – Dette er en poenggrense for å bestemme klassifisering. Når output_class er satt til sann, må dette oppgis, selv om det ikke vil bli brukt hvis predict_proba er også satt til sann.
lagringstype – Generelt sett bør bruk av AUTO for denne innstillingen oppfylle de fleste brukstilfeller. Hvis AUTO-lagring er valgt, vil FIL laste modellen ved å bruke enten en sparsom eller tett representasjon basert på den omtrentlige størrelsen på modellen. I noen tilfeller vil du kanskje eksplisitt sette dette til SPARSE for å redusere minneavtrykket til store modeller.

Triton Inference Server på SageMaker

SageMaker tillater du kan distribuere både enkeltmodell- og multimodellendepunkter med NVIDIA Triton Inference Server. Følgende figur viser Triton Inference Server høynivåarkitektur. De modelllager er et filsystembasert depot av modellene som Triton vil gjøre tilgjengelig for slutning. Konklusjonsforespørsler ankommer serveren og rutes til den aktuelle planleggeren per modell. Triton redskaper flere planleggings- og batchalgoritmer som kan konfigureres på en modell-for-modell basis. Hver modells planlegger utfører valgfritt batching av slutningsforespørsler og sender deretter forespørslene til backend tilsvarende modelltypen. Backend utfører inferencing ved å bruke inngangene som er gitt i batchforespørslene for å produsere de forespurte utgangene. Utgangene returneres deretter.

Når du konfigurerer dine automatiske skaleringsgrupper for SageMaker-endepunkter, kan det være lurt å vurdere SageMakerVariantInvocationsPerInstance som det primære kriteriet for å bestemme skaleringsegenskapene til din automatiske skaleringsgruppe. I tillegg, avhengig av om modellene dine kjører på GPU eller CPU, kan du også vurdere å bruke CPUUtilization eller GPUUtilization som tilleggskriterier. Merk at for endepunkter for enkeltmodeller, fordi modellene som er distribuert alle er de samme, er det ganske enkelt å sette riktige retningslinjer for å oppfylle SLAene dine. For endepunkter med flere modeller anbefaler vi å distribuere lignende modeller bak et gitt endepunkt for å ha mer stabil forutsigbar ytelse. I brukstilfeller der modeller av varierende størrelser og krav brukes, kan det være lurt å skille disse arbeidsbelastningene på tvers av flere endepunkter for flere modeller eller bruke litt tid på å finjustere gruppepolicyen for automatisk skalering for å oppnå den beste kostnads- og ytelsesbalansen.

Hosting av ML-modeller på Amazon SageMaker ved å bruke Triton: XGBoost, LightGBM og Treelite Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

For en liste over NVIDIA Triton Deep Learning Containers (DLC) som støttes av SageMaker inference, se Tilgjengelige bilder av Deep Learning Containers.

SageMaker notatbok gjennomgang

ML-applikasjoner er komplekse og kan ofte kreve dataforbehandling. I denne notatboken dykker vi inn i hvordan du distribuerer en trebasert ML-modell som XGBoost ved å bruke FIL-backend i Triton på et SageMaker multi-modell endepunkt. Vi dekker også hvordan du implementerer en Python-basert dataforbehandlings-inferenspipeline for modellen din ved å bruke ensemblefunksjonen i Triton. Dette vil tillate oss å sende inn rådata fra klientsiden og få både dataforbehandling og modellslutning til å skje i et Triton SageMaker-endepunkt for optimal slutningsytelse.

Triton modell ensemble funksjon

Triton Inference Server forenkler distribusjonen av AI-modeller i stor skala i produksjon. Triton Inference Server kommer med en praktisk løsning som forenkler bygging av for- og etterbehandlingsrørledninger. Triton Inference Server-plattformen gir ensembleplanleggeren, som er ansvarlig for pipelining av modeller som deltar i inferensprosessen, samtidig som den sikrer effektivitet og optimaliserer gjennomstrømming. Ved å bruke ensemblemodeller kan du unngå overhead med å overføre mellomtensorer og minimere antallet forespørsler som må sendes til Triton.

Hosting av ML-modeller på Amazon SageMaker ved å bruke Triton: XGBoost, LightGBM og Treelite Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

I denne notatboken viser vi hvordan du bruker ensemblefunksjonen for å bygge en pipeline av dataforbehandling med XGBoost-modellslutning, og du kan ekstrapolere fra den for å legge til tilpasset etterbehandling til pipelinen.

Sett opp miljøet

Vi begynner med å sette opp det nødvendige miljøet. Vi installerer avhengighetene som kreves for å pakke vår modellpipeline og kjøre slutninger ved hjelp av Triton Inference Server. Vi definerer også AWS identitets- og tilgangsadministrasjon (IAM) rolle som vil gi SageMaker tilgang til modellartefakter og NVIDIA Triton Amazon Elastic Container Registry (Amazon ECR) bilde. Se følgende kode:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Lag et Conda-miljø for forbehandlingsavhengigheter

Python-backend i Triton krever at vi bruker en conda miljø for eventuelle ytterligere avhengigheter. I dette tilfellet bruker vi Python-backend til å forhåndsbehandle rådataene før de mates inn i XGBoost-modellen som kjører i FIL-backend. Selv om vi opprinnelig brukte RAPIDS cuDF og cuML for å gjøre dataforbehandlingen, bruker vi her Pandas og scikit-learn som forbehandlingsavhengigheter under inferens. Vi gjør dette av tre grunner:

Vi viser hvordan du lager et Conda-miljø for dine avhengigheter og hvordan du pakker det inn i forventet format av Tritons Python-backend.
Ved å vise forbehandlingsmodellen som kjører i Python-backend på CPU-en mens XGBoost kjører på GPU i FIL-backend, illustrerer vi hvordan hver modell i Tritons ensemble-pipeline kan kjøre på en annen ramme-backend samt forskjellige maskinvarekonfigurasjoner.
Den fremhever hvordan RAPIDS-bibliotekene (cuDF, cuML) er kompatible med sine CPU-motstykker (Pandas, scikit-learn). Vi kan for eksempel vise hvordan LabelEncoders opprettet i cuML kan brukes i scikit-learn og omvendt.

Vi følger instruksjonene fra Triton dokumentasjon for pakkeforbehandlingsavhengigheter (scikit-learn og Pandas) som skal brukes i Python-backend som en Conda-miljø TAR-fil. Bash-manuset create_prep_env.sh oppretter Conda-miljøets TAR-fil, så flytter vi den inn i forbehandlingsmodellkatalogen. Se følgende kode:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

Etter at vi har kjørt det foregående skriptet, genereres det preprocessing_env.tar.gz, som vi kopierer til forbehandlingskatalogen:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Sett opp forbehandling med Triton Python-backend

Til forbehandling bruker vi Tritons Python-backend å utføre tabelldataforbehandling (kategorisk koding) under inferens for rådataforespørsler som kommer inn på serveren. For mer informasjon om forbehandlingen som ble utført under trening, se treningsnotisbok.

Python-backend muliggjør forbehandling, etterbehandling og annen tilpasset logikk som kan implementeres i Python og serveres med Triton. Å bruke Triton på SageMaker krever at vi først setter opp en modelllagermappe som inneholder modellene vi ønsker å betjene. Vi har allerede satt opp en modell for Python-dataforbehandling kalt preprocessing in cpu_model_repository og gpu_model_repository.

Hosting av ML-modeller på Amazon SageMaker ved å bruke Triton: XGBoost, LightGBM og Treelite Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Triton har spesifikke krav til modelllageroppsett. Innenfor modelllagerkatalogen på toppnivå har hver modell sin egen underkatalog som inneholder informasjonen for den tilsvarende modellen. Hver modellkatalog i Triton må ha minst én numerisk underkatalog som representerer en versjon av modellen. Verdien 1 representerer versjon 1 av vår Python-forbehandlingsmodell. Hver modell kjøres av en spesifikk backend, så innenfor hver versjonsunderkatalog må det være modellartefakten som kreves av den backend. For dette eksemplet bruker vi Python-backend, som krever at Python-filen du serverer, heter model.py, og filen må implementeres visse funksjoner. Hvis vi brukte en PyTorch-backend, ville en model.pt-fil være nødvendig, og så videre. For mer informasjon om navnekonvensjoner for modellfiler, se Modellfiler.

De modell.py Python-filen vi bruker her implementerer all den tabellformede dataforbehandlingslogikken for å konvertere rådata til funksjoner som kan mates inn i vår XGBoost-modell.

Hver Triton-modell må også gi en config.pbtxt fil som beskriver modellkonfigurasjonen. For å lære mer om konfigurasjonsinnstillingene, se Modellkonfigurasjon. Vår config.pbtxt filen spesifiserer backend som python og alle inngangskolonnene for rådata sammen med forhåndsbehandlet utdata, som består av 15 funksjoner. Vi spesifiserer også at vi ønsker å kjøre denne Python-forbehandlingsmodellen på CPU. Se følgende kode:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Sett opp en trebasert ML-modell for FIL-backend

Deretter satte vi opp modellkatalogen for en trebasert ML-modell som XGBoost, som vil bruke FIL-backend.

Det forventede oppsettet for cpu_memory_repository og gpu_memory_repository ligner på den vi viste tidligere.

Hosting av ML-modeller på Amazon SageMaker ved å bruke Triton: XGBoost, LightGBM og Treelite Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Her FIL er navnet på modellen. Vi kan gi den et annet navn som xgboost hvis vi vil. 1 er versjonens underkatalog, som inneholder modellartefakten. I dette tilfellet er det xgboost.json modell som vi lagret. La oss lage dette forventede oppsettet:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Vi må ha konfigurasjonsfilen config.pbtxt som beskriver modellkonfigurasjonen for den trebaserte ML-modellen, slik at FIL-backend i Triton kan forstå hvordan den skal betjenes. For mer informasjon, se siste generiske Triton-konfigurasjonsalternativer og konfigurasjonsalternativene som er spesifikke for FIL-backend. Vi fokuserer på bare noen av de vanligste og mest relevante alternativene i dette eksemplet.

Opprett config.pbtxt forum model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

På samme måte sett opp config.pbtxt forum model_gpu_repository (merk at forskjellen er USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Sett opp en slutningspipeline for dataforbehandlingen Python-backend og FIL-backend ved å bruke ensembler

Nå er vi klare til å sette opp inferenspipeline for dataforbehandling og trebasert modellslutning ved å bruke en ensemble modell. En ensemblemodell representerer en rørledning av én eller flere modeller og koblingen av inngangs- og utgangstensorer mellom disse modellene. Her bruker vi ensemblemodellen til å bygge en pipeline av dataforbehandling i Python-backend etterfulgt av XGBoost i FIL-backend.

Den forventede layouten for ensemble modellkatalogen ligner på de vi viste tidligere:

Hosting av ML-modeller på Amazon SageMaker ved å bruke Triton: XGBoost, LightGBM og Treelite Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Vi laget ensemblemodellene config.pbtxt følge veiledningen i Ensemble modeller. Viktigere, vi må sette opp ensembleplanleggeren i config.pbtxt, som spesifiserer dataflyten mellom modellene i ensemblet. Ensembleplanleggeren samler utgangstensorene i hvert trinn, og gir dem som inngangstensorer for andre trinn i henhold til spesifikasjonen.

Pakk modelllageret og last opp til Amazon S3

Til slutt ender vi opp med følgende modelllagerkatalogstruktur, som inneholder en Python-forbehandlingsmodell og dens avhengigheter sammen med XGBoost FIL-modellen og modellensemblet.

Hosting av ML-modeller på Amazon SageMaker ved å bruke Triton: XGBoost, LightGBM og Treelite Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi pakker katalogen og dens innhold som model.tar.gz for opplasting til Amazon enkel lagringstjeneste (Amazon S3). Vi har to alternativer i dette eksemplet: å bruke en CPU-basert instans eller en GPU-basert instans. En GPU-basert instans er mer egnet når du trenger høyere prosessorkraft og ønsker å bruke CUDA-kjerner.

Opprett og last opp modellpakken for en CPU-basert forekomst (optimalisert for CPU) med følgende kode:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Opprett og last opp modellpakken for en GPU-basert forekomst (optimalisert for GPU) med følgende kode:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Opprett et SageMaker-endepunkt

Vi har nå modellartefaktene lagret i en S3-bøtte. I dette trinnet kan vi også gi den ekstra miljøvariabelen SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, som spesifiserer navnet på modellen som skal lastes av Triton. Verdien av denne nøkkelen skal samsvare med mappenavnet i modellpakken lastet opp til Amazon S3. Denne variabelen er valgfri for en enkelt modell. Når det gjelder ensemblemodeller, må denne nøkkelen spesifiseres for at Triton skal starte opp i SageMaker.

I tillegg kan du stille inn SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT og SAGEMAKER_TRITON_THREAD_COUNT for å optimalisere trådantallet.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Vi bruker den foregående modellen til å lage en endepunktkonfigurasjon der vi kan spesifisere typen og antall forekomster vi ønsker i endepunktet

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Vi bruker denne endepunktkonfigurasjonen til å lage et SageMaker-endepunkt og venter på at distribusjonen er ferdig. Med SageMaker MME-er har vi muligheten til å være vert for flere ensemblemodeller ved å gjenta denne prosessen, men vi holder oss til én distribusjon for dette eksemplet:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Status vil endres til InService når distribusjonen er vellykket.

Påkall modellen din som er vert på SageMaker-endepunktet

Etter at endepunktet kjører, kan vi bruke noen eksempler på rådata for å utføre inferens ved å bruke JSON som nyttelastformat. For slutningsforespørselsformatet bruker Triton KFServing fellesskapsstandard slutningsprotokoller. Se følgende kode:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

Notatboken referert til i bloggen finner du i GitHub repository.

Beste praksis

I tillegg til alternativene for å finjustere innstillingene til FIL-backend som vi nevnte tidligere, kan dataforskere også sørge for at inputdataene for backend er optimalisert for behandling av motoren. Når det er mulig, skriv inn data i rad-major-format i GPU-arrayet. Andre formater vil kreve intern konvertering og ta opp sykluser, noe som reduserer ytelsen.

På grunn av måten FIL-datastrukturer opprettholdes i GPU-minnet, vær oppmerksom på tredybden. Jo dypere tredybden er, desto større blir GPU-minneavtrykket ditt.

Bruke instance_group_count parameter for å legge til arbeidsprosesser og øke gjennomstrømningen til FIL-backend, noe som vil resultere i større CPU- og GPU-minneforbruk. I tillegg bør du vurdere SageMaker-spesifikke variabler som er tilgjengelige for å øke gjennomstrømningen, for eksempel HTTP-tråder, HTTP-bufferstørrelse, batchstørrelse og maksimal forsinkelse.

konklusjonen

I dette innlegget dykker vi dypt inn i FIL-backend som Triton Inference Server støtter på SageMaker. Denne bakenden sørger for både CPU- og GPU-akselerasjon av dine trebaserte modeller, slik som den populære XGBoost-algoritmen. Det er mange alternativer å vurdere for å få best mulig ytelse for slutninger, for eksempel batchstørrelser, datainndataformater og andre faktorer som kan justeres for å møte dine behov. SageMaker lar deg bruke denne muligheten med enkelt- og multimodellendepunkter for å balansere ytelse og kostnadsbesparelser.

Vi oppfordrer deg til å ta informasjonen i dette innlegget og se om SageMaker kan møte dine hostingbehov for å betjene trebaserte modeller, og oppfylle dine krav til kostnadsreduksjon og arbeidsbelastningsytelse.

Notatboken det refereres til i dette innlegget finner du i SageMaker-eksemplene GitHub repository. Videre kan du finne siste dokumentasjon på FIL-backend på GitHub.

Om forfatterne

Hosting av ML-modeller på Amazon SageMaker ved å bruke Triton: XGBoost, LightGBM og Treelite Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Raghu Ramesha er senior ML Solutions Architect med Amazon SageMaker Service-teamet. Han fokuserer på å hjelpe kunder med å bygge, distribuere og migrere ML-produksjonsarbeidsmengder til SageMaker i stor skala. Han spesialiserer seg på maskinlæring, AI og datasynsdomener, og har en mastergrad i informatikk fra UT Dallas. På fritiden liker han å reise og fotografere.

James Park er løsningsarkitekt hos Amazon Web Services. Han jobber med Amazon.com for å designe, bygge og distribuere teknologiløsninger på AWS, og har en spesiell interesse for AI og maskinlæring. På fritiden liker han å oppsøke nye kulturer, nye opplevelser og holde seg oppdatert med de nyeste teknologitrendene.

Dhawal Patel er en hovedmaskinlæringsarkitekt ved AWS. Han har jobbet med organisasjoner som spenner fra store bedrifter til mellomstore startups med problemer knyttet til distribuert databehandling og kunstig intelligens. Han fokuserer på dyp læring, inkludert NLP og datasynsdomener. Han hjelper kunder med å oppnå høyytelsesmodellslutning på Amazon SageMaker.

Jiahong Liu er løsningsarkitekt i Cloud Service Provider-teamet hos NVIDIA. Han hjelper klienter med å ta i bruk maskinlæring og AI-løsninger som utnytter NVIDIA-akselerert databehandling for å møte deres trenings- og slutningsutfordringer. På fritiden liker han origami, DIY-prosjekter og å spille basketball.

Kshitiz Gupta er løsningsarkitekt hos NVIDIA. Han liker å utdanne skykunder om GPU AI-teknologiene NVIDIA har å tilby og hjelpe dem med å akselerere maskinlærings- og dyplæringsapplikasjonene deres. Utenom jobben liker han å løpe, gå på fotturer og se på dyrelivet.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
Minting the Future med Adryenn Ashley. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Tidstempel: Kan 2, 2023

Tidstempel: April 30, 2024

Overfør læring for TensorFlow-objektdeteksjonsmodeller i Amazon SageMaker

Kildeklynge:

AWS maskinlæring

Kilde node: 1736165

Tidstempel: November 4, 2022

Publisert av Platon

Hvordan Sophos trener en kraftig, lett PDF-skadevaredetektor i ultraskala med Amazon SageMaker

Få bedre innsikt fra anmeldelser ved å bruke Amazon Comprehend

Bygg en vaksinasjonsverifiseringsløsning ved å bruke Queries-funksjonen i Amazon Textract | Amazon Web Services

Kunngjøring av den oppdaterte Salesforce-koblingen (V2) for Amazon Kendra

Amazon SageMaker Autopilot er opptil åtte ganger raskere med ny ensembletreningsmodus drevet av AutoGluon

Hvordan Yara bruker MLOps-funksjonene til Amazon SageMaker for å skalere energioptimalisering på tvers av ammoniakkanleggene deres

Overfør læring for TensorFlow-objektdeteksjonsmodeller i Amazon SageMaker

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn