ML-mudelite hostimine Amazon SageMakeris Tritoni abil: XGBoost, LightGBM ja Treelite mudelid

Taasavaldanud Platon

järgijaid: 0

Üks populaarsemaid tänapäeval saadaolevaid mudeleid on XGBoost. Tänu erinevatele probleemidele, nagu klassifitseerimine ja regressioon, on XGBoost muutunud populaarseks valikuks, mis kuulub ka puupõhiste mudelite kategooriasse. Selles postituses sukeldume sügavale, et näha, kuidas Amazon SageMaker saab neid mudeleid kasutada NVIDIA Tritoni järeldusserver. Reaalajas järelduste töökoormustel võib latentsusaja ja läbilaskevõime osas olla erineva tasemega nõudeid ja teenusetaseme lepinguid (SLA-d) ning neid saab täita SageMakeri reaalajas lõpp-punktide abil.

SageMaker pakub ühe mudeli lõpp-punktid, mis võimaldavad teil juurutada üht masinõppe (ML) mudelit loogilise lõpp-punkti suhtes. Muudel kasutusjuhtudel saate kulusid ja toimivust hallata kasutades mitme mudeli lõpp-punktid, mis võimaldavad teil määrata mitu mudelit, mida loogilise lõpp-punkti taga hostida. Olenemata valitud valikust võimaldavad SageMakeri lõpp-punktid skaleeritavat mehhanismi isegi kõige nõudlikumatele ettevõtte klientidele, pakkudes samas väärtust paljude funktsioonide, sealhulgas varju variandid, automaatne skaleerimine, ja natiivset integreerimist Amazon CloudWatch (lisateabe saamiseks vaadake CloudWatchi mõõdikud mitme mudeli lõpp-punkti juurutamiseks).

Triton toetab erinevaid taustaprogramme mootoritena, et toetada erinevate ML-mudelite käitamist ja teenindamist järelduste tegemiseks. Iga Tritoni juurutamise puhul on edu saavutamiseks ülioluline teada, kuidas taustaprogrammi käitumine teie töökoormust mõjutab ja mida oodata. Selles postituses aitame teil mõista Forest Inference Library (FIL) taustaprogramm, mida toetab SageMakeris Triton, et saaksite teha oma töökoormuse kohta teadliku otsuse ning optimeerida parimat jõudlust ja kulusid.

Sukeldu sügavalt FIL-i taustaprogrammi

Triton toetab FIL-i taustaprogramm serveerida puumudeleid, nt XGBoost, LightGBM, skikit õppima Juhuslik mets, RAPIDS cuML Random Forestja mis tahes muud mudelit, mida toetab Treeliit. Neid mudeleid on pikka aega kasutatud selliste probleemide lahendamiseks nagu klassifikatsioon või regressioon. Kuigi seda tüüpi mudelid on traditsiooniliselt töötanud CPU-dega, on nende mudelite populaarsus ja järeldamisnõuded viinud mitmesuguste meetoditeni, mis suurendavad järelduste jõudlust. FIL-i taustaprogramm kasutab cuML-i konstruktsioone kasutades paljusid neist tehnikatest ning on üles ehitatud C++-le ja CUDA põhiteegile, et optimeerida GPU-kiirendite järelduste jõudlust.

FIL-i taustaprogramm kasutab CPU- või GPU-tuumade kasutamiseks õppimise kiirendamiseks cuML-i teeke. Nende protsessorite kasutamiseks viidatakse andmetele hostimälust (nt NumPy massiivid) või GPU massiividest (uDF, Numba, cuPY või mis tahes teegist, mis toetab __cuda_array_interface__) API. Pärast andmete mällu salvestamist saab FIL-i taustaprogramm töödelda töötlust kõigis saadaolevates CPU- või GPU-tuumades.

FIL-i taustalõimed saavad üksteisega suhelda ilma hosti ühismälu kasutamata, kuid ansambli töökoormuse korral tuleks kaaluda hostimälu kasutamist. Järgmisel diagrammil on kujutatud ansambli planeerija käitusaja arhitektuur, kus saate täpsustada mälualasid, sealhulgas protsessori adresseeritavat ühismälu, mida kasutatakse protsessidevaheliseks suhtluseks Tritoni (C++) ja Pythoni protsessi (Pythoni taustaprogramm) vahetamiseks. tensorid (sisend/väljund) FIL-i taustaprogrammiga.

ML-mudelite hostimine Amazon SageMakeris, kasutades Tritonit: XGBoost, LightGBM ja Treelite mudelid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Triton Inference Server pakub arendajatele konfigureeritavaid valikuid oma töökoormuse häälestamiseks ja mudeli jõudluse optimeerimiseks. Konfiguratsioon dynamic_batching võimaldab Tritonil hoida kliendipoolseid päringuid ja koondada need serveri poolele, et kasutada tõhusalt FIL-i paralleelset arvutust kogu partii koostamiseks. Valik max_queue_delay_microseconds pakub tõrkekindlat juhtimist selle üle, kui kaua Triton partii moodustamisega ootab.

On mitmeid teisi FIL-i spetsiifilisi saadaolevad valikud mis mõjutavad jõudlust ja käitumist. Soovitame alustada storage_type. GPU-l taustaprogrammi käivitamisel loob FIL uue mälu/andmestruktuuri, mis kujutab endast puud, mille puhul FIL võib jõudlust ja jalajälge mõjutada. Seda saab konfigureerida keskkonnaparameetri kaudu storage_type, millel on valikud tihe, hõre ja automaatne. Tiheda valiku valimine tarbib rohkem GPU-mälu ja see ei anna alati paremat jõudlust, seega on parem kontrollida. Seevastu hõre valik tarbib vähem GPU mälu ja võib töötada sama hästi või paremini kui tihe. Kui valite automaatse, muutub mudel vaikimisi tihedaks, välja arvatud juhul, kui see tarbib oluliselt rohkem GPU mälu kui hõre.

Kui rääkida mudeli jõudlusest, võiksite kaaluda selle rõhutamist threads_per_tree valik. Üks asi, mida võite reaalsetes stsenaariumides üle teenindada, on see threads_per_tree võib avaldada läbilaskevõimele suuremat mõju kui ükski teine parameeter. Selle seadmine suvalisele astmele 2 vahemikus 1–32 on õigustatud. Selle parameetri optimaalset väärtust on raske ennustada, kuid kui server peaks tegelema suurema koormusega või töötlema suuremaid partiisid, kipub see kasu saama suuremast väärtusest kui mõne rea korraga töötlemisel.

Veel üks parameeter, mida peaksite teadma, on algo, mis on saadaval ka siis, kui kasutate GPU-d. See parameeter määrab algoritmi, mida kasutatakse järelduspäringute töötlemiseks. Selle jaoks toetatud valikud on ALGO_AUTO, NAIVE, TREE_REORGja BATCH_TREE_REORG. Need valikud määravad kindlaks, kuidas puu sõlmed on korraldatud, ja võivad samuti suurendada jõudlust. The ALGO_AUTO suvand on vaikimisi NAIVE hõredaks ladustamiseks ja BATCH_TREE_REORG tihedaks ladustamiseks.

Lõpuks on FIL-iga kaasas Shapley selgitaja, mille saab aktiveerida, kasutades treeshap_output parameeter. Siiski peaksite meeles pidama, et Shapley väljundid kahjustavad jõudlust oma väljundi suuruse tõttu.

Mudeli formaat

Praegu puudub standardne failivorming metsapõhiste mudelite salvestamiseks; iga raamistik kipub määratlema oma vormingu. Mitme sisendfailivormingu toetamiseks impordib FIL andmed avatud lähtekoodiga Treeliit raamatukogu. See võimaldab FIL-il toetada mudeleid, mis on koolitatud populaarsetes raamistikes, näiteks XGBoost ja LightGBM. Pange tähele, et pakutava mudeli vorming peab olema määratud failis model_type punktis määratud konfiguratsiooniväärtus config.pbtxt faili.

Config.pbtxt

Iga mudel a mudelite hoidla peab sisaldama mudeli konfiguratsiooni, mis pakub mudeli kohta nõutavat ja valikulist teavet. Tavaliselt on see konfiguratsioon esitatud a config.pbtxt fail, mis on määratud kui ModelConfig protobuf. Konfiguratsiooniseadete kohta lisateabe saamiseks vaadake Mudeliseadistused. Järgmised on mõned mudeli konfiguratsiooniparameetrid.

max_partii_suurus – See määrab sellele mudelile edastatava partii maksimaalse suuruse. Üldiselt on FIL-i taustaprogrammile edastatavate partiide suuruse ainus piirang nende töötlemiseks saadaolev mälu. GPU-käivituste jaoks määrab saadaoleva mälu Tritoni CUDA-mälukogumi suurus, mida saab serveri käivitamisel käsurea argumendi kaudu seadistada.
sisend – Selles jaotises olevad valikud ütlevad Tritonile iga sisendnäidise jaoks oodatavate funktsioonide arvu.
väljund – Selles jaotises olevad valikud ütlevad Tritonile, mitu väljundväärtust iga proovi jaoks on. Kui predict_proba suvand on seatud väärtusele Tõene, siis tagastatakse iga klassi jaoks tõenäosusväärtus. Vastasel juhul tagastatakse üks väärtus, mis näitab antud valimi jaoks ennustatud klassi.
instance_group – See määrab, kui palju selle mudeli eksemplare luuakse ja kas need kasutavad GPU-d või CPU-d.
mudeli_tüüp – See string näitab, millises vormingus mudel on (xgboost_json selles näites, kuid xgboost, lightgbmja tl_checkpoint on ka kehtivad vormingud).
ennusta_proba – Kui see on seatud väärtusele Tõene, tagastatakse iga klassi tõenäosusväärtused, mitte ainult klassi ennustus.
väljundi_klass – Klassifitseerimismudelite puhul on see seatud tõeseks ja regressioonimudelite puhul vääraks.
künnis – See on klassifikatsiooni määramise punktilävi. Millal output_class väärtuseks on seatud Tõene, tuleb see esitada, kuigi seda ei kasutata, kui predict_proba on samuti seatud tõeseks.
ladustamise_tüüp – Üldiselt peaks selle sätte jaoks AUTO kasutamine vastama enamikule kasutusjuhtudele. Kui on valitud AUTOMAATNE salvestusruum, laadib FIL mudeli, kasutades mudeli ligikaudse suuruse põhjal kas hõredat või tihedat esitust. Mõnel juhul võite soovida määrata selle sätteks SPARSE, et vähendada suurte mudelite mälumahtu.

Tritoni järeldusserver SageMakeris

SageMaker võimaldab saate NVIDIA Triton Inference Serveriga juurutada nii ühe mudeli kui ka mitme mudeli lõpp-punkte. Järgmine joonis näitab Triton Inference Serveri kõrgetasemelist arhitektuuri. The mudelite hoidla on failisüsteemipõhine hoidla mudelitest, mille Triton teeb järelduste tegemiseks kättesaadavaks. Järelduspäringud jõuavad serverisse ja suunatakse sobivasse mudelipõhisesse planeerijasse. Tritoni töövahendid mitu ajastamis- ja pakkimisalgoritmi mida saab konfigureerida mudelipõhiselt. Iga mudeli planeerija teostab valikuliselt järelduspäringute komplekteerimise ja edastab päringud seejärel backend mudeli tüübile vastav. Taustaprogramm teostab järeldusi, kasutades nõutud väljundite loomiseks pakettpäringutes esitatud sisendeid. Seejärel tagastatakse väljundid.

SageMakeri lõpp-punktide automaatse skaleerimise rühmade konfigureerimisel võiksite kaaluda SageMakerVariantInvocationsPerInstance kui peamist kriteeriumi teie automaatse skaleerimise rühma skaleerimisomaduste määramiseks. Lisaks, olenevalt sellest, kas teie mudelid töötavad GPU või CPU-ga, võite kaaluda ka CPUUtiliseerimise või GPUUtiliseerimise kasutamist lisakriteeriumitena. Pange tähele, et ühe mudeli lõpp-punktide puhul, kuna juurutatud mudelid on kõik ühesugused, on üsna lihtne määrata õiged poliitikad, mis vastavad teie SLA-dele. Mitme mudeliga lõpp-punktide puhul soovitame stabiilsema prognoositava jõudluse tagamiseks juurutada sarnased mudelid antud lõpp-punkti taga. Kui kasutatakse erineva suuruse ja nõuetega mudeleid, võite soovida eraldada need töökoormused mitme mitme mudeli lõpp-punkti vahel või kulutada veidi aega oma automaatse skaleerimise rühmapoliitika peenhäälestamisel, et saavutada parim kulude ja jõudluse tasakaal.

ML-mudelite hostimine Amazon SageMakeris, kasutades Tritonit: XGBoost, LightGBM ja Treelite mudelid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

SageMakeri järelduse toetatud NVIDIA Triton Deep Learning Containers (DLC-de) loendi leiate Saadaolevad süvaõppekonteinerite pildid.

SageMakeri märkmiku tutvustus

ML-rakendused on keerulised ja võivad sageli vajada andmete eeltöötlust. Selles märkmikus käsitleme seda, kuidas juurutada puupõhist ML-mudelit, nagu XGBoost, kasutades SageMakeri mitme mudeli lõpp-punktis Tritoni FIL-taustaprogrammi. Samuti käsitleme seda, kuidas rakendada oma mudeli jaoks Pythoni-põhist andmete eeltöötluse järelduskonveieri, kasutades Tritoni ansambli funktsiooni. See võimaldab meil saata toorandmeid kliendi poolelt ja nii andmete eeltöötlus kui ka mudeli järeldused toimuvad Triton SageMakeri lõpp-punktis optimaalse järelduste jõudluse tagamiseks.

Tritoni mudeliansambli funktsioon

Triton Inference Server lihtsustab oluliselt AI mudelite kasutuselevõttu tootmises. Triton Inference Server on varustatud mugava lahendusega, mis lihtsustab eel- ja järeltöötluse torujuhtmete ehitamist. Triton Inference Serveri platvorm pakub ansambli planeerijat, mis vastutab järeldusprotsessis osalevate mudelite konveieri loomise eest, tagades samal ajal tõhususe ja optimeerides läbilaskevõimet. Ansamblimudelite kasutamine võimaldab vältida vahepealsete tensorite ülekandmisega kaasnevaid kulusid ja minimeerida Tritonile saadetavate päringute arvu.

ML-mudelite hostimine Amazon SageMakeris, kasutades Tritonit: XGBoost, LightGBM ja Treelite mudelid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selles märkmikus näitame, kuidas kasutada ansamblifunktsiooni andmete eeltöötluse konveieri koostamiseks XGBoosti mudeli järeldusega, ja saate selle põhjal ekstrapoleerida, et lisada konveierile kohandatud järeltöötlus.

Seadistage keskkond

Alustame vajaliku keskkonna seadistamisega. Installime oma mudelikonveieri pakendamiseks vajalikud sõltuvused ja käitame järeldusi Triton Inference Serveri abil. Samuti määratleme AWS-i identiteedi- ja juurdepääsuhaldus (IAM) rolli, mis annab SageMakerile juurdepääsu mudeli artefaktidele ja NVIDIA Tritonile Amazoni elastsete konteinerite register (Amazon ECR) pilt. Vaadake järgmist koodi:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Looge sõltuvuste eeltöötluseks Conda keskkond

Pythoni taustaprogramm Tritonis nõuab, et kasutaksime a Conda mis tahes täiendavate sõltuvuste jaoks. Sel juhul kasutame Pythoni taustaprogrammi toorandmete eeltöötlemiseks enne nende sisestamist FIL-i taustaprogrammis töötavasse XGBoosti mudelisse. Ehkki algselt kasutasime andmete eeltöötluseks RAPIDS cuDF-i ja cuML-i, kasutame siin Pandasid ja scikit-learni eeltöötluse sõltuvustena järelduste tegemisel. Teeme seda kolmel põhjusel:

Näitame, kuidas luua oma sõltuvuste jaoks Conda keskkonda ja kuidas seda pakendada oodatav formaat Tritoni Pythoni taustaprogrammi poolt.
Näidates Pythoni taustaprogrammis CPU-s töötavat eeltöötlusmudelit, samal ajal kui XGBoost töötab FIL-i taustaprogrammis GPU-s, illustreerime, kuidas iga Tritoni ansamblikonveieri mudel saab töötada erineva raamistiku taustaprogrammi ja erinevate riistvarakonfiguratsioonidega.
See tõstab esile, kuidas RAPIDS-i teegid (cuDF, cuML) ühilduvad nende CPU kolleegidega (Pandas, scikit-learn). Näiteks saame näidata, kuidas LabelEncoders cuML-is loodud saab kasutada scikit-learnis ja vastupidi.

Järgime veebisaidilt saadud juhiseid Tritoni dokumentatsioon eeltöötlussõltuvuste (scikit-learn ja Pandas) pakkimiseks, mida kasutatakse Pythoni taustaprogrammis Conda keskkonna TAR-failina. Bash-skript create_prep_env.sh loob Conda keskkonna TAR faili, siis teisaldame selle eeltöötlusmudeli kataloogi. Vaadake järgmist koodi:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

Pärast eelmise skripti käivitamist genereeritakse see preprocessing_env.tar.gz, mille kopeerime eeltöötluskataloogi:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Seadistage eeltöötlus Triton Pythoni taustaprogrammiga

Eeltöötluseks kasutame Tritonit Pythoni taustaprogramm et teostada serverisse saabuvate töötlemata andmete päringute järeldamisel tabeliandmete eeltöötlust (kategoorilist kodeerimist). Lisateavet koolituse ajal tehtud eeltöötluse kohta leiate jaotisest koolituse märkmik.

Pythoni taustaprogramm võimaldab eeltöötlust, järeltöötlust ja muud kohandatud loogikat Pythonis rakendada ja koos Tritoniga teenindada. Tritoni kasutamine SageMakeris eeldab, et peame esmalt seadistama mudelihoidla kausta, mis sisaldab mudeleid, mida soovime teenindada. Oleme juba seadistanud Pythoni andmete eeltöötluse mudeli, mida nimetatakse eeltöötluseks cpu_model_repository ja gpu_model_repository.

ML-mudelite hostimine Amazon SageMakeris, kasutades Tritonit: XGBoost, LightGBM ja Treelite mudelid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Tritonil on mudelihoidla paigutusele spetsiifilised nõuded. Tipptaseme mudelite hoidla kataloogis on igal mudelil oma alamkataloog, mis sisaldab vastava mudeli teavet. Igas Tritoni mudelikataloogis peab olema vähemalt üks numbriline alamkataloog, mis esindab mudeli versiooni. Väärtus 1 tähistab meie Pythoni eeltöötlusmudeli 1. versiooni. Iga mudelit käitab konkreetne taustaprogramm, seega peab iga versiooni alamkataloogis olema selle taustaprogrammi jaoks vajalik mudeliartefakt. Selle näite puhul kasutame Pythoni taustaprogrammi, mis nõuab, et teie teenindatava Pythoni faili nimi oleks model.py ja fail peab rakendama teatud funktsioonid. Kui kasutaksime PyTorchi taustaprogrammi, oleks vaja faili model.pt ja nii edasi. Lisateavet mudelifailide nimetamise kohta leiate jaotisest Mudeli failid.

. mudel.py Siin kasutatav Pythoni fail rakendab kogu tabeliandmete eeltöötlusloogikat, et teisendada toorandmed funktsioonideks, mida saab sisestada meie XGBoosti mudelisse.

Igal Tritoni mudelil peab olema ka a config.pbtxt faili, mis kirjeldab mudeli konfiguratsiooni. Konfiguratsiooniseadete kohta lisateabe saamiseks vaadake Mudeliseadistused. Meie config.pbtxt fail määrab taustaprogrammiks python ja kõik toorandmete sisendveerud koos eeltöödeldud väljundiga, mis koosneb 15 funktsioonist. Samuti täpsustame, et tahame seda Pythoni eeltöötlusmudelit protsessoris käitada. Vaadake järgmist koodi:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Seadistage FIL-i taustaprogrammi jaoks puupõhine ML-mudel

Järgmisena seadistasime mudelikataloogi puupõhisele ML-mudelile nagu XGBoost, mis kasutab FIL-i taustaprogrammi.

Eeldatav paigutus cpu_memory_repository ja gpu_memory_repository on sarnased sellele, mida me varem näitasime.

ML-mudelite hostimine Amazon SageMakeris, kasutades Tritonit: XGBoost, LightGBM ja Treelite mudelid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Siin FIL on mudeli nimi. Võime anda sellele erineva nime, näiteks xgboost kui tahame. 1 on versiooni alamkataloog, mis sisaldab mudeli artefakti. Sel juhul on see xgboost.json mudel, mille me salvestasime. Loome selle eeldatava paigutuse:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Meil peab olema konfiguratsioonifail config.pbtxt kirjeldades puupõhise ML-mudeli mudeli konfiguratsiooni, et Tritoni FIL-i taustaprogramm saaks aru, kuidas seda teenindada. Lisateabe saamiseks vaadake uusimat üldist Tritoni konfiguratsioonivalikud ja konkreetsed konfiguratsioonisuvandid FIL-i taustaprogramm. Selles näites keskendume vaid mõnele kõige levinumale ja asjakohasemale valikule.

Looma config.pbtxt eest model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Samamoodi seadistage config.pbtxt eest model_gpu_repository (pange tähele, erinevus on USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Andmete eeltöötluse Pythoni taustaprogrammi ja FIL-i taustaprogrammi järelduskonveieri seadistamine ansambleid kasutades

Nüüd oleme valmis seadistama järelduskonveieri andmete eeltöötluseks ja puupõhise mudeli järeldamiseks, kasutades ansambli modell. Ansambli mudel kujutab ühest või mitmest mudelist koosnevat konveieri ja nende mudelite vahelist sisend- ja väljundtensorite ühendust. Siin kasutame ansamblimudelit, et luua Pythoni taustaprogrammis andmete eeltöötluse konveier, millele järgneb XGBoost FIL-i taustaprogrammis.

Eeldatav paigutus ensemble mudelikataloog on sarnane neile, mida me varem näitasime:

ML-mudelite hostimine Amazon SageMakeris, kasutades Tritonit: XGBoost, LightGBM ja Treelite mudelid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Tegime ansamblimodelli config.pbtxt järgides juhiseid Ansambli modellid. Oluline on see, et peame seadistama ansambli planeerija config.pbtxt, mis määrab andmevoo mudelite vahel ansambli sees. Ansambli ajakava kogub igas etapis väljundtensorid ja esitab need vastavalt spetsifikatsioonile teiste sammude jaoks sisendtensoritena.

Pakkige mudelihoidla ja laadige üles Amazon S3

Lõpuks saame järgmise mudelihoidla kataloogistruktuuri, mis sisaldab Pythoni eeltöötlusmudelit ja selle sõltuvusi koos XGBoost FIL-mudeli ja mudelite ansambliga.

ML-mudelite hostimine Amazon SageMakeris, kasutades Tritonit: XGBoost, LightGBM ja Treelite mudelid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Pakendame kataloogi ja selle sisu järgmiselt model.tar.gz aadressile üleslaadimiseks Amazoni lihtne salvestusteenus (Amazon S3). Selles näites on meil kaks võimalust: kasutada CPU-põhist eksemplari või GPU-põhist eksemplari. GPU-põhine eksemplar on sobivam, kui vajate suuremat töötlemisvõimsust ja soovite kasutada CUDA südamikke.

Looge ja laadige üles CPU-põhise eksemplari mudelipakett (optimeeritud protsessori jaoks) järgmise koodiga:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Looge ja laadige üles mudelipakett GPU-põhise eksemplari jaoks (optimeeritud GPU jaoks) järgmise koodiga:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Looge SageMakeri lõpp-punkt

Nüüd on mudeli artefaktid salvestatud S3 ämbrisse. Selles etapis saame pakkuda ka täiendava keskkonnamuutuja SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, mis määrab Tritoni poolt laaditava mudeli nime. Selle võtme väärtus peaks ühtima Amazon S3 üles laaditud mudelipaketi kausta nimega. See muutuja on üksiku mudeli puhul valikuline. Ansamblimudelite puhul tuleb see võti määrata, et Triton SageMakeris käivituks.

Lisaks saate määrata SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT ja SAGEMAKER_TRITON_THREAD_COUNT lõimede arvu optimeerimiseks.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Kasutame eelmist mudelit lõpp-punkti konfiguratsiooni loomiseks, kus saame määrata lõpp-punktis soovitud eksemplaride tüübi ja arvu

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Kasutame seda lõpp-punkti konfiguratsiooni SageMakeri lõpp-punkti loomiseks ja ootame juurutamise lõpetamist. SageMakeri MME-de puhul on meil võimalus seda protsessi korrates hostida mitut ansamblimudelit, kuid selle näite puhul jääme ühe juurutamise juurde:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Olek muutub olekuks InService kui juurutamine õnnestub.

Käivitage SageMakeri lõpp-punktis hostitud mudel

Pärast lõpp-punkti käitamist saame kasutada mõningaid algandmeid, et teha järeldusi, kasutades kasuliku koormuse vorminguna JSON-i. Järelduspäringu vormingu jaoks kasutab Triton KFServing kogukonna standard järeldusprotokollid. Vaadake järgmist koodi:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

Blogis viidatud märkmiku leiate aadressilt GitHubi hoidla.

parimad tavad

Lisaks varem mainitud FIL-i taustaprogrammi sätete peenhäälestamise võimalustele saavad andmeteadlased tagada ka selle, et taustaprogrammi sisendandmed optimeeritakse mootori poolt töötlemiseks. Kui vähegi võimalik, sisestage andmed GPU massiivi reapeavormingus. Muud vormingud nõuavad sisemist teisendamist ja võtavad tsüklit, mis vähendab jõudlust.

Tänu sellele, kuidas FIL-i andmestruktuure GPU mälus säilitatakse, pidage meeles puu sügavust. Mida sügavam on puu sügavus, seda suurem on teie GPU mälujalg.

Kasuta instance_group_count parameeter tööprotsesside lisamiseks ja FIL-taustaprogrammi läbilaskevõime suurendamiseks, mille tulemuseks on suurem protsessori ja GPU mälutarbimine. Lisaks kaaluge läbilaskevõime suurendamiseks saadaolevaid SageMakeri spetsiifilisi muutujaid, nagu HTTP lõimed, HTTP puhvri suurus, partii suurus ja maksimaalne viivitus.

Järeldus

Selles postituses uurime sügavalt FIL-i taustaprogrammi, mida Triton Inference Server SageMakeris toetab. See taustaprogramm pakub teie puupõhiste mudelite, näiteks populaarse XGBoosti algoritmi, nii CPU- kui ka GPU-kiirendust. Järelduste parima jõudluse saamiseks tuleb kaaluda palju võimalusi, näiteks partii suurused, andmesisestusvormingud ja muud tegurid, mida saab häälestada vastavalt teie vajadustele. SageMaker võimaldab teil kasutada seda võimalust ühe ja mitme mudeli lõpp-punktidega, et tasakaalustada jõudlust ja kulude kokkuhoidu.

Soovitame teil tutvuda selles postituses oleva teabega ja vaadata, kas SageMaker suudab rahuldada teie hostimisvajadused puupõhiste mudelite teenindamiseks, mis vastab teie kulude vähendamise ja töökoormuse jõudluse nõuetele.

Selles postituses viidatud märkmiku leiate SageMakeri näidetest GitHubi hoidla. Lisaks leiate FIL-i taustaprogrammi uusimad dokumendid GitHub.

Autoritest

ML-mudelite hostimine Amazon SageMakeris, kasutades Tritonit: XGBoost, LightGBM ja Treelite mudelid PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Raghu Ramesha on Amazon SageMaker Service'i meeskonna ML-lahenduste vanemarhitekt. Ta keskendub sellele, et aidata klientidel luua, juurutada ja ML-i tootmise töökoormust SageMakerile ulatuslikult üle viia. Ta on spetsialiseerunud masinõppele, tehisintellektile ja arvutinägemisvaldkondadele ning tal on magistrikraadi arvutiteaduses TÜ Dallases. Vabal ajal meeldib talle reisida ja pildistada.

Jamesi park on Amazon Web Servicesi lahenduste arhitekt. Ta teeb koostööd Amazon.com-iga, et kavandada, ehitada ja juurutada AWS-is tehnoloogilised lahendused ning ta on eriti huvitatud AI-st ja masinõppest. Vabal ajal meeldib talle otsida uusi kultuure, uusi kogemusi ning olla kursis uusimate tehnoloogiatrendidega.

Dhawal Patel on AWS-i peamine masinõppe arhitekt. Ta on hajutatud andmetöötluse ja tehisintellektiga seotud probleemide lahendamisel töötanud organisatsioonidega alates suurettevõtetest kuni keskmise suurusega idufirmadeni. Ta keskendub sügavale õppimisele, sealhulgas NLP ja arvutinägemise valdkondadele. Ta aitab klientidel teha Amazon SageMakeris suure jõudlusega mudeli järeldusi.

Jiahong Liu on lahenduse arhitekt NVIDIA pilveteenuse pakkuja meeskonnas. Ta abistab kliente masinõppe ja AI-lahenduste kasutuselevõtul, mis võimendavad NVIDIA kiirendatud andmetöötlust, et lahendada nende koolitus- ja järeldusprobleemid. Vabal ajal naudib ta origamit, isetegemisprojekte ja korvpalli mängimist.

Kshitiz Gupta on NVIDIA lahenduste arhitekt. Talle meeldib õpetada pilve kliente NVIDIA pakutavate GPU AI tehnoloogiate kohta ning aidata neil kiirendada masinõppe ja süvaõppe rakendusi. Väljaspool tööd naudib ta jooksmist, matkamist ja metsloomade jälgimist.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoAiStream. Web3 andmete luure. Täiustatud teadmised. Juurdepääs siia.
Tuleviku rahapaja Adryenn Ashley. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Ajatempel: Võib 2 2023

Ajatempel: September 7, 2023

Taasavaldanud Platon

Kuidas Sophos treenib Amazon SageMakeriga ülimahulist võimsat ja kerget PDF-i pahavaradetektorit

Parandage Amazon Rekognition Face Searchi täpsust kasutajavektoritega | Amazoni veebiteenused

Bundesliga mängu fakti surve käsitlemine: mängijate esituse hindamine AWS-i kõrgsurveolukordades

Amazon SageMaker Automatic Model Tuning valib nüüd automaatselt häälestuskonfiguratsioonid, et parandada kasutatavust ja kulutõhusust | Amazoni veebiteenused

Defektide tuvastamine kõrge eraldusvõimega kujutistel, kasutades kaheastmelisi Amazon Rekognitioni kohandatud siltide mudeleid | Amazoni veebiteenused

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto