Gostovanje modelov ML na Amazon SageMaker z uporabo modelov Triton: XGBoost, LightGBM in Treelite

Ponovno objavil Platon

Spremljevalci: 0

Eden najbolj priljubljenih modelov, ki so danes na voljo, je XGBoost. Z možnostjo reševanja različnih problemov, kot sta klasifikacija in regresija, je XGBoost postal priljubljena možnost, ki spada tudi v kategorijo drevesnih modelov. V tej objavi se poglobimo, da vidimo, kako Amazon SageMaker lahko služi tem modelom z uporabo NVIDIA Triton Inference Server. Delovne obremenitve sklepanja v realnem času imajo lahko različne ravni zahtev in sporazumov o ravni storitev (SLA) v smislu zakasnitve in prepustnosti, izpolniti pa jih je mogoče z uporabo končnih točk SageMaker v realnem času.

SageMaker ponuja končne točke enega modela, ki vam omogočajo uvedbo enega samega modela strojnega učenja (ML) proti logični končni točki. Za druge primere uporabe se lahko odločite za upravljanje stroškov in učinkovitosti z uporabo končne točke več modelov, ki vam omogočajo, da določite več modelov za gostovanje za logično končno točko. Ne glede na možnost, ki jo izberete, končne točke SageMaker omogočajo razširljiv mehanizem tudi za najzahtevnejše poslovne stranke, hkrati pa zagotavljajo vrednost v množici funkcij, vključno z senčne variante, samodejno skaliranjein domača integracija z amazoncloudwatch (za več informacij glejte Meritve CloudWatch za uvedbe končnih točk z več modeli).

Triton podpira različna ozadja kot motorje za podporo izvajanja in serviranja različnih modelov ML za sklepanje. Za vsako uvedbo Tritona je ključnega pomena vedeti, kako vedenje zaledja vpliva na vaše delovne obremenitve in kaj lahko pričakujete, da boste lahko uspešni. V tej objavi vam pomagamo razumeti Zaledje Forest Inference Library (FIL)., ki ga podpira Triton na SageMakerju, tako da se lahko premišljeno odločite za svoje delovne obremenitve in dobite najboljšo možno učinkovitost in optimizacijo stroškov.

Poglobite se v zaledje FIL

Triton podpira FIL backend služiti drevesnim modelom, kot npr XGBoost, LightGBM, scikit-učiti Naključni gozd, RAPIDS cuML Naključni gozdin kateri koli drug model, ki ga podpira Treelite. Ti modeli se že dolgo uporabljajo za reševanje problemov, kot sta klasifikacija ali regresija. Čeprav se te vrste modelov tradicionalno izvajajo na procesorjih, so priljubljenost teh modelov in zahteve po sklepanju privedle do različnih tehnik za povečanje zmogljivosti sklepanja. Zaledje FIL uporablja veliko teh tehnik z uporabo konstruktov cuML in je zgrajeno na C++ in jedrni knjižnici CUDA za optimizacijo zmogljivosti sklepanja na pospeševalnikih GPU.

Zaledje FIL uporablja knjižnice cuML za uporabo jeder CPE ali GPU za pospešitev učenja. Za uporabo teh procesorjev se podatki sklicujejo na pomnilnik gostitelja (na primer polja NumPy) ali polja GPE (uDF, Numba, cuPY ali katera koli knjižnica, ki podpira __cuda_array_interface__) API. Ko so podatki razvrščeni v pomnilnik, lahko zaledje FIL izvaja obdelavo v vseh razpoložljivih jedrih CPE ali GPE.

Zaledne niti FIL lahko komunicirajo med seboj brez uporabe skupnega pomnilnika gostitelja, toda pri delovnih obremenitvah ansambla je treba upoštevati pomnilnik gostitelja. Naslednji diagram prikazuje arhitekturo izvajalnega okolja ansambelskega razporejevalnika, kjer imate možnost natančne nastavitve pomnilniških območij, vključno s skupnim pomnilnikom, naslovljivim CPE, ki se uporablja za medprocesno komunikacijo med Tritonom (C++) in procesom Python (zaledje Python) za izmenjavo tenzorji (vhod/izhod) z zaledjem FIL.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Triton Inference Server ponuja nastavljive možnosti za razvijalce, da prilagodijo svoje delovne obremenitve in optimizirajo zmogljivost modela. Konfiguracija dynamic_batching omogoča Tritonu, da zadrži zahteve na strani odjemalca in jih serira na strani strežnika, da učinkovito uporabi vzporedno računanje FIL za sklepanje celotnega paketa skupaj. Možnost max_queue_delay_microseconds ponuja varen nadzor nad tem, kako dolgo Triton čaka na oblikovanje serije.

Obstajajo številni drugi, specifični za FIL možnosti ki vplivajo na uspešnost in vedenje. Predlagamo, da začnete z storage_type. Pri izvajanju ozadja na GPU FIL ustvari novo pomnilniško/podatkovno strukturo, ki je predstavitev drevesa, za katerega lahko FIL vpliva na zmogljivost in odtis. To je mogoče konfigurirati s parametrom okolja storage_type, ki ima možnosti dense, sparse in auto. Če izberete gosto možnost, boste porabili več pomnilnika GPE in ne boste vedno zagotovili boljše zmogljivosti, zato je najbolje, da preverite. V nasprotju s tem pa bo redka možnost porabila manj pomnilnika GPE in bo morda delovala enako ali bolje kot gosta. Izbira samodejnega bo povzročila, da bo model privzeto nastavljen na gosto, razen če bo s tem porabil bistveno več pomnilnika GPE kot redek.

Ko gre za zmogljivost modela, lahko razmislite o poudarjanju threads_per_tree možnost. Ena stvar, ki jo lahko v scenarijih resničnega sveta preveč porabite, je to threads_per_tree lahko večji vpliv na prepustnost kot kateri koli drug parameter. Nastavitev na katero koli potenco 2 od 1–32 je legitimna. Težko je predvideti optimalno vrednost za ta parameter, toda ko se od strežnika pričakuje večja obremenitev ali obdelava večjih paketov, ima običajno koristi od večje vrednosti kot takrat, ko obdeluje nekaj vrstic hkrati.

Drug parameter, na katerega morate biti pozorni, je algo, ki je na voljo tudi, če uporabljate GPE. Ta parameter določa algoritem, ki se uporablja za obdelavo zahtev za sklepanje. Podprte možnosti za to so ALGO_AUTO, NAIVE, TREE_REORGin BATCH_TREE_REORG. Te možnosti določajo, kako so organizirana vozlišča v drevesu, in lahko povzročijo tudi izboljšanje zmogljivosti. The ALGO_AUTO možnost je privzeta NAIVE za redko shranjevanje in BATCH_TREE_REORG za gosto skladiščenje.

Nazadnje, FIL prihaja s Shapley pojasnjevalnikom, ki ga je mogoče aktivirati z uporabo treeshap_output parameter. Vendar ne smete pozabiti, da izhodi Shapley škodujejo zmogljivosti zaradi velikosti izhoda.

Format modela

Trenutno ni standardne oblike datoteke za shranjevanje gozdnih modelov; vsak okvir teži k definiranju lastne oblike. Da bi podprl več formatov vhodnih datotek, FIL uvaža podatke z odprto kodo Treelite knjižnica. To omogoča, da FIL podpira modele, usposobljene v priljubljenih okvirih, kot je npr XGBoost in LightGBM. Upoštevajte, da mora biti format modela, ki ga posredujete, nastavljen v model_type vrednost konfiguracije, podana v config.pbtxt Datoteka.

Config.pbtxt

Vsak model v a repozitorij modelov mora vključevati konfiguracijo modela, ki zagotavlja zahtevane in neobvezne informacije o modelu. Običajno je ta konfiguracija na voljo v a config.pbtxt datoteka določena kot ModelConfig protobuf. Če želite izvedeti več o nastavitvah konfiguracije, glejte Konfiguracija modela. Sledi nekaj parametrov konfiguracije modela:

max_batch_size – To določa največjo velikost serije, ki jo je mogoče posredovati temu modelu. Na splošno je edina omejitev velikosti paketov, posredovanih v zaledje FIL, pomnilnik, ki je na voljo za njihovo obdelavo. Za zagone GPE je razpoložljivi pomnilnik določen z velikostjo Tritonovega pomnilniškega področja CUDA, ki ga je mogoče nastaviti prek argumenta ukazne vrstice ob zagonu strežnika.
vhod – Možnosti v tem razdelku povedo Tritonu število funkcij, ki jih lahko pričakuje za vsak vhodni vzorec.
izhod – Možnosti v tem razdelku povedo Tritonu, koliko izhodnih vrednosti bo za vsak vzorec. Če je predict_proba možnost nastavljena na true, bo za vsak razred vrnjena vrednost verjetnosti. V nasprotnem primeru bo vrnjena ena sama vrednost, ki označuje razred, predviden za dani vzorec.
skupina_primerkov – To določa, koliko primerkov tega modela bo ustvarjenih in ali bodo uporabljali GPE ali CPE.
model_type – Ta niz označuje, v kateri obliki je model (xgboost_json v tem primeru, ampak xgboost, lightgbmin tl_checkpoint so tudi veljavni formati).
napoved_proba – Če je nastavljeno na true, bodo vrednosti verjetnosti vrnjene za vsak razred in ne le za napoved razreda.
izhodni_razred – To je nastavljeno na resnično za klasifikacijske modele in na napačno za regresijske modele.
Prag – To je prag točk za določitev razvrstitve. Kdaj output_class je nastavljeno na true, to je treba zagotoviti, čeprav ne bo uporabljeno, če predict_proba je prav tako nastavljeno na true.
vrsta_shrambe – Na splošno bi uporaba AUTO za to nastavitev ustrezala večini primerov uporabe. Če je izbrano SAMODEJNO shranjevanje, bo FIL naložil model z redko ali gosto predstavitvijo na podlagi približne velikosti modela. V nekaterih primerih boste morda želeli to izrecno nastaviti na SPARSE, da zmanjšate pomnilniški odtis velikih modelov.

Triton Inference Server na SageMaker

SageMaker omogoča s strežnikom NVIDIA Triton Inference lahko uvedete končne točke enega modela in več modelov. Naslednja slika prikazuje visokonivojsko arhitekturo Triton Inference Server. The repozitorij modelov je na datotečnem sistemu temelječe skladišče modelov, ki jih bo Triton dal na voljo za sklepanje. Zahteve za sklepanje prispejo na strežnik in so usmerjene k ustreznemu razporejevalniku za model. Triton pripomočki več algoritmov za razporejanje in paketiranje ki jih je mogoče konfigurirati za vsak model posebej. Razporejevalnik vsakega modela po želji izvede paketno združevanje zahtev za sklepanje in nato posreduje zahteve v backend ki ustreza tipu modela. Zaledje izvede sklepanje z uporabo vhodnih podatkov v paketnih zahtevah za izdelavo zahtevanih izhodov. Izhodi se nato vrnejo.

Ko konfigurirate svoje skupine za samodejno skaliranje za končne točke SageMaker, boste morda želeli razmisliti SageMakerVariantInvocationsPerInstance kot primarno merilo za določanje značilnosti skaliranja vaše skupine za samodejno skaliranje. Poleg tega, odvisno od tega, ali vaši modeli delujejo na GPE ali CPE, lahko razmislite tudi o uporabi CPUUtilization ali GPUUtilization kot dodatnem merilu. Upoštevajte, da je za končne točke z enim modelom, ker so vsi razporejeni modeli enaki, dokaj preprosto nastaviti ustrezne pravilnike za izpolnjevanje vaših SLA. Za končne točke z več modeli priporočamo uvedbo podobnih modelov za dano končno točko, da boste imeli bolj enakomerno predvidljivo delovanje. V primerih uporabe, kjer se uporabljajo modeli različnih velikosti in zahtev, boste morda želeli te delovne obremenitve ločiti na več končnih točk z več modeli ali porabiti nekaj časa za natančno nastavitev pravilnika skupine za samodejno skaliranje, da dobite najboljše razmerje med stroški in zmogljivostjo.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Za seznam vsebnikov NVIDIA Triton Deep Learning Containers (DLC), ki jih podpira sklepanje SageMaker, glejte Razpoložljive slike vsebnikov za globoko učenje.

Predstavitev prenosnika SageMaker

Aplikacije ML so zapletene in pogosto zahtevajo predhodno obdelavo podatkov. V tem zvezku se poglobimo v to, kako razmestiti drevesni model ML, kot je XGBoost, z uporabo zaledja FIL v Tritonu na večmodelni končni točki SageMaker. Pokrivamo tudi, kako implementirati cevovod sklepanja za predprocesiranje podatkov, ki temelji na Pythonu, za vaš model z uporabo funkcije ansambla v Tritonu. To nam bo omogočilo pošiljanje neobdelanih podatkov s strani odjemalca in tako predobdelavo podatkov kot sklepanje modela izvajati v končni točki Triton SageMaker za optimalno zmogljivost sklepanja.

Funkcija kompleta modela Triton

Triton Inference Server močno poenostavlja uvajanje modelov AI v velikem obsegu v proizvodnji. Triton Inference Server je opremljen s priročno rešitvijo, ki poenostavlja gradnjo cevovodov za predprocesiranje in naknadno procesiranje. Platforma Triton Inference Server ponuja razporejevalnik ansambla, ki je odgovoren za cevovod modelov, ki sodelujejo v procesu sklepanja, hkrati pa zagotavlja učinkovitost in optimizira prepustnost. Z uporabo modelov ansambla se lahko izognete dodatnim stroškom prenosa vmesnih tenzorjev in zmanjšate število zahtev, ki jih je treba poslati Tritonu.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

V tem zvezku prikazujemo, kako uporabiti funkcijo ansambla za gradnjo cevovoda predhodne obdelave podatkov s sklepanjem modela XGBoost, iz katere lahko ekstrapolirate, da dodate naknadno obdelavo po meri v cevovod.

Nastavite okolje

Začnemo z nastavitvijo zahtevanega okolja. Namestimo odvisnosti, ki so potrebne za pakiranje našega cevovoda modela in izvajanje sklepanja z uporabo Triton Inference Server. Definiramo tudi AWS upravljanje identitete in dostopa (IAM), ki bo SageMakerju omogočila dostop do artefaktov modela in NVIDIA Triton Registar elastičnih zabojnikov Amazon (Amazon ECR) slika. Oglejte si naslednjo kodo:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Ustvarite okolje Conda za vnaprejšnjo obdelavo odvisnosti

Zaledje Python v Tritonu zahteva, da uporabimo a Konda okolje za vse dodatne odvisnosti. V tem primeru uporabljamo zaledje Python za predhodno obdelavo neobdelanih podatkov, preden jih vnesemo v model XGBoost, ki se izvaja v ozadju FIL. Čeprav smo prvotno uporabljali RAPIDS cuDF in cuML za predhodno obdelavo podatkov, tukaj uporabljamo Pandas in scikit-learn kot odvisnosti predprocesiranja med sklepanjem. To počnemo iz treh razlogov:

Pokažemo, kako ustvariti okolje Conda za vaše odvisnosti in kako ga zapakirati v pričakovana oblika z zaledjem Triton Python.
S prikazom modela predprocesiranja, ki se izvaja v zaledju Python na CPE, medtem ko XGBoost deluje na GPE v zaledju FIL, ponazarjamo, kako lahko vsak model v Tritonovem ansambelskem cevovodu deluje na drugem ozadju ogrodja in v različnih konfiguracijah strojne opreme.
Poudarja, kako so knjižnice RAPIDS (cuDF, cuML) združljive s svojimi dvojniki CPE (Pandas, scikit-learn). Na primer, lahko pokažemo, kako LabelEncoders ustvarjen v cuML se lahko uporablja v scikit-learn in obratno.

Sledimo navodilom iz Tritonova dokumentacija za pakiranje odvisnosti predprocesiranja (scikit-learn in Pandas), ki se bodo uporabljale v zaledju Python kot datoteka TAR okolja Conda. Skript bash create_prep_env.sh ustvari datoteko TAR okolja Conda, nato pa jo premaknemo v imenik modela predobdelave. Oglejte si naslednjo kodo:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

Ko zaženemo prejšnji skript, se ustvari preprocessing_env.tar.gz, ki ga kopiramo v imenik za predprocesiranje:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Nastavite predprocesiranje z zaledjem Triton Python

Za predobdelavo uporabljamo Triton Zaledje Python za izvedbo predprocesiranja tabelarnih podatkov (kategorično kodiranje) med sklepanjem za zahteve neobdelanih podatkov, ki prihajajo v strežnik. Za več informacij o predprocesiranju, ki je bilo opravljeno med usposabljanjem, glejte vadbeni zvezek.

Zaledje Python omogoča predprocesiranje, naknadno obdelavo in katero koli drugo logiko po meri, ki se izvaja v Pythonu in služi s Tritonom. Uporaba Tritona na SageMakerju zahteva, da najprej nastavimo mapo repozitorija modelov, ki vsebuje modele, ki jih želimo streči. Nastavili smo že model za predprocesiranje podatkov Python, imenovan preprocessing in cpu_model_repository in gpu_model_repository.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Triton ima posebne zahteve za postavitev repozitorija modelov. Znotraj imenika repozitorija modelov najvišje ravni ima vsak model svoj podimenik, ki vsebuje informacije za ustrezni model. Vsak imenik modela v Tritonu mora imeti vsaj en numerični podimenik, ki predstavlja različico modela. Vrednost 1 predstavlja različico 1 našega modela predprocesiranja Python. Vsak model poganja določeno zaledje, zato mora biti v vsakem podimeniku različice artefakt modela, ki ga zahteva to zaledje. V tem primeru uporabljamo zaledje Python, ki zahteva, da se datoteka Python, ki jo strežete, imenuje model.py, datoteka pa mora implementirati določene funkcije. Če bi uporabljali zaledje PyTorch, bi bila potrebna datoteka model.pt itd. Za več podrobnosti o konvencijah poimenovanja datotek modelov glejte Datoteke modelov.

O model.py Datoteka Python, ki jo uporabljamo tukaj, izvaja vso logiko predprocesiranja tabelarnih podatkov za pretvorbo neobdelanih podatkov v funkcije, ki jih je mogoče vnesti v naš model XGBoost.

Vsak model Triton mora zagotavljati tudi a config.pbtxt datoteka, ki opisuje konfiguracijo modela. Če želite izvedeti več o nastavitvah konfiguracije, glejte Konfiguracija modela. Naš config.pbtxt datoteka določa zaledje kot python in vse vhodne stolpce za neobdelane podatke skupaj s predhodno obdelanim izhodom, ki je sestavljen iz 15 funkcij. Določimo tudi, da želimo zagnati ta model predprocesiranja Python v CPE. Oglejte si naslednjo kodo:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Nastavite drevesni model ML za zaledje FIL

Nato smo nastavili imenik modela za drevesni model ML, kot je XGBoost, ki bo uporabljal zaledje FIL.

Pričakovana postavitev za cpu_memory_repository in gpu_memory_repository so podobni tistim, ki smo jih pokazali prej.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Tu FIL je ime modela. Lahko mu damo drugačno ime, npr xgboost če hočemo. 1 je podimenik različice, ki vsebuje artefakt modela. V tem primeru je to xgboost.json model, ki smo ga shranili. Ustvarimo to pričakovano postavitev:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Imeti moramo konfiguracijsko datoteko config.pbtxt ki opisuje konfiguracijo modela za drevesni model ML, tako da lahko zaledje FIL v Tritonu razume, kako ga streči. Za več informacij si oglejte najnovejšo generično zdravilo Možnosti konfiguracije Triton in možnosti konfiguracije, specifične za FIL backend. V tem primeru se osredotočamo le na nekaj najpogostejših in ustreznih možnosti.

ustvarjanje config.pbtxt za model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Podobno nastavite config.pbtxt za model_gpu_repository (upoštevajte, razlika je USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Nastavite cevovod sklepanja zaledja Python in FIL za predprocesiranje podatkov z uporabo ansamblov

Zdaj smo pripravljeni na nastavitev cevovoda sklepanja za predprocesiranje podatkov in sklepanje drevesnega modela z uporabo model ansambla. Ansambelski model predstavlja cevovod enega ali več modelov in povezavo vhodnih in izhodnih tenzorjev med temi modeli. Tukaj uporabljamo model ansambla za izgradnjo cevovoda predprocesiranja podatkov v zaledju Python, ki mu sledi XGBoost v ozadju FIL.

Pričakovana postavitev za ensemble imenik modelov je podoben tistim, ki smo jih pokazali prej:

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Ustvarili smo modele ansambla config.pbtxt po navodilih v Modeli ansambla. Pomembno je, da moramo nastaviti urnik ansambla config.pbtxt, ki določa pretok podatkov med modeli znotraj niza. Razporejevalnik ansambla zbira izhodne tenzorje v vsakem koraku in jih zagotavlja kot vhodne tenzorje za druge korake v skladu s specifikacijo.

Zapakirajte repozitorij modela in ga naložite v Amazon S3

Končno končamo z naslednjo strukturo imenika repozitorija modela, ki vsebuje model predprocesiranja Python in njegove odvisnosti skupaj z modelom XGBoost FIL in skupino modelov.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Imenik in njegovo vsebino pakiramo kot model.tar.gz za nalaganje v Preprosta storitev shranjevanja Amazon (Amazon S3). V tem primeru imamo dve možnosti: uporabo primerka, ki temelji na CPE, ali primerka, ki temelji na GPE. Primerek, ki temelji na GPU, je primernejši, ko potrebujete večjo procesorsko moč in želite uporabiti jedra CUDA.

Ustvarite in naložite paket modela za primerek, ki temelji na CPE (optimiziran za CPE) z naslednjo kodo:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Ustvarite in naložite paket modela za primerek, ki temelji na GPE (optimiziran za GPE), z naslednjo kodo:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Ustvarite končno točko SageMaker

Zdaj imamo artefakte modela shranjene v vedru S3. V tem koraku lahko zagotovimo tudi dodatno spremenljivko okolja SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, ki določa ime modela, ki ga naloži Triton. Vrednost tega ključa se mora ujemati z imenom mape v paketu modela, naloženem v Amazon S3. Ta spremenljivka je neobvezna v primeru enega samega modela. V primeru skupnih modelov je treba ta ključ določiti, da se Triton zažene v SageMakerju.

Poleg tega lahko nastavite SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT in SAGEMAKER_TRITON_THREAD_COUNT za optimizacijo števila niti.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Prejšnji model uporabljamo za ustvarjanje konfiguracije končne točke, kjer lahko določimo vrsto in število primerkov, ki jih želimo v končni točki

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

To konfiguracijo končne točke uporabimo za ustvarjanje končne točke SageMaker in počakamo, da se uvajanje konča. Z napravami MME SageMaker imamo možnost gostiti več modelov ansamblov s ponavljanjem tega postopka, vendar se za ta primer držimo ene uvedbe:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Status se bo spremenil v InService ko je uvedba uspešna.

Prikličite svoj model, ki gostuje na končni točki SageMaker

Ko se končna točka izvaja, lahko uporabimo nekaj vzorčnih neobdelanih podatkov za izvedbo sklepanja z uporabo JSON kot oblike koristnega tovora. Za obliko zahteve za sklepanje Triton uporablja KFServing standard skupnosti protokoli sklepanja. Glej naslednjo kodo:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

Beležnica, omenjena v blogu, je na voljo v GitHub repozitorij.

Najboljše prakse

Poleg možnosti natančnega prilagajanja nastavitev ozadja FIL, ki smo jih omenili prej, lahko podatkovni znanstveniki tudi zagotovijo, da so vhodni podatki za ozadje optimizirani za obdelavo v motorju. Kadarkoli je mogoče, v polje GPE vnesite podatke v formatu glavne vrstice. Drugi formati bodo zahtevali notranjo pretvorbo in zavzeli cikle, kar bo zmanjšalo zmogljivost.

Zaradi načina vzdrževanja podatkovnih struktur FIL v pomnilniku GPE bodite pozorni na globino drevesa. Večja kot je globina drevesa, večji bo vaš odtis pomnilnika GPU.

Uporaba instance_group_count parameter za dodajanje delovnih procesov in povečanje prepustnosti zaledja FIL, kar bo povzročilo večjo porabo pomnilnika CPE in GPE. Poleg tega upoštevajte spremenljivke, specifične za SageMaker, ki so na voljo za povečanje prepustnosti, kot so niti HTTP, velikost vmesnega pomnilnika HTTP, velikost paketa in največja zakasnitev.

zaključek

V tej objavi smo se poglobili v zaledje FIL, ki ga podpira Triton Inference Server na SageMakerju. To zaledje zagotavlja tako CPU kot GPE pospeševanje vaših drevesnih modelov, kot je priljubljeni algoritem XGBoost. Obstaja veliko možnosti, ki jih je treba upoštevati, da dobite najboljšo zmogljivost za sklepanje, kot so velikosti paketov, formati vnosa podatkov in drugi dejavniki, ki jih je mogoče prilagoditi vašim potrebam. SageMaker vam omogoča uporabo te zmožnosti s končnimi točkami z enim in več modelom za uravnoteženje zmogljivosti in prihrankov pri stroških.

Spodbujamo vas, da vzamete informacije v tej objavi in preverite, ali lahko SageMaker izpolni vaše potrebe po gostovanju pri streženju drevesnih modelov, s čimer izpolnjuje vaše zahteve glede zmanjšanja stroškov in učinkovitosti delovne obremenitve.

Beležnico, omenjeno v tej objavi, lahko najdete v primerih SageMaker GitHub repozitorij. Poleg tega lahko najdete najnovejšo dokumentacijo o zaledju FIL na GitHub.

O avtorjih

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai. Raghu Ramesha je višji arhitekt rešitev ML pri ekipi Amazon SageMaker Service. Osredotoča se na pomoč strankam pri izgradnji, uvajanju in selitvi proizvodnih delovnih obremenitev ML na SageMaker v velikem obsegu. Specializiran je za področje strojnega učenja, umetne inteligence in računalniškega vida ter ima magisterij iz računalništva na UT Dallas. V prostem času rada potuje in fotografira.

James Park je arhitekt rešitev pri Amazon Web Services. Sodeluje z Amazon.com pri načrtovanju, gradnji in uvajanju tehnoloških rešitev na AWS, posebej pa ga zanimata umetna inteligenca in strojno učenje. V prostem času rad išče nove kulture, nove izkušnje in je na tekočem z najnovejšimi tehnološkimi trendi.

Dhawal Patel je glavni arhitekt strojnega učenja pri AWS. Sodeloval je z organizacijami, od velikih podjetij do srednje velikih zagonskih podjetij, pri problemih, povezanih s porazdeljenim računalništvom in umetno inteligenco. Osredotoča se na globoko učenje, vključno z domenami NLP in računalniškega vida. Strankam pomaga pri doseganju visoko zmogljivega sklepanja o modelih na Amazon SageMaker.

Jiahong Liu je arhitekt rešitve v skupini ponudnikov storitev v oblaku pri NVIDIA. Strankam pomaga pri sprejemanju rešitev strojnega učenja in umetne inteligence, ki izkoriščajo pospešeno računalništvo NVIDIA za reševanje njihovih izzivov pri usposabljanju in sklepanju. V prostem času uživa v origamiju, DIY projektih in igra košarko.

Kshitiz Gupta je arhitekt rešitev pri NVIDIA. Uživa v izobraževanju strank v oblaku o tehnologijah GPU AI, ki jih ponuja NVIDIA, in jim pomaga pri pospeševanju njihovih aplikacij za strojno učenje in globoko učenje. Zunaj dela uživa v teku, pohodništvu in opazovanju divjih živali.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
Kovanje prihodnosti z Adryenn Ashley. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Časovni žig: Maj 2, 2023

Časovni žig: September 7, 2023

Ponovno objavil Platon

Kako Sophos uri zmogljiv in lahek detektor zlonamerne programske opreme PDF v ultra velikem obsegu z Amazon SageMaker

Izboljšajte natančnost iskanja obrazov Amazon Rekognition z uporabniškimi vektorji | Spletne storitve Amazon

Bundesliga Match Fact Pressure Handling: Ocenjevanje uspešnosti igralcev v situacijah visokega pritiska na AWS

Samodejna prilagoditev modela Amazon SageMaker zdaj samodejno izbere nastavitve nastavitve za izboljšanje uporabnosti in stroškovne učinkovitosti | Spletne storitve Amazon

Zaznavanje napak na slikah visoke ločljivosti z uporabo dvostopenjskih modelov Amazon Rekognition Custom Labels | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun