ML modellek tárolása az Amazon SageMakeren a Triton használatával: XGBoost, LightGBM és Treelite modellek

Újra kiadta Platón

Követő: 0

Az egyik legnépszerűbb ma elérhető modell az XGBoost. Az XGBoost különféle problémák, például osztályozás és regresszió megoldásának képességével népszerű opcióvá vált, amely szintén a fa alapú modellek kategóriájába tartozik. Ebben a bejegyzésben mélyre ásunk, hogy lássuk, hogyan Amazon SageMaker segítségével tudja kiszolgálni ezeket a modelleket NVIDIA Triton következtetés szerver. A valós idejű következtetési munkaterhelések eltérő szintű követelményekkel és szolgáltatási szintű megállapodásokkal (SLA-k) rendelkezhetnek a késleltetés és az átviteli sebesség tekintetében, és teljesíthetők a SageMaker valós idejű végpontjaival.

A SageMaker biztosítja egyetlen modell végpontjai, amelyek lehetővé teszik egyetlen gépi tanulási (ML) modell üzembe helyezését egy logikai végponttal szemben. Más felhasználási esetekben dönthet úgy, hogy a költségeket és a teljesítményt a használatával kezeli több modellből álló végpontok, amelyek lehetővé teszik több modell megadását egy logikai végpont mögött. Függetlenül attól, hogy melyik opciót választja, a SageMaker végpontok méretezhető mechanizmust tesznek lehetővé még a legigényesebb vállalati ügyfelek számára is, miközben értéket biztosítanak számos szolgáltatásban, beleértve árnyékváltozatok, automatikus méretezés, és natív integrációval amazonfelhőóra (további információért lásd CloudWatch metrikák többmodell végpont-telepítésekhez).

A Triton különféle háttérprogramokat támogat motorként, hogy támogassa a különféle ML modellek futtatását és kiszolgálását következtetések levonására. Bármilyen Triton-telepítésnél kulcsfontosságú tudnia, hogy a háttérrendszer viselkedése hogyan befolyásolja a munkaterhelést, és mire számíthat, hogy sikeres legyen. Ebben a bejegyzésben segítünk megérteni a Forest Inference Library (FIL) háttérrendszer, amelyet a Triton a SageMakeren támogat, így megalapozott döntést hozhat a terhelése alapján, és a lehető legjobb teljesítmény- és költségoptimalizálást érheti el.

Merüljön el a FIL háttérrendszerében

A Triton támogatja a FIL háttérrendszer fa modellek kiszolgálására, mint pl XGBoost, LightGBM, scikit elsajátítható Véletlen Erdő, RAPIDS cuML Random Forest, és bármely más által támogatott modell Treelite. Ezeket a modelleket régóta használják olyan problémák megoldására, mint az osztályozás vagy a regresszió. Bár az ilyen típusú modellek hagyományosan CPU-kon futnak, ezeknek a modelleknek a népszerűsége és a következtetési igények különféle technikákhoz vezettek a következtetési teljesítmény növelésére. A FIL-háttérrendszer ezen technikák közül sokat használ cuML-konstrukciók használatával, és a C++-ra és a CUDA magkönyvtárra épül, hogy optimalizálja a GPU-gyorsítókon a következtetési teljesítményt.

A FIL háttérrendszer a cuML könyvtárait használja a CPU vagy GPU magok használatához a tanulás felgyorsítására. A processzorok használatához az adatokra hivatkoznak a gazdagép memóriájából (például NumPy tömbök) vagy GPU tömbökből (uDF, Numba, cuPY, vagy bármely olyan könyvtárból, amely támogatja a __cuda_array_interface__) API. Az adatok memóriában való elhelyezése után a FIL-háttérrendszer az összes rendelkezésre álló CPU- vagy GPU-magon futtathatja a feldolgozást.

A FIL-háttér-szálak anélkül tudnak kommunikálni egymással, hogy a gazdagép megosztott memóriáját használnák, de az együttes munkaterheléseknél figyelembe kell venni a gazdagép memóriáját. A következő diagram egy ensemble ütemező futásidejű architektúrát mutat be, ahol lehetőség van a memóriaterületek finomhangolására, beleértve a CPU címezhető megosztott memóriát is, amelyet a Triton (C++) és a Python folyamat (Python háttérrendszer) közötti folyamatok közötti kommunikációhoz használnak. tenzorok (bemenet/kimenet) a FIL háttérprogrammal.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A Triton Inference Server konfigurálható lehetőségeket biztosít a fejlesztők számára a munkaterhelések hangolásához és a modell teljesítményének optimalizálásához. A konfiguráció dynamic_batching lehetővé teszi a Triton számára, hogy kliensoldali kéréseket tartson és kötegeljen a szerver oldalon, hogy hatékonyan használja a FIL párhuzamos számításait a teljes köteg együttes következtetésére. Az opció max_queue_delay_microseconds hibamentes szabályozást kínál arra vonatkozóan, mennyi ideig vár a Triton a köteg létrehozására.

Számos más FIL-specifikus is létezik rendelkezésre álló lehetőségek amelyek hatással vannak a teljesítményre és a viselkedésre. Javasoljuk, hogy kezdje storage_type. Amikor a háttérrendszert GPU-n futtatja, a FIL új memória-/adatszerkezetet hoz létre, amely egy olyan fa reprezentációja, amelynél a FIL hatással lehet a teljesítményre és a lábnyomra. Ez a környezeti paraméterrel konfigurálható storage_type, amely a sűrű, ritka és automatikus opciókat tartalmazza. A sűrű opció választása több GPU-memóriát fogyaszt, és nem mindig eredményez jobb teljesítményt, ezért érdemes ellenőrizni. Ezzel szemben a ritka opció kevesebb GPU-memóriát fogyaszt, és valószínűleg ugyanolyan jól vagy jobban teljesít, mint a sűrű. Az automatikus választással a modell alapértelmezés szerint sűrű lesz, kivéve, ha ez lényegesen több GPU-memóriát fogyaszt, mint a ritka.

Amikor a modell teljesítményéről van szó, érdemes lehet hangsúlyozni a threads_per_tree választási lehetőség. Valós forgatókönyvek esetén az egyik dolog, amit túlzásba visz, az az threads_per_tree nagyobb hatással lehet az átviteli sebességre, mint bármely más paraméter. A 2-es tetszőleges hatványra állítása 1 és 32 között jogos. Nehéz megjósolni ennek a paraméternek az optimális értékét, de ha a szerver várhatóan nagyobb terhelést vagy nagyobb kötegméreteket dolgoz fel, akkor általában nagyobb érték hasznára válik, mint amikor egyszerre néhány sort dolgoz fel.

Egy másik paraméter, amire figyelni kell algo, amely akkor is elérhető, ha GPU-n fut. Ez a paraméter határozza meg a következtetési kérések feldolgozásához használt algoritmust. Az ehhez támogatott lehetőségek a következők ALGO_AUTO, NAIVE, TREE_REORGés BATCH_TREE_REORG. Ezek a beállítások határozzák meg a fán belüli csomópontok rendszerezését, és teljesítménynövekedést is eredményezhetnek. A ALGO_AUTO opció alapértelmezés szerint NAIVE ritkás tárolásra és BATCH_TREE_REORG sűrű tároláshoz.

Végül a FIL Shapley magyarázóval érkezik, amely a következővel aktiválható treeshap_output paraméter. Ne feledje azonban, hogy a Shapley kimenetei rontják a teljesítményt a kimeneti mérete miatt.

Modell formátum

Jelenleg nincs szabványos fájlformátum az erdő alapú modellek tárolására; minden keretrendszer saját formátumot határoz meg. A több bemeneti fájlformátum támogatása érdekében a FIL nyílt forráskóddal importálja az adatokat Treelite könyvtár. Ez lehetővé teszi a FIL számára, hogy támogassa a népszerű keretrendszerekben betanított modelleket, mint pl XGBoost és a LightGBM. Vegye figyelembe, hogy a megadott modell formátumát be kell állítani a model_type -ban megadott konfigurációs érték config.pbtxt fájlt.

Config.pbtxt

Minden modell a modell tároló tartalmaznia kell egy modellkonfigurációt, amely megadja a szükséges és választható információkat a modellről. Ezt a konfigurációt általában a config.pbtxt néven megadott fájl ModelConfig protobuf. Ha többet szeretne megtudni a konfigurációs beállításokról, lásd: Modellkonfiguráció. Íme néhány modell konfigurációs paramétere:

max_batch_size – Ez határozza meg az ehhez a modellhez továbbítható maximális tételméretet. Általánosságban elmondható, hogy a FIL-háttérrendszernek átadott kötegek méretének egyetlen korlátja a feldolgozásukhoz rendelkezésre álló memória. GPU-futtatások esetén a rendelkezésre álló memória mennyiségét a Triton CUDA memóriatárának mérete határozza meg, amely a szerver indításakor parancssori argumentum segítségével állítható be.
bemenet – Az ebben a szakaszban található beállítások megadják a Tritonnak, hogy az egyes bemeneti mintákhoz hány szolgáltatást várjon.
teljesítmény – Az ebben a szakaszban található opciók megadják a Tritonnak, hogy hány kimeneti érték lesz az egyes mintákhoz. Ha a predict_proba opció igazra van állítva, akkor minden osztályhoz egy valószínűségi értéket ad vissza. Ellenkező esetben egyetlen érték kerül visszaadásra, amely jelzi az adott mintára előre jelzett osztályt.
példány_csoport – Ez határozza meg, hogy ennek a modellnek hány példánya jön létre, és hogy ezek GPU-t vagy CPU-t fognak-e használni.
modell_típus – Ez a karakterlánc jelzi, hogy a modell milyen formátumban van (xgboost_json ebben a példában, de xgboost, lightgbmés tl_checkpoint érvényes formátumok is).
előre_proba – Ha igazra van állítva, a rendszer minden osztályhoz valószínűségi értékeket ad vissza, nem csak osztály-előrejelzést.
output_class – Ez igaz az osztályozási modelleknél és hamis a regressziós modelleknél.
küszöb – Ez egy ponthatár a besorolás meghatározásához. Amikor output_class igaz értékre van állítva, ezt meg kell adni, bár nem lesz használva, ha predict_proba is igazra van állítva.
tárolási_típus – Általánosságban elmondható, hogy az AUTO használata ennél a beállításnál megfelel a legtöbb használati esetnek. Ha az AUTOMATIKUS tárhely van kiválasztva, a FIL a modell hozzávetőleges mérete alapján ritka vagy sűrű ábrázolással tölti be a modellt. Bizonyos esetekben érdemes lehet ezt kifejezetten SPARSE-ra állítani, hogy csökkentse a nagy modellek memóriaigényét.

Triton következtetési kiszolgáló a SageMakeren

SageMaker lehetővé teszi, hogy az NVIDIA Triton Inference Server segítségével egyetlen modellből és több modellből álló végpontokat is telepíthet. A következő ábra a Triton Inference Server magas szintű architektúráját mutatja. A modell tároló egy fájlrendszer alapú adattár azoknak a modelleknek, amelyeket a Triton elérhetővé tesz a következtetések levonására. A következtetési kérések a kiszolgálóhoz érkeznek, és a megfelelő modellenkénti ütemezőhöz kerülnek. Triton eszközök több ütemezési és kötegelési algoritmus amelyek modellenként konfigurálhatók. Az egyes modellek ütemezője opcionálisan végrehajtja a következtetési kérések kötegelt, majd átadja a kéréseket a backend a modell típusának megfelelő. A háttérrendszer következtetéseket hajt végre a kötegelt kérésekben megadott bemenetek segítségével a kért kimenetek előállításához. A kimenetek ezután visszakerülnek.

Amikor konfigurálja az automatikus skálázási csoportokat a SageMaker végpontokhoz, érdemes megfontolni SageMakerVariantInvocationsPerInstance mint elsődleges kritérium az automatikus skálázási csoport skálázási jellemzőinek meghatározásához. Ezenkívül attól függően, hogy a modelljei GPU-n vagy CPU-n futnak, fontolóra veheti a CPUUtilization vagy a GPUUtilization használatát további kritériumként. Vegye figyelembe, hogy az egyetlen modell végpontjai esetében, mivel a telepített modellek mind egyformák, meglehetősen egyszerű megfelelő házirendeket beállítani, hogy megfeleljenek az SLA-knak. Több modellből álló végpontok esetén javasoljuk, hogy hasonló modelleket telepítsen egy adott végpont mögé, hogy egyenletesebb legyen a kiszámítható teljesítmény. Azokban az esetekben, amikor eltérő méretű és követelményű modelleket használnak, érdemes lehet ezeket a munkaterheléseket szétválasztani több több modellből álló végpont között, vagy eltölteni egy kis időt az automatikus skálázási csoportházirend finomhangolásával a legjobb költség- és teljesítményegyensúly elérése érdekében.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A SageMaker következtetés által támogatott NVIDIA Triton Deep Learning Containers (DLC-k) listáját lásd: Elérhető Deep Learning Containers képek.

SageMaker notebook áttekintése

Az ML alkalmazások összetettek, és gyakran adat-előfeldolgozást igényelnek. Ebben a jegyzetfüzetben belemerülünk egy faalapú ML-modell, például az XGBoost telepítésébe a Triton FIL-háttérprogramjával egy SageMaker többmodell-végponton. Kitérünk arra is, hogyan valósíthat meg Python-alapú adat-előfeldolgozási következtetési folyamatot a modelljéhez a Triton ensemble funkciójával. Ez lehetővé teszi számunkra, hogy a nyers adatokat az ügyféloldalról küldjük be, és az adatok előfeldolgozása és a modellkövetkeztetés is megtörténjen a Triton SageMaker végpontban az optimális következtetési teljesítmény érdekében.

Triton modell együttes jellemzője

A Triton Inference Server nagymértékben leegyszerűsíti az AI-modellek nagyszabású üzembe helyezését a termelésben. A Triton Inference Server egy kényelmes megoldást kínál, amely leegyszerűsíti az elő- és utófeldolgozási folyamatok felépítését. A Triton Inference Server platform biztosítja az ensemble ütemezőt, amely a következtetési folyamatban részt vevő modellek feldolgozásáért felelős, miközben biztosítja a hatékonyságot és optimalizálja az átvitelt. Az együttes modellek használatával elkerülhető a köztes tenzorok átvitelének többletköltsége, és minimalizálható a Tritonnak küldendő kérések száma.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Ebben a jegyzetfüzetben bemutatjuk, hogyan használhatjuk az ensemble funkciót az XGBoost modellkövetkeztetéssel adat-előfeldolgozási folyamat felépítéséhez, és ebből extrapolálva egyéni utófeldolgozást adhat a folyamathoz.

Állítsa be a környezetet

Kezdjük a szükséges környezet beállításával. Telepítjük a modellfolyamat csomagolásához szükséges függőségeket, és a Triton Inference Server segítségével következtetéseket futtatunk. Meghatározzuk azt is AWS Identity and Access Management (IAM) szerepkör, amely hozzáférést biztosít a SageMakernek a modelltermékekhez és az NVIDIA Tritonhoz Amazon Elastic Container Registry (Amazon ECR) kép. Lásd a következő kódot:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Hozzon létre egy Conda-környezetet a függőségek előfeldolgozásához

A Triton Python-háttérprogramja megköveteli, hogy a Conda környezetet az esetleges további függőségek számára. Ebben az esetben a Python-háttérprogramot használjuk a nyers adatok előfeldolgozására, mielőtt betápláljuk azokat a FIL-háttérrendszerben futó XGBoost-modellbe. Annak ellenére, hogy eredetileg a RAPIDS cuDF-et és a cuML-t használtuk az adatok előfeldolgozásához, itt a Pandákat és a scikit-learnt használjuk előfeldolgozási függőségként a következtetés során. Ezt három okból tesszük:

Megmutatjuk, hogyan hozhat létre Conda-környezetet a függőségeihez, és hogyan csomagolja azt a formátum várható a Triton Python háttérprogramja.
A Python-háttérben futó előfeldolgozási modell bemutatásával a CPU-n, míg az XGBoost a GPU-n fut a FIL-háttérrendszerben, bemutatjuk, hogy a Triton ensemble-folyamatának egyes modelljei hogyan futhatnak különböző keretrendszer-háttérrendszeren, valamint különböző hardverkonfigurációkon.
Kiemeli, hogy a RAPIDS-könyvtárak (cuDF, cuML) hogyan kompatibilisek CPU-társaikkal (Pandas, scikit-learn). Például megmutathatjuk, hogyan LabelEncoders A cuML-ben létrehozott scikit-learnben használható és fordítva.

Követjük az utasításokat a Triton dokumentáció előfeldolgozási függőségek (scikit-learn és Pandas) csomagolásához, amelyeket a Python háttérrendszerben Conda környezeti TAR-fájlként kell használni. A bash script create_prep_env.sh létrehozza a Conda környezet TAR fájlját, majd áthelyezzük a preprocessing model könyvtárba. Lásd a következő kódot:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

Miután futtattuk az előző szkriptet, létrejön preprocessing_env.tar.gz, amelyet az előfeldolgozási könyvtárba másolunk:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Állítsa be az előfeldolgozást a Triton Python háttérprogrammal

Az előfeldolgozáshoz Triton-t használunk Python háttérrendszer táblázatos adat-előfeldolgozás (kategorikus kódolás) végrehajtása a szerverre érkező nyers adatkérések következtetése során. A képzés során végzett előfeldolgozással kapcsolatos további információkért tekintse meg a képzési jegyzetfüzet.

A Python-háttérprogram lehetővé teszi az előfeldolgozást, az utófeldolgozást és bármely más egyéni logika megvalósítását a Pythonban és a Tritonnal való kiszolgálását. A Triton SageMakeren való használatához először be kell állítanunk egy modelltár mappát, amely tartalmazza a kiszolgálni kívánt modelleket. Már felállítottunk egy modellt a Python adat-előfeldolgozáshoz, az úgynevezett preprocessing in cpu_model_repository és a gpu_model_repository.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A Tritonnak speciális követelményei vannak a modelltár elrendezésére vonatkozóan. A legfelső szintű modelltároló könyvtáron belül minden modellnek saját alkönyvtára van, amely tartalmazza a megfelelő modell információit. A Triton minden modellkönyvtárának tartalmaznia kell legalább egy numerikus alkönyvtárat, amely a modell egy verzióját képviseli. Az 1 érték a Python előfeldolgozási modellünk 1. verzióját jelöli. Minden modellt egy adott háttérprogram futtat, ezért minden verzió alkönyvtárában kell lennie az adott háttérrendszer által igényelt modell mellékterméknek. Ebben a példában a Python háttérprogramot használjuk, amely megköveteli, hogy a megjelenített Python-fájlt model.py-nek hívják, és a fájlnak implementálnia kell bizonyos funkciókat. Ha PyTorch háttérrendszert használunk, egy model.pt fájlra lenne szükség, és így tovább. A modellfájlok elnevezési konvencióival kapcsolatos további részletekért lásd: Modell fájlok.

A modell.py Az itt használt Python-fájl az összes táblázatos adat-előfeldolgozási logikát megvalósítja, hogy a nyers adatokat olyan funkciókká alakítsa, amelyek betáplálhatók az XGBoost modellünkbe.

Minden Triton modellnek biztosítania kell a config.pbtxt a modell konfigurációját leíró fájl. Ha többet szeretne megtudni a konfigurációs beállításokról, lásd: Modellkonfiguráció. A config.pbtxt fájl megadja a háttérrendszert pythonként, és az összes bemeneti oszlopot a nyers adatokhoz, valamint az előfeldolgozott kimenetet, amely 15 szolgáltatásból áll. Azt is megadjuk, hogy ezt a Python-előfeldolgozási modellt a CPU-n szeretnénk futtatni. Lásd a következő kódot:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Állítson be egy faalapú ML-modellt a FIL-háttérrendszerhez

Ezután beállítjuk a modellkönyvtárat egy faalapú ML-modellhez, például az XGBoosthoz, amely a FIL háttérprogramot fogja használni.

A várt elrendezés a számára cpu_memory_repository és a gpu_memory_repository hasonlóak a korábban bemutatotthoz.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Itt, FIL a modell neve. Adhatunk neki más nevet is, pl xgboost ha akarjuk. 1 a verzió alkönyvtár, amely a modell melléktermékét tartalmazza. Ebben az esetben ez a xgboost.json modell, amelyet elmentettünk. Készítsük el ezt a várt elrendezést:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Szükségünk van a konfigurációs fájlra config.pbtxt leírja a fa alapú ML-modell modellkonfigurációját, hogy a Triton FIL-háttérprogramja megértse, hogyan kell kiszolgálni. További információkért tekintse meg a legújabb általános verziót Triton konfigurációs lehetőségek és a specifikus konfigurációs lehetőségeket FIL háttérrendszer. Ebben a példában csak néhányra összpontosítunk a leggyakoribb és legrelevánsabb lehetőségek közül.

Teremt config.pbtxt mert model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Hasonlóképpen állítsa be config.pbtxt mert model_gpu_repository (jegyezd meg a különbséget USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Következtetési folyamat beállítása az adat-előfeldolgozó Python-háttér és a FIL-háttér számára együttesek segítségével

Most készen állunk a következtetési folyamat beállítására az adatok előfeldolgozásához és a fa alapú modellkövetkeztetéshez egy együttes modell. Az ensemble modell egy vagy több modellből álló csővezetéket és a bemeneti és kimeneti tenzorok kapcsolatát jelenti ezek között a modellek között. Itt az ensemble modellt használjuk egy adat-előfeldolgozási folyamat létrehozására a Python-háttérrendszerben, amelyet az XGBoost követ a FIL-háttérben.

A várható elrendezés a ensemble modellkönyvtár hasonló a korábban bemutatottakhoz:

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Megalkottuk az együttes modellt config.pbtxt című útmutatást követve Együttes modellek. Fontos, hogy be kell állítani az együttes ütemezőt config.pbtxt, amely az együttesen belüli modellek közötti adatáramlást határozza meg. Az ensemble ütemező minden lépésben összegyűjti a kimeneti tenzorokat, és a specifikációnak megfelelően bemeneti tenzorként biztosítja a többi lépéshez.

Csomagolja be a modelltárat, és töltse fel az Amazon S3-ra

Végül a következő modelltár-könyvtár-struktúrát kapjuk, amely egy Python előfeldolgozási modellt és annak függőségeit, valamint az XGBoost FIL modellt és a modell együttest tartalmazza.

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A könyvtárat és annak tartalmát a következőre csomagoljuk model.tar.gz a feltöltéshez Amazon egyszerű tárolási szolgáltatás (Amazon S3). Ebben a példában két lehetőségünk van: CPU-alapú példány vagy GPU-alapú példány használata. A GPU-alapú példány megfelelőbb, ha nagyobb feldolgozási teljesítményre van szüksége, és CUDA magokat szeretne használni.

Hozza létre és töltse fel a modellcsomagot egy CPU-alapú példányhoz (CPU-ra optimalizálva) a következő kóddal:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Hozza létre és töltse fel a modellcsomagot egy GPU-alapú példányhoz (GPU-ra optimalizálva) a következő kóddal:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Hozzon létre egy SageMaker végpontot

A modellműtermékeket most egy S3-as vödörben tároljuk. Ebben a lépésben megadhatjuk a további környezeti változót is SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, amely megadja a Triton által betöltendő modell nevét. A kulcs értékének meg kell egyeznie az Amazon S3-ra feltöltött modellcsomagban található mappanévvel. Ez a változó nem kötelező egyetlen modell esetén. Ensemble modellek esetén ezt a kulcsot meg kell adni ahhoz, hogy a Triton elinduljon a SageMakerben.

Ezenkívül beállíthatja SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT és a SAGEMAKER_TRITON_THREAD_COUNT a szálak számának optimalizálásához.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Az előző modellt használjuk egy végpont konfiguráció létrehozására, ahol megadhatjuk a végpontban kívánt példányok típusát és számát.

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Ezzel a végpont-konfigurációval létrehozunk egy SageMaker-végpontot, és megvárjuk, amíg a telepítés befejeződik. A SageMaker MME-knél lehetőségünk van több ensemble modell hosztolására a folyamat megismétlésével, de ennél a példánál maradunk egy telepítésnél:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Az állapot a következőre változik: InService amikor a telepítés sikeres.

Hívja meg a SageMaker végponton tárolt modelljét

A végpont futása után néhány nyers mintaadatot használhatunk arra, hogy következtetést vonjunk le a JSON-t hasznos adatformátumként használva. A következtetési kérés formátumához a Triton a KFServing közösségi szabvány következtetési protokollok. Lásd a következő kódot:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

A blogban hivatkozott jegyzetfüzet a GitHub tárház.

Legjobb gyakorlatok

A korábban említett FIL-háttér beállításainak finomhangolási lehetőségei mellett az adatkutatók azt is biztosíthatják, hogy a háttérrendszer bemeneti adatait a motor általi feldolgozásra optimalizálják. Amikor csak lehetséges, az adatokat sor-nagy formátumban vigye be a GPU-tömbbe. Más formátumok belső átalakítást igényelnek, és ciklusokat vesznek igénybe, csökkentve a teljesítményt.

A GPU-memóriában a FIL-adatstruktúrák karbantartásának módja miatt ügyeljen a fa mélységére. Minél mélyebb a fa mélysége, annál nagyobb lesz a GPU memóriaterülete.

Használja a instance_group_count paraméter munkafolyamatok hozzáadásához és a FIL-háttér átviteli sebességének növeléséhez, ami nagyobb CPU- és GPU-memóriafelhasználást eredményez. Ezenkívül vegye figyelembe a SageMaker-specifikus változókat, amelyek az átviteli sebesség növelésére állnak rendelkezésre, például a HTTP-szálak, a HTTP-puffer mérete, a kötegméret és a maximális késleltetés.

Következtetés

Ebben a bejegyzésben a FIL-háttérbe mélyedtünk, amelyet a Triton Inference Server támogat a SageMakeren. Ez a háttérprogram biztosítja a faalapú modellek CPU- és GPU-gyorsítását, például a népszerű XGBoost algoritmust. Számos lehetőség közül választhat, hogy a legjobb következtetéseket lehessen levonni, például a kötegméreteket, az adatbeviteli formátumokat és más olyan tényezőket, amelyek az Ön igényei szerint hangolhatók. A SageMaker lehetővé teszi, hogy ezt a képességet egyetlen és több modellből álló végpontokkal is használja a teljesítmény és a költségmegtakarítás egyensúlya érdekében.

Javasoljuk, hogy olvassa el az ebben a bejegyzésben található információkat, és nézze meg, hogy a SageMaker képes-e kielégíteni a tárhely-igényeit a faalapú modellek kiszolgálásához, és megfelel-e a költségcsökkentési és a munkaterhelési teljesítmény követelményeinek.

Az ebben a bejegyzésben hivatkozott jegyzetfüzet megtalálható a SageMaker példákban GitHub tárház. Ezenkívül megtalálhatja a FIL háttérprogramjának legújabb dokumentációját GitHub.

A szerzőkről

Hosting ML Models on Amazon SageMaker using Triton: XGBoost, LightGBM, and Treelite Models PlatoBlockchain Data Intelligence. Vertical Search. Ai. Raghu Ramesha az Amazon SageMaker Service csapatának vezető ML Solutions Architect. Arra összpontosít, hogy segítse az ügyfeleket az ML termelési munkaterhelések nagyarányú SageMaker-re való felépítésében, telepítésében és migrálásában. A gépi tanulás, a mesterséges intelligencia és a számítógépes látás tartományaira specializálódott, és az UT Dallas Egyetemen szerzett mesterfokozatot számítástechnikából. Szabadidejében szívesen utazik és fényképez.

James Parker az Amazon Web Services megoldástervezője. Együttműködik az Amazon.com-tal az AWS technológiai megoldások tervezésében, kiépítésében és üzembe helyezésében, és különösen érdeklődik az AI és a gépi tanulás iránt. Szabadidejében szívesen keres új kultúrákat, új tapasztalatokat, és naprakész marad a legújabb technológiai trendekkel.

Dhawal Patel az AWS vezető gépi tanulási építésze. Az elosztott számítástechnikával és a mesterséges intelligenciával kapcsolatos problémákon a nagyvállalatoktól a közepes méretű startupokig számos szervezettel dolgozott együtt. A mély tanulásra összpontosít, beleértve az NLP-t és a számítógépes látást. Segít az ügyfeleknek abban, hogy nagy teljesítményű modellkövetkeztetést érjenek el az Amazon SageMakeren.

Jiahong Liu az NVIDIA Cloud Service Provider csapatának megoldástervezője. Segíti az ügyfeleket a gépi tanulási és mesterséges intelligencia-megoldások elfogadásában, amelyek az NVIDIA gyorsított számítástechnikáját használják ki a képzési és következtetési kihívások megoldására. Szabadidejében szereti az origamit, a barkácsprojekteket és a kosárlabdát.

Kshitiz Gupta az NVIDIA megoldástervezője. Szívesen oktatja felhőügyfeleit az NVIDIA által kínált GPU AI-technológiákról, és segít nekik gépi tanulási és mély tanulási alkalmazásaik felgyorsításában. Munkán kívül szeret futni, túrázni és vadvilágot nézni.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
A jövő pénzverése – Adryenn Ashley. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Időbélyeg: May 2, 2023

Időbélyeg: 30. április 2024.

Tanulás átvitele a TensorFlow objektumészlelési modellekhez az Amazon SageMakerben

Forrás klaszter:

AWS gépi tanulás

Forrás csomópont: 1736165

Időbélyeg: 4. november 2022.

Újra kiadta Platón

Hogyan oktatja ki a Sophos egy nagy teljesítményű, könnyű PDF kártevő-keresőt ultra skálán az Amazon SageMaker segítségével

Szerezzen jobb betekintést az értékelésekből az Amazon Comprehend használatával

Hozzon létre egy oltásellenőrző megoldást az Amazon Textract | Lekérdezések funkciójával Amazon webszolgáltatások

Az Amazon Kendra frissített Salesforce csatlakozójának (V2) bejelentése

Az Amazon SageMaker Autopilot akár nyolcszor gyorsabb az AutoGluon által hajtott új együttes edzésmóddal

Hogyan használja a Yara az Amazon SageMaker MLOps funkcióit az ammóniagyáraik energiaoptimalizálásának skálázására

Tanulás átvitele a TensorFlow objektumészlelési modellekhez az Amazon SageMakerben

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók