ML-mallien isännöinti Amazon SageMakerissa Tritonia käyttämällä: XGBoost-, LightGBM- ja Treelite-malleja

Julkaissut Platon

seuraajia: 0

Yksi tämän päivän suosituimmista malleista on XGBoost. XGBoostilla on kyky ratkaista erilaisia ongelmia, kuten luokittelu ja regressio, ja siitä on tullut suosittu vaihtoehto, joka kuuluu myös puupohjaisten mallien luokkaan. Tässä viestissä sukeltamme syvälle nähdäksemme, miten Amazon Sage Maker voi palvella näitä malleja käyttämällä NVIDIA Triton Inference Server. Reaaliaikaisilla päättelytyökuormilla voi olla eritasoisia vaatimuksia ja palvelutasosopimuksia (SLA) latenssin ja suorituskyvyn suhteen, ja ne voidaan täyttää käyttämällä SageMakerin reaaliaikaisia päätepisteitä.

SageMaker tarjoaa yhden mallin päätepisteitä, joiden avulla voit ottaa käyttöön yhden koneoppimismallin (ML) loogista päätepistettä vastaan. Muissa käyttötapauksissa voit hallita kustannuksia ja suorituskykyä käyttämällä usean mallin päätepisteet, joiden avulla voit määrittää useita malleja isännöimään loogisen päätepisteen takana. Riippumatta valitsemastasi vaihtoehdosta, SageMaker-päätepisteet mahdollistavat skaalautuvan mekanismin vaativimmillekin yritysasiakkaille samalla kun ne tarjoavat lisäarvoa lukuisista ominaisuuksista, kuten varjomuunnelmia, automaattinen skaalaus, ja alkuperäisen integroinnin kanssa amazonin pilvikello (lisätietoja, katso CloudWatch-mittarit usean mallin päätepisteiden käyttöönotuksiin).

Triton tukee erilaisia taustaohjelmia moottoreina, jotka tukevat eri ML-mallien ajoa ja palvelua johtopäätösten tekemiseksi. Jokaisen Tritonin käyttöönoton yhteydessä on erittäin tärkeää tietää, miten taustakäyttäytyminen vaikuttaa työkuormituksiisi ja mitä odottaa, jotta voit menestyä. Tässä viestissä autamme sinua ymmärtämään Forest Inference Library (FIL) -taustaohjelma, jota Triton tukee SageMakerissa, jotta voit tehdä tietoon perustuvan päätöksen työkuormituksillesi ja saada parhaan mahdollisen suorituskyvyn ja kustannusoptimoinnin.

Sukella syvään FIL-taustajärjestelmään

Triton tukee FIL-taustaohjelma palvelemaan puumalleja, mm XGBoost, LightGBM, scikit opittava Satunnainen metsä, RAPIDS cuML Random Forestja kaikki muut tuetut mallit Treeliitti. Näitä malleja on käytetty pitkään ongelmien, kuten luokittelun tai regression, ratkaisemiseen. Vaikka tämäntyyppiset mallit ovat perinteisesti toimineet suorittimilla, näiden mallien suosio ja päättelyvaatimukset ovat johtaneet erilaisiin tekniikoihin päättelyn suorituskyvyn parantamiseksi. FIL-taustajärjestelmä hyödyntää monia näistä tekniikoista käyttämällä cuML-rakenteita, ja se on rakennettu C++:aan ja CUDA-ydinkirjastoon optimoimaan päättelyn suorituskykyä GPU-kiihdyttimissä.

FIL-taustajärjestelmä käyttää cuML:n kirjastoja CPU- tai GPU-ytimien nopeuttamiseen oppimisen nopeuttamiseksi. Näiden prosessorien käyttämiseksi dataan viitataan isäntämuistista (esimerkiksi NumPy-taulukot) tai GPU-taulukot (uDF, Numba, cupY tai mistä tahansa kirjastosta, joka tukee __cuda_array_interface__) API. Kun tiedot on ladattu muistiin, FIL-taustajärjestelmä voi suorittaa käsittelyn kaikissa käytettävissä olevissa prosessorin tai grafiikkasuorittimen ytimissä.

FIL-taustasäikeet voivat kommunikoida keskenään käyttämättä isännän jaettua muistia, mutta ensemble-työkuormituksessa isäntämuistia tulisi harkita. Seuraava kaavio esittää ensemble-schedler-ajonaikaisen arkkitehtuurin, jossa voit hienosäätää muistialueita, mukaan lukien CPU-osoitteellinen jaettu muisti, jota käytetään prosessien väliseen tiedonsiirtoon Tritonin (C++) ja Python-prosessin (Python-taustaosa) välillä vaihtamista varten. tensorit (tulo/lähtö) FIL-taustaohjelmalla.

ML-mallien isännöinti Amazon SageMakerissa Tritonin avulla: XGBoost, LightGBM ja Treelite Models PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Triton Inference Server tarjoaa konfiguroitavia vaihtoehtoja kehittäjille työkuormituksen säätämiseksi ja mallin suorituskyvyn optimoimiseksi. Kokoonpano dynamic_batching sallii Tritonin pitää asiakaspuolen pyynnöt ja jakaa ne palvelinpuolella, jotta FIL:n rinnakkaislaskentaa voidaan käyttää tehokkaasti päätelläkseen koko erän yhteen. Vaihtoehto max_queue_delay_microseconds tarjoaa varman hallinnan siitä, kuinka kauan Triton odottaa erän muodostamista.

On olemassa useita muita FIL-kohtaisia käytettävissä olevat vaihtoehdot jotka vaikuttavat suorituskykyyn ja käyttäytymiseen. Suosittelemme aloittamaan storage_type. Kun taustaa käytetään GPU:lla, FIL luo uuden muisti-/tietorakenteen, joka on esitys puusta, jonka suorituskykyyn ja jalanjälkiin FIL voi vaikuttaa. Tämä on konfiguroitavissa ympäristöparametrilla storage_type, jossa on vaihtoehdot tiheä, harva ja automaattinen. Tiheän vaihtoehdon valitseminen kuluttaa enemmän GPU-muistia, eikä se aina johda parempaan suorituskykyyn, joten on parasta tarkistaa. Sitä vastoin harva vaihtoehto kuluttaa vähemmän GPU-muistia ja voi mahdollisesti toimia yhtä hyvin tai paremmin kuin tiheä. Automaattinen valinta saa mallin oletuksena tiheäksi, ellei se kuluta huomattavasti enemmän GPU-muistia kuin harva.

Mitä tulee mallin suorituskykyyn, kannattaa harkita painottamista threads_per_tree vaihtoehto. Yksi asia, jota saatat yliarvioida todellisissa skenaarioissa, on se threads_per_tree voi vaikuttaa suoritustehoon enemmän kuin millään muulla parametrilla. Sen asettaminen mihin tahansa potenssiin 2 välillä 1–32 on oikeutettua. Tämän parametrin optimaalista arvoa on vaikea ennustaa, mutta kun palvelimen odotetaan käsittelevän suurempia kuormia tai käsittelevän suurempia eräkokoja, se yleensä hyötyy suuremmasta arvosta kuin silloin, kun se käsittelee muutaman rivin kerrallaan.

Toinen huomioitava parametri on algo, joka on myös saatavilla, jos käytät GPU:ta. Tämä parametri määrittää algoritmin, jota käytetään päättelypyyntöjen käsittelyyn. Tätä varten tuetut vaihtoehdot ovat ALGO_AUTO, NAIVE, TREE_REORGja BATCH_TREE_REORG. Nämä asetukset määrittävät, kuinka puun solmut on järjestetty, ja ne voivat myös parantaa suorituskykyä. The ALGO_AUTO vaihtoehdon oletusarvo on NAIVE harvaan säilytykseen ja BATCH_TREE_REORG tiheää säilytystä varten.

Lopuksi FIL:n mukana tulee Shapley-selittäjä, joka voidaan aktivoida käyttämällä treeshap_output parametri. Sinun tulee kuitenkin pitää mielessä, että Shapley-lähdöt heikentävät suorituskykyä tulostekoonsa vuoksi.

Mallin muoto

Tällä hetkellä ei ole olemassa standarditiedostomuotoa metsäpohjaisten mallien tallentamiseen. jokainen kehys pyrkii määrittelemään oman muotonsa. Useiden syöttötiedostomuotojen tukemiseksi FIL tuo tiedot avoimen lähdekoodin avulla Treeliitti kirjasto. Näin FIL voi tukea malleja, jotka on koulutettu suosittuihin kehyksiin, kuten XGBoost ja LightGBM. Huomaa, että antamasi mallin muoto on määritettävä model_type kohdassa määritetty konfigurointiarvo config.pbtxt tiedosto.

Config.pbtxt

Jokainen malli a mallin arkisto tulee sisältää mallikokoonpano, joka sisältää vaaditut ja valinnaiset tiedot mallista. Tyypillisesti tämä kokoonpano tarjotaan kohdassa a config.pbtxt tiedosto määritettynä nimellä ModelConfig protobuf. Lisätietoja konfigurointiasetuksista on kohdassa Mallin kokoonpano. Seuraavassa on joitain mallin kokoonpanoparametreja:

max_erän_koko – Tämä määrittää suurimman eräkoon, joka voidaan siirtää tähän malliin. Yleensä ainoa rajoitus FIL-taustajärjestelmään siirrettävien erien koon suhteen on käytettävissä oleva muisti, jolla ne voidaan käsitellä. GPU-ajoissa käytettävissä oleva muisti määräytyy Tritonin CUDA-muistivarannon koon mukaan, joka voidaan asettaa komentoriviargumentilla palvelinta käynnistettäessä.
panos – Tämän osan vaihtoehdot kertovat Tritonille, kuinka monta toimintoa jokaiselle tulonäytteelle odotetaan.
ulostulo – Tämän osan vaihtoehdot kertovat Tritonille, kuinka monta lähtöarvoa kullakin näytteellä on. Jos predict_proba vaihtoehdon arvoksi on asetettu tosi, niin kullekin luokalle palautetaan todennäköisyysarvo. Muussa tapauksessa palautetaan yksi arvo, joka osoittaa annetulle näytteelle ennustetun luokan.
instance_group – Tämä määrittää, kuinka monta tämän mallin esiintymää luodaan ja käyttävätkö ne GPU:ta vai CPU:ta.
malli_tyyppi – Tämä merkkijono osoittaa, missä muodossa malli on (xgboost_json tässä esimerkissä, mutta xgboost, lightgbmja tl_checkpoint ovat myös kelvollisia muotoja).
ennusta_todennäköisyys – Jos arvoksi asetetaan tosi, todennäköisyysarvot palautetaan kullekin luokalle pelkän luokan ennusteen sijaan.
output_class – Tämä on asetettu arvoon tosi luokitusmalleille ja epätosi regressiomalleille.
kynnys – Tämä on pisteyskynnys luokituksen määrittämiseksi. Kun output_class arvo on tosi, tämä on annettava, vaikka sitä ei käytetä, jos predict_proba on myös asetettu todeksi.
varaston_tyyppi – Yleensä AUTO-käytön tähän asetukseen pitäisi vastata useimpia käyttötapauksia. Jos AUTO-tallennus on valittuna, FIL lataa mallin käyttämällä joko harvaa tai tiheää esitystä mallin likimääräisen koon perusteella. Joissakin tapauksissa saatat haluta asettaa tämän nimenomaisesti arvoon SPARSE pienentääksesi suurten mallien muistia.

Triton Inference Server SageMakerissa

SageMaker mahdollistaa voit ottaa käyttöön sekä yhden mallin että usean mallin päätepisteitä NVIDIA Triton Inference Serverin avulla. Seuraava kuva esittää Triton Inference Serverin korkean tason arkkitehtuuria. The mallin arkisto on tiedostojärjestelmäpohjainen arkisto malleista, jotka Triton tulee saataville päätelmiä varten. Päätelmäpyynnöt saapuvat palvelimelle ja reititetään sopivaan mallikohtaiseen ajastimeen. Tritonin työvälineet useita ajoitus- ja eräalgoritmeja jotka voidaan konfiguroida mallikohtaisesti. Jokaisen mallin ajastin suorittaa valinnaisesti päättelypyyntöjen erän ja välittää pyynnöt sitten backend vastaa mallityyppiä. Taustajärjestelmä suorittaa päättelyn käyttämällä eräpyynnöissä annettuja syötteitä pyydettyjen tulosteiden tuottamiseksi. Lähdöt palautetaan sitten.

Kun määrität automaattisen skaalausryhmän SageMaker-päätepisteitä varten, sinun kannattaa harkita sitä SageMakerVariantInvocationsPerInstance ensisijaisena kriteerinä automaattisen skaalausryhmän skaalausominaisuuksien määrittämisessä. Lisäksi sen mukaan, toimivatko mallit GPU:lla vai CPU:lla, voit myös harkita CPUUtilisoinnin tai GPUUtilisoinnin käyttöä lisäehtoina. Huomaa, että yhden mallin päätepisteille, koska kaikki käyttöönotetut mallit ovat samoja, on melko yksinkertaista määrittää oikeat käytännöt, jotka vastaavat SLA-sopimuksia. Usean mallin päätepisteissä suosittelemme samanlaisten mallien käyttöönottoa tietyn päätepisteen takana, jotta ennustettava suorituskyky olisi vakaampi. Käyttötapauksissa, joissa käytetään erikokoisia ja erikokoisia malleja, saatat haluta erottaa nämä työkuormat useiden useiden mallien päätepisteiden kesken tai viettää aikaa automaattisen skaalausryhmän käytäntöjen hienosäätämiseen parhaan kustannus- ja suoritustasapainon saavuttamiseksi.

ML-mallien isännöinti Amazon SageMakerissa Tritonin avulla: XGBoost, LightGBM ja Treelite Models PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Luettelo SageMaker-päätelmän tukemista NVIDIA Triton Deep Learning Containers (DLC) -säilöistä on kohdassa Käytettävissä olevat Deep Learning Containers -kuvat.

SageMaker-muistikirjan esittely

ML-sovellukset ovat monimutkaisia ja voivat usein vaatia tietojen esikäsittelyä. Tässä muistikirjassa perehdymme puupohjaisen ML-mallin, kuten XGBoostin, käyttöönottoon käyttämällä Tritonin FIL-taustaohjelmaa SageMaker-monimallipäätepisteessä. Käsittelemme myös, kuinka voit toteuttaa Python-pohjaisen tietojen esikäsittelyn päättelyputken mallillesi käyttämällä Tritonin ensemble-ominaisuutta. Tämä antaa meille mahdollisuuden lähettää raakadataa asiakaspuolelta ja saada sekä tietojen esikäsittelyä että mallipäätelmiä tapahtua Triton SageMaker -päätepisteessä optimaalisen päättelyn suorituskyvyn saavuttamiseksi.

Triton-mallikokonaisuusominaisuus

Triton Inference Server yksinkertaistaa huomattavasti tekoälymallien käyttöönottoa tuotannossa. Triton Inference Serverin mukana tulee kätevä ratkaisu, joka yksinkertaistaa esi- ja jälkikäsittelyputkien rakentamista. Triton Inference Server -alusta tarjoaa ensemble-schedulerin, joka vastaa päättelyprosessiin osallistuvien mallien liukuhihnasta varmistaen samalla tehokkuuden ja suorituskyvyn optimoinnin. Ensemble-mallien käyttäminen voi välttää välitensorien siirtämisen ylimääräiset kustannukset ja minimoida Tritonille lähetettävien pyyntöjen määrän.

ML-mallien isännöinti Amazon SageMakerissa Tritonin avulla: XGBoost, LightGBM ja Treelite Models PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tässä muistikirjassa näytämme, kuinka ensemble-ominaisuutta käytetään tietojen esikäsittelyn putkilinjan rakentamiseen XGBoost-mallipäätelmän avulla, ja voit ekstrapoloida sen ja lisätä mukautetun jälkikäsittelyn liukuhihnaan.

Määritä ympäristö

Aloitamme tarvittavan ympäristön luomisesta. Asennamme tarvittavat riippuvuudet malliputkistomme pakkaamiseen ja suoritamme päätelmiä Triton Inference Serverin avulla. Määrittelemme myös AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) rooli, joka antaa SageMakerille pääsyn malliesineisiin ja NVIDIA Tritoniin Amazonin elastisten säiliörekisteri (Amazon ECR) kuva. Katso seuraava koodi:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Luo Conda-ympäristö riippuvuuksien esikäsittelyä varten

Tritonin Python-taustaohjelma edellyttää, että käytämme a Conda ympäristön mahdollisille lisäriippuvuuksille. Tässä tapauksessa käytämme Python-taustaa raakatietojen esikäsittelyyn ennen sen syöttämistä XGBoost-malliin, joka on käynnissä FIL-taustajärjestelmässä. Vaikka käytimme alun perin RAPIDS cuDF:ää ja cuML:ää tietojen esikäsittelyyn, käytämme tässä Pandaa ja scikit-learnia esikäsittelyriippuvuuksina päättelyn aikana. Teemme tämän kolmesta syystä:

Näytämme, kuinka voit luoda Conda-ympäristön riippuvuuksillesi ja miten se pakataan odotettu muoto Tritonin Python-taustaohjelmalla.
Esittämällä esikäsittelymallin, joka toimii Python-taustajärjestelmässä CPU:ssa, kun XGBoost toimii GPU:ssa FIL-taustajärjestelmässä, havainnollistamme, kuinka kukin Tritonin ensemble-putkilinjan malli voi toimia eri kehystaustajärjestelmässä sekä erilaisissa laitteistokokoonpanoissa.
Se korostaa, kuinka RAPIDS-kirjastot (cuDF, cuML) ovat yhteensopivia CPU-vastineidensa (Pandas, scikit-learn) kanssa. Voimme esimerkiksi näyttää kuinka LabelEncoders cuML:ssä luotua voidaan käyttää scikit-learnissä ja päinvastoin.

Seuraamme ohjeita Tritonin dokumentaatio esikäsittelyriippuvuuksien (scikit-learn ja Pandas) pakkaamiseen käytettäväksi Python-taustajärjestelmässä Conda-ympäristön TAR-tiedostona. Bash-skripti create_prep_env.sh luo Conda-ympäristön TAR-tiedoston, jonka jälkeen siirrämme sen esikäsittelymallihakemistoon. Katso seuraava koodi:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

Kun suoritamme edellisen skriptin, se luo preprocessing_env.tar.gz, jonka kopioimme esikäsittelyhakemistoon:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Määritä esikäsittely Triton Python -taustajärjestelmällä

Esikäsittelyyn käytämme Triton'sia Python-taustaohjelma suorittaa taulukkomuotoisen tietojen esikäsittelyn (kategorinen koodaus) palvelimelle tulevien raakatietopyyntöjen päättelyn aikana. Lisätietoja koulutuksen aikana tehdystä esikäsittelystä on kohdassa harjoitusmuistikirja.

Python-taustajärjestelmä mahdollistaa esikäsittelyn, jälkikäsittelyn ja minkä tahansa muun mukautetun logiikan käyttöönoton Pythonissa ja toimituksen Tritonin kanssa. Tritonin käyttäminen SageMakerissa edellyttää, että meidän on ensin määritettävä mallin arkistokansio, joka sisältää mallit, joita haluamme palvella. Olemme jo luoneet Python-tietojen esikäsittelyn mallin, jota kutsutaan esikäsittelyksi sisään cpu_model_repository ja gpu_model_repository.

ML-mallien isännöinti Amazon SageMakerissa Tritonin avulla: XGBoost, LightGBM ja Treelite Models PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tritonilla on erityisiä vaatimuksia mallivaraston asettelulle. Ylimmän tason mallin arkistohakemistossa jokaisella mallilla on oma alihakemistonsa, joka sisältää tiedot vastaavasta mallista. Jokaisessa Tritonin mallihakemistossa on oltava vähintään yksi numeerinen alihakemisto, joka edustaa mallin versiota. Arvo 1 edustaa Python-esikäsittelymallimme versiota 1. Jokaista mallia ajaa tietty taustajärjestelmä, joten jokaisessa version alihakemistossa on oltava kyseisen taustajärjestelmän vaatima malliartefaktti. Tässä esimerkissä käytämme Python-taustaohjelmaa, joka edellyttää, että käyttämäsi Python-tiedosto on nimeltään model.py, ja tiedoston on toteutettava tiettyjä toimintoja. Jos käyttäisimme PyTorch-taustaohjelmaa, vaadittaisiin model.pt-tiedosto ja niin edelleen. Lisätietoja mallitiedostojen nimeämiskäytännöistä on kohdassa Mallitiedostot.

- malli.py Tässä käyttämämme Python-tiedosto toteuttaa kaiken taulukkomuotoisen tietojen esikäsittelylogiikan muuntaakseen raakadataa ominaisuuksiksi, jotka voidaan syöttää XGBoost-malliimme.

Jokaisessa Triton-mallissa on myös oltava a config.pbtxt mallin kokoonpanoa kuvaava tiedosto. Lisätietoja konfigurointiasetuksista on kohdassa Mallin kokoonpano. Meidän config.pbtxt tiedosto määrittää taustaohjelman pythoniksi ja kaikki raakatiedon syöttösarakkeet sekä esikäsitellyn tulosteen, joka koostuu 15 ominaisuudesta. Määritämme myös, että haluamme käyttää tätä Python-esikäsittelymallia suorittimessa. Katso seuraava koodi:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Määritä puupohjainen ML-malli FIL-taustajärjestelmälle

Seuraavaksi määritimme mallihakemiston puupohjaiselle ML-mallille, kuten XGBoost, joka käyttää FIL-taustajärjestelmää.

Odotettu asettelu kohteelle cpu_memory_repository ja gpu_memory_repository ovat samanlaisia kuin aiemmin näytimme.

ML-mallien isännöinti Amazon SageMakerissa Tritonin avulla: XGBoost, LightGBM ja Treelite Models PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Täällä FIL on mallin nimi. Voimme antaa sille eri nimen, esim xgboost jos haluamme. 1 on version alihakemisto, joka sisältää mallin artefaktin. Tässä tapauksessa se on xgboost.json malli, jonka olemme tallentaneet. Luodaan tämä odotettu asettelu:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Meillä on oltava asetustiedosto config.pbtxt kuvataan puupohjaisen ML-mallin mallikonfiguraatio, jotta Tritonin FIL-taustaosa ymmärtää, kuinka sitä voidaan palvella. Katso lisätietoja uusimmasta yleisestä Tritonin konfigurointivaihtoehdot ja -kohtaiset konfigurointivaihtoehdot FIL-taustaohjelma. Keskitymme tässä esimerkissä vain muutamiin yleisimpiin ja olennaisimpiin vaihtoehtoihin.

luoda config.pbtxt varten model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Samoin perustaa config.pbtxt varten model_gpu_repository (huomaa ero on USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Määritä päättelyputki tietojen esikäsittelyn Python-taustajärjestelmästä ja FIL-taustajärjestelmästä ryhmien avulla

Nyt olemme valmiita määrittämään päättelyputken tietojen esikäsittelyä ja puupohjaista mallin päättelyä varten yhtyemalli. Ensemble-malli edustaa yhden tai useamman mallin liukuhihnaa ja tulo- ja lähtötensorien yhteyttä näiden mallien välillä. Tässä käytämme ensemble-mallia rakentaaksemme putkiston tietojen esikäsittelystä Python-taustajärjestelmässä, jota seuraa XGBoost FIL-taustajärjestelmässä.

Odotettu asettelu ensemble mallihakemisto on samanlainen kuin aiemmin näytämme:

ML-mallien isännöinti Amazon SageMakerissa Tritonin avulla: XGBoost, LightGBM ja Treelite Models PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Loimme yhtyemallin config.pbtxt ohjeen mukaan Yhtyemallit. Tärkeää on, että meidän on määritettävä kokoonpanon ajastin config.pbtxt, joka määrittää tietovirran mallien välillä kokoonpanon sisällä. Ensemble Schedler kerää lähtötensorit kussakin vaiheessa ja tarjoaa ne sisääntulotensoreina muille vaiheille spesifikaatioiden mukaisesti.

Pakkaa mallin arkisto ja lataa se Amazon S3:een

Lopuksi päädymme seuraavaan mallivarastohakemistorakenteeseen, joka sisältää Python-esikäsittelymallin ja sen riippuvuudet sekä XGBoost FIL -mallin ja mallikokonaisuuden.

ML-mallien isännöinti Amazon SageMakerissa Tritonin avulla: XGBoost, LightGBM ja Treelite Models PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Pakkaamme hakemiston ja sen sisällön muodossa model.tar.gz lataamista varten Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Tässä esimerkissä meillä on kaksi vaihtoehtoa: CPU-pohjaisen ilmentymän tai GPU-pohjaisen ilmentymän käyttäminen. GPU-pohjainen ilmentymä sopii paremmin, kun tarvitset suurempaa prosessointitehoa ja haluat käyttää CUDA-ytimiä.

Luo ja lataa mallipaketti CPU-pohjaiselle esiintymälle (optimoitu CPU:lle) seuraavalla koodilla:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Luo ja lähetä mallipaketti GPU-pohjaiselle esiintymälle (optimoitu GPU:lle) seuraavalla koodilla:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Luo SageMaker-päätepiste

Meillä on nyt malliesineet S3-ämpäriin tallennettuina. Tässä vaiheessa voimme tarjota myös lisäympäristömuuttujan SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, joka määrittää Tritonin lataaman mallin nimen. Tämän avaimen arvon tulee vastata Amazon S3:een ladatun mallipaketin kansion nimeä. Tämä muuttuja on valinnainen yksittäisen mallin tapauksessa. Ensemble-mallien tapauksessa tämä avain on määritettävä, jotta Triton käynnistyy SageMakerissa.

Lisäksi voit asettaa SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT ja SAGEMAKER_TRITON_THREAD_COUNT lankojen määrän optimoimiseksi.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Käytämme edellistä mallia luodaksemme päätepisteen konfiguraation, jossa voimme määrittää päätepisteeseen haluamamme esiintymien tyypin ja määrän

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Käytämme tätä päätepistemääritystä SageMaker-päätepisteen luomiseen ja odotamme käyttöönoton päättymistä. SageMaker MME:n kanssa meillä on mahdollisuus isännöidä useita ensemble-malleja toistamalla tämä prosessi, mutta pidämme kiinni yhdestä käyttöönotosta tässä esimerkissä:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Tila vaihtuu muotoon InService kun käyttöönotto onnistuu.

Kutsu SageMaker-päätepisteessä isännöity malli

Kun päätepiste on suoritettu, voimme käyttää joitakin näyteraakatietoja tehdäksemme päätelmiä käyttämällä JSON-tiedostomuotoa. Päätelmäpyyntömuodossa Triton käyttää KFServing yhteisön standardi päättelyprotokollat. Katso seuraava koodi:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

Blogissa viitattu muistikirja löytyy osoitteesta GitHub-arkisto.

Parhaat käytännöt

Aiemmin mainitsemiemme FIL-taustajärjestelmän asetusten hienosäätömahdollisuuksien lisäksi datatutkijat voivat myös varmistaa, että taustajärjestelmän syöttötiedot optimoidaan moottorin käsittelyä varten. Aina kun mahdollista, syötä tiedot rivi-päämuodossa GPU-taulukkoon. Muut muodot vaativat sisäistä muuntamista ja kuluttavat jaksoja, mikä heikentää suorituskykyä.

Koska FIL-tietorakenteita ylläpidetään GPU-muistissa, muista puun syvyys. Mitä syvempi puun syvyys, sitä suurempi on GPU-muistin jalanjälki.

Käytä instance_group_count parametri työprosessien lisäämiseksi ja FIL-taustajärjestelmän suorituskyvyn lisäämiseksi, mikä lisää CPU- ja GPU-muistin kulutusta. Harkitse lisäksi SageMaker-spesifisiä muuttujia, jotka ovat käytettävissä suorituskyvyn lisäämiseksi, kuten HTTP-säikeet, HTTP-puskurin koko, eräkoko ja enimmäisviive.

Yhteenveto

Tässä viestissä perehdymme syvälle FIL-taustajärjestelmään, jota Triton Inference Server tukee SageMakerissa. Tämä taustaohjelma tarjoaa sekä CPU- että GPU-kiihdytyksen puupohjaisissa malleissasi, kuten suosittu XGBoost-algoritmi. On monia vaihtoehtoja, joita kannattaa harkita parhaan suorituskyvyn saamiseksi johtopäätösten tekemiseen, kuten eräkoot, tiedonsyöttömuodot ja muut tekijät, jotka voidaan säätää vastaamaan tarpeitasi. SageMakerin avulla voit käyttää tätä ominaisuutta yhden ja usean mallin päätepisteiden kanssa suorituskyvyn ja kustannussäästöjen tasapainottamiseksi.

Kehotamme sinua ottamaan tämän viestin tiedot ja katsomaan, pystyykö SageMaker vastaamaan isännöintitarpeisiisi palvellakseen puupohjaisia malleja, jotka täyttävät vaatimukset kustannusten vähentämiseksi ja työkuorman suorituskyvyn suhteen.

Tässä viestissä viitattu muistikirja löytyy SageMaker-esimerkeistä GitHub-arkisto. Lisäksi löydät uusimman dokumentaation FIL-taustaohjelmasta GitHub.

Tietoja Tekijät

ML-mallien isännöinti Amazon SageMakerissa Tritonin avulla: XGBoost, LightGBM ja Treelite Models PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. Raghu Ramesha on vanhempi ML-ratkaisuarkkitehti Amazon SageMaker Service -tiimin kanssa. Hän keskittyy auttamaan asiakkaita rakentamaan, ottamaan käyttöön ja siirtämään ML-tuotannon työmäärät SageMakeriin suuressa mittakaavassa. Hän on erikoistunut koneoppimiseen, tekoälyyn ja tietokonenäköalueisiin, ja hänellä on tietojenkäsittelytieteen maisterin tutkinto UT Dallasista. Vapaa-ajallaan hän nauttii matkustamisesta ja valokuvaamisesta.

James Park on ratkaisuarkkitehti Amazon Web Servicesissä. Hän työskentelee Amazon.comin kanssa suunnitella, rakentaa ja ottaa käyttöön teknologiaratkaisuja AWS:ssä, ja hän on erityisen kiinnostunut tekoälystä ja koneoppimisesta. Vapaa-ajallaan hän etsii uusia kulttuureja, uusia kokemuksia ja pysyy ajan tasalla viimeisimmistä teknologiatrendeistä.

Dhawal Patel on AWS:n koneoppimisarkkitehti. Hän on työskennellyt organisaatioiden kanssa suurista yrityksistä keskikokoisiin startup-yrityksiin hajautettuun tietojenkäsittelyyn ja tekoälyyn liittyvissä ongelmissa. Hän keskittyy syväoppimiseen, mukaan lukien NLP- ja tietokonenäköalueet. Hän auttaa asiakkaita tekemään korkean suorituskyvyn mallipäätelmiä Amazon SageMakerissa.

Jiahong Liu on ratkaisuarkkitehti NVIDIA:n Cloud Service Provider -tiimissä. Hän auttaa asiakkaita ottamaan käyttöön koneoppimis- ja tekoälyratkaisuja, jotka hyödyntävät NVIDIA:n nopeutettua tietojenkäsittelyä vastaamaan heidän koulutus- ja päättelyhaasteisiinsa. Vapaa-ajallaan hän nauttii origamista, tee-se-itse-projekteista ja koripallon pelaamisesta.

Kshitiz Gupta on NVIDIA:n ratkaisuarkkitehti. Hän nauttii pilviasiakkaiden kouluttamisesta NVIDIAn tarjoamista GPU-AI-tekniikoista ja heidän avustamisestaan heidän koneoppimis- ja syväoppimissovellustensa nopeuttamisessa. Työn ulkopuolella hän nauttii juoksemisesta, patikoinnista ja villieläinten katselusta.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoAiStream. Web3 Data Intelligence. Tietoa laajennettu. Pääsy tästä.
Tulevaisuuden lyöminen Adryenn Ashley. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Aikaleima: Voi 2, 2023

Aikaleima: Syyskuu 7, 2023

Julkaissut Platon

Kuinka Sophos kouluttaa tehokkaan, kevyen PDF-haittaohjelmien tunnistimen ultra-mittakaavassa Amazon SageMakerin avulla

Paranna Amazon Rekognition Face Searchin tarkkuutta käyttäjävektoreilla | Amazon Web Services

Bundesliigan ottelun tosiasian paineenhallinta: pelaajien suoritusten arviointi korkeapainetilanteissa AWS:llä

Amazon SageMaker Automatic Model Tuning valitsee nyt automaattisesti virityskokoonpanot käytettävyyden ja kustannustehokkuuden parantamiseksi | Amazon Web Services

Vikojen havaitseminen korkearesoluutioisissa kuvissa käyttämällä kaksivaiheisia Amazon Rekognition Custom Labels -malleja | Amazon Web Services

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili