Eden najbolj priljubljenih modelov, ki so danes na voljo, je XGBoost. Z možnostjo reševanja različnih problemov, kot sta klasifikacija in regresija, je XGBoost postal priljubljena možnost, ki spada tudi v kategorijo drevesnih modelov. V tej objavi se poglobimo, da vidimo, kako Amazon SageMaker lahko služi tem modelom z uporabo NVIDIA Triton Inference Server. Delovne obremenitve sklepanja v realnem času imajo lahko različne ravni zahtev in sporazumov o ravni storitev (SLA) v smislu zakasnitve in prepustnosti, izpolniti pa jih je mogoče z uporabo končnih točk SageMaker v realnem času.
SageMaker ponuja končne točke enega modela, ki vam omogočajo uvedbo enega samega modela strojnega učenja (ML) proti logični končni točki. Za druge primere uporabe se lahko odločite za upravljanje stroškov in učinkovitosti z uporabo končne točke več modelov, ki vam omogočajo, da določite več modelov za gostovanje za logično končno točko. Ne glede na možnost, ki jo izberete, končne točke SageMaker omogočajo razširljiv mehanizem tudi za najzahtevnejše poslovne stranke, hkrati pa zagotavljajo vrednost v množici funkcij, vključno z senčne variante, samodejno skaliranjein domača integracija z amazoncloudwatch (za več informacij glejte Meritve CloudWatch za uvedbe končnih točk z več modeli).
Triton podpira različna ozadja kot motorje za podporo izvajanja in serviranja različnih modelov ML za sklepanje. Za vsako uvedbo Tritona je ključnega pomena vedeti, kako vedenje zaledja vpliva na vaše delovne obremenitve in kaj lahko pričakujete, da boste lahko uspešni. V tej objavi vam pomagamo razumeti Zaledje Forest Inference Library (FIL)., ki ga podpira Triton na SageMakerju, tako da se lahko premišljeno odločite za svoje delovne obremenitve in dobite najboljšo možno učinkovitost in optimizacijo stroškov.
Poglobite se v zaledje FIL
Triton podpira FIL backend služiti drevesnim modelom, kot npr XGBoost, LightGBM, scikit-učiti Naključni gozd, RAPIDS cuML Naključni gozdin kateri koli drug model, ki ga podpira Treelite. Ti modeli se že dolgo uporabljajo za reševanje problemov, kot sta klasifikacija ali regresija. Čeprav se te vrste modelov tradicionalno izvajajo na procesorjih, so priljubljenost teh modelov in zahteve po sklepanju privedle do različnih tehnik za povečanje zmogljivosti sklepanja. Zaledje FIL uporablja veliko teh tehnik z uporabo konstruktov cuML in je zgrajeno na C++ in jedrni knjižnici CUDA za optimizacijo zmogljivosti sklepanja na pospeševalnikih GPU.
Zaledje FIL uporablja knjižnice cuML za uporabo jeder CPE ali GPU za pospešitev učenja. Za uporabo teh procesorjev se podatki sklicujejo na pomnilnik gostitelja (na primer polja NumPy) ali polja GPE (uDF, Numba, cuPY ali katera koli knjižnica, ki podpira __cuda_array_interface__
) API. Ko so podatki razvrščeni v pomnilnik, lahko zaledje FIL izvaja obdelavo v vseh razpoložljivih jedrih CPE ali GPE.
Zaledne niti FIL lahko komunicirajo med seboj brez uporabe skupnega pomnilnika gostitelja, toda pri delovnih obremenitvah ansambla je treba upoštevati pomnilnik gostitelja. Naslednji diagram prikazuje arhitekturo izvajalnega okolja ansambelskega razporejevalnika, kjer imate možnost natančne nastavitve pomnilniških območij, vključno s skupnim pomnilnikom, naslovljivim CPE, ki se uporablja za medprocesno komunikacijo med Tritonom (C++) in procesom Python (zaledje Python) za izmenjavo tenzorji (vhod/izhod) z zaledjem FIL.
Triton Inference Server ponuja nastavljive možnosti za razvijalce, da prilagodijo svoje delovne obremenitve in optimizirajo zmogljivost modela. Konfiguracija dynamic_batching
omogoča Tritonu, da zadrži zahteve na strani odjemalca in jih serira na strani strežnika, da učinkovito uporabi vzporedno računanje FIL za sklepanje celotnega paketa skupaj. Možnost max_queue_delay_microseconds
ponuja varen nadzor nad tem, kako dolgo Triton čaka na oblikovanje serije.
Obstajajo številni drugi, specifični za FIL možnosti ki vplivajo na uspešnost in vedenje. Predlagamo, da začnete z storage_type
. Pri izvajanju ozadja na GPU FIL ustvari novo pomnilniško/podatkovno strukturo, ki je predstavitev drevesa, za katerega lahko FIL vpliva na zmogljivost in odtis. To je mogoče konfigurirati s parametrom okolja storage_type
, ki ima možnosti dense, sparse in auto. Če izberete gosto možnost, boste porabili več pomnilnika GPE in ne boste vedno zagotovili boljše zmogljivosti, zato je najbolje, da preverite. V nasprotju s tem pa bo redka možnost porabila manj pomnilnika GPE in bo morda delovala enako ali bolje kot gosta. Izbira samodejnega bo povzročila, da bo model privzeto nastavljen na gosto, razen če bo s tem porabil bistveno več pomnilnika GPE kot redek.
Ko gre za zmogljivost modela, lahko razmislite o poudarjanju threads_per_tree
možnost. Ena stvar, ki jo lahko v scenarijih resničnega sveta preveč porabite, je to threads_per_tree
lahko večji vpliv na prepustnost kot kateri koli drug parameter. Nastavitev na katero koli potenco 2 od 1–32 je legitimna. Težko je predvideti optimalno vrednost za ta parameter, toda ko se od strežnika pričakuje večja obremenitev ali obdelava večjih paketov, ima običajno koristi od večje vrednosti kot takrat, ko obdeluje nekaj vrstic hkrati.
Drug parameter, na katerega morate biti pozorni, je algo
, ki je na voljo tudi, če uporabljate GPE. Ta parameter določa algoritem, ki se uporablja za obdelavo zahtev za sklepanje. Podprte možnosti za to so ALGO_AUTO
, NAIVE
, TREE_REORG
in BATCH_TREE_REORG
. Te možnosti določajo, kako so organizirana vozlišča v drevesu, in lahko povzročijo tudi izboljšanje zmogljivosti. The ALGO_AUTO
možnost je privzeta NAIVE
za redko shranjevanje in BATCH_TREE_REORG
za gosto skladiščenje.
Nazadnje, FIL prihaja s Shapley pojasnjevalnikom, ki ga je mogoče aktivirati z uporabo treeshap_output
parameter. Vendar ne smete pozabiti, da izhodi Shapley škodujejo zmogljivosti zaradi velikosti izhoda.
Format modela
Trenutno ni standardne oblike datoteke za shranjevanje gozdnih modelov; vsak okvir teži k definiranju lastne oblike. Da bi podprl več formatov vhodnih datotek, FIL uvaža podatke z odprto kodo Treelite knjižnica. To omogoča, da FIL podpira modele, usposobljene v priljubljenih okvirih, kot je npr XGBoost in LightGBM. Upoštevajte, da mora biti format modela, ki ga posredujete, nastavljen v model_type
vrednost konfiguracije, podana v config.pbtxt
Datoteka.
Config.pbtxt
Vsak model v a repozitorij modelov mora vključevati konfiguracijo modela, ki zagotavlja zahtevane in neobvezne informacije o modelu. Običajno je ta konfiguracija na voljo v a config.pbtxt
datoteka določena kot ModelConfig protobuf. Če želite izvedeti več o nastavitvah konfiguracije, glejte Konfiguracija modela. Sledi nekaj parametrov konfiguracije modela:
- max_batch_size – To določa največjo velikost serije, ki jo je mogoče posredovati temu modelu. Na splošno je edina omejitev velikosti paketov, posredovanih v zaledje FIL, pomnilnik, ki je na voljo za njihovo obdelavo. Za zagone GPE je razpoložljivi pomnilnik določen z velikostjo Tritonovega pomnilniškega področja CUDA, ki ga je mogoče nastaviti prek argumenta ukazne vrstice ob zagonu strežnika.
- vhod – Možnosti v tem razdelku povedo Tritonu število funkcij, ki jih lahko pričakuje za vsak vhodni vzorec.
- izhod – Možnosti v tem razdelku povedo Tritonu, koliko izhodnih vrednosti bo za vsak vzorec. Če je
predict_proba
možnost nastavljena na true, bo za vsak razred vrnjena vrednost verjetnosti. V nasprotnem primeru bo vrnjena ena sama vrednost, ki označuje razred, predviden za dani vzorec. - skupina_primerkov – To določa, koliko primerkov tega modela bo ustvarjenih in ali bodo uporabljali GPE ali CPE.
- model_type – Ta niz označuje, v kateri obliki je model (
xgboost_json
v tem primeru, ampakxgboost
,lightgbm
intl_checkpoint
so tudi veljavni formati). - napoved_proba – Če je nastavljeno na true, bodo vrednosti verjetnosti vrnjene za vsak razred in ne le za napoved razreda.
- izhodni_razred – To je nastavljeno na resnično za klasifikacijske modele in na napačno za regresijske modele.
- Prag – To je prag točk za določitev razvrstitve. Kdaj
output_class
je nastavljeno na true, to je treba zagotoviti, čeprav ne bo uporabljeno, čepredict_proba
je prav tako nastavljeno na true. - vrsta_shrambe – Na splošno bi uporaba AUTO za to nastavitev ustrezala večini primerov uporabe. Če je izbrano SAMODEJNO shranjevanje, bo FIL naložil model z redko ali gosto predstavitvijo na podlagi približne velikosti modela. V nekaterih primerih boste morda želeli to izrecno nastaviti na SPARSE, da zmanjšate pomnilniški odtis velikih modelov.
Triton Inference Server na SageMaker
SageMaker omogoča s strežnikom NVIDIA Triton Inference lahko uvedete končne točke enega modela in več modelov. Naslednja slika prikazuje visokonivojsko arhitekturo Triton Inference Server. The repozitorij modelov je na datotečnem sistemu temelječe skladišče modelov, ki jih bo Triton dal na voljo za sklepanje. Zahteve za sklepanje prispejo na strežnik in so usmerjene k ustreznemu razporejevalniku za model. Triton pripomočki več algoritmov za razporejanje in paketiranje ki jih je mogoče konfigurirati za vsak model posebej. Razporejevalnik vsakega modela po želji izvede paketno združevanje zahtev za sklepanje in nato posreduje zahteve v backend ki ustreza tipu modela. Zaledje izvede sklepanje z uporabo vhodnih podatkov v paketnih zahtevah za izdelavo zahtevanih izhodov. Izhodi se nato vrnejo.
Ko konfigurirate svoje skupine za samodejno skaliranje za končne točke SageMaker, boste morda želeli razmisliti SageMakerVariantInvocationsPerInstance
kot primarno merilo za določanje značilnosti skaliranja vaše skupine za samodejno skaliranje. Poleg tega, odvisno od tega, ali vaši modeli delujejo na GPE ali CPE, lahko razmislite tudi o uporabi CPUUtilization ali GPUUtilization kot dodatnem merilu. Upoštevajte, da je za končne točke z enim modelom, ker so vsi razporejeni modeli enaki, dokaj preprosto nastaviti ustrezne pravilnike za izpolnjevanje vaših SLA. Za končne točke z več modeli priporočamo uvedbo podobnih modelov za dano končno točko, da boste imeli bolj enakomerno predvidljivo delovanje. V primerih uporabe, kjer se uporabljajo modeli različnih velikosti in zahtev, boste morda želeli te delovne obremenitve ločiti na več končnih točk z več modeli ali porabiti nekaj časa za natančno nastavitev pravilnika skupine za samodejno skaliranje, da dobite najboljše razmerje med stroški in zmogljivostjo.
Za seznam vsebnikov NVIDIA Triton Deep Learning Containers (DLC), ki jih podpira sklepanje SageMaker, glejte Razpoložljive slike vsebnikov za globoko učenje.
Predstavitev prenosnika SageMaker
Aplikacije ML so zapletene in pogosto zahtevajo predhodno obdelavo podatkov. V tem zvezku se poglobimo v to, kako razmestiti drevesni model ML, kot je XGBoost, z uporabo zaledja FIL v Tritonu na večmodelni končni točki SageMaker. Pokrivamo tudi, kako implementirati cevovod sklepanja za predprocesiranje podatkov, ki temelji na Pythonu, za vaš model z uporabo funkcije ansambla v Tritonu. To nam bo omogočilo pošiljanje neobdelanih podatkov s strani odjemalca in tako predobdelavo podatkov kot sklepanje modela izvajati v končni točki Triton SageMaker za optimalno zmogljivost sklepanja.
Funkcija kompleta modela Triton
Triton Inference Server močno poenostavlja uvajanje modelov AI v velikem obsegu v proizvodnji. Triton Inference Server je opremljen s priročno rešitvijo, ki poenostavlja gradnjo cevovodov za predprocesiranje in naknadno procesiranje. Platforma Triton Inference Server ponuja razporejevalnik ansambla, ki je odgovoren za cevovod modelov, ki sodelujejo v procesu sklepanja, hkrati pa zagotavlja učinkovitost in optimizira prepustnost. Z uporabo modelov ansambla se lahko izognete dodatnim stroškom prenosa vmesnih tenzorjev in zmanjšate število zahtev, ki jih je treba poslati Tritonu.
V tem zvezku prikazujemo, kako uporabiti funkcijo ansambla za gradnjo cevovoda predhodne obdelave podatkov s sklepanjem modela XGBoost, iz katere lahko ekstrapolirate, da dodate naknadno obdelavo po meri v cevovod.
Nastavite okolje
Začnemo z nastavitvijo zahtevanega okolja. Namestimo odvisnosti, ki so potrebne za pakiranje našega cevovoda modela in izvajanje sklepanja z uporabo Triton Inference Server. Definiramo tudi AWS upravljanje identitete in dostopa (IAM), ki bo SageMakerju omogočila dostop do artefaktov modela in NVIDIA Triton Registar elastičnih zabojnikov Amazon (Amazon ECR) slika. Oglejte si naslednjo kodo:
Ustvarite okolje Conda za vnaprejšnjo obdelavo odvisnosti
Zaledje Python v Tritonu zahteva, da uporabimo a Konda okolje za vse dodatne odvisnosti. V tem primeru uporabljamo zaledje Python za predhodno obdelavo neobdelanih podatkov, preden jih vnesemo v model XGBoost, ki se izvaja v ozadju FIL. Čeprav smo prvotno uporabljali RAPIDS cuDF in cuML za predhodno obdelavo podatkov, tukaj uporabljamo Pandas in scikit-learn kot odvisnosti predprocesiranja med sklepanjem. To počnemo iz treh razlogov:
- Pokažemo, kako ustvariti okolje Conda za vaše odvisnosti in kako ga zapakirati v pričakovana oblika z zaledjem Triton Python.
- S prikazom modela predprocesiranja, ki se izvaja v zaledju Python na CPE, medtem ko XGBoost deluje na GPE v zaledju FIL, ponazarjamo, kako lahko vsak model v Tritonovem ansambelskem cevovodu deluje na drugem ozadju ogrodja in v različnih konfiguracijah strojne opreme.
- Poudarja, kako so knjižnice RAPIDS (cuDF, cuML) združljive s svojimi dvojniki CPE (Pandas, scikit-learn). Na primer, lahko pokažemo, kako
LabelEncoders
ustvarjen v cuML se lahko uporablja v scikit-learn in obratno.
Sledimo navodilom iz Tritonova dokumentacija za pakiranje odvisnosti predprocesiranja (scikit-learn in Pandas), ki se bodo uporabljale v zaledju Python kot datoteka TAR okolja Conda. Skript bash create_prep_env.sh ustvari datoteko TAR okolja Conda, nato pa jo premaknemo v imenik modela predobdelave. Oglejte si naslednjo kodo:
Ko zaženemo prejšnji skript, se ustvari preprocessing_env.tar.gz
, ki ga kopiramo v imenik za predprocesiranje:
Nastavite predprocesiranje z zaledjem Triton Python
Za predobdelavo uporabljamo Triton Zaledje Python za izvedbo predprocesiranja tabelarnih podatkov (kategorično kodiranje) med sklepanjem za zahteve neobdelanih podatkov, ki prihajajo v strežnik. Za več informacij o predprocesiranju, ki je bilo opravljeno med usposabljanjem, glejte vadbeni zvezek.
Zaledje Python omogoča predprocesiranje, naknadno obdelavo in katero koli drugo logiko po meri, ki se izvaja v Pythonu in služi s Tritonom. Uporaba Tritona na SageMakerju zahteva, da najprej nastavimo mapo repozitorija modelov, ki vsebuje modele, ki jih želimo streči. Nastavili smo že model za predprocesiranje podatkov Python, imenovan preprocessing in cpu_model_repository
in gpu_model_repository
.
Triton ima posebne zahteve za postavitev repozitorija modelov. Znotraj imenika repozitorija modelov najvišje ravni ima vsak model svoj podimenik, ki vsebuje informacije za ustrezni model. Vsak imenik modela v Tritonu mora imeti vsaj en numerični podimenik, ki predstavlja različico modela. Vrednost 1 predstavlja različico 1 našega modela predprocesiranja Python. Vsak model poganja določeno zaledje, zato mora biti v vsakem podimeniku različice artefakt modela, ki ga zahteva to zaledje. V tem primeru uporabljamo zaledje Python, ki zahteva, da se datoteka Python, ki jo strežete, imenuje model.py, datoteka pa mora implementirati določene funkcije. Če bi uporabljali zaledje PyTorch, bi bila potrebna datoteka model.pt itd. Za več podrobnosti o konvencijah poimenovanja datotek modelov glejte Datoteke modelov.
O model.py Datoteka Python, ki jo uporabljamo tukaj, izvaja vso logiko predprocesiranja tabelarnih podatkov za pretvorbo neobdelanih podatkov v funkcije, ki jih je mogoče vnesti v naš model XGBoost.
Vsak model Triton mora zagotavljati tudi a config.pbtxt
datoteka, ki opisuje konfiguracijo modela. Če želite izvedeti več o nastavitvah konfiguracije, glejte Konfiguracija modela. Naš config.pbtxt datoteka določa zaledje kot python in vse vhodne stolpce za neobdelane podatke skupaj s predhodno obdelanim izhodom, ki je sestavljen iz 15 funkcij. Določimo tudi, da želimo zagnati ta model predprocesiranja Python v CPE. Oglejte si naslednjo kodo:
Nastavite drevesni model ML za zaledje FIL
Nato smo nastavili imenik modela za drevesni model ML, kot je XGBoost, ki bo uporabljal zaledje FIL.
Pričakovana postavitev za cpu_memory_repository
in gpu_memory_repository
so podobni tistim, ki smo jih pokazali prej.
Tu FIL
je ime modela. Lahko mu damo drugačno ime, npr xgboost
če hočemo. 1
je podimenik različice, ki vsebuje artefakt modela. V tem primeru je to xgboost.json
model, ki smo ga shranili. Ustvarimo to pričakovano postavitev:
Imeti moramo konfiguracijsko datoteko config.pbtxt
ki opisuje konfiguracijo modela za drevesni model ML, tako da lahko zaledje FIL v Tritonu razume, kako ga streči. Za več informacij si oglejte najnovejšo generično zdravilo Možnosti konfiguracije Triton in možnosti konfiguracije, specifične za FIL backend. V tem primeru se osredotočamo le na nekaj najpogostejših in ustreznih možnosti.
ustvarjanje config.pbtxt
za model_cpu_repository
:
Podobno nastavite config.pbtxt
za model_gpu_repository
(upoštevajte, razlika je USE_GPU = True
):
Nastavite cevovod sklepanja zaledja Python in FIL za predprocesiranje podatkov z uporabo ansamblov
Zdaj smo pripravljeni na nastavitev cevovoda sklepanja za predprocesiranje podatkov in sklepanje drevesnega modela z uporabo model ansambla. Ansambelski model predstavlja cevovod enega ali več modelov in povezavo vhodnih in izhodnih tenzorjev med temi modeli. Tukaj uporabljamo model ansambla za izgradnjo cevovoda predprocesiranja podatkov v zaledju Python, ki mu sledi XGBoost v ozadju FIL.
Pričakovana postavitev za ensemble
imenik modelov je podoben tistim, ki smo jih pokazali prej:
Ustvarili smo modele ansambla config.pbtxt po navodilih v Modeli ansambla. Pomembno je, da moramo nastaviti urnik ansambla config.pbtxt
, ki določa pretok podatkov med modeli znotraj niza. Razporejevalnik ansambla zbira izhodne tenzorje v vsakem koraku in jih zagotavlja kot vhodne tenzorje za druge korake v skladu s specifikacijo.
Zapakirajte repozitorij modela in ga naložite v Amazon S3
Končno končamo z naslednjo strukturo imenika repozitorija modela, ki vsebuje model predprocesiranja Python in njegove odvisnosti skupaj z modelom XGBoost FIL in skupino modelov.
Imenik in njegovo vsebino pakiramo kot model.tar.gz
za nalaganje v Preprosta storitev shranjevanja Amazon (Amazon S3). V tem primeru imamo dve možnosti: uporabo primerka, ki temelji na CPE, ali primerka, ki temelji na GPE. Primerek, ki temelji na GPU, je primernejši, ko potrebujete večjo procesorsko moč in želite uporabiti jedra CUDA.
Ustvarite in naložite paket modela za primerek, ki temelji na CPE (optimiziran za CPE) z naslednjo kodo:
Ustvarite in naložite paket modela za primerek, ki temelji na GPE (optimiziran za GPE), z naslednjo kodo:
Ustvarite končno točko SageMaker
Zdaj imamo artefakte modela shranjene v vedru S3. V tem koraku lahko zagotovimo tudi dodatno spremenljivko okolja SAGEMAKER_TRITON_DEFAULT_MODEL_NAME
, ki določa ime modela, ki ga naloži Triton. Vrednost tega ključa se mora ujemati z imenom mape v paketu modela, naloženem v Amazon S3. Ta spremenljivka je neobvezna v primeru enega samega modela. V primeru skupnih modelov je treba ta ključ določiti, da se Triton zažene v SageMakerju.
Poleg tega lahko nastavite SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT
in SAGEMAKER_TRITON_THREAD_COUNT
za optimizacijo števila niti.
Prejšnji model uporabljamo za ustvarjanje konfiguracije končne točke, kjer lahko določimo vrsto in število primerkov, ki jih želimo v končni točki
To konfiguracijo končne točke uporabimo za ustvarjanje končne točke SageMaker in počakamo, da se uvajanje konča. Z napravami MME SageMaker imamo možnost gostiti več modelov ansamblov s ponavljanjem tega postopka, vendar se za ta primer držimo ene uvedbe:
Status se bo spremenil v InService
ko je uvedba uspešna.
Prikličite svoj model, ki gostuje na končni točki SageMaker
Ko se končna točka izvaja, lahko uporabimo nekaj vzorčnih neobdelanih podatkov za izvedbo sklepanja z uporabo JSON kot oblike koristnega tovora. Za obliko zahteve za sklepanje Triton uporablja KFServing
standard skupnosti protokoli sklepanja. Glej naslednjo kodo:
Beležnica, omenjena v blogu, je na voljo v GitHub repozitorij.
Najboljše prakse
Poleg možnosti natančnega prilagajanja nastavitev ozadja FIL, ki smo jih omenili prej, lahko podatkovni znanstveniki tudi zagotovijo, da so vhodni podatki za ozadje optimizirani za obdelavo v motorju. Kadarkoli je mogoče, v polje GPE vnesite podatke v formatu glavne vrstice. Drugi formati bodo zahtevali notranjo pretvorbo in zavzeli cikle, kar bo zmanjšalo zmogljivost.
Zaradi načina vzdrževanja podatkovnih struktur FIL v pomnilniku GPE bodite pozorni na globino drevesa. Večja kot je globina drevesa, večji bo vaš odtis pomnilnika GPU.
Uporaba instance_group_count
parameter za dodajanje delovnih procesov in povečanje prepustnosti zaledja FIL, kar bo povzročilo večjo porabo pomnilnika CPE in GPE. Poleg tega upoštevajte spremenljivke, specifične za SageMaker, ki so na voljo za povečanje prepustnosti, kot so niti HTTP, velikost vmesnega pomnilnika HTTP, velikost paketa in največja zakasnitev.
zaključek
V tej objavi smo se poglobili v zaledje FIL, ki ga podpira Triton Inference Server na SageMakerju. To zaledje zagotavlja tako CPU kot GPE pospeševanje vaših drevesnih modelov, kot je priljubljeni algoritem XGBoost. Obstaja veliko možnosti, ki jih je treba upoštevati, da dobite najboljšo zmogljivost za sklepanje, kot so velikosti paketov, formati vnosa podatkov in drugi dejavniki, ki jih je mogoče prilagoditi vašim potrebam. SageMaker vam omogoča uporabo te zmožnosti s končnimi točkami z enim in več modelom za uravnoteženje zmogljivosti in prihrankov pri stroških.
Spodbujamo vas, da vzamete informacije v tej objavi in preverite, ali lahko SageMaker izpolni vaše potrebe po gostovanju pri streženju drevesnih modelov, s čimer izpolnjuje vaše zahteve glede zmanjšanja stroškov in učinkovitosti delovne obremenitve.
Beležnico, omenjeno v tej objavi, lahko najdete v primerih SageMaker GitHub repozitorij. Poleg tega lahko najdete najnovejšo dokumentacijo o zaledju FIL na GitHub.
O avtorjih
Raghu Ramesha je višji arhitekt rešitev ML pri ekipi Amazon SageMaker Service. Osredotoča se na pomoč strankam pri izgradnji, uvajanju in selitvi proizvodnih delovnih obremenitev ML na SageMaker v velikem obsegu. Specializiran je za področje strojnega učenja, umetne inteligence in računalniškega vida ter ima magisterij iz računalništva na UT Dallas. V prostem času rada potuje in fotografira.
James Park je arhitekt rešitev pri Amazon Web Services. Sodeluje z Amazon.com pri načrtovanju, gradnji in uvajanju tehnoloških rešitev na AWS, posebej pa ga zanimata umetna inteligenca in strojno učenje. V prostem času rad išče nove kulture, nove izkušnje in je na tekočem z najnovejšimi tehnološkimi trendi.
Dhawal Patel je glavni arhitekt strojnega učenja pri AWS. Sodeloval je z organizacijami, od velikih podjetij do srednje velikih zagonskih podjetij, pri problemih, povezanih s porazdeljenim računalništvom in umetno inteligenco. Osredotoča se na globoko učenje, vključno z domenami NLP in računalniškega vida. Strankam pomaga pri doseganju visoko zmogljivega sklepanja o modelih na Amazon SageMaker.
Jiahong Liu je arhitekt rešitve v skupini ponudnikov storitev v oblaku pri NVIDIA. Strankam pomaga pri sprejemanju rešitev strojnega učenja in umetne inteligence, ki izkoriščajo pospešeno računalništvo NVIDIA za reševanje njihovih izzivov pri usposabljanju in sklepanju. V prostem času uživa v origamiju, DIY projektih in igra košarko.
Kshitiz Gupta je arhitekt rešitev pri NVIDIA. Uživa v izobraževanju strank v oblaku o tehnologijah GPU AI, ki jih ponuja NVIDIA, in jim pomaga pri pospeševanju njihovih aplikacij za strojno učenje in globoko učenje. Zunaj dela uživa v teku, pohodništvu in opazovanju divjih živali.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoAiStream. Podatkovna inteligenca Web3. Razširjeno znanje. Dostopite tukaj.
- Kovanje prihodnosti z Adryenn Ashley. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/
- :ima
- : je
- :ne
- :kje
- $GOR
- 1
- 100
- 11
- 13
- 200
- 23
- 24
- 7
- 8
- 9
- a
- sposobnost
- O meni
- pospeši
- pospešeno
- pospeševanje
- pospeševalniki
- dostop
- Po
- ustrezno
- Račun
- Doseči
- čez
- dodajte
- Poleg tega
- Dodatne
- Naslov
- naslovno
- Sprejem
- po
- proti
- Sporazumi
- AI
- algoritem
- vsi
- dodelitve
- omogočajo
- omogoča
- skupaj
- že
- Prav tako
- Čeprav
- vedno
- Amazon
- Amazon SageMaker
- Amazon Web Services
- Amazon.com
- znesek
- an
- in
- kaj
- API
- aplikacije
- primerno
- Arhitektura
- SE
- območja
- Argument
- Array
- umetni
- Umetna inteligenca
- AS
- pomaga
- At
- avto
- Na voljo
- izogniti
- AWS
- Backend
- Ravnovesje
- temeljijo
- bash
- Osnova
- Košarka
- BE
- ker
- postanejo
- bilo
- pred
- začetek
- zadaj
- spodaj
- koristi
- BEST
- Boljše
- med
- večji
- Blog
- telo
- tako
- varovalni
- izgradnjo
- Building
- zgrajena
- vendar
- by
- C + +
- se imenuje
- CAN
- kartice
- primeru
- primeri
- Kategorija
- Vzrok
- izzivi
- spremenite
- lastnosti
- preveriti
- čip
- Izberite
- izbiri
- mesto
- razred
- Razvrstitev
- stranke
- stranke
- Cloud
- Koda
- Stolpci
- COM
- prihaja
- prihajajo
- Skupno
- komunicirajo
- Komunikacija
- skupnost
- združljiv
- kompleksna
- računanje
- računalnik
- Računalništvo
- Računalniška vizija
- računalništvo
- konfiguracija
- povezava
- Razmislite
- šteje
- porabijo
- poraba
- Posoda
- Zabojniki
- Vsebuje
- Vsebina
- kontrast
- nadzor
- Priročen
- Pretvorba
- pretvorbo
- Core
- Ustrezno
- strošek
- zmanjšanje cene
- prihranki pri stroških
- pokrov
- ustvarjajo
- ustvaril
- ustvari
- Merila
- ključnega pomena
- Trenutno
- po meri
- Stranke, ki so
- ciklov
- Dallas
- datum
- Datum
- dan
- ponudba
- Odločitev
- globoko
- globoko učenje
- globlje
- privzeto
- privzeto
- Stopnja
- zamuda
- zahtevno
- zahteve
- Odvisno
- razporedi
- razporejeni
- uvajanja
- uvajanje
- globina
- Oblikovanje
- Podrobnosti
- Ugotovite,
- določi
- določa
- določanje
- Razvijalci
- Razlika
- drugačen
- porazdeljena
- porazdeljeno računalništvo
- Naredi sam
- do
- Dokumentacija
- Ne
- tem
- domen
- opravljeno
- golob
- 2
- med
- vsak
- prej
- izobraževanje
- učinkovitosti
- učinkovito
- bodisi
- poudarjajo
- omogoča
- spodbujanje
- konec
- Končna točka
- Motor
- Motorji
- zagotovitev
- zagotoviti
- Podjetje
- podjetja
- Celotna
- okolje
- napake
- Tudi
- Tudi vsak
- Primer
- Primeri
- izmenjava
- pričakovati
- Pričakuje
- Doživetja
- izvoz
- dejavniki
- pošteno
- Falls
- false
- Feature
- Lastnosti
- Fed
- hranjenje
- Nekaj
- Slika
- file
- datoteke
- Najdi
- konča
- prva
- Pretok
- Osredotočite
- Osredotoča
- sledi
- sledili
- po
- Odtis
- za
- obrazec
- format
- je pokazala,
- Okvirni
- okviri
- goljufija
- brezplačno
- iz
- Poleg tega
- zaslužek
- splošno
- ustvarja
- dobili
- Daj
- dana
- GPU
- zelo
- skupina
- Skupine
- Navodila
- se zgodi
- Trdi
- strojna oprema
- Imajo
- he
- pomoč
- pomoč
- Pomaga
- tukaj
- na visoki ravni
- visokozmogljivo
- več
- Poudarki
- njegov
- držite
- drži
- gostitelj
- gostila
- gostovanje
- Kako
- Kako
- Vendar
- HTML
- http
- HTTPS
- Hurt
- identiteta
- ID-ji
- idx
- if
- slika
- vpliv
- Vplivi
- izvajati
- izvajali
- izvedbe
- uvoz
- in
- vključujejo
- Vključno
- Povečajte
- označuje
- Podatki
- obvestila
- vhod
- namestitev
- primer
- Navodila
- integracija
- Intelligence
- obresti
- notranji
- v
- IT
- ITS
- jpg
- json
- samo
- Imejte
- Ključne
- Otrok
- Vedite
- velika
- Velika podjetja
- večja
- Latenca
- Zadnji
- postavitev
- UČITE
- učenje
- vsaj
- Led
- legitimno
- manj
- Stopnja
- ravni
- Vzvod
- knjižnice
- Knjižnica
- kot
- LIMIT
- vrstica
- Seznam
- obremenitev
- Logika
- logično
- Long
- stroj
- strojno učenje
- Znamka
- upravljanje
- več
- poveljnika
- Stave
- max
- največja
- Maj ..
- Mehanizem
- Srečati
- srečanja
- Spomin
- omenjeno
- Trgovec
- Meritve
- morda
- selitev
- moti
- ML
- način
- Model
- modeli
- mesec
- več
- Najbolj
- Najbolj popularni
- premikanje
- Končna točka več modelov
- več
- morajo
- Ime
- poimenovanje
- materni
- Nimate
- potrebe
- Novo
- nlp
- št
- vozlišča
- prenosnik
- zdaj
- Številka
- otopeli
- Nvidia
- pridobi
- of
- ponudba
- Ponudbe
- pogosto
- on
- ONE
- tiste
- samo
- open source
- optimalna
- optimizacija
- Optimizirajte
- optimizirana
- optimizacijo
- Možnost
- možnosti
- or
- Da
- organizacije
- Organizirano
- originalno
- OS
- Ostalo
- drugače
- naši
- ven
- izhod
- zunaj
- lastne
- paket
- embalaža
- pand
- vzporedno
- parameter
- parametri
- sodelujejo
- zlasti
- opravil
- vozovnice
- pot
- Izvedite
- performance
- opravlja
- Dovoljenje
- fotografija
- plinovod
- platforma
- platon
- Platonova podatkovna inteligenca
- PlatoData
- igranje
- prosim
- pletora
- politike
- politika
- bazen
- Popular
- Priljubljenost
- mogoče
- mogoče
- Prispevek
- moč
- napovedati
- Predvidljivo
- napovedano
- napoved
- Napovedi
- prej
- primarni
- , ravnateljica
- Težave
- Postopek
- Procesi
- obravnavati
- Obdelava moči
- procesorji
- proizvodnjo
- proizvodnja
- projekti
- pravilno
- Proto
- zagotavljajo
- če
- Ponudnik
- zagotavlja
- zagotavljanje
- Python
- pitorha
- naključno
- obsegu
- precej
- Surovi
- pripravljen
- resnični svet
- v realnem času
- Razlogi
- Priporočamo
- zmanjša
- besedilu
- Ne glede na to
- okolica
- povezane
- pomembno
- zamenjajte
- Skladišče
- zastopanje
- predstavlja
- predstavlja
- zahteva
- zahteva
- zahteva
- obvezna
- Zahteve
- zahteva
- Odgovor
- odgovorna
- povzroči
- Rezultati
- vloga
- Run
- tek
- s
- sagemaker
- Sklep SageMaker
- Enako
- Prihranki
- razširljive
- Lestvica
- skaliranje
- scenariji
- razporejanje
- Znanost
- Znanstveniki
- scikit-učiti
- rezultat
- Oddelek
- glej
- iskanju
- izbran
- pošljite
- višji
- ločena
- služijo
- Storitev
- Ponudnik storitev
- Storitve
- služijo
- nastavite
- nastavitev
- nastavitve
- Oblikujte
- deli
- shouldnt
- Prikaži
- Razstave
- strani
- bistveno
- Podoben
- Enostavno
- sam
- Velikosti
- velikosti
- So
- Rešitev
- rešitve
- SOLVE
- Reševanje
- nekaj
- vir
- specializirano
- specifična
- specifikacija
- določeno
- preživeti
- standardna
- Začetek
- Začetek
- Ustanavljanjem
- Država
- Status
- dinamičnega ravnovesja
- Korak
- Koraki
- shranjevanje
- trgovina
- shranjeni
- naravnost
- String
- Struktura
- uspešno
- taka
- predlagajte
- primerna
- podpora
- Podprti
- Podpira
- Bodite
- skupina
- tehnike
- Tehnologije
- Tehnologija
- povej
- Pogoji
- kot
- da
- O
- informacije
- njihove
- Njih
- POTEM
- Tukaj.
- te
- jih
- stvar
- ta
- tisti,
- čeprav?
- 3
- Prag
- pretočnost
- čas
- do
- danes
- skupaj
- najvišji nivo
- tradicionalno
- usposobljeni
- usposabljanje
- Prenos
- Potovanje
- Drevo
- Trends
- Triton
- Res
- dva
- tip
- Vrste
- tipično
- razumeli
- naložili
- Prenos
- us
- uporaba
- Rabljeni
- uporabnik
- uporabo
- izkorišča
- Uporaben
- vrednost
- Vrednote
- različnih
- različica
- preko
- Vizija
- W
- Počakaj
- želeli
- je
- gledanju
- način..
- we
- web
- spletne storitve
- Dobro
- so bili
- Kaj
- kdaj
- kadar koli
- ali
- ki
- medtem
- bo
- z
- v
- brez
- delo
- delal
- delavec
- deluje
- bi
- XGBoost
- leto
- Vi
- Vaša rutina za
- zefirnet
- Zip