Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Saavutage madala latentsusajaga hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris Amazon SageMakeris

Masinõppe (ML) mudeli juurutamisel võib olla praegu ettevõtete jaoks väga nõudlikud jõudlus- ja latentsusnõuded. Kasutusjuhtumid, nagu pettuste tuvastamine ja reklaamipaigutamine, on näited, kus millisekundid on olulised ja on äriedu jaoks üliolulised. Tuleb täita rangeid teenusetaseme lepinguid (SLA-d) ja tüüpiline taotlus võib nõuda mitut etappi, nagu eeltöötlus, andmete teisendamine, mudelivaliku loogika, mudelite koondamine ja järeltöötlus. Suures plaanis tähendab see sageli suure liiklusmahu säilitamist, säilitades samal ajal madala latentsusaja. Levinud kujundusmustrid hõlmavad jadajärelduskonvestore, ansambleid (hajumine-kogumine) ja äriloogika töövooge, mille tulemusel realiseeritakse kogu päringu töövoog suunatud atsüklilise graafikuna (DAG). Kuna aga töövood muutuvad keerukamaks, võib see kaasa tuua üldise reageerimisaja pikenemise, mis omakorda võib negatiivselt mõjutada lõppkasutaja kogemust ja seada ohtu ärieesmärgid. Triton saab käsitleda neid kasutusjuhtumeid, kus mitu mudelit koostatakse konveieriga, mille vahel on ühendatud sisend- ja väljundtensorid, mis aitab teil neid töökoormusi lahendada.

Kui hindate oma eesmärke seoses ML-mudeli järeldustega, võib kaaluda paljusid võimalusi, kuid vähesed on nii võimekad ja tõestatud kui Amazon SageMaker koos Tritoni järeldusserver. SageMaker koos Triton Inference Serveriga on olnud paljude klientide jaoks populaarne valik, kuna see on loodud selleks, et maksimeerida läbilaskevõimet ja riistvara kasutust ülimadala (ühekohalise millisekundi) järeldamislatentsusega. Sellel on lai valik toetatud ML-i raamistikke (sh TensorFlow, PyTorch, ONNX, XGBoost ja NVIDIA TensorRT) ja infrastruktuuri taustaprogramme, sealhulgas NVIDIA GPU-d, protsessorid ja AWS Inferentia. Lisaks on Triton Inference Server integreeritud SageMakeriga, täielikult hallatava ots-otsa ML-teenusega, mis pakub mudeli hostimiseks reaalajas järeldusvõimalusi.

Selles postituses käsitleme pettuste tuvastamise ansambli töökoormuse juurutamist SageMakeris koos Triton Inference Serveriga.

Lahenduse ülevaade

Projekti kogumaksumuse ligikaudseks hindamiseks on oluline, et igal projektil oleks nõuete loend ja kuluhinnang. Oluline on hinnata investeeringutasuvust (ROI), mis toetab organisatsiooni otsust. Mõned kaalutlused, mida tuleb töökoormuse teisaldamisel Tritonile arvesse võtta, on järgmised:

Jõupingutuste hindamine on tarkvaraarenduses võtmetähtsusega ja selle mõõtmine põhineb sageli mittetäielikel, ebakindlatel ja mürarikastel sisenditel. ML-i töökoormused ei erine. ML-i järelduste arhitektuuri mõjutavad mitmed tegurid, millest mõned hõlmavad järgmist:

  • Kliendipoolne latentsusaja eelarve – See määrab kliendipoolse edasi-tagasi reisi maksimaalse vastuvõetava ooteaja järeldusele, mida tavaliselt väljendatakse protsentiilides. Töökoormuste puhul, mis nõuavad peaaegu kümnete millisekundite latentsuseelarvet, võivad võrguedastused muutuda kulukaks, nii et mudelite kasutamine äärealadel sobiks paremini.
  • Andmete kasuliku koormuse jaotuse suurus – Kasulik koormus, mida sageli nimetatakse sõnumi sisu, on kliendilt mudelile edastatud päringuandmed, samuti mudelilt kliendile edastatud vastuseandmed. Kasuliku koormuse suurus mõjutab sageli latentsust ja seda tuleks arvesse võtta.
  • Andmete vorming – See määrab, kuidas kasulik koormus ML-mudelisse saadetakse. Vorming võib olla inimesele loetav, näiteks JSON ja CSV, kuid on ka binaarvorminguid, mis on sageli tihendatud ja väiksema suurusega. See on kompromiss pakkimise üldkulude ja ülekande suuruse vahel, mis tähendab, et tihendamiseks või lahtipakkimiseks lisatakse protsessori tsüklid ja latentsus, et säästa võrgu kaudu edastatud baite. See postitus näitab, kuidas kasutada nii JSON-i kui ka binaarvorminguid.
  • Vajalik tarkvarapinn ja komponendid – Virn on komponentide kogum, mis töötavad koos, et toetada ML-rakendust, sealhulgas operatsioonisüsteemi, käitusaegu ja tarkvarakihte. Tritonil on sisseehitatud populaarsed ML-raamistikud, nn taustaprogrammid, nagu ONNX, TensorFlow, FIL, OpenVINO, native Python ja teised. Võite ka kirjutada a kohandatud taustaprogramm omakasvatatud komponentide jaoks. See postitus käsitleb XGBoosti mudelit ja andmete eeltöötlust, mille me migreerime vastavalt NVIDIA pakutavatele FIL-i ja Python Tritoni taustaprogrammidele.

Kõik need tegurid peaksid teie töökoormuse toimivuse hindamisel mängima üliolulist rolli, kuid sel juhul keskendume tööle, mida on vaja teie ML-mudelite teisaldamiseks SageMakeris koos Triton Inference Serveriga. Täpsemalt kasutame näidet pettuste tuvastamise ansamblist, mis koosneb Pythonis kirjutatud eeltöötlusloogikaga XGBoosti mudelist.

NVIDIA Tritoni järeldusserver

Triton Inference Server on loodud algusest peale, et võimaldada meeskondadel juurutada, käitada ja skaleerida koolitatud AI mudeleid mis tahes raamistikust GPU- või CPU-põhises infrastruktuuris. Lisaks on see optimeeritud pakkuma suure jõudlusega järeldusi mastaabis selliste funktsioonidega nagu dünaamiline komplekteerimine, samaaegsed käivitamised, optimaalne mudeli konfiguratsioon, mudelite kogum ja voogesituse sisendite tugi.

Järgmine diagramm näitab NVIDIA Tritoni ansambli torujuhtme näidet.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Töökoormused peaksid arvestama Tritoni pakutavate võimalustega koos SageMakeri hostimisega, et maksimeerida pakutavaid eeliseid. Näiteks Triton toetab nii HTTP-d kui ka a C API, mis võimaldavad paindlikkust ja vajaduse korral kasulikku koormust optimeerida. Nagu varem mainitud, toetab Triton mitmeid populaarseid raamistikke, sealhulgas TensorFlow, PyTorch, ONNX, XGBoost ja NVIDIA TensorRT. Neid raamistikke toetavad Tritoni taustaprogrammid ja harvadel juhtudel, kui taustaprogramm teie kasutusjuhtu ei toeta, Triton võimaldab teil enda oma juurutada ja hõlpsasti integreerida.

Järgmine diagramm näitab NVIDIA Tritoni arhitektuuri näidet.

NVIDIA Triton SageMakeris

SageMakeri hostimine teenused on SageMakeri funktsioonide komplekt, mille eesmärk on muuta mudeli juurutamine ja teenindamine lihtsamaks. See pakub mitmesuguseid võimalusi erinevateks kasutusjuhtudeks kohandatud ML-mudelite hõlpsaks juurutamiseks, automaatseks skaleerimiseks, jälgimiseks ja optimeerimiseks. See tähendab, et saate optimeerida oma juurutusi igat tüüpi kasutusmustrite jaoks, alates püsivast ja alati saadaval olevast serverita suvanditega kuni mööduvate, pikaajaliste või partii järelduste vajadusteni.

SageMakeri hostimise katuse all on ka SageMakeri järelduste süvaõppekonteinerite (DLC-de) komplekt, mis on pakitud koos vastava toetatud ML-raamistiku jaoks sobiva mudeliserveri tarkvaraga. See võimaldab teil saavutada kõrget järelduste jõudlust ilma mudeliserveri seadistamiseta, mis on sageli mudeli juurutamise kõige keerulisem tehniline aspekt ja üldiselt ei kuulu andmeteadlase oskuste hulka. Tritoni järeldusserver on nüüd olemas saadaval SageMakeri DLC-del.

See valikute laius, modulaarsus ja erinevate serveerimisraamistike kasutuslihtsus muudavad SageMakeri ja Tritoni võimsa vaste.

NVIDIA FIL taustaprogrammi tugi

Koos Tritoni versiooni 22.05 väljalase, NVIDIA toetab nüüd metsamudeleid, mida treenivad mitmed populaarsed ML-raamistikud, sealhulgas XGBoost, LightGBM, Scikit-learn ja cuML. Kui kasutate Tritoni jaoks FIL-i taustaprogrammi, peaksite tagama, et teie pakutavad mudeliartefaktid oleksid toetatud. Näiteks FIL toetab model_type xgboost, xgboost_json, lightgbmvõi treelite_checkpoint, mis näitab, kas pakutav mudel on vastavalt XGBoost-binaarvormingus, XGBoost JSON-vormingus, LightGBM-tekstivormingus või Treelite-binaarvormingus.

See taustaprogrammi tugi on meie näites kasutamiseks hädavajalik, kuna FIL toetab XGBoosti mudeleid. Ainus, mida kontrollida, on tagada, et meie juurutatud mudel toetaks binaar- või JSON-vorminguid.

Lisaks mudeli õige vormingu tagamisele tuleks arvesse võtta ka muid kaalutlusi. Tritoni FIL-taustaprogramm pakub arendajatele konfigureeritavaid valikuid oma töökoormuse häälestamiseks ja mudeli käitamise jõudluse optimeerimiseks. Konfiguratsioon dynamic_batching võimaldab Tritonil hoida kliendipoolseid päringuid ja koondada need serveri poolele, et kasutada tõhusalt FIL-i paralleelset arvutust kogu partii koostamiseks. Valik max_queue_delay_microseconds pakub tõrkekindlat juhtimist selle üle, kui kaua Triton partii moodustamisega ootab. FIL-iga on kaasas Shapley seletaja, mida saab konfiguratsiooniga aktiveerida treeshap_output; Siiski peaksite meeles pidama, et Shapley väljundid kahjustavad jõudlust oma väljundi suuruse tõttu. Teine oluline aspekt on storage_type et saavutada kompromiss mälujalajälje ja käitusaja vahel. Näiteks võib salvestusruumi kasutamine SPARSE-na vähendada mälutarbimist, samas kui DENSE võib vähendada teie mudeli jõudlust suurema mälukasutuse arvelt. Kõigi nende jaoks parima valiku otsustamine sõltub teie töökoormusest ja latentsusaja eelarvest, seega soovitame üksikasjalikumalt uurida kõiki valikuid FIL-i taustaprogrammi KKK ja FIL-is saadaolevate konfiguratsioonide loend.

Tritonil modelli majutamise sammud

Vaatame oma pettuste tuvastamise kasutusjuhtumit näitena selle kohta, mida tuleks arvestada töökoormuse üleviimisel Tritonile.

Tuvastage oma töökoormus

Sel juhul kasutame pettuste tuvastamise mudelit, mida kasutatakse jaekliendi ostuprotsessi käigus. Järelduskonveier kasutab eeltöötlusloogikaga XGBoost algoritmi, mis hõlmab andmete ettevalmistamist eeltöötluseks.

Tehke kindlaks praegused ja eesmärgipärased toimivusmõõdikud ja muud eesmärgid, mis võivad kehtida

Võite avastada, et teie otspunktidevahelise järelduse aeg võtab liiga kaua aega, et olla vastuvõetav. Teie eesmärk võiks olla kümnete millisekundite latentsusaeg ühekohalisele latentsusele sama taotluste hulga ja vastava läbilaskevõime korral. Määrate, et suurema osa ajast kulub andmete eeltöötlusele ja XGBoosti mudelile. Teised tegurid, nagu võrk ja kasuliku koormuse suurus, mängivad lõpp-otsa järeldamise ajaga seotud üldkuludes minimaalset rolli.

Töötage tagasi, et teha kindlaks, kas Triton suudab teie töökoormust teie vajaduste põhjal majutada

Et teha kindlaks, kas Triton suudab teie nõudmistele vastata, peaksite pöörama tähelepanu kahele peamisele murevaldkonnale. Esimene on tagada, et Triton saaks teenindada vastuvõetava esiotsa valikuga, nagu HTTP või C API.

Nagu varem mainitud, on oluline ka kindlaks teha, kas Triton toetab taustaprogrammi, mis suudab teie artefakte teenindada. Triton toetab mitmeid taustaprogrammid mis on kohandatud toetama erinevaid raamistikke, nagu PyTorch ja TensorFlow. Kontrollige, kas teie mudeleid toetatakse ja kas teil on õige mudelivorming, mida Triton eeldab. Selleks kontrollige esmalt, milliseid mudelivorminguid Tritoni taustaprogramm toetab. Paljudel juhtudel ei nõua see mudeli jaoks mingeid muudatusi. Muudel juhtudel võib teie mudel vajada teisendamist teisele vormingule. Sõltuvalt lähte- ja sihtvormingust on olemas erinevad valikud, näiteks a teisendamine Pythoni hapukurgifail Treelite'i binaarse kontrollpunkti vormingu kasutamiseks.

Selle kasutusjuhtumi jaoks määrame kindlaks FIL-i taustaprogramm saab toetada XGBoosti mudelit ilma muudatusteta ja mida saame kasutada Pythoni taustaprogramm eeltöötluse jaoks. Tritoni ansamblifunktsiooniga saate oma töökoormust veelgi optimeerida, vältides kulukaid võrgukõnesid hostimisjuhtumite vahel.

Koostage plaan ja hinnake Tritoni hostimiseks kuluvat pingutust

Räägime plaanist kolida oma modellid Tritonisse. Iga Tritoni juurutamine nõuab järgmist:

  • Tritoni taustaprogrammide jaoks nõutavad mudeliartefaktid
  • Tritoni konfiguratsioonifailid
  • Õige struktuuriga mudelhoidla kaust

Näitame selles postituses hiljem näidet nende juurutussõltuvuste loomise kohta.

Käivitage plaan ja kinnitage tulemused

Pärast vajalike failide ja artefaktide loomist õigesti struktureeritud mudelihoidlas peate oma juurutamist häälestama ja testima, et kinnitada, kas olete nüüd oma sihtmõõdikud saavutanud.

Sel hetkel saate kasutada SageMakeri järelduste soovitus et teha kindlaks, milline lõpp-punkti eksemplari tüüp on teie vajaduste põhjal teie jaoks parim. Lisaks pakub Triton tööriistu parema jõudluse saavutamiseks ehituse optimeerimiseks.

Täitmine

Vaatame nüüd rakendamise üksikasju. Selleks oleme koostanud kaks märkmikku, mis annavad näite sellest, mida võib oodata. The esimene märkmik näitab antud XGBoost mudeli väljaõpet ning eeltöötlusloogikat, mida kasutatakse nii treenimiseks kui ka järelduste tegemiseks. The teine ​​märkmik näitab, kuidas valmistame ette Tritonis kasutuselevõtuks vajalikke esemeid.

Esimene märkmik näitab teie organisatsiooni olemasolevat märkmikku, mis kasutab KIIRUSED raamatukogude komplekt ja RAPIDS Conda kernel. See eksemplar töötab AWS-i pakutava G4DN-i eksemplari tüübil, mida GPU kiirendab NVIDIA T4 protsessorite abil.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selle näite eeltöötlustoimingud saavad kasu GPU kiirendusest ja kasutavad palju cuML- ja cuDF-teeke. Selle näide on järgmises koodis, kus näitame cuML-i abil kategoorilist siltide kodeerimist. Samuti genereerime a label_encoders.pkl faili, mida saame kasutada kodeerijate serialiseerimiseks ja nende eeltöötluseks järelduste tegemise ajal.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Esimene sülearvuti lõpetab meie XGBoosti mudeli väljaõpetamise ja artefaktide vastavalt salvestamisega.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Selle stsenaariumi korral oli koolituskood juba olemas ja mudelis pole koolituse ajal muudatusi vaja. Lisaks, kuigi kasutasime treeningu ajal eeltöötluseks GPU-kiirendust, plaanime järelduse ajal eeltöötluseks kasutada CPU-sid. Täpsemalt selgitame hiljem postituses.

Liigume nüüd teise sülearvuti juurde ja tuletame meelde, mida vajame edukaks Tritoni kasutuselevõtuks.

Esiteks vajame taustaprogrammide jaoks vajalikke mudeliartefakte. Failid, mida peame selle ansambli jaoks looma, on järgmised:

  • Artefaktide eeltöötlus (model.py, label_encoders.pkl)
  • XGBoost mudeli artefaktid (xgboost.json)

Pythoni taustaprogramm Tritonis nõuab, et kasutaksime sõltuvusena Conda keskkonda. Sel juhul kasutame Pythoni taustaprogrammi toorandmete eeltöötlemiseks enne nende sisestamist FIL-i taustaprogrammis töötavasse XGBoosti mudelisse. Kuigi algselt kasutasime andmete eeltöötluseks RAPIDS cuDF- ja cuML-i teeke (nagu meie GPU-ga varem viidatud), kasutame siin Pandas ja Scikit-learn eeltöötluse sõltuvustena järelduste tegemiseks (kasutades meie protsessorit). Teeme seda kolmel põhjusel:

  • Et näidata, kuidas luua oma sõltuvuste jaoks Conda keskkonda ja kuidas seda pakkida oodatav formaat Tritoni Pythoni taustaprogrammi poolt.
  • Näidates protsessoris Pythoni taustaprogrammis töötavat eeltöötlusmudelit, samal ajal kui XGBoosti mudel töötab FIL-i taustaprogrammis GPU-s, illustreerime, kuidas iga Tritoni ansambli konveieri mudel saab töötada erinevas raamistiku taustaprogrammis ja töötada erineva riistvaraga ja erineval viisil. konfiguratsioonid.
  • See tõstab esile, kuidas RAPIDSi teegid (cuDF, cuML) ühilduvad nende CPU kolleegidega (Pandas, Scikit-learn). Nii saame näidata, kuidas LabelEncoders cuML-is loodud saab kasutada Scikit-learnis ja vastupidi. Pange tähele, et kui eeldate järelduste tegemise ajal suurel hulgal tabeliandmete eeltöötlemist, saate selle GPU kiirendamiseks siiski kasutada RAPIDSi.

Tuletage meelde, et lõime label_encoders.pkl faili esimesse märkmikku. Kategooriakodeeringu jaoks pole muud teha, kui lisada see meie hulka model.py fail eeltöötluseks.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Triton Pythoni taustaprogrammi jaoks vajaliku faili model.py loomiseks järgime taustaprogrammi nõutav vormindamine ja kaasake meie Pythoni loogika, et töödelda sissetulevat tensorit ja kasutada varem viidatud sildikooderit. Saate üle vaadata fail kasutatakse eeltöötluseks.

XGBoosti mudeli puhul pole vaja midagi enamat teha. Koolitasime mudelit esimeses sülearvutis ja Tritoni FIL-taustaprogramm ei nõua XGBoosti mudelite jaoks täiendavaid jõupingutusi.

Järgmiseks vajame Tritoni konfiguratsioonifaile. Tritoni ansambli iga mudel nõuab a config.pbtxt faili. Lisaks loome ka a config.pbtxt toimik ansambli kui terviku kohta. Need failid võimaldavad Tritonil teada kogumi metaandmeid koos teabega, nagu sisendid ja väljundid, mida me ootame, ning samuti aidata määratleda ansambliga seotud DAG-i.

Lõpuks, mudeli Tritonis juurutamiseks vajame, et meie mudelihoidla kaustal oleks õige kaustastruktuur. Tritonil on mudelihoidla paigutusele spetsiifilised nõuded. Tipptaseme mudelite hoidla kataloogis on igal mudelil oma alamkataloog, mis sisaldab vastava mudeli teavet. Igas Tritoni mudelikataloogis peab olema vähemalt üks numbriline alamkataloog, mis esindab mudeli versiooni. Meie kasutusjuhul peaks saadud struktuur välja nägema järgmine.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Kui meil on need kolm eeltingimust, loome juurutamiseks pakitud faili ja laadime selle üles Amazoni lihtne salvestusteenus (Amazon S3).

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Nüüd saame luua SageMakeri mudeli eelmises etapis Amazon S3-sse üles laaditud mudelihoidlast.

Selles etapis pakume ka täiendava keskkonnamuutuja SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, mis määrab Tritoni poolt laaditava mudeli nime. Selle võtme väärtus peaks ühtima Amazon S3 üles laaditud mudelipaketi kausta nimega. See muutuja on üksiku mudeli puhul valikuline. Ansamblimudelite puhul tuleb see võti määrata, et Triton SageMakeris käivituks.

Lisaks saate määrata SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT ja SAGEMAKER_TRITON_THREAD_COUNT lõimede arvu optimeerimiseks. Mõlemad konfiguratsiooniväärtused aitavad häälestada teie protsessorites töötavate lõimede arvu, nii et saate neid väärtusi suurema tuumaarvuga protsessorite puhul paremini kasutada. Enamikul juhtudel töötavad vaikeväärtused sageli hästi, kuid võib-olla tasub katsetada, et näha, kas teie töökoormust saab veelgi tõhustada.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Eelmise mudeliga loome lõpp-punkti konfiguratsiooni, kus saame määrata lõpp-punktis soovitud eksemplaride tüübi ja arvu.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Lõpuks kasutame uue SageMakeri lõpp-punkti loomiseks eelnevat lõpp-punkti konfiguratsiooni ja ootame juurutamise lõpetamist. Olek muutub olekuks InService pärast juurutamise õnnestumist.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

See on kõik! Teie lõpp-punkt on nüüd testimiseks ja kinnitamiseks valmis. Siinkohal võiksite kasutada erinevaid tööriistu, mis aitavad optimeerida oma eksemplaritüüpe ja konfiguratsiooni parima võimaliku jõudluse saavutamiseks. Järgmisel joonisel on näide kasudest, mida on võimalik saavutada FIL-taustaprogrammi kasutamisega Tritoni XGBoosti mudeli jaoks.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

kokkuvõte

Selles postituses juhendasime teid XGBoost ansambli töökoormuse juurutamisel SageMakeris koos Triton Inference Serveriga. Töökoormuste teisaldamine SageMakeris olevale Tritonile võib olla kasulik investeeringutasuvus. Nagu iga tehnoloogia kasutuselevõtu puhul, on kontrolliprotsess ja plaan võtmetähtsusega ning kirjeldasime viieastmelist protsessi, mis juhendab teid töökoormuse teisaldamisel. Lisaks uurisime põhjalikult Pythoni eeltöötlust ja XGBoosti mudelit kasutava ansambli juurutamiseks vajalikke samme Tritonis SageMakeris.

SageMaker pakub tööriistu ML-i elutsükli igast etapist eristamata raskete raskuste eemaldamiseks, hõlbustades sellega kiiret katsetamist ja uurimist, mis on vajalik teie mudeli juurutamise täielikuks optimeerimiseks. SageMakeri hostimise tugi Triton Inference Serverile võimaldab madala latentsusega ja suure tehingute arvu sekundis (TPS) töökoormust.

Selle näite jaoks kasutatud märkmikud leiate aadressilt GitHub.


Andmeid autor

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Jamesi park on Amazon Web Servicesi lahenduste arhitekt. Ta teeb koostööd Amazon.com-iga, et kavandada, ehitada ja juurutada AWS-is tehnoloogilised lahendused ning ta on eriti huvitatud AI-st ja masinõppest. Vabal ajal meeldib talle otsida uusi kultuure, uusi kogemusi ning olla kursis uusimate tehnoloogiatrendidega.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. Jiahong Liu on lahenduse arhitekt NVIDIA pilveteenuse pakkuja meeskonnas. Ta abistab kliente masinõppe ja AI-lahenduste kasutuselevõtul, mis võimendavad NVIDIA kiirendatud andmetöötlust, et lahendada nende koolitus- ja järeldusprobleemid. Vabal ajal naudib ta origamit, isetegemisprojekte ja korvpalli mängimist.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Kshitiz Gupta on NVIDIA lahenduste arhitekt. Talle meeldib õpetada pilve kliente NVIDIA pakutavate GPU AI tehnoloogiate kohta ning aidata neil kiirendada masinõppe ja süvaõppe rakendusi. Väljaspool tööd naudib ta jooksmist, matkamist ja metsloomade jälgimist.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Bruno Aguiar de Melo on Amazon.com tarkvaraarenduse insener, kus ta aitab teadusmeeskondadel koostada, juurutada ja vabastada ML töökoormusi. Teda huvitavad ML-i modelleerimise/disaini faasis kasutatavad mõõteriistad ja juhitavad aspektid, mida tuleb arvesse võtta ja mõõta, võttes arvesse, et mudeli täitmise jõudlus on sama oluline kui mudeli kvaliteedi jõudlus, eriti latentsuspiiranguga kasutusjuhtudel. Vabal ajal naudib ta veini, lauamänge ja kokkamist.

Saavutage madala latentsusega hostimine otsustuspuul põhinevate ML-mudelite jaoks NVIDIA Triton Inference Serveris rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Eliuth Triana on NVIDIA arendajasuhete juht. Ta ühendab Amazoni ja AWS-i tootejuhid, arendajad ja teadlased NVIDIA tehnoloogide ja tootejuhtidega, et kiirendada Amazoni ML/DL-i töökoormust, EC2 tooteid ja AWS-i AI teenuseid. Lisaks on Eliuth kirglik maastikurattur, suusataja ja pokkerimängija.

Ajatempel:

Veel alates AWS-i masinõpe