Achieve High Performance At Scale For Model Serving Using Amazon SageMaker Multi-model Endpoints With GPU

Taasavaldanud Platon

järgijaid: 0

Amazon SageMaker mitme mudeli lõpp-punktid (MME) pakuvad skaleeritavat ja kulutõhusat viisi suure hulga masinõppe (ML) mudelite juurutamiseks. See annab teile võimaluse juurutada mitu ML-mudelit ühes esituskonteineris ühe lõpp-punkti taga. Sealt edasi haldab SageMaker mudelite laadimist ja mahalaadimist ning ressursside skaleerimist teie nimel teie liiklusmustrite alusel. Saate kasu hostimisressursside jagamisest ja taaskasutamisest ning suure hulga mudelite haldamise väiksemast töökoormusest.

Novembris 2022 MME-d lisasid GPU toes, mis võimaldab ühes GPU-seadmes käitada mitut mudelit ja skaleerida GPU eksemplare ühe lõpp-punkti taha. See rahuldab MME tugevat nõudlust sügava närvivõrgu (DNN) mudelite järele, mis saavad kasu GPU-dega kiirendatud arvutusest. Nende hulka kuuluvad arvutinägemine (CV), loomuliku keele töötlemine (NLP) ja generatiivsed AI mudelid. Nõudmise põhjused on järgmised:

DNN-i mudelid on tavaliselt suurte mõõtmete ja keerukusega ning kasvavad kiiresti. Võttes näiteks NLP-mudelid, ületavad paljud neist miljardeid parameetreid, mis nõuab, et GPU-d vastaksid madala latentsusaja ja suure läbilaskevõime nõuetele.
Oleme täheldanud suurenenud vajadust nende mudelite kohandamise järele, et pakkuda üksikutele kasutajatele ülipersonaliseeritud kogemusi. Kuna nende mudelite hulk suureneb, on vaja lihtsamat lahendust paljude mudelite ulatuslikuks juurutamiseks ja kasutuselevõtuks.
GPU eksemplarid on kallid ja soovite neid eksemplare võimalikult palju uuesti kasutada, et maksimeerida GPU kasutust ja vähendada tegevuskulusid.

Kuigi kõik need põhjused viitavad GPU-ga MME-dele kui ideaalsele võimalusele DNN-mudelite jaoks, on soovitatav läbi viia koormustest, et leida õige lõpp-punkti konfiguratsioon, mis vastab teie kasutusjuhtumi nõuetele. Koormustesti tulemusi võivad mõjutada paljud tegurid, näiteks eksemplari tüüp, eksemplaride arv, mudeli suurus ja mudeli arhitektuur. Lisaks võib koormustestimine aidata suunata automaatse skaleerimise strateegiaid, kasutades õigeid mõõdikuid, mitte korduvaid katse- ja veameetodeid.

Nendel põhjustel koostasime selle postituse, et aidata teil GPU-ga MME-sid korralikult testida ja leida oma ML-i kasutusjuhtumi jaoks parim konfiguratsioon. Jagame oma koormustestimise tulemusi mõne populaarseima DNN-mudeli kohta NLP-s ja CV-s, mida hostitakse erinevate eksemplaritüüpide MME-de abil. Teeme kokkuvõtte oma testitulemustest ja järeldustest, et aidata teil teha teadlikke otsuseid oma juurutuste konfigureerimise kohta. Samal ajal jagame ka meie soovitatud lähenemisviisi MME-de koormustesti läbiviimiseks GPU-s. Soovitatavad tööriistad ja tehnika määravad iga eksemplari tüübi kohta laaditavate mudelite optimaalse arvu ning aitavad teil saavutada parima hinna ja kvaliteedi suhte.

Lahenduse ülevaade

MME-de ja GPU-ga MME-de sissejuhatuse saamiseks vaadake Looge mitme mudeli lõpp-punkt ja Käitage GPU-s mitut süvaõppe mudelit Amazon SageMakeri mitme mudeli lõpp-punktiga. Selle postituse koormustestimise kontekstis saate meie näidiskoodi alla laadida saidilt GitHub repo tulemuste reprodutseerimiseks või mallina oma mudelite võrdlemiseks. Repos on kaks sülearvutit: üks CV mudelite koormustestimiseks ja teine NLP jaoks. Erinevat tüüpi GPU eksemplaridel tehti võrdlusuuringuid mitu erineva suuruse ja arhitektuuriga mudelit: ml.g4dn.2xlarge, ml.g5.2xlarge ja ml.p3.2xlarge. See peaks andma mõistliku ristlõike toimivusest iga eksemplari ja mudelitüübi kohta järgmiste mõõdikute kaudu:

Maksimaalne mudelite arv, mida saab GPU mällu laadida
End-to-end vastuse latentsusaeg, mida täheldatakse kliendi poolel iga järelduspäringu puhul
Päringute maksimaalne läbilaskevõime sekundis, mida lõpp-punkt saab vigadeta töödelda
Maksimaalne praeguste kasutajate arv eksemplari kohta enne ebaõnnestunud päringu jälgimist

Järgmises tabelis on loetletud testitud mudelid.

Kasuta Case'it	Mudeli nimi	Suurus kettal	Parameetrite arv
CV	`resnet50`	100Mb	25M
CV	`convnext_base`	352Mb	88M
CV	`vit_large_patch16_224`	1.2Gb	304M
NLP	`bert-base-uncased`	436Mb	109M
NLP	`roberta-large`	1.3Gb	335M

Järgmises tabelis on loetletud testitud GPU eksemplarid.

Juhtumi tüüp	GPU tüüp	GPU-de arv	GPU mälu (GiB)
ml.g4dn.2xsuur	NVIDIA T4 GPU-d	1	16
ml.g5.2xsuur	NVIDIA A10G Tensor Core GPU	1	24
ml.p3.2xsuur	NVIDIA® V100 Tensor Core GPU	1	16

Nagu eelnevalt mainitud, koodi näide saab kasutada teiste mudelite ja eksemplaritüüpidega.

Pange tähele, et MME-d toetavad praegu ainult üksikuid GPU eksemplare. Toetatud eksemplaritüüpide loendi leiate jaotisest Toetatud algoritmid, raamistikud ja eksemplarid.

Võrdlusuuringu protseduur koosneb järgmistest etappidest:

Tooge mudelikeskusest välja eelkoolitatud mudel.
Valmistage mudelartefakt ette SageMakeri MME-des esitamiseks (vt Käitage GPU-s mitut süvaõppe mudelit Amazon SageMakeri mitme mudeli lõpp-punktiga üksikasjad).
Juurutage SageMaker MME GPU eksemplarile.
Määrake maksimaalne mudelite arv, mida saab GPU mällu laadida määratud läve piires.
Kasutage Locust Load Testing Frameworki, et simuleerida liiklust, mis kutsub juhuslikult eksemplari laaditud mudeleid.
Koguge andmeid ja analüüsige tulemusi.
Soovi korral korrake samme 2–6 pärast mudeli koostamist TensorRT-sse.

Sammud 4 ja 5 tagavad sügavama ülevaate. SageMaker GPU MME mudelid laaditakse mällu dünaamiliselt. Seetõttu laadime 4. sammus üles esialgse mudeliartefakti asukohta Amazoni lihtne salvestusteenus (Amazon S3) ja käivitage mudel, et see mällu laadida. Pärast esialgset kutsumist mõõdame tarbitud GPU-mälu, teeme esialgsest mudelist koopia, kutsume mudeli koopia selle mällu laadimiseks ja mõõdame uuesti tarbitud GPU-mälu kogumahtu. Seda protsessi korratakse, kuni saavutatakse GPU-mälu kasutamise määratud protsentuaalne künnis. Võrdlusaluseks seadsime läveks 90%, et pakkuda mõistlikku mälupuhvrit suuremate partiide kohta järelduste tegemiseks või ruumi jätmiseks muude harvemini kasutatavate mudelite laadimiseks.

Simuleerida kasutajaliiklust

Pärast mudelite arvu kindlaksmääramist saame käivitada koormustesti, kasutades Jaanileivapuu koormuse testimise raamistik. Koormustest simuleerib kasutajate taotlusi juhuslikele mudelitele ja mõõdab automaatselt selliseid mõõdikuid nagu vastuse latentsus ja läbilaskevõime.

Locust toetab kohandatud koormustesti kujundeid, mis võimaldavad teil määratleda kohandatud liiklusmustreid. Selles võrdlusaluses kasutatud kuju on näidatud järgmises tabelis. Esimese 30 sekundi jooksul soojendatakse lõpp-punkti 10 samaaegse kasutajaga. 30 sekundi pärast luuakse uusi kasutajaid kiirusega kaks sekundis, jõudes 20 samaaegse kasutajani 40 sekundi pärast. Seejärel võrreldakse lõpp-punkti pidevalt 20 samaaegse kasutajaga kuni 60-sekundilise märgini, misjärel hakkab Locust taas suurendama kasutajaid kiirusega kaks sekundis kuni 40 samaaegse kasutajani. Seda suurendamise ja pideva testimise mustrit korratakse, kuni lõpp-punkti suurendatakse kuni 200 samaaegse kasutajani. Sõltuvalt teie kasutusjuhtumist võite soovida kohandada failis locust_benchmark_sm.py koormustesti kuju, et kajastada teie eeldatavaid liiklusmustreid täpsemalt. Näiteks kui kavatsete majutada suuremaid keelemudeleid, ei pruugi 200 samaaegse kasutajaga koormustest olla ühel eksemplaril hostitud mudeli puhul teostatav ja seetõttu võib tekkida soov vähendada kasutajate arvu või suurendada eksemplaride arvu. Samuti võite soovida pikendada koormustesti kestust, et mõõta täpsemalt lõpp-punkti stabiilsust pikema aja jooksul.

stages = [
{"duration": 30, "users": 10, "spawn_rate": 5},
{"duration": 60, "users": 20, "spawn_rate": 1},
{"duration": 90, "users": 40, "spawn_rate": 2},
…
]

Achieve high performance at scale for model serving using Amazon SageMaker multi-model endpoints with GPU PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Pange tähele, et oleme võrdlenud lõpp-punkti ainult homogeensete mudelitega, mis kõik töötavad ühtsetel teenindamisalustel, kasutades kas PyTorchi või TensorRT-d. Seda seetõttu, et MME-d sobivad kõige paremini paljude sarnaste omadustega mudelite (nt mälukulu ja reageerimisaeg) majutamiseks. Võrdlusuuringu mallid, mis on esitatud dokumendis GitHub repo saab siiski kasutada selleks, et teha kindlaks, kas heterogeensete mudelite teenindamine MME-des annaks soovitud jõudluse ja stabiilsuse.

CV mudelite võrdlusuuringu tulemused

Kasutage arvuti nägemismudelite koormustestimiseks sülearvutit cv-benchmark.ipynb. Saate kohandada eelkoolitatud mudeli nime ja eksemplari tüübi parameetreid jõudluse koormustestimiseks erinevate mudelite ja eksemplaritüüpide kombinatsioonides. Testisime sihilikult kolme CV-mudelit erinevas suuruses väikseimast suurimani: resnet50 (25 miljonit), convnext_base (88M) ja vit_large_patch16_224 (304 miljonit). Kui valite mudeli väljaspool seda loendit, peate võib-olla koodiga kohanema. Lisaks määrab sülearvuti sisendpildi kuju vaikimisi 224x224x3 pilditensorile. Ärge unustage sisendi kuju vastavalt kohandada, kui teil on vaja võrrelda mudeleid, mis teevad erineva suurusega pilti.

Pärast kogu märkmiku läbi jooksmist saate mitu jõudlusanalüüsi visualiseerimist. Kaks esimest kirjeldavad mudeli jõudlust samaaegsete kasutajate arvu suurenemise osas. Järgmised joonised on jaoks loodud visualiseeringute näidised ResNet50 mudel, mis töötab saidil ml.g4dn.2xlarge, võrreldes PyTorchi (vasakul) ja TensorRT-ga (paremal). Ülemise rea graafikud näitavad mudeli latentsust ja läbilaskevõimet y-teljel, kusjuures x-teljel peegeldub üha rohkem samaaegseid klienttöötajaid. Alumised ribadiagrammid näitavad edukate ja ebaõnnestunud taotluste arvu.

Achieve high performance at scale for model serving using Amazon SageMaker multi-model endpoints with GPU PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Vaadates kõiki meie testitud arvutinägemismudeleid, täheldasime järgmist.

Latentsus (millisekundites) on suurem ja läbilaskevõime (taotlusi sekundis) väiksem suuremate mudelite puhul (resnet50 > convnext_base > vit_large_patch16_224).
Latentsuse suurenemine on võrdeline kasutajate arvuga, kuna järeldusserveris on järjest rohkem päringuid.
Suured mudelid tarbivad rohkem arvutusressursse ja võivad saavutada maksimaalse läbilaskevõime vähema kasutajatega kui väiksema mudeli puhul. Seda täheldatakse koos vit_large_patch16_224 mudel, mis registreeris esimese nurjunud päringu 140 samaaegsel kasutajal. Olles märkimisväärselt suurem kui kaks ülejäänud testitud mudelit, oli sellel ka suurema samaaegsuse korral kõige rohkem ebaõnnestunud taotlusi. See on selge signaal, et kui eesmärk on toetada rohkem kui 140 samaaegset kasutajat, peaks lõpp-punkt ulatuma kaugemale ühest eksemplarist.

Achieve high performance at scale for model serving using Amazon SageMaker multi-model endpoints with GPU PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Märkmiku töötamise lõpus saate ka PyTorchi ja TensorRT mudelite kokkuvõtliku võrdluse kõigi nelja põhimõõdiku kohta. Meie võrdlustestide põhjal nägid kõik CV-mudelid mudeli jõudlust pärast TensorRT koostamist. Võttes meie ResNet50 Näidismudeli puhul vähenes latentsusaeg 32%, samas kui läbilaskevõime suurenes 18%. Kuigi samaaegsete kasutajate maksimaalne arv jäi samaks ResNet50, kahe ülejäänud mudeli puhul suurenes toetatavate samaaegsete kasutajate arv 14%. TensorRT jõudluse paranemine tuli aga suurema mälukasutuse arvelt, mille tulemuseks oli vähem MME-de laaditud mudeleid. Mõju on rohkem mudelitele, mis kasutavad konvolutsioonilist närvivõrku (CNN). Tegelikult tarbis meie ResNet50 mudel PyTorchilt TensorRT-le üleminekul ligikaudu kaks korda rohkem GPU-mälu, mistõttu laaditi mudeleid 50% vähem (46 vs. 23). Diagnoosime seda käitumist üksikasjalikumalt järgmises jaotises.

NLP-mudelite võrdlusuuringu tulemused

NLP-mudelite puhul kasutage koormustesti käivitamiseks sülearvutit nlp-benchmark.ipynb. Sülearvuti seadistus peaks välja nägema väga sarnane. Testisime kahte NLP mudelit: bert-base-uncased (109M) ja roberta-large (335M). Eelkoolitatud mudel ja tokeniseerija laaditakse mõlemad alla Hugging Face jaoturist ning testi kasulik koormus genereeritakse tokenisaatorist näidisstringi abil. Jada maksimaalne pikkus on vaikimisi 128. Kui teil on vaja testida pikemaid stringe, ärge unustage seda parameetrit kohandada. NLP-märkmikus jooksmine genereerib sama visualiseeringute komplekti: Pytorch (vasakul) vs TensorRT (paremal).

Achieve high performance at scale for model serving using Amazon SageMaker multi-model endpoints with GPU PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Nende põhjal täheldasime NLP mudelite jaoks TensorRT veelgi suuremat jõudlust. Võttes roberta-large Näiteks ml.g4dn.2xsuure eksemplari mudeli puhul vähenes järelduste latentsus järsult 180 millisekundilt 56 millisekundile (täiustus 70%), samas kui läbilaskevõime paranes 406% 33 päringult sekundis 167-le. kasutajad kasvasid 50%; ebaõnnestunud taotlusi ei täheldatud enne, kui jõudsime 180 samaaegse kasutajani, võrreldes 120-ga algse PyTorchi mudeli puhul. Mälu kasutamise osas nägime, et TensorRT jaoks laaditi üks mudel vähem (üheksast mudelist kaheksani). Negatiivne mõju on aga palju väiksem kui CNN-põhiste mudelite puhul.

Mälu kasutamise analüüs

Järgmine tabel näitab täielikku mälukasutuse mõju analüüsi PyTorchilt TensorRT-le. Mainisime varem, et CNN-põhised mudelid on negatiivsemalt mõjutatud. The ResNet50 mudelil oli kõigis kolmes GPU eksemplari tüübis laaditud mudelite arv üle 50% vähenenud. Convnext_base oli veelgi suurem, umbes 70% üldiselt. Teisest küljest on mõju trafo mudelitele väike või segane. vit_large_patch16_224 ja roberta-large vähenes keskmiselt vastavalt ligikaudu 20% ja 3%, samal ajal kui bert-base-uncased paranes ligikaudu 40%.

Vaadates kõiki andmepunkte tervikuna seoses latentsusaja, läbilaskevõime ja töökindluse suurepärase jõudlusega ning väikese mõjuga laaditud mudelite maksimaalsele arvule, soovitame TensorRT mudelit trafopõhiste mudeliarhitektuuride jaoks. Usume, et CNN-ide puhul on vaja täiendavat kulutulemuste analüüsi, et veenduda, et jõudlusest saadav kasu kaalub üles täiendava hostimise infrastruktuuri kulud.

ML kasutusjuhtum	Arhitektuur	Mudeli nimi	Juhtumi tüüp	Raamistik	Max mudelid laetud	Erinevus (%)	Keskm. Erinevus (%)
CV	CNN	`Resnet50`	ml.g4dn.2xsuur	PyTorch	46	-50%	-50%
				TensorRT	23
			ml.g5.2xsuur	PyTorch	70	-51%
				TensorRT	34
			ml.p3.2xsuur	PyTorch	49	-51%
				TensorRT	24
		`Convnext_base`	ml.g4dn.2xsuur	PyTorch	33	-50%	-70%
				TensorRT	10
			ml.g5.2xsuur	PyTorch	50	-70%
				TensorRT	16
			ml.p3.2xsuur	PyTorch	35	-69%
				TensorRT	11
	Transformer	`vit_large_patch16_224`	ml.g4dn.2xsuur	PyTorch	10	-30%	-20%
				TensorRT	7
			ml.g5.2xsuur	PyTorch	15	-13%
				TensorRT	13
			ml.p3.2xsuur	PyTorch	11	-18%
				TensorRT	9
NLP		`Roberta-large`	ml.g4dn.2xsuur	PyTorch	9	-11%	-3%
				TensorRT	8
			ml.g5.2xsuur	PyTorch	13	0%
				TensorRT	13
			ml.p3.2xsuur	PyTorch	9	0%
				TensorRT	9
		`Bert-base-uncased`	ml.g4dn.2xsuur	PyTorch	26	62%	40%
				TensorRT	42
			ml.g5.2xsuur	PyTorch	39	28%
				TensorRT	50
			ml.p3.2xsuur	PyTorch	28	29%
				TensorRT	36

Järgmistes tabelites on loetletud meie täielikud võrdlusuuringu tulemused kõigi kolme GPU eksemplari tüübi kõigi mõõdikute kohta.

ml.g4dn.2xsuur
Kasuta Case'it	Arhitektuur	Mudeli nimi	Parameetrite arv	Raamistik	Max mudelid laetud	Erinevus (%)	Hilinemine (ms)	Erinevus (%)	Läbilaskevõime (qps)	Erinevus (%)	Max samaaegsed kasutajad	Erinevus (%)
CV	CNN	`resnet50`	25M	PyTorch	46	-50%	164	-32%	120	18%	180	NA
		`resnet50`	25M	TensorRT	23	.	111	.	142	.	180	.
		`convnext_base`	88M	PyTorch	33	-70%	154	-22%	64	102%	140	14%
		`convnext_base`	88M	TensorRT	10	.	120	.	129	.	160	.
	Transformer	`vit_large_patch16_224`	304M	PyTorch	10	-30%	425	-69%	26	304%	140	14%
		`vit_large_patch16_224`	304M	TensorRT	7	.	131	.	105	.	160	.
NLP		`bert-base-uncased`	109M	PyTorch	26	62%	70	-39%	105	142%	140	29%
		`bert-base-uncased`	109M	TensorRT	42	.	43	.	254	.	180	.
		`roberta-large`	335M	PyTorch	9	-11%	187	-70%	33	406%	120	50%
		`roberta-large`	335M	TensorRT	8	.	56	.	167	.	180	.

ml.g5.2xsuur
Kasuta Case'it	Arhitektuur	Mudeli nimi	Parameetrite arv	Raamistik	Max mudelid laetud	Erinevus (%)	Hilinemine (ms)	Erinevus (%)	Läbilaskevõime (qps)	Erinevus (%)	Max samaaegsed kasutajad	Erinevus (%)
CV	CNN	`resnet50`	25M	PyTorch	70	-51%	159	-31%	146	14%	180	11%
		`resnet50`	25M	TensorRT	34	.	110	.	166	.	200	.
		`convnext_base`	88M	PyTorch	50	-68%	149	-23%	134	13%	180	0%
		`convnext_base`	88M	TensorRT	16	.	115	.	152	.	180	.
	Transformer	`vit_large_patch16_224`	304M	PyTorch	15	-13%	149	-22%	105	35%	160	25%
		`vit_large_patch16_224`	304M	TensorRT	13	.	116	.	142	.	200	.
NLP		`bert-base-uncased`	109M	PyTorch	39	28%	65	-29%	183	38%	180	11%
		`bert-base-uncased`	109M	TensorRT	50	.	46	.	253	.	200	.
		`roberta-large`	335M	PyTorch	13	0%	97	-38%	121	46%	140	14%
		`roberta-large`	335M	TensorRT	13	.	60	.	177	.	160	.

ml.p3.2xsuur
Kasuta Case'it	Arhitektuur	Mudeli nimi	Parameetrite arv	Raamistik	Max mudelid laetud	Erinevus (%)	Hilinemine (ms)	Erinevus (%)	Läbilaskevõime (qps)	Erinevus (%)	Max samaaegsed kasutajad	Erinevus (%)
CV	CNN	`resnet50`	25M	PyTorch	49	-51%	197	-41%	94	18%	160	-12%
		`resnet50`	25M	TensorRT	24	.	117	.	111	.	140	.
		`convnext_base`	88M	PyTorch	35	-69%	178	-23%	89	11%	140	14%
		`convnext_base`	88M	TensorRT	11	. 137	137	.	99	.	160	.
	Transformer	`vit_large_patch16_224`	304M	PyTorch	11	-18%	186	-28%	83	23%	140	29%
		`vit_large_patch16_224`	304M	TensorRT	9	.	134	.	102	.	180	.
NLP		`bert-base-uncased`	109M	PyTorch	28	29%	77	-40%	133	59%	140	43%
		`bert-base-uncased`	109M	TensorRT	36	.	46	.	212	.	200	.
		`roberta-large`	335M	PyTorch	9	0%	108	-44%	88	60%	160	0%
		`roberta-large`	335M	TensorRT	9	.	61	.	141	.	160	.

Järgmine tabel võtab kokku kõigi eksemplaritüüpide tulemused. Eksemplar ml.g5.2xlarge tagab parima jõudluse, samas kui eksemplar ml.p3.2xlarge toimib üldiselt kehvemini, hoolimata sellest, et see on neist kolmest kõige kallim. Eksemplarid g5 ja g4dn näitavad järelduste töökoormuse jaoks parimat väärtust.

Kasuta Case'it	Arhitektuur	Mudeli nimi	Parameetrite arv	Raamistik	Juhtumi tüüp	Max mudelid laetud	Erinevus (%)	Hilinemine (ms)	Erinevus (%)	Läbilaskevõime (qps)	Erinevus (%)	Max samaaegsed kasutajad
CV	CNN	`resnet50`	25M	PyTorch	ml.g5.2xsuur	70	.	159	.	146	.	180
.	.	.	.	.	ml.p3.2xsuur	49	.	197	.	94	.	160
.	.	.	.	.	ml.g4dn.2xsuur	46	.	164	.	120	.	180
CV	CN	`resnet50`	25M	TensorRT	ml.g5.2xsuur	34	-51%	110	-31%	166	14%	200
.	.	.	.	.	ml.p3.2xsuur	24	-51%	117	-41%	111	18%	200
.	.	.	.	.	ml.g4dn.2xsuur	23	-50%	111	-32%	142	18%	180
NLP	Transformer	`bert-base-uncased`	109M	pütorch	ml.g5.2xsuur	39	.	65	.	183	.	180
.	.	.	.	.	ml.p3.2xsuur	28	.	77	.	133	.	140
.	.	.	.	.	ml.g4dn.2xsuur	26	.	70	.	105	.	140
NLP	Transformer	`bert-base-uncased`	109M	TensorRT	ml.g5.2xsuur	50	28%	46	-29%	253	38%	200
.	.	.	.	.	ml.p3.2xsuur	36	29%	46	-40%	212	59%	200
.	.	.	.	.	ml.g4dn.2xsuur	42	62%	43	-39%	254	142%	180

Koristage

Pärast koormustesti lõpetamist puhastage loodud ressursid, et vältida lisatasusid. Peamised ressursid on Amazon S3 SageMakeri lõpp-punktid ja mudeli artefaktifailid. Teie jaoks lihtsamaks muutmiseks on märkmikufailidel järgmine puhastuskood, mis aitab neid kustutada.

delete_endpoint(sm_client, sm_model_name, endpoint_config_name, endpoint_name) ! aws s3 rm --recursive {trt_mme_path}

Järeldus

Selles postituses jagasime oma testitulemusi ja analüüsi erinevate sügavate närvivõrgu mudelite kohta, mis töötavad SageMakeri mitme mudeli lõpp-punktides koos GPU-ga. Jagatud tulemused ja arusaamad peaksid andma mõistliku ristlõike erinevate mõõdikute ja eksemplaritüüpide toimivusest. Selle käigus tutvustasime ka meie soovitatud lähenemisviisi GPU-ga SageMaker MME-de võrdlustestide käitamiseks. Meie pakutavad tööriistad ja näidiskood aitavad teil kiiresti alustada võrdlustestimist ja teha teadlikumat otsust selle kohta, kuidas sadu DNN-mudeleid kulutõhusalt hostida kiirendatud arvutusriistvaras. Oma GPU-toega MME-mudelite võrdlusuuringu alustamiseks vaadake jaotist Toetatud algoritmid, raamistikud ja eksemplarid ja GitHub repo lisanäidete ja dokumentatsiooni jaoks.

Autoritest

James Wu on AWS-i vanem AI/ML-lahenduste spetsialist. aidata klientidel AI/ML lahendusi kavandada ja luua. Jamesi töö hõlmab laia valikut ML kasutusjuhtumeid, mille peamine huvi on arvutinägemine, sügav õppimine ja ML-i skaleerimine kogu ettevõttes. Enne AWS-iga liitumist oli James arhitekt, arendaja ja tehnoloogiajuht üle 10 aasta, sealhulgas 6 aastat inseneritöös ning 4 aastat turundus- ja reklaamitööstuses.

Achieve high performance at scale for model serving using Amazon SageMaker multi-model endpoints with GPU PlatoBlockchain Data Intelligence. Vertical Search. Ai. Vikram Elango on AI/ML spetsialistilahenduste arhitekt ettevõttes Amazon Web Services, mis asub USA Virginias. Vikram aitab finants- ja kindlustussektori klientidel projekteerimisel ja läbimõeldud juhtimisel luua ja juurutada laiaulatuslikult masinõpperakendusi. Praegu on ta keskendunud loomuliku keele töötlemisele, vastutustundlikule tehisintellektile, järelduste optimeerimisele ja ML-i skaleerimisele kogu ettevõttes. Vabal ajal meeldib talle perega reisida, matkata, süüa teha ja telkida.

Simon Zamarin on AI/ML-lahenduste arhitekt, kelle põhirõhk on aidata klientidel oma andmevaradest väärtust ammutada. Vabal ajal veedab Simon meelsasti perega aega, loeb ulmet ja töötab erinevate isetegemismajade projektidega.

Saurabh Trikande on Amazon SageMaker Inference'i vanemtootejuht. Ta on kirglik töö klientidega ja teda motiveerib eesmärk demokratiseerida masinõpe. Ta keskendub põhiprobleemidele, mis on seotud keeruliste ML-rakenduste, mitme rentniku ML-mudelite, kulude optimeerimise ja süvaõppemudelite juurutamise kättesaadavamaks muutmisega. Vabal ajal naudib Saurabh matkamist, uuenduslike tehnoloogiate õppimist, TechCrunchi jälgimist ja perega aega veetmist.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
Platoblockchain. Web3 metaversiooni intelligentsus. Täiustatud teadmised. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/achieve-high-performance-at-scale-for-model-serving-using-amazon-sagemaker-multi-model-endpoints-with-gpu/

Ajatempel: Veebruar 24, 2023

Taasavaldanud Platon

Llama 2 ja Mistrali mudelite ning voogesituse vastuste toetamisest teatamine Amazon SageMaker Canvasis | Amazoni veebiteenused

Kahjustuste hindamine Amazon SageMakeri georuumiliste võimaluste ja kohandatud SageMakeri mudelite abil

Käivitage teksti genereerimine GPT ja Bloomi mudelitega rakenduses Amazon SageMaker JumpStart

Tuvastage kõrvalekallete asukoht, kasutades Amazon Lookout for Visioni servas ilma GPU-d kasutamata

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto