Mencapai Performa Tinggi Sesuai Skala Untuk Penyajian Model Menggunakan Titik Akhir Multi-model Amazon SageMaker Dengan GPU

Diterbitkan Ulang Oleh Plato

Followers: 0

Amazon SageMaker titik akhir multi-model (MME) menyediakan cara yang dapat diskalakan dan hemat biaya untuk menerapkan sejumlah besar model machine learning (ML). Ini memberi Anda kemampuan untuk menerapkan beberapa model ML dalam satu wadah penyajian di belakang satu titik akhir. Dari sana, SageMaker mengelola pemuatan dan pembongkaran model dan penskalaan sumber daya atas nama Anda berdasarkan pola lalu lintas Anda. Anda akan mendapat manfaat dari berbagi dan menggunakan kembali sumber daya hosting dan mengurangi beban operasional dalam mengelola model dalam jumlah besar.

Di 2022 November, MME menambahkan dukungan untuk GPUs, yang memungkinkan Anda menjalankan beberapa model pada satu perangkat GPU dan menskalakan instans GPU di belakang satu titik akhir. Ini memenuhi permintaan MME yang kuat untuk model deep neural network (DNN) yang mendapat manfaat dari komputasi yang dipercepat dengan GPU. Ini termasuk visi komputer (CV), pemrosesan bahasa alami (NLP), dan model AI generatif. Alasan permintaan tersebut antara lain sebagai berikut:

Model DNN biasanya berukuran besar dan kompleks serta terus berkembang dengan pesat. Mengambil model NLP sebagai contoh, banyak di antaranya melebihi miliaran parameter, yang membutuhkan GPU untuk memenuhi persyaratan latensi rendah dan throughput tinggi.
Kami telah mengamati peningkatan kebutuhan untuk menyesuaikan model ini untuk memberikan pengalaman yang sangat dipersonalisasi kepada pengguna individu. Seiring bertambahnya jumlah model ini, ada kebutuhan akan solusi yang lebih mudah untuk menyebarkan dan mengoperasionalkan banyak model dalam skala besar.
Instans GPU mahal dan Anda ingin menggunakan kembali instans ini sebanyak mungkin untuk memaksimalkan pemanfaatan GPU dan mengurangi biaya pengoperasian.

Meskipun semua alasan ini mengarah ke MME dengan GPU sebagai opsi ideal untuk model DNN, disarankan untuk melakukan pengujian beban untuk menemukan konfigurasi titik akhir yang tepat yang memenuhi persyaratan kasus penggunaan Anda. Banyak faktor yang dapat memengaruhi hasil pengujian beban, seperti jenis instans, jumlah instans, ukuran model, dan arsitektur model. Selain itu, pengujian beban dapat membantu memandu strategi penskalaan otomatis menggunakan metrik yang tepat daripada metode coba-coba berulang.

Untuk alasan tersebut, kami menyusun postingan ini untuk membantu Anda melakukan pengujian beban yang tepat pada MME dengan GPU dan menemukan konfigurasi terbaik untuk kasus penggunaan ML Anda. Kami membagikan hasil pengujian beban kami untuk beberapa model DNN paling populer di NLP dan CV yang dihosting menggunakan MME pada berbagai jenis instans. Kami meringkas wawasan dan kesimpulan dari hasil pengujian kami untuk membantu Anda membuat keputusan yang tepat dalam mengonfigurasi penerapan Anda sendiri. Sepanjang jalan, kami juga membagikan pendekatan yang kami rekomendasikan untuk melakukan pengujian beban untuk MME di GPU. Alat dan teknik yang direkomendasikan menentukan jumlah optimal model yang dapat dimuat per jenis instans dan membantu Anda mencapai kinerja harga terbaik.

Ikhtisar solusi

Untuk pengenalan MME dan MME dengan GPU, lihat Buat Titik Akhir Multi-Model dan Jalankan beberapa model pembelajaran mendalam di GPU dengan titik akhir multi-model Amazon SageMaker. Untuk konteks pengujian beban di pos ini, Anda dapat mengunduh kode sampel kami dari GitHub repo untuk mereproduksi hasil atau menggunakannya sebagai template untuk membandingkan model Anda sendiri. Ada dua notebook yang disediakan dalam repo: satu untuk model CV pengujian beban dan satu lagi untuk NLP. Beberapa model dengan berbagai ukuran dan arsitektur dijadikan tolok ukur pada jenis instans GPU yang berbeda: ml.g4dn.2xlarge, ml.g5.2xlarge, dan ml.p3.2xlarge. Ini harus memberikan penampang kinerja yang masuk akal di seluruh metrik berikut untuk setiap instans dan jenis model:

Jumlah maksimal model yang dapat dimuat ke dalam memori GPU
Latensi respons end-to-end diamati di sisi klien untuk setiap kueri inferensi
Throughput maksimum kueri per detik yang dapat diproses titik akhir tanpa kesalahan
Maksimalkan pengguna saat ini per instans sebelum permintaan yang gagal diamati

Tabel berikut mencantumkan model yang diuji.

Use Case	Model Nama	Ukuran Pada Disk	Jumlah Parameter
CV	`resnet50`	100Mb	25M
CV	`convnext_base`	352Mb	88M
CV	`vit_large_patch16_224`	1.2Gb	304M
NLP	`bert-base-uncased`	436Mb	109M
NLP	`roberta-large`	1.3Gb	335M

Tabel berikut mencantumkan instans GPU yang diuji.

Jenis Mesin Virtual	Tipe GPU	Jumlah GPU	Memori GPU (GiB)
ml.g4dn.2xlarge	GPU NVIDIA T4	1	16
ml.g5.2xbesar	GPU Inti Tensor NVIDIA A10G	1	24
ml.p3.2xbesar	GPU Inti Tensor NVIDIA® V100	1	16

Seperti disebutkan sebelumnya, contoh kode dapat diadopsi ke model dan jenis instans lainnya.

Perhatikan bahwa MME saat ini hanya mendukung instans GPU tunggal. Untuk daftar jenis instans yang didukung, lihat Algoritme, framework, dan instance yang didukung.

Prosedur pembandingan terdiri dari langkah-langkah berikut:

Ambil model terlatih dari hub model.
Persiapkan artefak model untuk disajikan di MME SageMaker (lihat Jalankan beberapa model pembelajaran mendalam di GPU dengan titik akhir multi-model Amazon SageMaker untuk lebih jelasnya).
Terapkan MME SageMaker pada instans GPU.
Tentukan jumlah maksimum model yang dapat dimuat ke dalam memori GPU dalam batas yang ditentukan.
Gunakan Locust Load Testing Framework untuk mensimulasikan lalu lintas yang secara acak memanggil model yang dimuat pada instans.
Mengumpulkan data dan menganalisis hasilnya.
Secara opsional, ulangi Langkah 2–6 setelah mengompilasi model ke TensorRT.

Langkah 4 dan 5 menjamin pandangan yang lebih dalam. Model dalam MME GPU SageMaker dimuat ke dalam memori secara dinamis. Oleh karena itu, pada Langkah 4, kami mengunggah artefak model awal ke Layanan Penyimpanan Sederhana Amazon (Amazon S3) dan aktifkan model untuk memuatnya ke dalam memori. Setelah pemanggilan awal, kami mengukur jumlah memori GPU yang digunakan, membuat salinan model awal, memanggil salinan model untuk memuatnya ke dalam memori, dan sekali lagi mengukur jumlah total memori GPU yang digunakan. Proses ini diulangi hingga batas persen penggunaan memori GPU yang ditentukan tercapai. Untuk tolok ukur, kami menetapkan ambang batas ke 90% untuk menyediakan buffer memori yang wajar untuk inferensi pada batch yang lebih besar atau menyisakan ruang untuk memuat model lain yang jarang digunakan.

Simulasikan lalu lintas pengguna

Setelah kami menentukan jumlah model, kami dapat menjalankan uji beban menggunakan Kerangka Pengujian Beban Locust. Uji beban mensimulasikan permintaan pengguna ke model acak dan secara otomatis mengukur metrik seperti latensi respons dan throughput.

Locust mendukung bentuk uji beban khusus yang memungkinkan Anda menentukan pola lalu lintas khusus. Bentuk yang digunakan dalam tolok ukur ini ditunjukkan pada bagan berikut. Dalam 30 detik pertama, titik akhir dihangatkan dengan 10 pengguna bersamaan. Setelah 30 detik, pengguna baru muncul dengan kecepatan dua per detik, mencapai 20 pengguna bersamaan pada tanda 40 detik. Titik akhir kemudian diukur secara stabil dengan 20 pengguna bersamaan hingga tanda 60 detik, di mana Locust kembali mulai meningkatkan pengguna dengan kecepatan dua kali per detik hingga 40 pengguna bersamaan. Pola peningkatan dan pengujian stabil ini diulang hingga titik akhir ditingkatkan hingga 200 pengguna secara bersamaan. Bergantung pada kasus penggunaan Anda, Anda mungkin ingin menyesuaikan bentuk uji beban di locust_benchmark_sm.py untuk mencerminkan pola lalu lintas yang diharapkan secara lebih akurat. Misalnya, jika Anda ingin menghosting model bahasa yang lebih besar, uji beban dengan 200 pengguna bersamaan mungkin tidak layak untuk model yang dihosting pada satu instans, dan oleh karena itu Anda mungkin ingin mengurangi jumlah pengguna atau menambah jumlah instans. Anda mungkin juga ingin memperpanjang durasi uji beban untuk mengukur stabilitas titik akhir dengan lebih akurat dalam jangka waktu yang lebih lama.

stages = [
{"duration": 30, "users": 10, "spawn_rate": 5},
{"duration": 60, "users": 20, "spawn_rate": 1},
{"duration": 90, "users": 40, "spawn_rate": 2},
…
]

Raih performa tinggi dalam skala besar untuk penyajian model menggunakan titik akhir multi-model Amazon SageMaker dengan GPU PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Perhatikan bahwa kami hanya membandingkan titik akhir dengan model homogen yang semuanya berjalan pada basis penyajian yang konsisten menggunakan PyTorch atau TensorRT. Ini karena MME paling cocok untuk menghosting banyak model dengan karakteristik serupa, seperti konsumsi memori dan waktu respons. Template pembandingan yang disediakan di GitHub repo masih dapat digunakan untuk menentukan apakah melayani model heterogen pada MME akan menghasilkan performa dan stabilitas yang diinginkan.

Hasil benchmark untuk model CV

Gunakan notebook cv-benchmark.ipynb untuk menjalankan pengujian beban untuk model visi komputer. Anda dapat menyesuaikan nama model terlatih dan parameter jenis instans ke pengujian beban kinerja pada kombinasi model dan tipe instans yang berbeda. Kami sengaja menguji tiga model CV dalam rentang ukuran yang berbeda dari yang terkecil hingga yang terbesar: resnet50 (25 jt), convnext_base (88M), dan vit_large_patch16_224 (304M). Anda mungkin perlu menyesuaikan kode jika memilih model di luar daftar ini. selain itu, notebook menyetel bentuk gambar input ke tensor gambar 224x224x3 secara default. Ingatlah untuk menyesuaikan bentuk masukan yang sesuai jika Anda perlu membandingkan model yang mengambil gambar dengan ukuran berbeda.

Setelah menjalankan seluruh notebook, Anda akan mendapatkan beberapa visualisasi analisis kinerja. Dua yang pertama merinci kinerja model sehubungan dengan peningkatan pengguna secara bersamaan. Gambar berikut adalah contoh visualisasi yang dihasilkan untuk ResNet50 model berjalan di ml.g4dn.2xlarge, membandingkan PyTorch (kiri) vs. TensorRT (kanan). Grafik garis atas menunjukkan latensi model dan throughput pada sumbu y dengan meningkatnya jumlah pekerja klien bersamaan yang tercermin pada sumbu x. Bagan batang bawah menunjukkan jumlah permintaan yang berhasil dan gagal.

Raih performa tinggi dalam skala besar untuk penyajian model menggunakan titik akhir multi-model Amazon SageMaker dengan GPU PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Melihat semua model visi komputer yang kami uji, kami menemukan hal berikut:

Latensi (dalam milidetik) lebih tinggi, dan throughput (permintaan per detik) lebih rendah untuk model yang lebih besar (resnet50 > convnext_base > vit_large_patch16_224).
Peningkatan latensi sebanding dengan jumlah pengguna karena lebih banyak permintaan yang diantrekan di server inferensi.
Model besar mengonsumsi lebih banyak sumber daya komputasi dan dapat mencapai batas throughput maksimumnya dengan lebih sedikit pengguna daripada model yang lebih kecil. Hal ini diamati dengan vit_large_patch16_224 model, yang mencatat permintaan gagal pertama pada 140 pengguna bersamaan. Menjadi jauh lebih besar daripada dua model lain yang diuji, itu memiliki permintaan gagal paling banyak secara keseluruhan pada konkurensi yang lebih tinggi juga. Ini adalah sinyal yang jelas bahwa titik akhir perlu menskalakan lebih dari satu instans jika tujuannya adalah untuk mendukung lebih dari 140 pengguna secara bersamaan.

Raih performa tinggi dalam skala besar untuk penyajian model menggunakan titik akhir multi-model Amazon SageMaker dengan GPU PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Di akhir proses notebook, Anda juga mendapatkan ringkasan perbandingan model PyTorch vs. TensorRT untuk masing-masing dari empat metrik utama. Dari pengujian benchmark kami, semua model CV melihat peningkatan performa model setelah kompilasi TensorRT. Mengambil kami ResNet50 model sebagai contoh lagi, latensi menurun sebesar 32% sementara throughput meningkat sebesar 18%. Meskipun jumlah maksimum pengguna bersamaan tetap sama ResNet50, dua model lainnya mengalami peningkatan sebesar 14% dalam jumlah pengguna bersamaan yang dapat mereka dukung. Peningkatan kinerja TensorRT, bagaimanapun, datang dengan mengorbankan penggunaan memori yang lebih tinggi, menghasilkan lebih sedikit model yang dimuat oleh MME. Dampaknya lebih untuk model yang menggunakan convolutional neural network (CNN). Faktanya, model ResNet50 kami menghabiskan kira-kira dua kali memori GPU dari PyTorch ke TensorRT, menghasilkan 50% lebih sedikit model yang dimuat (46 vs. 23). Kami mendiagnosa perilaku ini lebih lanjut di bagian berikut.

Hasil benchmark untuk model NLP

Untuk model NLP, gunakan notebook nlp-benchmark.ipynb untuk menjalankan uji beban. Penyiapan notebook akan terlihat sangat mirip. Kami menguji dua model NLP: bert-base-uncased (109M) dan roberta-large (335M). Model terlatih dan tokenizer keduanya diunduh dari hub Hugging Face, dan muatan uji dihasilkan dari tokenizer menggunakan string sampel. Panjang urutan maksimum ditetapkan secara default pada 128. Jika Anda perlu menguji string yang lebih panjang, ingatlah untuk menyesuaikan parameter tersebut. Menjalankan melalui notebook NLP menghasilkan rangkaian visualisasi yang sama: Pytorch (kiri) vs TensorRT (kanan).

Raih performa tinggi dalam skala besar untuk penyajian model menggunakan titik akhir multi-model Amazon SageMaker dengan GPU PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Dari sini, kami mengamati lebih banyak manfaat kinerja TensorRT untuk model NLP. Mengambil roberta-large model pada instans ml.g4dn.2xlarge misalnya, latensi inferensi menurun drastis dari 180 milidetik menjadi 56 milidetik (peningkatan 70%), sedangkan throughput meningkat sebesar 406% dari 33 permintaan per detik menjadi 167. Selain itu, jumlah maksimum permintaan bersamaan pengguna meningkat sebesar 50%; permintaan yang gagal tidak diamati hingga kami mencapai 180 pengguna bersamaan, dibandingkan dengan 120 untuk model PyTorch asli. Dalam hal pemanfaatan memori, kami melihat satu model lebih sedikit dimuat untuk TensorRT (dari sembilan model menjadi delapan). Namun, dampak negatifnya jauh lebih kecil dibandingkan dengan apa yang kami amati dengan model berbasis CNN.

Analisis penggunaan memori

Tabel berikut menunjukkan analisis lengkap tentang dampak penggunaan memori dari PyTorch ke TensorRT. Kami telah menyebutkan sebelumnya bahwa model berbasis CNN terkena dampak yang lebih negatif. Itu ResNet50 model memiliki pengurangan lebih dari 50% dalam jumlah model yang dimuat di ketiga jenis instans GPU. Convnext_base memiliki pengurangan yang lebih besar sekitar 70% di seluruh papan. Di sisi lain, dampak pada model trafo kecil atau campuran. vit_large_patch16_224 dan roberta-large memiliki pengurangan rata-rata masing-masing sekitar 20% dan 3%. bert-base-uncased mengalami peningkatan sekitar 40%.

Melihat semua poin data secara keseluruhan sehubungan dengan performa superior dalam latensi, throughput, dan keandalan, serta dampak kecil pada jumlah maksimum model yang dimuat, kami merekomendasikan model TensorRT untuk arsitektur model berbasis transformer. Untuk CNN, kami yakin analisis kinerja biaya lebih lanjut diperlukan untuk memastikan manfaat kinerja melebihi biaya infrastruktur hosting tambahan.

Kasus Penggunaan ML	Arsitektur	Model Nama	Jenis Mesin Virtual	Kerangka	Max Model Dimuat	Selisih (%)	Rata-rata Selisih (%)
CV	CNN	`Resnet50`	ml.g4dn.2xlarge	PyTorch	46	-50%	-50%
				TensorRT	23
			ml.g5.2xbesar	PyTorch	70	-51%
				TensorRT	34
			ml.p3.2xbesar	PyTorch	49	-51%
				TensorRT	24
		`Convnext_base`	ml.g4dn.2xlarge	PyTorch	33	-50%	-70%
				TensorRT	10
			ml.g5.2xbesar	PyTorch	50	-70%
				TensorRT	16
			ml.p3.2xbesar	PyTorch	35	-69%
				TensorRT	11
	Transformator	`vit_large_patch16_224`	ml.g4dn.2xlarge	PyTorch	10	-30%	-20%
				TensorRT	7
			ml.g5.2xbesar	PyTorch	15	-13%
				TensorRT	13
			ml.p3.2xbesar	PyTorch	11	-18%
				TensorRT	9
NLP		`Roberta-large`	ml.g4dn.2xlarge	PyTorch	9	-11%	-3%
				TensorRT	8
			ml.g5.2xbesar	PyTorch	13	0%
				TensorRT	13
			ml.p3.2xbesar	PyTorch	9	0%
				TensorRT	9
		`Bert-base-uncased`	ml.g4dn.2xlarge	PyTorch	26	62%	40%
				TensorRT	42
			ml.g5.2xbesar	PyTorch	39	28%
				TensorRT	50
			ml.p3.2xbesar	PyTorch	28	29%
				TensorRT	36

Tabel berikut mencantumkan hasil tolok ukur lengkap kami untuk semua metrik di ketiga jenis instans GPU.

ml.g4dn.2xlarge
Use Case	Arsitektur	Model Nama	Jumlah Parameter	Kerangka	Max Model Dimuat	Selisih (%)	Latensi (mdtk)	Selisih (%)	Keluaran (qps)	Selisih (%)	Pengguna Bersamaan Maks	Selisih (%)
CV	CNN	`resnet50`	25M	PyTorch	46	-50%	164	-32%	120	18%	180	NA
		`resnet50`	25M	TensorRT	23	.	111	.	142	.	180	.
		`convnext_base`	88M	PyTorch	33	-70%	154	-22%	64	102%	140	14%
		`convnext_base`	88M	TensorRT	10	.	120	.	129	.	160	.
	Transformator	`vit_large_patch16_224`	304M	PyTorch	10	-30%	425	-69%	26	304%	140	14%
		`vit_large_patch16_224`	304M	TensorRT	7	.	131	.	105	.	160	.
NLP		`bert-base-uncased`	109M	PyTorch	26	62%	70	-39%	105	142%	140	29%
		`bert-base-uncased`	109M	TensorRT	42	.	43	.	254	.	180	.
		`roberta-large`	335M	PyTorch	9	-11%	187	-70%	33	406%	120	50%
		`roberta-large`	335M	TensorRT	8	.	56	.	167	.	180	.

ml.g5.2xbesar
Use Case	Arsitektur	Model Nama	Jumlah Parameter	Kerangka	Max Model Dimuat	Selisih (%)	Latensi (mdtk)	Selisih (%)	Keluaran (qps)	Selisih (%)	Pengguna Bersamaan Maks	Selisih (%)
CV	CNN	`resnet50`	25M	PyTorch	70	-51%	159	-31%	146	14%	180	11%
		`resnet50`	25M	TensorRT	34	.	110	.	166	.	200	.
		`convnext_base`	88M	PyTorch	50	-68%	149	-23%	134	13%	180	0%
		`convnext_base`	88M	TensorRT	16	.	115	.	152	.	180	.
	Transformator	`vit_large_patch16_224`	304M	PyTorch	15	-13%	149	-22%	105	35%	160	25%
		`vit_large_patch16_224`	304M	TensorRT	13	.	116	.	142	.	200	.
NLP		`bert-base-uncased`	109M	PyTorch	39	28%	65	-29%	183	38%	180	11%
		`bert-base-uncased`	109M	TensorRT	50	.	46	.	253	.	200	.
		`roberta-large`	335M	PyTorch	13	0%	97	-38%	121	46%	140	14%
		`roberta-large`	335M	TensorRT	13	.	60	.	177	.	160	.

ml.p3.2xbesar
Use Case	Arsitektur	Model Nama	Jumlah Parameter	Kerangka	Max Model Dimuat	Selisih (%)	Latensi (mdtk)	Selisih (%)	Keluaran (qps)	Selisih (%)	Pengguna Bersamaan Maks	Selisih (%)
CV	CNN	`resnet50`	25M	PyTorch	49	-51%	197	-41%	94	18%	160	-12%
		`resnet50`	25M	TensorRT	24	.	117	.	111	.	140	.
		`convnext_base`	88M	PyTorch	35	-69%	178	-23%	89	11%	140	14%
		`convnext_base`	88M	TensorRT	11	. 137	137	.	99	.	160	.
	Transformator	`vit_large_patch16_224`	304M	PyTorch	11	-18%	186	-28%	83	23%	140	29%
		`vit_large_patch16_224`	304M	TensorRT	9	.	134	.	102	.	180	.
NLP		`bert-base-uncased`	109M	PyTorch	28	29%	77	-40%	133	59%	140	43%
		`bert-base-uncased`	109M	TensorRT	36	.	46	.	212	.	200	.
		`roberta-large`	335M	PyTorch	9	0%	108	-44%	88	60%	160	0%
		`roberta-large`	335M	TensorRT	9	.	61	.	141	.	160	.

Tabel berikut meringkas hasil di semua jenis instans. Instans ml.g5.2xlarge memberikan kinerja terbaik, sedangkan instans ml.p3.2xlarge umumnya berperforma buruk meskipun merupakan yang paling mahal dari ketiganya. Instans g5 dan g4dn menunjukkan nilai terbaik untuk beban kerja inferensi.

Use Case	Arsitektur	Model Nama	Jumlah Parameter	Kerangka	Jenis Mesin Virtual	Max Model Dimuat	Selisih (%)	Latensi (mdtk)	Selisih (%)	Keluaran (qps)	Selisih (%)	Pengguna Bersamaan Maks
CV	CNN	`resnet50`	25M	PyTorch	ml.g5.2xbesar	70	.	159	.	146	.	180
.	.	.	.	.	ml.p3.2xbesar	49	.	197	.	94	.	160
.	.	.	.	.	ml.g4dn.2xlarge	46	.	164	.	120	.	180
CV	CN	`resnet50`	25M	TensorRT	ml.g5.2xbesar	34	-51%	110	-31%	166	14%	200
.	.	.	.	.	ml.p3.2xbesar	24	-51%	117	-41%	111	18%	200
.	.	.	.	.	ml.g4dn.2xlarge	23	-50%	111	-32%	142	18%	180
NLP	Transformator	`bert-base-uncased`	109M	pytorch	ml.g5.2xbesar	39	.	65	.	183	.	180
.	.	.	.	.	ml.p3.2xbesar	28	.	77	.	133	.	140
.	.	.	.	.	ml.g4dn.2xlarge	26	.	70	.	105	.	140
NLP	Transformator	`bert-base-uncased`	109M	TensorRT	ml.g5.2xbesar	50	28%	46	-29%	253	38%	200
.	.	.	.	.	ml.p3.2xbesar	36	29%	46	-40%	212	59%	200
.	.	.	.	.	ml.g4dn.2xlarge	42	62%	43	-39%	254	142%	180

Membersihkan

Setelah Anda menyelesaikan uji beban, bersihkan sumber daya yang dihasilkan untuk menghindari biaya tambahan. Sumber daya utamanya adalah titik akhir SageMaker dan file artefak model di Amazon S3. Untuk memudahkan Anda, file buku catatan memiliki kode pembersihan berikut untuk membantu Anda menghapusnya:

delete_endpoint(sm_client, sm_model_name, endpoint_config_name, endpoint_name) ! aws s3 rm --recursive {trt_mme_path}

Kesimpulan

Dalam postingan ini, kami membagikan hasil pengujian dan analisis kami untuk berbagai model jaringan neural dalam yang berjalan pada titik akhir multimodel SageMaker dengan GPU. Hasil dan wawasan yang kami bagikan harus memberikan penampang kinerja yang wajar di berbagai metrik dan jenis instans. Dalam prosesnya, kami juga memperkenalkan pendekatan yang kami rekomendasikan untuk menjalankan pengujian benchmark untuk MME SageMaker dengan GPU. Alat dan contoh kode yang kami berikan dapat membantu Anda mempercepat pengujian tolok ukur dan membuat keputusan yang lebih tepat tentang cara menghosting ratusan model DNN dengan biaya yang efektif pada perangkat keras komputasi yang dipercepat. Untuk memulai pembandingan model Anda sendiri dengan dukungan MME untuk GPU, lihat Algoritme, framework, dan instance yang didukung dan GitHub repo untuk contoh dan dokumentasi tambahan.

Tentang penulis

James Wu adalah Arsitek Solusi Spesialis AI/ML Senior di AWS. membantu pelanggan merancang dan membangun solusi AI/ML. Pekerjaan James mencakup berbagai kasus penggunaan ML, dengan minat utama pada visi komputer, pembelajaran mendalam, dan penskalaan ML di seluruh perusahaan. Sebelum bergabung dengan AWS, James adalah seorang arsitek, pengembang, dan pemimpin teknologi selama lebih dari 10 tahun, termasuk 6 tahun di bidang teknik dan 4 tahun di industri pemasaran & periklanan.

Raih performa tinggi dalam skala besar untuk penyajian model menggunakan titik akhir multi-model Amazon SageMaker dengan GPU PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Vikram Elango adalah Arsitek Solusi Spesialis AI/ML di Amazon Web Services, yang berbasis di Virginia USA. Vikram membantu pelanggan industri keuangan dan asuransi dengan desain, kepemimpinan pemikiran untuk membangun dan menerapkan aplikasi pembelajaran mesin dalam skala besar. Dia saat ini fokus pada pemrosesan bahasa alami, AI yang bertanggung jawab, pengoptimalan inferensi, dan penskalaan ML di seluruh perusahaan. Di waktu luangnya, ia menikmati perjalanan, hiking, memasak dan berkemah bersama keluarganya.

Simon Zamarin adalah Arsitek Solusi AI / ML yang fokus utamanya membantu pelanggan mengekstrak nilai dari aset data mereka. Di waktu luangnya, Simon menikmati menghabiskan waktu bersama keluarga, membaca fiksi ilmiah, dan mengerjakan berbagai proyek rumah DIY.

Saurabh Trikande adalah Manajer Produk Senior untuk Inferensi Amazon SageMaker. Dia bersemangat bekerja dengan pelanggan dan termotivasi oleh tujuan mendemokratisasi pembelajaran mesin. Dia berfokus pada tantangan inti yang terkait dengan penerapan aplikasi ML yang kompleks, model ML multi-penyewa, pengoptimalan biaya, dan membuat penerapan model pembelajaran mendalam lebih mudah diakses. Di waktu luangnya, Saurabh menikmati hiking, belajar tentang teknologi inovatif, mengikuti TechCrunch, dan menghabiskan waktu bersama keluarganya.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/achieve-high-performance-at-scale-for-model-serving-using-amazon-sagemaker-multi-model-endpoints-with-gpu/

Stempel Waktu: Februari 24, 2023

Diterbitkan Ulang Oleh Plato

Mengumumkan dukungan untuk model Llama 2 dan Mistral serta respons streaming di Amazon SageMaker Canvas | Layanan Web Amazon

Penilaian kerusakan menggunakan kemampuan geospasial Amazon SageMaker dan model SageMaker kustom

Jalankan pembuatan teks dengan model GPT dan Bloom di Amazon SageMaker JumpStart

Identifikasi lokasi anomali menggunakan Amazon Lookout for Vision di edge tanpa menggunakan GPU

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun