Menghosting Model ML Di Amazon SageMaker Menggunakan Triton: XGBoost, LightGBM, dan Model Treelite

Diterbitkan Ulang Oleh Plato

Followers: 0

Salah satu model terpopuler yang tersedia saat ini adalah XGBoost. Dengan kemampuan untuk menyelesaikan berbagai masalah seperti klasifikasi dan regresi, XGBoost telah menjadi pilihan populer yang juga masuk dalam kategori model berbasis pohon. Dalam posting ini, kami menyelam lebih dalam untuk melihat caranya Amazon SageMaker dapat melayani model ini menggunakan Server Inferensi NVIDIA Triton. Beban kerja inferensi real-time dapat memiliki berbagai tingkat persyaratan dan perjanjian tingkat layanan (SLA) dalam hal latensi dan throughput, dan dapat dipenuhi menggunakan titik akhir real-time SageMaker.

SageMaker menyediakan titik akhir model tunggal, yang memungkinkan Anda menerapkan model machine learning (ML) tunggal terhadap titik akhir yang logis. Untuk kasus penggunaan lainnya, Anda dapat memilih untuk mengelola biaya dan kinerja menggunakan titik akhir multi-model, yang memungkinkan Anda menentukan beberapa model untuk dihosting di belakang titik akhir yang logis. Terlepas dari opsi yang Anda pilih, titik akhir SageMaker memungkinkan mekanisme yang dapat diskalakan bahkan untuk pelanggan perusahaan yang paling menuntut sekalipun sambil memberikan nilai dalam banyak fitur, termasuk varian bayangan, penskalaan otomatis, dan integrasi asli dengan amazoncloudwatch (untuk informasi lebih lanjut, lihat Metrik CloudWatch untuk Penerapan Titik Akhir Multi-Model).

Triton mendukung berbagai backend sebagai mesin untuk mendukung pengoperasian dan penyajian berbagai model ML untuk inferensi. Untuk penerapan Triton apa pun, penting untuk mengetahui bagaimana perilaku backend memengaruhi beban kerja Anda dan apa yang diharapkan agar Anda bisa sukses. Dalam posting ini, kami membantu Anda memahami Backend Perpustakaan Inferensi Hutan (FIL)., yang didukung oleh Triton di SageMaker, sehingga Anda dapat membuat keputusan yang tepat untuk beban kerja Anda dan mendapatkan kinerja terbaik serta pengoptimalan biaya.

Menyelam lebih dalam ke backend FIL

Triton mendukung Bagian belakang FIL untuk melayani model pohon, seperti XGBoost, GBM Ringan, scikit-belajar Hutan Acak, Hutan Acak RAPIDS cuML, dan model lain yang didukung oleh pohon. Model ini telah lama digunakan untuk memecahkan masalah seperti klasifikasi atau regresi. Meskipun jenis model ini secara tradisional berjalan di CPU, popularitas model ini dan permintaan inferensi telah menghasilkan berbagai teknik untuk meningkatkan performa inferensi. Backend FIL menggunakan banyak dari teknik ini dengan menggunakan konstruksi cuML dan dibangun di atas C++ dan pustaka inti CUDA untuk mengoptimalkan kinerja inferensi pada akselerator GPU.

Backend FIL menggunakan pustaka cuML untuk menggunakan inti CPU atau GPU untuk mempercepat pembelajaran. Untuk menggunakan prosesor ini, data direferensikan dari memori host (misalnya, larik NumPy) atau larik GPU (uDF, Numba, cuPY, atau pustaka apa pun yang mendukung __cuda_array_interface__) API. Setelah data dipentaskan dalam memori, backend FIL dapat menjalankan pemrosesan di semua inti CPU atau GPU yang tersedia.

Utas backend FIL dapat berkomunikasi satu sama lain tanpa menggunakan memori bersama dari host, tetapi dalam beban kerja ansambel, memori host harus dipertimbangkan. Diagram berikut menunjukkan arsitektur runtime penjadwal ansambel di mana Anda memiliki kemampuan untuk menyempurnakan area memori, termasuk memori bersama beralamat CPU yang digunakan untuk komunikasi antar proses antara Triton (C++) dan proses Python (backend Python) untuk bertukar tensor (input/output) dengan backend FIL.

Menghosting Model ML di Amazon SageMaker menggunakan Triton: XGBoost, LightGBM, dan Treelite Model PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Triton Inference Server menyediakan opsi yang dapat dikonfigurasi bagi pengembang untuk menyesuaikan beban kerja mereka dan mengoptimalkan kinerja model. Konfigurasi dynamic_batching memungkinkan Triton untuk menahan permintaan sisi klien dan mengelompokkannya di sisi server agar dapat menggunakan komputasi paralel FIL secara efisien untuk menyimpulkan seluruh kumpulan secara bersamaan. Pilihan max_queue_delay_microseconds menawarkan kontrol yang aman terhadap berapa lama Triton menunggu untuk membentuk kelompok.

Ada sejumlah FIL-spesifik lainnya pilihan yang tersedia yang mempengaruhi kinerja dan perilaku. Kami sarankan mulai dengan storage_type. Saat menjalankan backend pada GPU, FIL membuat struktur memori/data baru yang merupakan representasi dari pohon tempat FIL dapat memengaruhi kinerja dan footprint. Ini dapat dikonfigurasi melalui parameter lingkungan storage_type, yang memiliki opsi padat, jarang, dan otomatis. Memilih opsi padat akan menghabiskan lebih banyak memori GPU dan tidak selalu menghasilkan performa yang lebih baik, jadi sebaiknya periksa. Sebaliknya, opsi jarang akan mengkonsumsi lebih sedikit memori GPU dan mungkin dapat bekerja dengan baik atau lebih baik daripada padat. Memilih otomatis akan menyebabkan model menjadi padat secara default kecuali hal itu akan menghabiskan lebih banyak memori GPU secara signifikan daripada jarang.

Dalam hal kinerja model, Anda dapat mempertimbangkan untuk menekankan threads_per_tree pilihan. Satu hal yang mungkin Anda layani secara berlebihan dalam skenario dunia nyata adalah itu threads_per_tree dapat memiliki dampak yang lebih besar pada throughput daripada parameter lainnya. Menyetelnya ke pangkat 2 apa pun dari 1–32 adalah sah. Nilai optimal sulit diprediksi untuk parameter ini, tetapi saat server diharapkan menangani beban yang lebih tinggi atau memproses ukuran batch yang lebih besar, server cenderung mendapatkan keuntungan dari nilai yang lebih besar daripada saat memproses beberapa baris sekaligus.

Parameter lain yang harus diperhatikan adalah algo, yang juga tersedia jika Anda menggunakan GPU. Parameter ini menentukan algoritme yang digunakan untuk memproses permintaan inferensi. Opsi yang didukung untuk ini adalah ALGO_AUTO, NAIVE, TREE_REORG, dan BATCH_TREE_REORG. Opsi ini menentukan bagaimana node di dalam pohon diatur dan juga dapat menghasilkan peningkatan kinerja. Itu ALGO_AUTO opsi default ke NAIVE untuk penyimpanan jarang dan BATCH_TREE_REORG untuk penyimpanan padat.

Terakhir, FIL hadir dengan penjelasan Shapley, yang dapat diaktifkan dengan menggunakan treeshap_output parameter. Namun, Anda harus ingat bahwa keluaran Shapley merusak kinerja karena ukuran keluarannya.

Format model

Saat ini tidak ada format file standar untuk menyimpan model berbasis hutan; setiap kerangka kerja cenderung menentukan formatnya sendiri. Untuk mendukung berbagai format file masukan, FIL mengimpor data menggunakan sumber terbuka pohon perpustakaan. Ini memungkinkan FIL untuk mendukung model yang dilatih dalam kerangka kerja populer, seperti XGBoost dan CahayaGBM. Perhatikan bahwa format model yang Anda berikan harus disetel di model_type nilai konfigurasi yang ditentukan dalam config.pbtxt file.

Konfigurasi.pbtxt

Setiap model dalam a repositori model harus menyertakan konfigurasi model yang menyediakan informasi wajib dan opsional tentang model tersebut. Biasanya, konfigurasi ini disediakan dalam a config.pbtxt file yang ditentukan sebagai protobuf ModelConfig. Untuk mempelajari lebih lanjut tentang pengaturan konfigurasi, lihat Konfigurasi Model. Berikut ini adalah beberapa parameter konfigurasi model:

max_batch_size – Ini menentukan ukuran batch maksimum yang dapat diteruskan ke model ini. Secara umum, satu-satunya batasan ukuran kumpulan yang diteruskan ke backend FIL adalah memori yang tersedia untuk memprosesnya. Untuk menjalankan GPU, memori yang tersedia ditentukan oleh ukuran kumpulan memori CUDA Triton, yang dapat diatur melalui argumen baris perintah saat memulai server.
memasukkan – Opsi di bagian ini memberi tahu Triton jumlah fitur yang diharapkan untuk setiap sampel input.
keluaran – Opsi di bagian ini memberi tahu Triton berapa banyak nilai output yang akan ada untuk setiap sampel. Jika predict_proba opsi disetel ke true, maka nilai probabilitas akan dikembalikan untuk setiap kelas. Jika tidak, satu nilai akan dikembalikan, menunjukkan prediksi kelas untuk sampel yang diberikan.
contoh_grup – Ini menentukan berapa banyak contoh model ini akan dibuat dan apakah mereka akan menggunakan GPU atau CPU.
tipe model – String ini menunjukkan format model yang digunakan (xgboost_json dalam contoh ini, tapi xgboost, lightgbm, dan tl_checkpoint adalah format yang valid juga).
prediksi_proba – Jika disetel ke true, nilai probabilitas akan dikembalikan untuk setiap kelas, bukan hanya prediksi kelas.
kelas_output – Ini disetel ke true untuk model klasifikasi dan false untuk model regresi.
ambang – Ini adalah ambang skor untuk menentukan klasifikasi. Kapan output_class disetel ke true, ini harus disediakan, meskipun tidak akan digunakan jika predict_proba juga disetel ke true.
penyimpanan_tipe – Secara umum, menggunakan AUTO untuk pengaturan ini harus memenuhi sebagian besar kasus penggunaan. Jika penyimpanan AUTO dipilih, FIL akan memuat model menggunakan representasi renggang atau padat berdasarkan perkiraan ukuran model. Dalam beberapa kasus, Anda mungkin ingin menyetelnya secara eksplisit ke SPARSE untuk mengurangi jejak memori model besar.

Server Inferensi Triton di SageMaker

SageMaker memungkinkan Anda untuk menerapkan titik akhir model tunggal dan multi-model dengan NVIDIA Triton Inference Server. Gambar berikut menunjukkan arsitektur tingkat tinggi Triton Inference Server. Itu repositori model adalah repositori berbasis sistem file dari model yang akan disediakan Triton untuk inferensi. Permintaan inferensi tiba di server dan dialihkan ke penjadwal per model yang sesuai. Peralatan Triton beberapa algoritma penjadwalan dan batching yang dapat dikonfigurasi berdasarkan model demi model. Penjadwal masing-masing model secara opsional melakukan pengelompokan permintaan inferensi dan kemudian meneruskan permintaan tersebut ke backend sesuai dengan tipe model. Backend melakukan inferensi menggunakan input yang disediakan dalam permintaan batch untuk menghasilkan output yang diminta. Output kemudian dikembalikan.

Saat mengonfigurasi grup penskalaan otomatis untuk titik akhir SageMaker, Anda mungkin ingin mempertimbangkannya SageMakerVariantInvocationsPerInstance sebagai kriteria utama untuk menentukan karakteristik penskalaan grup penskalaan otomatis Anda. Selain itu, bergantung pada apakah model Anda berjalan pada GPU atau CPU, Anda juga dapat mempertimbangkan untuk menggunakan CPUUtilization atau GPUUtilization sebagai kriteria tambahan. Perhatikan bahwa untuk titik akhir model tunggal, karena semua model yang diterapkan sama, cukup mudah untuk menetapkan kebijakan yang sesuai untuk memenuhi SLA Anda. Untuk endpoint multi-model, sebaiknya terapkan model serupa di belakang endpoint tertentu untuk mendapatkan performa yang lebih stabil dan dapat diprediksi. Dalam kasus penggunaan yang menggunakan model dengan berbagai ukuran dan persyaratan, Anda mungkin ingin memisahkan beban kerja tersebut di beberapa titik akhir multi-model atau meluangkan waktu menyempurnakan kebijakan grup penskalaan otomatis untuk mendapatkan keseimbangan biaya dan performa terbaik.

Menghosting Model ML di Amazon SageMaker menggunakan Triton: XGBoost, LightGBM, dan Treelite Model PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Untuk daftar NVIDIA Triton Deep Learning Containers (DLC) yang didukung oleh inferensi SageMaker, lihat Tersedia Gambar Deep Learning Containers.

Panduan buku catatan SageMaker

Aplikasi ML itu kompleks dan seringkali memerlukan pemrosesan awal data. Di notebook ini, kami mendalami cara menerapkan model ML berbasis pohon seperti XGBoost menggunakan backend FIL di Triton pada titik akhir multimodel SageMaker. Kami juga membahas cara mengimplementasikan pipeline inferensi preprocessing data berbasis Python untuk model Anda menggunakan fitur ansambel di Triton. Ini akan memungkinkan kami mengirimkan data mentah dari sisi klien dan melakukan prapemrosesan data dan inferensi model di titik akhir Triton SageMaker untuk performa inferensi yang optimal.

Fitur ansambel model Triton

Server Inferensi Triton sangat menyederhanakan penerapan model AI pada skala produksi. Triton Inference Server hadir dengan solusi praktis yang menyederhanakan pembuatan preprocessing dan postprocessing pipeline. Platform Server Inferensi Triton menyediakan penjadwal ansambel, yang bertanggung jawab untuk menyalurkan model yang berpartisipasi dalam proses inferensi sambil memastikan efisiensi dan mengoptimalkan throughput. Menggunakan model ansambel dapat menghindari overhead transfer tensor menengah dan meminimalkan jumlah permintaan yang harus dikirim ke Triton.

Menghosting Model ML di Amazon SageMaker menggunakan Triton: XGBoost, LightGBM, dan Treelite Model PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Dalam notebook ini, kami menunjukkan cara menggunakan fitur ansambel untuk membuat pipeline preprocessing data dengan inferensi model XGBoost, dan Anda dapat mengekstrapolasi darinya untuk menambahkan postprocessing kustom ke pipeline.

Mengatur lingkungan

Kita mulai dengan menyiapkan lingkungan yang diperlukan. Kami menginstal dependensi yang diperlukan untuk mengemas pipa model kami dan menjalankan inferensi menggunakan Triton Inference Server. Kami juga mendefinisikan Identitas AWS dan Manajemen Akses (IAM) yang akan memberi SageMaker akses ke artefak model dan NVIDIA Triton Registry Kontainer Elastis Amazon gambar (ECR Amazon). Lihat kode berikut:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Buat lingkungan Conda untuk preprocessing dependencies

Backend Python di Triton mengharuskan kita untuk menggunakan a Kondominium lingkungan untuk setiap dependensi tambahan. Dalam hal ini, kami menggunakan backend Python untuk melakukan praproses data mentah sebelum memasukkannya ke dalam model XGBoost yang berjalan di backend FIL. Meskipun kami awalnya menggunakan RAPIDS cuDF dan cuML untuk melakukan preprocessing data, di sini kami menggunakan Pandas dan scikit-learn sebagai dependensi preprocessing selama inferensi. Kami melakukan ini karena tiga alasan:

Kami menunjukkan cara membuat lingkungan Conda untuk dependensi Anda dan cara mengemasnya di format yang diharapkan oleh backend Python Triton.
Dengan menunjukkan model pra-pemrosesan yang berjalan di backend Python di CPU sementara XGBoost berjalan di GPU di backend FIL, kami mengilustrasikan bagaimana setiap model di pipa ansambel Triton dapat berjalan di backend kerangka kerja yang berbeda serta konfigurasi perangkat keras yang berbeda.
Ini menyoroti bagaimana pustaka RAPIDS (cuDF, cuML) kompatibel dengan rekan CPU mereka (Panda, scikit-learn). Sebagai contoh, kami dapat menunjukkan caranya LabelEncoders dibuat di cuML dapat digunakan di scikit-learn dan sebaliknya.

Kami mengikuti instruksi dari Dokumentasi triton untuk mengemas dependensi preprocessing (scikit-learn dan Pandas) untuk digunakan di backend Python sebagai file TAR lingkungan Conda. Skrip bash buat_prep_env.sh membuat file TAR lingkungan Conda, lalu kami memindahkannya ke direktori model preprocessing. Lihat kode berikut:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

Setelah kami menjalankan skrip sebelumnya, itu menghasilkan preprocessing_env.tar.gz, yang kami salin ke direktori preprocessing:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Siapkan prapemrosesan dengan backend Triton Python

Untuk preprocessing, kami menggunakan Triton's Latar belakang python untuk melakukan preprocessing data tabular (pengkodean kategorikal) selama inferensi untuk permintaan data mentah yang masuk ke server. Untuk informasi lebih lanjut tentang preprocessing yang dilakukan selama pelatihan, lihat buku catatan pelatihan.

Backend Python memungkinkan preprocessing, postprocessing, dan logika kustom lainnya untuk diimplementasikan dalam Python dan disajikan dengan Triton. Menggunakan Triton di SageMaker mengharuskan kita menyiapkan folder repositori model yang berisi model yang ingin kita tayangkan. Kami telah menyiapkan model untuk preprocessing data Python yang disebut preprocessing in cpu_model_repository dan gpu_model_repository.

Menghosting Model ML di Amazon SageMaker menggunakan Triton: XGBoost, LightGBM, dan Treelite Model PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Triton memiliki persyaratan khusus untuk tata letak repositori model. Di dalam direktori repositori model tingkat atas, setiap model memiliki subdirektori sendiri yang berisi informasi untuk model yang sesuai. Setiap direktori model di Triton harus memiliki setidaknya satu subdirektori numerik yang mewakili versi model. Nilai 1 mewakili versi 1 dari model preprocessing Python kita. Setiap model dijalankan oleh backend tertentu, jadi dalam setiap subdirektori versi harus ada artefak model yang diperlukan oleh backend tersebut. Untuk contoh ini, kami menggunakan backend Python, yang membutuhkan file Python yang Anda layani disebut model.py, dan file tersebut perlu diimplementasikan fungsi tertentu. Jika kami menggunakan backend PyTorch, file model.pt akan diperlukan, dan seterusnya. Untuk detail lebih lanjut tentang konvensi penamaan untuk file model, lihat File Model.

Grafik model.py File Python yang kami gunakan di sini mengimplementasikan semua logika preprocessing data tabular untuk mengonversi data mentah menjadi fitur yang dapat dimasukkan ke dalam model XGBoost kami.

Setiap model Triton juga harus menyediakan a config.pbtxt file yang menjelaskan konfigurasi model. Untuk mempelajari lebih lanjut tentang pengaturan konfigurasi, lihat Konfigurasi Model. Kami config.pbtxt file menentukan backend sebagai python dan semua kolom input untuk data mentah bersama dengan output yang diproses sebelumnya, yang terdiri dari 15 fitur. Kami juga menetapkan bahwa kami ingin menjalankan model preprocessing Python ini di CPU. Lihat kode berikut:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Siapkan model ML berbasis pohon untuk backend FIL

Selanjutnya, kita menyiapkan direktori model untuk model ML berbasis pohon seperti XGBoost, yang akan menggunakan backend FIL.

Tata letak yang diharapkan untuk cpu_memory_repository dan gpu_memory_repository mirip dengan yang kami tunjukkan sebelumnya.

Menghosting Model ML di Amazon SageMaker menggunakan Triton: XGBoost, LightGBM, dan Treelite Model PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Di sini, FIL adalah nama modelnya. Kita bisa memberikan nama yang berbeda seperti xgboost jika kita mau. 1 adalah subdirektori versi, yang berisi artefak model. Dalam hal ini, itu adalah xgboost.json model yang kami simpan. Mari buat tata letak yang diharapkan ini:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Kita perlu memiliki file konfigurasi config.pbtxt menjelaskan konfigurasi model untuk model ML berbasis pohon, sehingga backend FIL di Triton dapat memahami cara menyajikannya. Untuk informasi lebih lanjut, lihat generik terbaru Opsi konfigurasi Triton dan opsi konfigurasi khusus untuk Bagian belakang FIL. Kami fokus hanya pada beberapa opsi yang paling umum dan relevan dalam contoh ini.

membuat config.pbtxt untuk model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Demikian pula, mengatur config.pbtxt untuk model_gpu_repository (perhatikan perbedaannya USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Siapkan pipa inferensi dari data backend Python preprocessing dan backend FIL menggunakan ansambel

Sekarang kita siap menyiapkan pipeline inferensi untuk preprocessing data dan inferensi model berbasis pohon menggunakan an model ansambel. Model ansambel merepresentasikan pipeline dari satu atau beberapa model dan koneksi tensor input dan output di antara model tersebut. Di sini kami menggunakan model ansambel untuk membuat pipa pemrosesan awal data di backend Python diikuti oleh XGBoost di backend FIL.

Tata letak yang diharapkan untuk ensemble direktori model mirip dengan yang kami tunjukkan sebelumnya:

Menghosting Model ML di Amazon SageMaker menggunakan Triton: XGBoost, LightGBM, dan Treelite Model PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Kami membuat model ansambel config.pbtxt mengikuti panduan di Model Ensemble. Yang penting, kita perlu menyiapkan penjadwal ansambel config.pbtxt, yang menentukan aliran data antar model dalam ansambel. Penjadwal ansambel mengumpulkan tensor keluaran di setiap langkah, dan menyediakannya sebagai tensor masukan untuk langkah lain sesuai dengan spesifikasi.

Kemas repositori model dan unggah ke Amazon S3

Terakhir, kita berakhir dengan struktur direktori repositori model berikut, yang berisi model preprocessing Python dan dependensinya bersama dengan model XGBoost FIL dan ansambel model.

Menghosting Model ML di Amazon SageMaker menggunakan Triton: XGBoost, LightGBM, dan Treelite Model PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Kami mengemas direktori dan isinya sebagai model.tar.gz untuk diunggah ke Layanan Penyimpanan Sederhana Amazon (Amazon S3). Kami memiliki dua opsi dalam contoh ini: menggunakan instans berbasis CPU atau instans berbasis GPU. Instans berbasis GPU lebih cocok saat Anda membutuhkan daya pemrosesan yang lebih tinggi dan ingin menggunakan inti CUDA.

Buat dan unggah paket model untuk instans berbasis CPU (dioptimalkan untuk CPU) dengan kode berikut:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Buat dan unggah paket model untuk instans berbasis GPU (dioptimalkan untuk GPU) dengan kode berikut:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Buat titik akhir SageMaker

Kami sekarang memiliki artefak model yang disimpan di bucket S3. Pada langkah ini, kami juga dapat menyediakan variabel lingkungan tambahan SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, yang menentukan nama model yang akan dimuat oleh Triton. Nilai kunci ini harus cocok dengan nama folder dalam paket model yang diunggah ke Amazon S3. Variabel ini opsional dalam kasus model tunggal. Dalam hal model ansambel, kunci ini harus ditentukan agar Triton dapat memulai di SageMaker.

Selain itu, Anda dapat mengatur SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT dan SAGEMAKER_TRITON_THREAD_COUNT untuk mengoptimalkan jumlah thread.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Kami menggunakan model sebelumnya untuk membuat konfigurasi titik akhir tempat kami dapat menentukan jenis dan jumlah instance yang kami inginkan di titik akhir

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Kami menggunakan konfigurasi titik akhir ini untuk membuat titik akhir SageMaker dan menunggu penerapan selesai. Dengan MME SageMaker, kami memiliki opsi untuk menghosting beberapa model ansambel dengan mengulangi proses ini, tetapi kami tetap menggunakan satu penerapan untuk contoh ini:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Status akan berubah menjadi InService ketika penyebaran berhasil.

Panggil model Anda yang dihosting di titik akhir SageMaker

Setelah endpoint berjalan, kita dapat menggunakan beberapa contoh data mentah untuk melakukan inferensi menggunakan JSON sebagai format payload. Untuk format permintaan inferensi, Triton menggunakan KFServing standar komunitas protokol inferensi. Lihat kode berikut:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

Buku catatan yang dirujuk di blog dapat ditemukan di Repositori GitHub.

Praktik terbaik

Selain opsi untuk menyempurnakan pengaturan backend FIL yang kami sebutkan sebelumnya, data scientist juga dapat memastikan bahwa input data untuk backend dioptimalkan untuk diproses oleh mesin. Jika memungkinkan, masukkan data dalam format baris-utama ke dalam larik GPU. Format lain akan memerlukan konversi internal dan mengambil siklus, menurunkan kinerja.

Karena cara struktur data FIL dipertahankan dalam memori GPU, perhatikan kedalaman pohon. Semakin dalam kedalaman pohon, semakin besar jejak memori GPU Anda.

Gunakan instance_group_count parameter untuk menambahkan proses pekerja dan meningkatkan throughput backend FIL, yang akan menghasilkan konsumsi memori CPU dan GPU yang lebih besar. Selain itu, pertimbangkan variabel khusus SageMaker yang tersedia untuk meningkatkan throughput, seperti thread HTTP, ukuran buffer HTTP, ukuran batch, dan penundaan maksimum.

Kesimpulan

Dalam postingan ini, kami mendalami backend FIL yang didukung Server Inferensi Triton di SageMaker. Backend ini menyediakan akselerasi CPU dan GPU untuk model berbasis pohon seperti algoritme XGBoost yang populer. Ada banyak opsi untuk dipertimbangkan guna mendapatkan performa terbaik untuk inferensi, seperti ukuran batch, format input data, dan faktor lain yang dapat disesuaikan untuk memenuhi kebutuhan Anda. SageMaker memungkinkan Anda menggunakan kemampuan ini dengan titik akhir model tunggal dan multi-model untuk menyeimbangkan kinerja dan penghematan biaya.

Kami mendorong Anda untuk mengambil informasi di pos ini dan melihat apakah SageMaker dapat memenuhi kebutuhan hosting Anda untuk melayani model berbasis pohon, memenuhi kebutuhan Anda untuk pengurangan biaya dan kinerja beban kerja.

Notebook yang direferensikan dalam postingan ini dapat ditemukan di contoh SageMaker Repositori GitHub. Selanjutnya, Anda dapat menemukan dokumentasi terbaru di backend FIL di GitHub.

Tentang Penulis

Menghosting Model ML di Amazon SageMaker menggunakan Triton: XGBoost, LightGBM, dan Treelite Model PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Raghu Ramesha adalah Arsitek Solusi ML Senior dengan tim Layanan Amazon SageMaker. Dia berfokus untuk membantu pelanggan membuat, menerapkan, dan memigrasikan beban kerja produksi ML ke SageMaker dalam skala besar. Dia berspesialisasi dalam pembelajaran mesin, AI, dan domain visi komputer, dan memegang gelar master dalam Ilmu Komputer dari UT Dallas. Di waktu luangnya, ia menikmati perjalanan dan fotografi.

James Taman adalah Arsitek Solusi di Amazon Web Services. Dia bekerja dengan Amazon.com untuk merancang, membangun, dan menerapkan solusi teknologi di AWS, dan memiliki minat khusus pada AI dan pembelajaran mesin. Di waktu luangnya, ia senang mencari budaya baru, pengalaman baru, dan mengikuti perkembangan teknologi terkini.

Dhawal Patel adalah Arsitek Pembelajaran Mesin Utama di AWS. Dia telah bekerja dengan organisasi mulai dari perusahaan besar hingga perusahaan rintisan menengah pada masalah yang terkait dengan komputasi terdistribusi dan kecerdasan buatan. Dia berfokus pada pembelajaran mendalam, termasuk NLP dan domain visi komputer. Dia membantu pelanggan mencapai inferensi model performa tinggi di Amazon SageMaker.

Jia Hong Liu adalah Arsitek Solusi di tim Penyedia Layanan Cloud di NVIDIA. Dia membantu klien dalam mengadopsi pembelajaran mesin dan solusi AI yang memanfaatkan komputasi akselerasi NVIDIA untuk mengatasi tantangan pelatihan dan inferensi mereka. Di waktu senggang, ia menikmati origami, proyek DIY, dan bermain basket.

Kshitiz Gupta adalah Arsitek Solusi di NVIDIA. Dia senang mendidik pelanggan cloud tentang teknologi GPU AI yang ditawarkan NVIDIA dan membantu mereka mempercepat pembelajaran mesin dan aplikasi pembelajaran mendalam mereka. Di luar pekerjaan, ia menikmati lari, hiking, dan mengamati satwa liar.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoAiStream. Kecerdasan Data Web3. Pengetahuan Diperkuat. Akses Di Sini.
Mencetak Masa Depan bersama Adryenn Ashley. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Stempel Waktu: 2 Mei 2023

Stempel Waktu: September 7, 2023

Diterbitkan Ulang Oleh Plato

Bagaimana Sophos melatih pendeteksi malware PDF yang kuat dan ringan pada skala ultra dengan Amazon SageMaker

Tingkatkan akurasi Amazon Rekognition Face Search dengan vektor pengguna | Layanan Web Amazon

Penanganan Tekanan Fakta Pertandingan Bundesliga: Mengevaluasi penampilan pemain dalam situasi tekanan tinggi di AWS

Penyetelan Model Otomatis Amazon SageMaker sekarang secara otomatis memilih konfigurasi penyetelan untuk meningkatkan kegunaan dan efisiensi biaya | Layanan Web Amazon

Deteksi cacat pada citra resolusi tinggi menggunakan model Label Kustom Amazon Rekognition dua tahap | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun