Amazon SageMaker'da Triton Kullanarak ML Modellerini Barındırma: XGBoost, LightGBM ve Treelite Modelleri

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Bugün mevcut olan en popüler modellerden biri XGBoost'tur. Sınıflandırma ve regresyon gibi çeşitli sorunları çözme yeteneği ile XGBoost, ağaç tabanlı modeller kategorisine de giren popüler bir seçenek haline geldi. Bu yazıda, nasıl olduğunu görmek için derinlere iniyoruz Amazon Adaçayı Yapıcı kullanarak bu modelleri sunabilir NVIDIA Triton Çıkarım Sunucusu. Gerçek zamanlı çıkarım iş yükleri, gecikme ve verimlilik açısından değişen düzeylerde gereksinimlere ve hizmet düzeyi anlaşmalarına (SLA'lar) sahip olabilir ve SageMaker gerçek zamanlı uç noktaları kullanılarak karşılanabilir.

SageMaker sağlar tek model uç noktaları, mantıksal bir uç noktaya karşı tek bir makine öğrenimi (ML) modeli dağıtmanıza olanak tanır. Diğer kullanım durumları için, kullanarak maliyet ve performansı yönetmeyi seçebilirsiniz. çok modelli uç noktalar, mantıksal bir uç noktanın arkasında barındırılacak birden çok model belirtmenize olanak tanır. Seçtiğiniz seçenek ne olursa olsun, SageMaker uç noktaları, en zorlu kurumsal müşteriler için bile ölçeklenebilir bir mekanizma sağlarken, aşağıdakiler de dahil olmak üzere çok sayıda özellikle değer sağlar. gölge varyantları, otomatik ölçeklendirmeve yerel entegrasyon Amazon Bulut İzleme (daha fazla bilgi için bkz. Çok Modelli Uç Nokta Dağıtımları için CloudWatch Metrikleri).

Triton, çıkarım için çeşitli makine öğrenimi modellerinin çalıştırılmasını ve sunulmasını destekleyen motorlar olarak çeşitli arka uçları destekler. Herhangi bir Triton dağıtımında, arka uç davranışının iş yüklerinizi nasıl etkilediğini ve başarılı olabilmeniz için ne bekleyeceğinizi bilmek çok önemlidir. Bu yazıda, anlamanıza yardımcı oluyoruz Orman Çıkarım Kitaplığı (FIL) arka ucuSageMaker'da Triton tarafından desteklenen, böylece iş yükleriniz için bilinçli bir karar verebilir ve mümkün olan en iyi performansı ve maliyet optimizasyonunu elde edebilirsiniz.

FIL arka ucuna derinlemesine dalış

Triton'un desteklediği FIL arka ucu gibi ağaç modellerine hizmet etmek için XGBoost, LightGBM, scikit-öğrenme Rastgele Orman, RAPIDS cuML Rastgele Ormanve tarafından desteklenen diğer tüm modeller Treelit. Bu modeller uzun süredir sınıflandırma veya regresyon gibi problemlerin çözümünde kullanılmaktadır. Bu tür modeller geleneksel olarak CPU'larda çalışsa da, bu modellerin popülaritesi ve çıkarım talepleri, çıkarım performansını artırmak için çeşitli tekniklerin kullanılmasına yol açmıştır. FIL arka ucu, cuML yapılarını kullanarak bu tekniklerin çoğunu kullanır ve GPU hızlandırıcılarında çıkarım performansını optimize etmek için C++ ve CUDA çekirdek kitaplığı üzerine kuruludur.

FIL arka ucu, öğrenmeyi hızlandırmak için CPU veya GPU çekirdeklerini kullanmak üzere cuML kitaplıklarını kullanır. Bu işlemcileri kullanmak için, verilere ana bilgisayar belleğinden (örneğin, NumPy dizileri) veya GPU dizilerinden (uDF, Numba, cuPY veya destekleyen herhangi bir kitaplık) başvurulur. __cuda_array_interface__) API'si. Veriler bellekte hazırlandıktan sonra, FIL arka ucu işlemeyi mevcut tüm CPU veya GPU çekirdeklerinde çalıştırabilir.

FIL arka uç iş parçacıkları, ana bilgisayarın paylaşılan belleğini kullanmadan birbirleriyle iletişim kurabilir, ancak topluluk iş yüklerinde ana bilgisayar belleği dikkate alınmalıdır. Aşağıdaki diyagram, Triton (C++) ile Python işlemi (Python arka ucu) arasındaki işlemler arası iletişim için kullanılan CPU adreslenebilir paylaşılan bellek dahil olmak üzere bellek alanlarında ince ayar yapma olanağına sahip olduğunuz bir topluluk zamanlayıcı çalışma zamanı mimarisini gösterir. FIL arka ucu ile tensörler (giriş/çıkış).

Triton kullanarak Amazon SageMaker'da ML Modellerini Barındırma: XGBoost, LightGBM ve Treelite Modelleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Triton Inference Server, geliştiricilerin iş yüklerini ayarlamaları ve model performansını optimize etmeleri için yapılandırılabilir seçenekler sunar. yapılandırma dynamic_batching Triton'un müşteri tarafı isteklerini tutmasına ve FIL'in paralel hesaplamasını verimli bir şekilde kullanarak tüm partiyi birlikte çıkarsamak için sunucu tarafında toplu halde tutmasına izin verir. Seçenek max_queue_delay_microseconds Triton'un bir parti oluşturmak için ne kadar süre beklediğine dair hatasız bir kontrol sunar.

FIL'e özgü bir dizi başka mevcut seçenekler performansı ve davranışı etkileyen ile başlamanızı öneririz. storage_type. Arka ucu GPU'da çalıştırırken FIL, FIL'in performansı ve ayak izini etkileyebileceği ağacın bir temsili olan yeni bir bellek/veri yapısı oluşturur. Bu, ortam parametresi aracılığıyla yapılandırılabilir storage_type, yoğun, seyrek ve otomatik seçeneklere sahiptir. Yoğun seçeneğin seçilmesi daha fazla GPU belleği tüketir ve her zaman daha iyi performans sağlamaz, bu nedenle kontrol etmek en iyisidir. Aksine, seyrek seçeneği daha az GPU belleği tüketir ve muhtemelen yoğundan daha iyi veya daha iyi performans gösterebilir. Otomatik'in seçilmesi, seyrek bellekten önemli ölçüde daha fazla GPU belleği tüketmediği sürece, modelin varsayılan olarak yoğun olmasına neden olur.

Model performansı söz konusu olduğunda, threads_per_tree seçenek. Gerçek dünya senaryolarında gereğinden fazla hizmet edebileceğiniz bir şey, threads_per_tree verim üzerinde diğer tüm parametrelerden daha büyük bir etkiye sahip olabilir. 2–1 arasında 32'nin herhangi bir kuvvetine ayarlamak meşrudur. Bu parametre için en uygun değeri tahmin etmek zordur, ancak sunucunun daha yüksek yükle uğraşması veya daha büyük parti boyutlarını işlemesi beklendiğinde, bir seferde birkaç satırı işlediği zamana göre daha büyük bir değerden yararlanma eğilimi gösterir.

Dikkat edilmesi gereken bir diğer parametre ise algo, GPU üzerinde çalışıyorsanız da mevcuttur. Bu parametre, çıkarım isteklerini işlemek için kullanılan algoritmayı belirler. Bunun için desteklenen seçenekler şunlardır: ALGO_AUTO, NAIVE, TREE_REORG, ve BATCH_TREE_REORG. Bu seçenekler, bir ağaçtaki düğümlerin nasıl organize edildiğini belirler ve ayrıca performans kazanımlarıyla sonuçlanabilir. bu ALGO_AUTO seçenek varsayılan olarak NAIVE seyrek depolama için ve BATCH_TREE_REORG yoğun depolama için.

Son olarak, FIL, kullanılarak etkinleştirilebilen Shapley açıklayıcı ile birlikte gelir. treeshap_output parametre. Ancak, Shapley çıktılarının, çıktı boyutu nedeniyle performansı düşürdüğünü unutmamalısınız.

model formatı

Şu anda orman tabanlı modelleri depolamak için standart bir dosya biçimi yoktur; her çerçeve kendi biçimini tanımlama eğilimindedir. FIL, birden çok girdi dosyası biçimini desteklemek için açık kaynak Treelit kütüphane. Bu, FIL'in aşağıdakiler gibi popüler çerçevelerde eğitilen modelleri desteklemesini sağlar: XGBoost ve LightGBM. Sağladığınız modelin biçiminin, model_type belirtilen yapılandırma değeri config.pbtxt dosyası.

config.pbtxt

Her model bir model deposu model hakkında gerekli ve isteğe bağlı bilgileri sağlayan bir model yapılandırması içermelidir. Tipik olarak, bu yapılandırma bir config.pbtxt olarak belirtilen dosya ModelConfig protobuf'u. Yapılandırma ayarları hakkında daha fazla bilgi edinmek için bkz. Model Yapılandırması. Aşağıdakiler, model yapılandırma parametrelerinden bazılarıdır:

max_batch_size – Bu, bu modele aktarılabilecek maksimum parti boyutunu belirler. Genel olarak, bir FIL arka ucuna iletilen toplu işlerin boyutuyla ilgili tek sınır, bunların işleneceği kullanılabilir bellektir. GPU çalıştırmaları için kullanılabilir bellek, sunucu başlatılırken bir komut satırı bağımsız değişkeni aracılığıyla ayarlanabilen Triton'un CUDA bellek havuzunun boyutuna göre belirlenir.
giriş – Bu bölümdeki seçenekler, Triton'a her girdi örneği için beklenecek özelliklerin sayısını söyler.
çıktı – Bu bölümdeki seçenekler, Triton'a her örnek için kaç çıkış değeri olacağını söyler. Eğer predict_proba seçeneği true olarak ayarlanırsa, her sınıf için bir olasılık değeri döndürülür. Aksi takdirde, verilen örnek için tahmin edilen sınıfı gösteren tek bir değer döndürülür.
örnek_grubu – Bu, bu modelin kaç örneğinin oluşturulacağını ve bunların GPU mu yoksa CPU mu kullanacağını belirler.
Model türü – Bu dize, modelin hangi biçimde olduğunu gösterir (xgboost_json bu örnekte ama xgboost, lightgbm, ve tl_checkpoint geçerli biçimlerdir).
tahmin_proba – Doğru olarak ayarlanırsa, yalnızca bir sınıf tahmini yerine her sınıf için olasılık değerleri döndürülür.
çıktı_sınıfı – Bu, sınıflandırma modelleri için doğru ve regresyon modelleri için yanlış olarak ayarlanır.
eşik – Bu, sınıflandırmayı belirlemek için bir puan eşiğidir. Ne zaman output_class true olarak ayarlanırsa, bu sağlanmalı, ancak şu durumlarda kullanılmayacaktır: predict_proba ayrıca true olarak ayarlanmıştır.
depolama türü – Genel olarak, bu ayar için OTOMATİK'in kullanılması çoğu kullanım durumunu karşılamalıdır. OTO depolama seçilirse, FIL, modelin yaklaşık boyutuna göre seyrek veya yoğun bir temsil kullanarak modeli yükler. Bazı durumlarda, büyük modellerin bellek ayak izini azaltmak için bunu açıkça SPARSE olarak ayarlamak isteyebilirsiniz.

SageMaker'da Triton Çıkarım Sunucusu

SageMaker veriyor NVIDIA Triton Inference Server ile hem tek modelli hem de çok modelli uç noktaları konuşlandırabilirsiniz. Aşağıdaki şekil, Triton Çıkarım Sunucusu üst düzey mimarisini göstermektedir. bu model deposu Triton'un çıkarım için uygun hale getireceği modellerin dosya sistemi tabanlı bir deposudur. Çıkarım istekleri sunucuya ulaşır ve her model için uygun planlayıcıya yönlendirilir. Triton uygular çoklu zamanlama ve harmanlama algoritmaları model bazında yapılandırılabilir. Her modelin programlayıcısı isteğe bağlı olarak çıkarım isteklerini toplu olarak gerçekleştirir ve ardından istekleri arka uç model tipine karşılık gelir. Arka uç, istenen çıktıları üretmek için toplu isteklerde sağlanan girdileri kullanarak çıkarım gerçekleştirir. Çıkışlar daha sonra döndürülür.

SageMaker uç noktaları için otomatik ölçeklendirme gruplarınızı yapılandırırken şunları göz önünde bulundurmak isteyebilirsiniz: SageMakerVariantInvocationsPerInstance otomatik ölçeklendirme grubunuzun ölçeklendirme özelliklerini belirlemek için birincil kriter olarak. Ek olarak, modellerinizin GPU veya CPU üzerinde çalışmasına bağlı olarak, CPUUtilization veya GPUUtilization kullanmayı da ek kriter olarak düşünebilirsiniz. Tek modelli uç noktalar için dağıtılan modellerin hepsi aynı olduğu için SLA'larınızı karşılayacak uygun ilkeleri belirlemenin oldukça kolay olduğunu unutmayın. Çok modelli uç noktalar için, daha istikrarlı öngörülebilir performansa sahip olmak için benzer modelleri belirli bir uç noktanın arkasına dağıtmanızı öneririz. Farklı boyut ve gereksinimlere sahip modellerin kullanıldığı kullanım durumlarında, en iyi maliyet ve performans dengesini elde etmek için bu iş yüklerini birden çok çok modelli uç noktaya ayırmak veya otomatik ölçeklendirme grup ilkenizde ince ayar yapmak için biraz zaman harcamak isteyebilirsiniz.

Triton kullanarak Amazon SageMaker'da ML Modellerini Barındırma: XGBoost, LightGBM ve Treelite Modelleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

SageMaker çıkarımı tarafından desteklenen NVIDIA Triton Derin Öğrenme Kapsayıcılarının (DLC'ler) listesi için bkz. Kullanılabilir Derin Öğrenme Kapsayıcıları Resimleri.

SageMaker not defteri incelemesi

Makine öğrenimi uygulamaları karmaşıktır ve genellikle verilerin ön işlenmesini gerektirebilir. Bu not defterinde, bir SageMaker çoklu model uç noktasında Triton'daki FIL arka ucunu kullanarak XGBoost gibi ağaç tabanlı bir makine öğrenimi modelinin nasıl konuşlandırılacağını ele alıyoruz. Ayrıca, Triton'daki topluluk özelliğini kullanarak Python tabanlı bir veri ön işleme çıkarım hattını modeliniz için nasıl uygulayacağınızı da ele alıyoruz. Bu, müşteri tarafından ham verileri göndermemize ve optimum çıkarım performansı için bir Triton SageMaker uç noktasında hem veri ön işleme hem de model çıkarımının gerçekleşmesine olanak sağlayacaktır.

Triton modeli topluluk özelliği

Triton Inference Server, yapay zeka modellerinin üretimde ölçekte dağıtımını büyük ölçüde basitleştirir. Triton Inference Server, ön işleme ve son işleme boru hatları oluşturmayı basitleştiren uygun bir çözümle birlikte gelir. Triton Inference Server platformu, verimlilik sağlarken ve iş hacmini optimize ederken çıkarım sürecine katılan boru hattı modellerinden sorumlu topluluk zamanlayıcı sağlar. Topluluk modellerini kullanmak, ara tensörleri aktarma ek yükünü önleyebilir ve Triton'a gönderilmesi gereken istek sayısını en aza indirebilir.

Triton kullanarak Amazon SageMaker'da ML Modellerini Barındırma: XGBoost, LightGBM ve Treelite Modelleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Bu not defterinde, XGBoost model çıkarımı ile bir veri ön işleme ardışık düzeni oluşturmak için topluluk özelliğinin nasıl kullanılacağını gösteriyoruz ve ardışık düzene özel son işleme eklemek için ondan tahminde bulunabilirsiniz.

ortamı kurun

Gerekli ortamı kurarak başlıyoruz. Triton Inference Server'ı kullanarak model boru hattımızı paketlemek ve çıkarımları çalıştırmak için gereken bağımlılıkları kuruyoruz. Ayrıca şunları da tanımlarız: AWS Kimlik ve Erişim Yönetimi SageMaker'ın model yapıtlarına ve NVIDIA Triton'a erişmesini sağlayacak (IAM) rolü Amazon Elastik Konteyner Kayıt Defteri (Amazon ECR) görüntüsü. Aşağıdaki koda bakın:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Bağımlılıkları ön işlemek için bir Conda ortamı oluşturun

Triton'daki Python arka ucu, bir Conda herhangi bir ek bağımlılık için ortam. Bu durumda, ham verileri FIL arka ucunda çalışan XGBoost modeline beslemeden önce ön işlemek için Python arka ucunu kullanırız. Veri ön işlemesini yapmak için orijinal olarak RAPIDS cuDF ve cuML'yi kullanmış olsak da, burada çıkarım sırasında ön işleme bağımlılıkları olarak Pandas ve scikit-learn kullanıyoruz. Bunu üç nedenden dolayı yapıyoruz:

Bağımlılıklarınız için bir Conda ortamını nasıl oluşturacağınızı ve onu nasıl paketleyeceğinizi gösteriyoruz. biçim bekleniyor Triton'un Python arka ucu tarafından.
XGBoost, FIL arka ucunda GPU üzerinde çalışırken, CPU üzerinde Python arka ucunda çalışan ön işleme modelini göstererek, Triton'un topluluk boru hattındaki her bir modelin farklı bir çerçeve arka ucunda ve farklı donanım yapılandırmalarında nasıl çalışabileceğini gösteriyoruz.
RAPIDS kitaplıklarının (cuDF, cuML) CPU benzerleriyle (Pandas, scikit-learn) nasıl uyumlu olduğunu vurgular. Örneğin, nasıl olduğunu gösterebiliriz. LabelEncoders cuML'de oluşturulan, scikit-learn'de kullanılabilir ve bunun tersi de geçerlidir.

gelen talimatları uyguluyoruz. Triton belgeleri Python arka ucunda bir Conda ortamı TAR dosyası olarak kullanılacak paketleme ön işleme bağımlılıkları (scikit-learn ve Pandas) için. Bash betiği create_prep_env.sh Conda ortamı TAR dosyasını oluşturur, ardından onu preprocessing model dizinine taşırız. Aşağıdaki koda bakın:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

Önceki betiği çalıştırdıktan sonra, preprocessing_env.tar.gzön işleme dizinine kopyaladığımız:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Triton Python arka ucuyla ön işlemeyi kurun

Ön işleme için Triton kullanıyoruz Python arka ucu sunucuya gelen ham veri istekleri için çıkarım sırasında tablosal veri ön işleme (kategorik kodlama) gerçekleştirmek. Eğitim sırasında yapılan ön işleme hakkında daha fazla bilgi için bkz. eğitim defteri.

Python arka ucu, ön işleme, son işleme ve diğer tüm özel mantığın Python'da uygulanmasına ve Triton ile sunulmasına olanak tanır. SageMaker'da Triton'u kullanmak, önce hizmet etmek istediğimiz modelleri içeren bir model deposu klasörü oluşturmamızı gerektirir. Python veri ön işleme için önceden işleme adı verilen bir model kurduk. cpu_model_repository ve gpu_model_repository.

Triton kullanarak Amazon SageMaker'da ML Modellerini Barındırma: XGBoost, LightGBM ve Treelite Modelleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Triton'un model deposu düzeni için özel gereksinimleri vardır. Üst düzey model deposu dizini içinde, her modelin ilgili model için bilgileri içeren kendi alt dizini vardır. Triton'daki her model dizini, modelin bir sürümünü temsil eden en az bir sayısal alt dizine sahip olmalıdır. 1 değeri, Python ön işleme modelimizin 1. sürümünü temsil eder. Her model belirli bir arka uç tarafından çalıştırılır, bu nedenle her sürüm alt dizininde o arka uç için gerekli olan model yapısı bulunmalıdır. Bu örnek için, sunduğunuz Python dosyasının model.py olarak adlandırılmasını gerektiren ve dosyanın uygulanması gereken Python arka ucunu kullanıyoruz. belirli işlevler. Bir PyTorch arka ucu kullanıyor olsaydık, bir model.pt dosyası gerekli olurdu ve bu böyle devam ederdi. Model dosyaları için adlandırma kuralları hakkında daha fazla ayrıntı için bkz. Model Dosyaları.

The model.py Burada kullandığımız Python dosyası, ham verileri XGBoost modelimize beslenebilecek özelliklere dönüştürmek için tüm tablosal veri ön işleme mantığını uygular.

Her Triton modeli ayrıca şunları sağlamalıdır: config.pbtxt model yapılandırmasını açıklayan dosya. Yapılandırma ayarları hakkında daha fazla bilgi edinmek için bkz. Model Yapılandırması. Bizim yapılandırma.pbtxt file, arka ucu python olarak ve ham veriler için tüm giriş sütunlarını ve 15 özellikten oluşan önceden işlenmiş çıktıyı belirtir. Ayrıca bu Python ön işleme modelini CPU üzerinde çalıştırmak istediğimizi belirtiyoruz. Aşağıdaki koda bakın:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

FIL arka ucu için ağaç tabanlı bir makine öğrenimi modeli kurun

Ardından, FIL arka ucunu kullanacak olan XGBoost gibi ağaç tabanlı bir makine öğrenimi modeli için model dizinini kurduk.

için beklenen düzen cpu_memory_repository ve gpu_memory_repository daha önce gösterdiğimize benziyor.

Triton kullanarak Amazon SageMaker'da ML Modellerini Barındırma: XGBoost, LightGBM ve Treelite Modelleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Burada, FIL modelin adıdır. gibi farklı bir isim verebiliriz. xgboost Eğer istersek. 1 model yapıtını içeren sürüm alt dizinidir. Bu durumda, xgboost.json kurtardığımız model. Bu beklenen düzeni oluşturalım:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Yapılandırma dosyasına sahip olmamız gerekiyor config.pbtxt Triton'daki FIL arka ucunun ona nasıl hizmet edeceğini anlayabilmesi için ağaç tabanlı makine öğrenimi modeli için model yapılandırmasını açıklamak. Daha fazla bilgi için en son jenerik Triton yapılandırma seçenekleri ve belirli yapılandırma seçenekleri FIL arka ucu. Bu örnekte en yaygın ve ilgili seçeneklerden yalnızca birkaçına odaklanıyoruz.

oluşturmak config.pbtxt için model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Benzer şekilde, kurulum config.pbtxt için model_gpu_repository (farkın olduğuna dikkat edin USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Toplulukları kullanarak Python arka ucunu ve FIL arka ucunu ön işlemeye tabi tutan veriler için bir çıkarım ardışık düzeni kurun

Artık veri ön işleme ve ağaç tabanlı model çıkarımı için çıkarım ardışık düzenini kurmaya hazırız. topluluk modeli. Bir topluluk modeli, bir veya daha fazla modelden oluşan bir boru hattını ve bu modeller arasındaki giriş ve çıkış tensörlerinin bağlantısını temsil eder. Burada, Python arka ucunda bir veri ön işleme hattı oluşturmak için topluluk modelini ve ardından FIL arka ucunda XGBoost'u kullanıyoruz.

için beklenen düzen ensemble model dizini daha önce gösterdiğimiz dizine benzer:

Triton kullanarak Amazon SageMaker'da ML Modellerini Barındırma: XGBoost, LightGBM ve Treelite Modelleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Topluluk modelini oluşturduk yapılandırma.pbtxt rehberliği takip ederek Takım Modelleri. Daha da önemlisi, topluluk zamanlayıcısını içinde kurmamız gerekiyor. config.pbtxttopluluk içindeki modeller arasındaki veri akışını belirtir. Topluluk programlayıcı, her adımda çıkış tensörlerini toplar ve bunları, spesifikasyona göre diğer adımlar için giriş tensörleri olarak sağlar.

Model deposunu paketleyin ve Amazon S3'e yükleyin

Son olarak, XGBoost FIL modeli ve model topluluğu ile birlikte bir Python ön işleme modeli ve bağımlılıklarını içeren aşağıdaki model deposu dizin yapısını elde ederiz.

Triton kullanarak Amazon SageMaker'da ML Modellerini Barındırma: XGBoost, LightGBM ve Treelite Modelleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Dizini ve içeriğini şu şekilde paketliyoruz: model.tar.gz yüklemek için Amazon Basit Depolama Hizmeti (Amazon S3). Bu örnekte iki seçeneğimiz var: CPU tabanlı bir örnek veya GPU tabanlı bir örnek kullanmak. Daha yüksek işlem gücüne ihtiyaç duyduğunuzda ve CUDA çekirdeklerini kullanmak istediğinizde GPU tabanlı bir bulut sunucusu daha uygundur.

Aşağıdaki kodla CPU tabanlı bir örnek (CPU için optimize edilmiş) için model paketi oluşturun ve yükleyin:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Aşağıdaki kodla GPU tabanlı bir örnek (GPU için optimize edilmiş) için model paketi oluşturun ve yükleyin:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

SageMaker uç noktası oluşturun

Artık bir S3 kovasında depolanan model yapıtlarımız var. Bu adımda, ek ortam değişkenini de sağlayabiliriz. SAGEMAKER_TRITON_DEFAULT_MODEL_NAMETriton tarafından yüklenecek modelin adını belirtir. Bu anahtarın değeri, Amazon S3'e yüklenen model paketindeki klasör adıyla eşleşmelidir. Bu değişken, tek bir model olması durumunda isteğe bağlıdır. Topluluk modellerinde, Triton'un SageMaker'da başlaması için bu anahtarın belirtilmesi gerekir.

Ek olarak, ayarlayabilirsiniz SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT ve SAGEMAKER_TRITON_THREAD_COUNT iplik sayımlarını optimize etmek için.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Uç noktada istediğimiz örneklerin türünü ve sayısını belirtebileceğimiz bir uç nokta yapılandırması oluşturmak için önceki modeli kullanırız.

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Bir SageMaker uç noktası oluşturmak ve konuşlandırmanın bitmesini beklemek için bu uç nokta yapılandırmasını kullanırız. SageMaker MME'leri ile, bu işlemi tekrarlayarak birden çok topluluk modelini barındırma seçeneğine sahibiz, ancak bu örnek için bir dağıtıma bağlı kalıyoruz:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Durum şu şekilde değişecektir: InService dağıtım başarılı olduğunda.

SageMaker uç noktasında barındırılan modelinizi çağırın

Uç nokta çalıştıktan sonra, yük formatı olarak JSON'u kullanarak çıkarım yapmak için bazı örnek ham verileri kullanabiliriz. Çıkarım talebi formatı için Triton, KFServing topluluk standardı çıkarım protokolleri. Aşağıdaki koda bakın:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

Blogda atıfta bulunulan not defteri şu adreste bulunabilir: GitHub deposu.

En iyi uygulamalar

Veri bilimcileri, daha önce bahsettiğimiz FIL arka ucunun ayarlarında ince ayar yapma seçeneklerine ek olarak, arka uç için girdi verilerinin motor tarafından işlenmek üzere optimize edilmesini de sağlayabilir. Mümkün olduğunda, verileri GPU dizisine ana satır biçiminde girin. Diğer biçimler, dahili dönüştürme gerektirecek ve döngüleri alarak performansı düşürecektir.

FIL veri yapılarının GPU belleğinde tutulma şekli nedeniyle ağaç derinliğine dikkat edin. Ağaç derinliği ne kadar derin olursa, GPU bellek ayak iziniz o kadar büyük olur.

Kullan instance_group_count Çalışan işlemleri eklemek ve FIL arka ucunun verimini artırmak için parametre, bu da daha büyük CPU ve GPU bellek tüketimine neden olur. Ek olarak, HTTP iş parçacıkları, HTTP arabellek boyutu, toplu iş boyutu ve maksimum gecikme gibi verimi artırmak için kullanılabilen SageMaker'a özgü değişkenleri göz önünde bulundurun.

Sonuç

Bu gönderide, Triton Inference Server'ın SageMaker'da desteklediği FIL arka ucunu derinlemesine inceleyeceğiz. Bu arka uç, popüler XGBoost algoritması gibi ağaç tabanlı modellerinizin hem CPU hem de GPU hızlandırmasını sağlar. Toplu iş boyutları, veri giriş biçimleri ve ihtiyaçlarınızı karşılamak üzere ayarlanabilecek diğer faktörler gibi en iyi çıkarım performansını elde etmek için göz önünde bulundurulması gereken birçok seçenek vardır. SageMaker, performans ve maliyet tasarrufunu dengelemek için bu özelliği tekli ve çok modelli uç noktalarla kullanmanıza olanak tanır.

Bu gönderideki bilgileri almanızı ve SageMaker'ın ağaç tabanlı modeller sunmak için barındırma ihtiyaçlarınızı karşılayıp karşılayamayacağını, maliyet azaltma ve iş yükü performansı gereksinimlerinizi karşılayıp karşılamadığını görmenizi öneririz.

Bu gönderide atıfta bulunulan not defteri, SageMaker örneklerinde bulunabilir. GitHub deposu. Ayrıca, FIL arka ucuyla ilgili en son belgeleri şu adreste bulabilirsiniz: GitHub.

Yazarlar Hakkında

Triton kullanarak Amazon SageMaker'da ML Modellerini Barındırma: XGBoost, LightGBM ve Treelite Modelleri PlatoBlockchain Veri Zekası. Dikey Arama. Ai. Raghu Rameşa Amazon SageMaker Hizmet ekibinde Kıdemli Makine Öğrenimi Çözümleri Mimarıdır. Müşterilerin makine öğrenimi üretim iş yüklerini uygun ölçekte oluşturmasına, dağıtmasına ve SageMaker'a taşımasına yardımcı olmaya odaklanır. Makine öğrenimi, yapay zeka ve bilgisayar görüşü alanlarında uzmandır ve UT Dallas'ta Bilgisayar Bilimi alanında yüksek lisans derecesine sahiptir. Boş zamanlarında seyahat etmekten ve fotoğraf çekmekten hoşlanır.

James Park Amazon Web Services'te Çözüm Mimarıdır. AWS'de teknoloji çözümleri tasarlamak, oluşturmak ve dağıtmak için Amazon.com ile birlikte çalışıyor ve yapay zeka ve makine öğrenimine özel bir ilgi duyuyor. Boş zamanlarında yeni kültürler, yeni deneyimler aramayı ve en son teknoloji trendlerini takip etmeyi sever.

Dhaval Patel AWS'de Baş Makine Öğrenimi Mimarıdır. Dağıtılmış bilgi işlem ve yapay zeka ile ilgili sorunlar üzerinde büyük işletmelerden orta ölçekli girişimlere kadar çeşitli kuruluşlarla çalıştı. NLP ve bilgisayarla görme alanları dahil olmak üzere derin öğrenmeye odaklanmaktadır. Müşterilerin Amazon SageMaker'da yüksek performanslı model çıkarımı yapmasına yardımcı olur.

Jiahong Liu NVIDIA'da Bulut Hizmeti Sağlayıcı ekibinde bir Çözüm Mimarıdır. Müşterilere, eğitim ve çıkarım zorluklarını ele almak için NVIDIA hızlandırılmış bilgi işlemden yararlanan makine öğrenimi ve yapay zeka çözümlerini benimsemelerinde yardımcı olur. Boş zamanlarında origami yapmaktan, kendin yap projelerinden ve basketbol oynamaktan hoşlanıyor.

Kşitiz Gupta NVIDIA'da Çözüm Mimarıdır. Bulut müşterilerini NVIDIA'nın sunduğu GPU AI teknolojileri hakkında eğitmekten ve makine öğrenimi ve derin öğrenme uygulamalarını hızlandırmalarında onlara yardımcı olmaktan keyif alıyor. İş dışında koşmayı, yürüyüş yapmayı ve vahşi yaşamı izlemeyi seviyor.

SEO Destekli İçerik ve Halkla İlişkiler Dağıtımı. Bugün Gücünüzü Artırın.
PlatoAiStream. Web3 Veri Zekası. Bilgi Genişletildi. Buradan Erişin.
Adryenn Ashley ile Geleceği Basmak. Buradan Erişin.
Kaynak: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Zaman Damgası: Mayıs 2, 2023

Zaman Damgası: Eylül 7, 2023

Plato tarafından yeniden yayınlandı

Sophos, Amazon SageMaker ile güçlü, hafif bir PDF kötü amaçlı yazılım dedektörünü ultra ölçekte nasıl eğitiyor?

Kullanıcı vektörleriyle Amazon Rekognition Yüz Arama'nın doğruluğunu iyileştirin | Amazon Web Hizmetleri

Bundesliga Maçı Gerçek Baskı İşlemi: AWS'de oyuncuların yüksek basınçlı durumlarda performanslarını değerlendirme

Amazon SageMaker Otomatik Model Ayarlama artık kullanılabilirliği ve maliyet verimliliğini iyileştirmek için ayar yapılandırmalarını otomatik olarak seçiyor | Amazon Web Hizmetleri

İki aşamalı Amazon Rekognition Custom Labels modellerini kullanarak yüksek çözünürlüklü görüntülerde hata tespiti | Amazon Web Hizmetleri

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap