میزبانی مدل‌های ML در Amazon SageMaker با استفاده از Triton: مدل‌های XGBoost، LightGBM و Treelite

بازنشر افلاطون

دنبال: 0

یکی از محبوب ترین مدل های موجود امروزه XGBoost است. XGBoost با توانایی حل مشکلات مختلف مانند طبقه بندی و رگرسیون به گزینه ای محبوب تبدیل شده است که در دسته مدل های درختی نیز قرار می گیرد. در این پست، ما به عمق می پردازیم تا ببینیم چگونه آمازون SageMaker می تواند این مدل ها را با استفاده از سرور استنتاج تریتون NVIDIA. بارهای کاری استنتاج بلادرنگ می توانند سطوح مختلفی از نیازمندی ها و موافقت نامه های سطح خدمات (SLA) از نظر تأخیر و توان عملیاتی داشته باشند و می توانند با استفاده از نقاط پایانی بلادرنگ SageMaker برآورده شوند.

SageMaker فراهم می کند نقاط پایانی تک مدل، که به شما امکان می دهد یک مدل یادگیری ماشین واحد (ML) را در برابر یک نقطه پایانی منطقی استقرار دهید. برای موارد استفاده دیگر، می‌توانید مدیریت هزینه و عملکرد را با استفاده از آن انتخاب کنید نقاط پایانی چند مدلی، که به شما امکان می دهد چندین مدل را برای میزبانی در پشت یک نقطه پایانی منطقی مشخص کنید. صرف نظر از گزینه‌ای که انتخاب می‌کنید، نقاط پایانی SageMaker مکانیزم مقیاس‌پذیر را حتی برای خواستارترین مشتریان سازمانی فراهم می‌کند و در عین حال ارزش بسیاری از ویژگی‌ها، از جمله انواع سایه, مقیاس بندی خودکارو ادغام بومی با CloudWatch آمازون (برای اطلاعات بیشتر مراجعه کنید معیارهای CloudWatch برای استقرار نقطه پایانی چند مدلی).

تریتون از پشتیبان های مختلف به عنوان موتور برای پشتیبانی از اجرا و ارائه مدل های مختلف ML برای استنتاج پشتیبانی می کند. برای هر استقرار Triton، بسیار مهم است که بدانید رفتار باطن چگونه بر حجم کاری شما تأثیر می گذارد و چه چیزی را باید انتظار داشت تا بتوانید موفق باشید. در این پست به شما کمک می کنیم تا این موضوع را درک کنید کتابخانه استنتاج جنگل (FIL).، که توسط Triton در SageMaker پشتیبانی می شود، تا بتوانید تصمیمی آگاهانه برای حجم کاری خود بگیرید و بهترین عملکرد و بهینه سازی هزینه ممکن را داشته باشید.

شیرجه عمیق به باطن FIL

تریتون پشتیبانی می کند باطن FIL برای ارائه مدل های درختی مانند XGBoost، LightGBM، یادگیری جنگل تصادفی, RAPIDS cuML جنگل تصادفیو هر مدل دیگری که توسط درختی. این مدل‌ها مدت‌هاست که برای حل مسائلی مانند طبقه‌بندی یا رگرسیون استفاده می‌شوند. اگرچه این نوع مدل‌ها به طور سنتی بر روی پردازنده‌های مرکزی اجرا می‌شوند، اما محبوبیت این مدل‌ها و تقاضای استنتاج منجر به ایجاد تکنیک‌های مختلفی برای افزایش عملکرد استنتاج شده است. پشتیبان FIL از بسیاری از این تکنیک ها با استفاده از ساختارهای cuML استفاده می کند و بر روی C++ و کتابخانه هسته CUDA برای بهینه سازی عملکرد استنتاج در شتاب دهنده های GPU ساخته شده است.

باطن FIL از کتابخانه های cuML برای استفاده از هسته های CPU یا GPU برای تسریع یادگیری استفاده می کند. برای استفاده از این پردازنده‌ها، داده‌ها از حافظه میزبان (مثلا آرایه‌های NumPy) یا آرایه‌های GPU (uDF، Numba، cuPY یا هر کتابخانه‌ای که از __cuda_array_interface__) API. پس از مرحله بندی داده ها در حافظه، پشتیبان FIL می تواند پردازش را در تمام هسته های CPU یا GPU موجود انجام دهد.

رشته های پشتیبان FIL می توانند بدون استفاده از حافظه مشترک میزبان با یکدیگر ارتباط برقرار کنند، اما در بارهای کاری مجموعه، حافظه میزبان باید در نظر گرفته شود. نمودار زیر یک معماری زمان‌بندی گروهی را نشان می‌دهد که در آن شما می‌توانید نواحی حافظه را تنظیم کنید، از جمله حافظه مشترک آدرس‌پذیر CPU که برای ارتباط بین فرآیندی بین تریتون (C++) و فرآیند پایتون (باطن پایتون) برای تبادل استفاده می‌شود. تانسورها (ورودی/خروجی) با باطن FIL.

میزبانی مدل‌های ML در Amazon SageMaker با استفاده از Triton: XGBoost، LightGBM، و Treelite Models PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

Triton Inference Server گزینه های قابل تنظیمی را برای توسعه دهندگان فراهم می کند تا حجم کاری خود را تنظیم کنند و عملکرد مدل را بهینه کنند. پیکربندی dynamic_batching به Triton اجازه می دهد تا درخواست های سمت کلاینت را نگه دارد و آنها را در سمت سرور دسته بندی کند تا به طور موثر از محاسبات موازی FIL برای استنتاج کل دسته با هم استفاده کند. گزینه max_queue_delay_microseconds یک کنترل بی خطر از مدت زمان انتظار تریتون برای تشکیل یک دسته ارائه می دهد.

تعدادی دیگر برای FIL خاص وجود دارد گزینه های موجود که بر عملکرد و رفتار تأثیر می گذارد. ما پیشنهاد می کنیم با شروع شروع کنید storage_type. هنگام اجرای backend بر روی GPU، FIL یک ساختار حافظه/داده جدید ایجاد می کند که نمایانگر درختی است که FIL می تواند بر عملکرد و ردپای آن تأثیر بگذارد. این از طریق پارامتر محیط قابل تنظیم است storage_type، که دارای گزینه های متراکم، پراکنده و خودکار است. انتخاب گزینه متراکم حافظه GPU بیشتری مصرف می کند و همیشه عملکرد بهتری را به همراه ندارد، بنابراین بهتر است بررسی کنید. در مقابل، گزینه Sparse حافظه GPU کمتری مصرف می کند و احتمالاً می تواند به خوبی یا بهتر از متراکم عمل کند. انتخاب خودکار باعث می‌شود که مدل به‌طور پیش‌فرض متراکم شود، مگر اینکه انجام این کار به میزان قابل توجهی بیشتر از حافظه پراکنده GPU مصرف کند.

وقتی صحبت از عملکرد مدل می شود، ممکن است بر روی آن تاکید کنید threads_per_tree گزینه. یکی از مواردی که ممکن است در سناریوهای دنیای واقعی از آن غافل شوید این است threads_per_tree می تواند تأثیر بیشتری بر توان عملیاتی نسبت به هر پارامتر دیگری داشته باشد. تنظیم آن بر روی هر توان 2 از 1 تا 32 قانونی است. پیش‌بینی مقدار بهینه برای این پارامتر دشوار است، اما زمانی که از سرور انتظار می‌رود با بار بالاتر یا پردازش اندازه‌های دسته بزرگ‌تر سروکار داشته باشد، نسبت به زمانی که چند ردیف را در یک زمان پردازش می‌کند، از مقدار بیشتری بهره می‌برد.

پارامتر دیگری که باید از آن آگاه بود این است algo، که اگر روی GPU کار می کنید نیز موجود است. این پارامتر الگوریتم مورد استفاده برای پردازش درخواست های استنتاج را تعیین می کند. گزینه های پشتیبانی شده برای این هستند ALGO_AUTO, NAIVE, TREE_REORGو BATCH_TREE_REORG. این گزینه‌ها تعیین می‌کنند که گره‌ها در یک درخت چگونه سازماندهی شده‌اند و همچنین می‌توانند منجر به افزایش عملکرد شوند. را ALGO_AUTO گزینه پیش فرض به NAIVE برای ذخیره سازی پراکنده و BATCH_TREE_REORG برای ذخیره سازی متراکم

در نهایت، FIL با توضیح دهنده Shapley ارائه می شود که با استفاده از آن می توان آن را فعال کرد treeshap_output پارامتر. با این حال، باید در نظر داشته باشید که خروجی های Shapley به دلیل اندازه خروجی آن به عملکرد آسیب می زند.

قالب مدل

در حال حاضر هیچ فرمت فایل استانداردی برای ذخیره مدل های مبتنی بر جنگل وجود ندارد. هر فریم ورک تمایل دارد قالب خود را تعریف کند. به منظور پشتیبانی از چندین فرمت فایل ورودی، FIL داده ها را با استفاده از منبع باز وارد می کند درختی کتابخانه این FIL را قادر می‌سازد تا از مدل‌های آموزش دیده در چارچوب‌های محبوب، مانند XGBoost و LightGBM. توجه داشته باشید که فرمت مدلی که ارائه می کنید باید در آن تنظیم شود model_type مقدار پیکربندی مشخص شده در config.pbtxt فایل.

Config.pbtxt

هر مدل در یک مخزن مدل باید شامل یک پیکربندی مدل باشد که اطلاعات مورد نیاز و اختیاری را در مورد مدل ارائه دهد. به طور معمول، این پیکربندی در a ارائه می شود config.pbtxt فایل مشخص شده به عنوان Protobuf ModelConfig. برای کسب اطلاعات بیشتر در مورد تنظیمات پیکربندی، مراجعه کنید پیکربندی مدل. در زیر برخی از پارامترهای پیکربندی مدل آمده است:

حداکثر_اندازه_دسته - این حداکثر اندازه دسته ای را که می توان به این مدل منتقل کرد تعیین می کند. به طور کلی، تنها محدودیت در اندازه دسته های ارسال شده به یک باطن FIL، حافظه موجود برای پردازش آنها است. برای اجراهای GPU، حافظه موجود با اندازه استخر حافظه CUDA Triton تعیین می شود، که می تواند از طریق یک آرگومان خط فرمان هنگام راه اندازی سرور تنظیم شود.
ورودی – گزینه‌های موجود در این بخش تعداد ویژگی‌های مورد انتظار برای هر نمونه ورودی را به تریتون می‌گویند.
تولید – گزینه های این بخش به تریتون می گویند که برای هر نمونه چند مقدار خروجی وجود خواهد داشت. اگر predict_proba گزینه روی true تنظیم می شود، سپس یک مقدار احتمال برای هر کلاس برگردانده می شود. در غیر این صورت، یک مقدار بازگردانده می شود که نشان دهنده کلاس پیش بینی شده برای نمونه داده شده است.
instance_group – این تعیین می کند که چند نمونه از این مدل ایجاد می شود و از GPU یا CPU استفاده می کنند.
نوع مدل – این رشته نشان می دهد که مدل در چه قالبی است (xgboost_json در این مثال، اما xgboost, lightgbmو tl_checkpoint فرمت های معتبر نیز هستند).
predict_proba - اگر روی true تنظیم شود، مقادیر احتمال برای هر کلاس به جای یک پیش‌بینی کلاس برگردانده می‌شود.
خروجی_کلاس - این مقدار برای مدل‌های طبقه‌بندی درست و برای مدل‌های رگرسیون false تنظیم شده است.
آستانه - این یک آستانه امتیاز برای تعیین طبقه بندی است. چه زمانی output_class روی true تنظیم شده است، این باید ارائه شود، اگرچه اگر از آن استفاده نمی شود predict_proba نیز روی true تنظیم شده است.
storage_type – به طور کلی، استفاده از AUTO برای این تنظیم باید بیشتر موارد استفاده را برآورده کند. اگر ذخیره سازی خودکار انتخاب شده باشد، FIL مدل را با استفاده از یک نمایش پراکنده یا متراکم بر اساس اندازه تقریبی مدل بارگیری می کند. در برخی موارد، ممکن است بخواهید به صراحت این را روی SPARSE تنظیم کنید تا ردپای حافظه مدل های بزرگ را کاهش دهید.

سرور استنتاج تریتون در SageMaker

SageMaker اجازه می دهد تا شما می توانید هر دو نقطه پایانی تک مدل و چند مدل را با سرور استنتاج تریتون NVIDIA استقرار دهید. شکل زیر معماری سطح بالای سرور استنتاج تریتون را نشان می دهد. این مخزن مدل یک مخزن مبتنی بر سیستم فایل از مدل هایی است که تریتون برای استنتاج در دسترس قرار خواهد داد. درخواست‌های استنتاج به سرور می‌رسند و به زمان‌بندی مناسب برای هر مدل هدایت می‌شوند. تریتون اجرا می کند چندین الگوریتم زمانبندی و دسته بندی که می تواند بر اساس مدل به مدل پیکربندی شود. زمانبندی هر مدل به صورت اختیاری دسته بندی درخواست های استنتاج را انجام می دهد و سپس درخواست ها را به آن ارسال می کند باطن مطابق با نوع مدل Backend استنتاج را با استفاده از ورودی های ارائه شده در درخواست های دسته ای برای تولید خروجی های درخواستی انجام می دهد. سپس خروجی ها برگردانده می شوند.

هنگام پیکربندی گروه های مقیاس خودکار خود برای نقاط پایانی SageMaker، ممکن است بخواهید در نظر بگیرید SageMakerVariantInvocationsPerInstance به عنوان معیار اولیه برای تعیین ویژگی های مقیاس بندی گروه مقیاس خودکار شما. علاوه بر این، بسته به اینکه مدل‌های شما روی GPU یا CPU اجرا می‌شوند، می‌توانید از CPUUtilization یا GPUUtilization به عنوان معیارهای اضافی استفاده کنید. توجه داشته باشید که برای نقاط پایانی تک مدل، از آنجایی که مدل‌های مستقر شده همه یکسان هستند، تنظیم خط‌مشی‌های مناسب برای مطابقت با SLA‌های خود نسبتاً ساده است. برای نقاط پایانی چند مدل، توصیه می‌کنیم مدل‌های مشابه را در پشت نقطه پایانی معین به کار ببرید تا عملکرد قابل پیش‌بینی ثابت‌تری داشته باشید. در موارد استفاده که از مدل‌هایی با اندازه‌ها و الزامات مختلف استفاده می‌شود، ممکن است بخواهید آن حجم‌های کاری را در چندین نقطه پایانی چند مدل جدا کنید یا مدتی را صرف تنظیم دقیق خط‌مشی گروه مقیاس‌بندی خودکار خود کنید تا بهترین تعادل هزینه و عملکرد را به دست آورید.

میزبانی مدل‌های ML در Amazon SageMaker با استفاده از Triton: XGBoost، LightGBM، و Treelite Models PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

برای لیستی از ظروف یادگیری عمیق NVIDIA Triton (DLC) که توسط استنتاج SageMaker پشتیبانی می شوند، به تصاویر ظروف یادگیری عمیق موجود.

بررسی نوت بوک SageMaker

برنامه های کاربردی ML پیچیده هستند و اغلب می توانند به پیش پردازش داده ها نیاز داشته باشند. در این نوت بوک، ما به نحوه استقرار یک مدل ML مبتنی بر درخت مانند XGBoost با استفاده از باطن FIL در تریتون در نقطه پایانی چند مدل SageMaker می پردازیم. ما همچنین نحوه پیاده‌سازی خط لوله استنتاج پیش‌پردازش داده مبتنی بر پایتون را برای مدل خود با استفاده از ویژگی مجموعه در تریتون توضیح می‌دهیم. این به ما امکان می‌دهد تا داده‌های خام را از سمت مشتری ارسال کنیم و پیش‌پردازش داده و استنتاج مدل در نقطه پایانی Triton SageMaker برای عملکرد استنتاج بهینه اتفاق بیفتد.

ویژگی مجموعه مدل تریتون

سرور استنتاج تریتون استقرار مدل‌های هوش مصنوعی را در مقیاس تولید ساده می‌کند. سرور استنتاج تریتون با راه حل مناسبی ارائه می شود که ساخت خطوط لوله پیش پردازش و پس پردازش را ساده می کند. پلت فرم سرور استنتاج تریتون، زمانبندی گروه را فراهم می کند، که مسئول خط لوله کردن مدل های شرکت کننده در فرآیند استنتاج و در عین حال اطمینان از کارایی و بهینه سازی توان عملیاتی است. استفاده از مدل‌های گروهی می‌تواند از سربار انتقال تانسورهای میانی جلوگیری کند و تعداد درخواست‌هایی را که باید به تریتون ارسال شود به حداقل برساند.

میزبانی مدل‌های ML در Amazon SageMaker با استفاده از Triton: XGBoost، LightGBM، و Treelite Models PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

در این نوت بوک، نحوه استفاده از ویژگی ensemble را برای ایجاد خط لوله پیش پردازش داده با استنتاج مدل XGBoost نشان می دهیم، و می توانید از آن برای اضافه کردن پس پردازش سفارشی به خط لوله استفاده کنید.

محیط را تنظیم کنید

ما با تنظیم محیط مورد نیاز شروع می کنیم. ما وابستگی های مورد نیاز برای بسته بندی خط لوله مدل خود را نصب می کنیم و استنتاج ها را با استفاده از سرور استنتاج تریتون اجرا می کنیم. ما نیز تعریف می کنیم هویت AWS و مدیریت دسترسی نقش (IAM) که به SageMaker به مصنوعات مدل و NVIDIA Triton دسترسی خواهد داشت. رجیستری ظروف الاستیک آمازون تصویر (Amazon ECR). کد زیر را ببینید:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

یک محیط Conda برای پیش پردازش وابستگی ها ایجاد کنید

پشتیبان پایتون در تریتون ما را ملزم به استفاده از a می کند کندا محیطی برای هر گونه وابستگی اضافی در این مورد، ما از پشتیبان پایتون برای پیش پردازش داده های خام قبل از تغذیه آن به مدل XGBoost که در باطن FIL در حال اجرا است استفاده می کنیم. اگرچه ما در ابتدا از RAPIDS cuDF و cuML برای انجام پیش پردازش داده ها استفاده می کردیم، در اینجا از Pandas و scikit-learn به عنوان وابستگی های پیش پردازش در طول استنتاج استفاده می کنیم. ما این کار را به سه دلیل انجام می دهیم:

ما نشان می دهیم که چگونه یک محیط Conda برای وابستگی های خود ایجاد کنید و چگونه آن را در بسته بندی کنید قالب مورد انتظار توسط باطن پایتون تریتون.
با نشان دادن مدل پیش پردازش در حال اجرا در باطن پایتون در CPU در حالی که XGBoost بر روی GPU در باطن FIL اجرا می‌شود، نشان می‌دهیم که چگونه هر مدل در خط لوله گروه Triton می‌تواند بر روی یک چارچوب فریم‌ورک متفاوت و همچنین پیکربندی‌های سخت‌افزاری متفاوت اجرا شود.
این نشان می دهد که چگونه کتابخانه های RAPIDS (cuDF، cuML) با همتایان CPU خود (Pandas، scikit-learn) سازگار هستند. به عنوان مثال، ما می توانیم نشان دهیم که چگونه LabelEncoders ایجاد شده در cuML می تواند در scikit-learn و بالعکس استفاده شود.

ما دستورالعمل ها را دنبال می کنیم مستندات تریتون برای بسته بندی وابستگی های پیش پردازش (scikit-learn و Pandas) که در باطن پایتون به عنوان فایل TAR محیط Conda استفاده می شود. اسکریپت bash create_prep_env.sh فایل TAR محیط Conda را ایجاد می کند، سپس آن را به پوشه مدل پیش پردازش منتقل می کنیم. کد زیر را ببینید:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

پس از اجرای اسکریپت قبلی، تولید می شود preprocessing_env.tar.gz، که ما آن را در دایرکتوری پیش پردازش کپی می کنیم:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

پیش پردازش را با باطن تریتون پایتون تنظیم کنید

برای پیش پردازش، از Triton's استفاده می کنیم باطن پایتون برای انجام پیش پردازش داده های جدولی (رمزگذاری طبقه ای) در حین استنتاج برای درخواست های داده خام وارد شده به سرور. برای اطلاعات بیشتر در مورد پیش پردازشی که در حین آموزش انجام شد، به ادامه مطلب مراجعه کنید دفترچه آموزشی.

باطن پایتون، پیش پردازش، پس پردازش و هر منطق سفارشی دیگری را قادر می سازد تا در پایتون پیاده سازی شود و با تریتون ارائه شود. استفاده از Triton در SageMaker ما را ملزم می‌کند که ابتدا یک پوشه مخزن مدل شامل مدل‌هایی که می‌خواهیم ارائه کنیم، راه‌اندازی کنیم. ما قبلاً یک مدل برای پیش پردازش داده های پایتون به نام پیش پردازش در راه اندازی کرده ایم cpu_model_repository و gpu_model_repository.

میزبانی مدل‌های ML در Amazon SageMaker با استفاده از Triton: XGBoost، LightGBM، و Treelite Models PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

تریتون الزامات خاصی برای چیدمان مخزن مدل دارد. در دایرکتوری مخزن مدل سطح بالا، هر مدل فهرست فرعی خود را دارد که حاوی اطلاعات مدل مربوطه است. هر دایرکتوری مدل در تریتون باید حداقل یک زیردایرکتوری عددی داشته باشد که نسخه ای از مدل را نشان می دهد. مقدار 1 نشان دهنده نسخه 1 مدل پیش پردازش پایتون ما است. هر مدل توسط یک باطن خاص اجرا می شود، بنابراین در هر زیر شاخه نسخه باید مصنوع مدل مورد نیاز آن باطن وجود داشته باشد. برای این مثال، ما از باطن پایتون استفاده می‌کنیم، که نیاز دارد فایل پایتونی که در حال ارائه آن هستید مدل.py نامیده شود و فایل باید پیاده‌سازی شود. توابع خاص. اگر از Backend PyTorch استفاده می کردیم، یک فایل model.pt مورد نیاز بود و غیره. برای جزئیات بیشتر در مورد قراردادهای نامگذاری برای فایل های مدل، مراجعه کنید فایل های مدل.

La model.py فایل پایتون که ما در اینجا استفاده می کنیم، تمام منطق پیش پردازش داده های جدولی را برای تبدیل داده های خام به ویژگی هایی که می توانند به مدل XGBoost ما وارد شوند، پیاده سازی می کند.

هر مدل تریتون باید یک config.pbtxt فایلی که پیکربندی مدل را توصیف می کند. برای کسب اطلاعات بیشتر در مورد تنظیمات پیکربندی، مراجعه کنید پیکربندی مدلاست. ما config.pbtxt فایل پشتیبان را به عنوان پایتون و تمام ستون های ورودی را برای داده های خام به همراه خروجی از پیش پردازش شده مشخص می کند که از 15 ویژگی تشکیل شده است. ما همچنین مشخص می کنیم که می خواهیم این مدل پیش پردازش پایتون را روی CPU اجرا کنیم. کد زیر را ببینید:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

یک مدل ML مبتنی بر درخت برای باطن FIL تنظیم کنید

در مرحله بعد، ما دایرکتوری مدل را برای یک مدل ML مبتنی بر درخت مانند XGBoost تنظیم می کنیم که از پسوند FIL استفاده می کند.

طرح مورد انتظار برای cpu_memory_repository و gpu_memory_repository مشابه آنچه قبلا نشان دادیم هستند.

میزبانی مدل‌های ML در Amazon SageMaker با استفاده از Triton: XGBoost، LightGBM، و Treelite Models PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

در اینجا، FIL نام مدل است می توانیم نام دیگری مانند آن بگذاریم xgboost اگر بخواهیم 1 زیر شاخه نسخه است که حاوی مصنوع مدل است. در این مورد، آن است xgboost.json مدلی که ذخیره کردیم بیایید این طرح مورد انتظار را ایجاد کنیم:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

ما باید فایل پیکربندی را داشته باشیم config.pbtxt توصیف پیکربندی مدل برای مدل ML مبتنی بر درخت، به طوری که باطن FIL در تریتون بتواند نحوه سرویس دهی آن را درک کند. برای اطلاعات بیشتر به جدیدترین ژنریک مراجعه کنید گزینه های پیکربندی تریتون و گزینه های پیکربندی خاص برای باطن FIL. ما فقط روی چند مورد از رایج ترین و مرتبط ترین گزینه ها در این مثال تمرکز می کنیم.

ساختن config.pbtxt برای model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

به طور مشابه، راه اندازی کنید config.pbtxt برای model_gpu_repository (توجه داشته باشید تفاوت این است USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

راه‌اندازی یک خط لوله استنتاج از پیش‌پردازش داده‌های باطن پایتون و باطن FIL با استفاده از مجموعه‌ها

اکنون ما آماده راه اندازی خط لوله استنتاج برای پیش پردازش داده ها و استنتاج مدل مبتنی بر درخت با استفاده از یک مدل مجموعه. یک مدل مجموعه نشان دهنده خط لوله ای از یک یا چند مدل و اتصال تانسورهای ورودی و خروجی بین آن مدل ها است. در اینجا ما از مدل مجموعه برای ایجاد خط لوله ای از پیش پردازش داده ها در پشتیبان پایتون و به دنبال آن XGBoost در باطن FIL استفاده می کنیم.

طرح مورد انتظار برای ensemble دایرکتوری مدل شبیه به مواردی است که قبلا نشان دادیم:

میزبانی مدل‌های ML در Amazon SageMaker با استفاده از Triton: XGBoost، LightGBM، و Treelite Models PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

ما مدل های گروه را ایجاد کردیم config.pbtxt پیروی از راهنمایی در مدل های گروه. مهمتر از همه، ما باید زمانبندی گروه را در آن راه اندازی کنیم config.pbtxt، که جریان داده بین مدل های داخل مجموعه را مشخص می کند. زمانبندی گروه تانسورهای خروجی را در هر مرحله جمع آوری می کند و آنها را به عنوان تانسورهای ورودی برای مراحل دیگر مطابق با مشخصات ارائه می دهد.

مخزن مدل را بسته بندی کنید و در آمازون S3 آپلود کنید

در نهایت، به ساختار دایرکتوری مخزن مدل زیر می رسیم که شامل یک مدل پیش پردازش پایتون و وابستگی های آن به همراه مدل XGBoost FIL و مجموعه مدل است.

میزبانی مدل‌های ML در Amazon SageMaker با استفاده از Triton: XGBoost، LightGBM، و Treelite Models PlatoBlockchain Data Intelligence. جستجوی عمودی Ai.

دایرکتوری و محتویات آن را به صورت بسته بندی می کنیم model.tar.gz برای آپلود در سرویس ذخیره سازی ساده آمازون (Amazon S3). ما در این مثال دو گزینه داریم: استفاده از یک نمونه مبتنی بر CPU یا یک نمونه مبتنی بر GPU. یک نمونه مبتنی بر GPU زمانی مناسب تر است که به قدرت پردازش بالاتری نیاز دارید و می خواهید از هسته های CUDA استفاده کنید.

بسته مدل را برای یک نمونه مبتنی بر CPU (بهینه شده برای CPU) با کد زیر ایجاد و آپلود کنید:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

بسته مدل را برای یک نمونه مبتنی بر GPU (بهینه شده برای GPU) با کد زیر ایجاد و آپلود کنید:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

یک نقطه پایانی SageMaker ایجاد کنید

ما اکنون مصنوعات مدل را در یک سطل S3 ذخیره کرده ایم. در این مرحله می توانیم متغیر محیط اضافی را نیز ارائه کنیم SAGEMAKER_TRITON_DEFAULT_MODEL_NAME، که نام مدل بارگذاری شده توسط تریتون را مشخص می کند. مقدار این کلید باید با نام پوشه در بسته مدل آپلود شده در Amazon S3 مطابقت داشته باشد. این متغیر در مورد یک مدل اختیاری است. در مورد مدل های گروهی، این کلید باید برای راه اندازی تریتون در SageMaker مشخص شود.

علاوه بر این، می توانید تنظیم کنید SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT و SAGEMAKER_TRITON_THREAD_COUNT برای بهینه سازی تعداد موضوعات

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

ما از مدل قبلی برای ایجاد یک پیکربندی نقطه پایانی استفاده می کنیم که در آن می توانیم نوع و تعداد نمونه های مورد نظر خود را در نقطه پایانی مشخص کنیم.

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

ما از این پیکربندی نقطه پایانی برای ایجاد یک نقطه پایانی SageMaker استفاده می کنیم و منتظر می مانیم تا استقرار به پایان برسد. با SageMaker MME، ما این گزینه را داریم که با تکرار این فرآیند چندین مدل مجموعه را میزبانی کنیم، اما برای این مثال به یک استقرار پایبند هستیم:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

وضعیت به تغییر خواهد کرد InService زمانی که استقرار موفقیت آمیز باشد.

مدل خود را که در نقطه پایانی SageMaker میزبانی شده است فراخوانی کنید

پس از اجرای نقطه پایانی، می‌توانیم از برخی داده‌های خام نمونه برای انجام استنتاج با استفاده از JSON به عنوان فرمت بار استفاده کنیم. برای فرمت درخواست استنتاج، تریتون از KFServing استاندارد جامعه پروتکل های استنتاج. کد زیر را ببینید:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

نوت بوک ارجاع شده در وبلاگ را می توان در مخزن GitHub.

بهترین شیوه

علاوه بر گزینه هایی برای تنظیم دقیق تنظیمات پشتیبان FIL که قبلاً ذکر کردیم، دانشمندان داده همچنین می توانند اطمینان حاصل کنند که داده های ورودی برای backend برای پردازش توسط موتور بهینه شده است. در صورت امکان، داده ها را در قالب ردیف اصلی در آرایه GPU وارد کنید. فرمت های دیگر نیاز به تبدیل داخلی دارند و چرخه هایی را اشغال می کنند و عملکرد را کاهش می دهند.

با توجه به نحوه نگهداری ساختارهای داده FIL در حافظه GPU، مراقب عمق درخت باشید. هرچه عمق درخت بیشتر باشد، ردپای حافظه GPU شما بزرگتر خواهد بود.

استفاده از instance_group_count پارامتری برای اضافه کردن فرآیندهای کارگر و افزایش توان عملیاتی باطن FIL، که منجر به مصرف بیشتر حافظه CPU و GPU می شود. علاوه بر این، متغیرهای مخصوص SageMaker را که برای افزایش توان در دسترس هستند، در نظر بگیرید، مانند رشته‌های HTTP، اندازه بافر HTTP، اندازه دسته‌ای و حداکثر تاخیر.

نتیجه

در این پست، ما عمیقاً به باطن FIL که Triton Inference Server در SageMaker پشتیبانی می‌کند، می‌پردازیم. این باطن شتاب CPU و GPU مدل های درختی شما مانند الگوریتم محبوب XGBoost را فراهم می کند. گزینه های زیادی برای به دست آوردن بهترین عملکرد برای استنباط وجود دارد، مانند اندازه های دسته ای، فرمت های ورودی داده و سایر عواملی که می توانند برای برآورده کردن نیازهای شما تنظیم شوند. SageMaker به شما این امکان را می دهد که از این قابلیت با نقاط پایانی تک و چند مدلی برای متعادل کردن عملکرد و صرفه جویی در هزینه استفاده کنید.

ما شما را تشویق می‌کنیم که اطلاعات این پست را در نظر بگیرید و ببینید آیا SageMaker می‌تواند نیازهای میزبانی شما را برای ارائه مدل‌های مبتنی بر درخت برآورده کند و نیازهای شما را برای کاهش هزینه و عملکرد بار کاری برآورده کند.

نوت بوک مورد اشاره در این پست را می توانید در نمونه های SageMaker پیدا کنید مخزن GitHub. علاوه بر این، می‌توانید آخرین اسناد مربوط به باطن FIL را پیدا کنید GitHub.

درباره نویسنده

میزبانی مدل‌های ML در Amazon SageMaker با استفاده از Triton: XGBoost، LightGBM، و Treelite Models PlatoBlockchain Data Intelligence. جستجوی عمودی Ai. راغو رامشا یک معمار ارشد راه حل های ML با تیم خدمات آمازون SageMaker است. او بر کمک به مشتریان در ساخت، استقرار و انتقال بارهای کاری تولید ML به SageMaker در مقیاس متمرکز است. او در زمینه های یادگیری ماشین، هوش مصنوعی و بینایی کامپیوتر تخصص دارد و دارای مدرک کارشناسی ارشد در علوم کامپیوتر از UT Dallas است. در اوقات فراغت از مسافرت و عکاسی لذت می برد.

جیمز پارک یک معمار راه حل در خدمات وب آمازون است. او با Amazon.com برای طراحی، ساخت و استقرار راه حل های فناوری در AWS کار می کند و علاقه خاصی به هوش مصنوعی و یادگیری ماشین دارد. در اوقات فراغت خود از جستجوی فرهنگ های جدید، تجربیات جدید و به روز ماندن با آخرین روندهای فناوری لذت می برد.

داوال پاتل یک معمار اصلی یادگیری ماشین در AWS است. او با سازمان‌هایی از شرکت‌های بزرگ گرفته تا استارت‌آپ‌های متوسط در زمینه مشکلات مربوط به محاسبات توزیع‌شده و هوش مصنوعی کار کرده است. او بر یادگیری عمیق، از جمله NLP و حوزه های بینایی کامپیوتر تمرکز می کند. او به مشتریان کمک می کند تا به استنباط مدل با عملکرد بالا در Amazon SageMaker دست یابند.

جیاهونگ لیو یک معمار راه حل در تیم ارائه دهنده خدمات ابری در NVIDIA است. او به مشتریان در اتخاذ راه‌حل‌های یادگیری ماشین و هوش مصنوعی کمک می‌کند که از محاسبات تسریع‌شده NVIDIA برای رسیدگی به چالش‌های آموزشی و استنتاج آنها استفاده می‌کند. او در اوقات فراغت خود از اوریگامی، پروژه های DIY و بازی بسکتبال لذت می برد.

کشیتیز گوپتا یک معمار راه حل در NVIDIA است. او از آموزش دادن به مشتریان ابری درباره فناوری‌های هوش مصنوعی GPU که NVIDIA ارائه می‌کند و کمک به آنها در تسریع یادگیری ماشینی و برنامه‌های یادگیری عمیق لذت می‌برد. خارج از محل کار، او از دویدن، پیاده روی و تماشای حیات وحش لذت می برد.