میزبانی مدل های ML در Amazon SageMaker با استفاده از Triton: مدل CV با PyTorch Backend

بازنشر افلاطون

دنبال: 0

PyTorch یک چارچوب یادگیری ماشینی (ML) است که بر اساس مشعل کتابخانه، برای کاربردهایی مانند بینایی کامپیوتر و پردازش زبان طبیعی استفاده می شود. یکی از دلایل اصلی که مشتریان چارچوب PyTorch را انتخاب می کنند، سادگی آن و این واقعیت است که برای کار با پایتون طراحی و مونتاژ شده است. PyTorch از نمودارهای محاسباتی پویا پشتیبانی می کند و امکان تغییر رفتار شبکه را در زمان اجرا فراهم می کند. این یک مزیت انعطاف‌پذیری بزرگ را نسبت به اکثر چارچوب‌های ML فراهم می‌کند، که نیاز دارند شبکه‌های عصبی قبل از زمان اجرا به عنوان اشیاء ثابت تعریف شوند. در این پست، ما به عمق می پردازیم تا ببینیم چگونه آمازون SageMaker می تواند این مدل های PyTorch را با استفاده از NVIDIA Triton Inference Server ارائه دهد.

SageMaker چندین گزینه را برای مشتریانی که به دنبال میزبانی مدل های ML خود هستند ارائه می دهد. یکی از ویژگی های کلیدی موجود SageMaker است نقاط پایانی استنتاج بلادرنگ. بارهای کاری بلادرنگ می توانند سطوح متفاوتی از انتظارات عملکرد و قراردادهای سطح خدمات (SLA) داشته باشند که به عنوان الزامات تاخیر و توان عملیاتی تحقق می یابند.

با نقاط پایانی بلادرنگ، گزینه‌های استقرار مختلف با سطوح مختلف عملکرد مورد انتظار تنظیم می‌شوند. به عنوان مثال، کسب و کار شما ممکن است بر مدلی تکیه کند که باید از SLAهای بسیار سختگیرانه برای تأخیر و توان عملیاتی با عملکرد قابل پیش بینی برخوردار باشد. در این مورد SageMaker فراهم می کند نقاط پایانی تک مدلی (SMEs)، به شما امکان می دهد یک مدل ML واحد را در یک نقطه پایانی منطقی مستقر کنید، که از شبکه و ظرفیت محاسبه سرور اصلی استفاده می کند. برای موارد استفاده دیگر که به تعادل بهتری بین عملکرد و هزینه نیاز دارید، نقاط پایانی چند مدلی (MMEs) به شما امکان می دهد چندین مدل را در پشت یک نقطه پایانی منطقی مستقر کنید و آنها را به صورت جداگانه فراخوانی کنید، در حالی که بارگذاری و تخلیه آنها را از حافظه انتزاعی کنید.

SageMaker از نقاط پایانی تک مدلی و چند مدلی پشتیبانی می کند سرور استنتاج تریتون NVIDIA. تریتون از پشتیبان های مختلف به عنوان موتور برای نیرو دادن به کار و سرویس دهی مختلف پشتیبانی می کند مدل های چارچوبمانند PyTorch، TensorFlow، TensorRT یا ONNX Runtime. برای هر استقرار تریتون، بسیار مهم است که بدانید چگونه رفتار backend بر حجم کاری شما تأثیر می گذارد و از پارامترهای پیکربندی منحصر به فرد آن چه انتظاری باید داشت. در این پست به شما کمک می کنیم تا این موضوع را درک کنید تریتون پای تورچ باطن عمیق.

تریتون با باطن PyTorch

باطن PyTorch برای اجرا طراحی شده است TorchScript مدل هایی با استفاده از PyTorch C++ API. TorchScript زیرمجموعه ایستا از پایتون است که ساختار یک مدل PyTorch را نشان می دهد. برای استفاده از این باطن، باید مدل PyTorch خود را با استفاده از کامپایل Just-In-Time (JIT) به TorchScript تبدیل کنید. JIT کد TorchScript را در یک نمایش متوسط بهینه سازی شده کامپایل می کند و آن را برای استقرار در محیط های غیر پایتون مناسب می کند. تریتون از TorchScript برای بهبود عملکرد و انعطاف پذیری استفاده می کند.

هر مدلی که با تریتون مستقر شده نیاز به یک فایل پیکربندی دارد (config.pbtxt) که فراداده مدل، مانند تانسورهای ورودی و خروجی، نام مدل و پلت فرم را مشخص می کند. فایل پیکربندی برای تریتون ضروری است تا نحوه بارگیری، اجرا و بهینه سازی مدل را درک کند. برای مدل‌های PyTorch، فیلد پلتفرم در فایل پیکربندی باید روی آن تنظیم شود pytorch_libtorch. می‌توانید مدل‌های Triton PyTorch را روی GPU و CPU بارگیری کنید (نگاه کنید به نمونه های چندگانه مدل) و وزن مدل به ترتیب در حافظه GPU/VRAM یا در حافظه میزبان/RAM نگهداری می شود.

توجه داشته باشید که فقط مدل forward متد هنگام استفاده از باطن Pytorch فراخوانی می شود. اگر برای آماده‌سازی، تکرار و تغییر پیش‌بینی‌های مدل خام خود برای پاسخ به یک درخواست به منطق پیچیده‌تری تکیه می‌کنید، باید آن را به عنوان یک مدل سفارشی به جلو بپیچید. به طور متناوب، می توانید از مدل های مجموعه یا برنامه نویسی منطق کسب و کار.

می توانید با استفاده از ترکیبی از ویژگی های مبتنی بر پیکربندی موجود، عملکرد مدل PyTorch را در تریتون بهینه کنید. برخی از اینها باطن-آگنوستیک هستند، مانند دسته بندی پویا و مدل همزمان اجرا می شود (نگاه کنید به با استفاده از NVIDIA Triton Inference Server در آمازون SageMaker، عملکرد فوق مقیاس را برای ارائه مدل به دست آورید برای کسب اطلاعات بیشتر)، و برخی از آنها مخصوص PyTorch هستند. بیایید نگاهی عمیق تر به این موارد بیندازیم پارامترهای پیکربندی و چگونه باید از آنها استفاده کنید:

DISABLE_OPTIMIZED_EXECUTION – از این پارامتر برای بهینه سازی مدل های TorchScript در حال اجرا استفاده کنید. این پارامتر تماس اولیه با یک مدل TorchScript بارگذاری شده را کند می کند و ممکن است سودی ندارد و یا حتی مانع عملکرد مدل در برخی موارد تنظیم کنید false اگر تحمل شما در برابر پوسته پوسته شدن یا تاخیر شروع سرد بسیار کم است.
INFERENCE_MODE – از این پارامتر برای تغییر حالت استنتاج PyTorch استفاده کنید. در حالت استنتاج، محاسبات در نمودار عقب ثبت نمی‌شوند و به PyTorch اجازه می‌دهد تا سرعت مدل شما را افزایش دهد. این زمان اجرا بهتر با یک اشکال همراه است: شما نمی توانید از تانسورهای ایجاد شده در حالت استنتاج در محاسبات برای ضبط توسط autograd پس از خروج از حالت استنتاج استفاده کنید. تنظیم کنید true اگر شرایط قبلی در مورد استفاده شما اعمال شود (بیشتر برای بارهای کاری استنتاج صادق است).
ENABLE_NVFUSER – از این پارامتر برای فعال کردن استفاده کنید NvFuser بهینه سازی (CUDA Graph Fuser) برای مدل های TorchScript. اگر مشخص نشده باشد، از فیوزر پیش فرض PyTorch استفاده می شود.
ENABLE_WEIGHT_SHARING - از این پارامتر استفاده کنید تا به نمونه های مدل (کپی) در همان دستگاه اجازه دهید وزن ها را به اشتراک بگذارند. این می تواند استفاده از حافظه بارگذاری مدل و استنتاج را کاهش دهد. نباید با مدل هایی که حالت را حفظ می کنند استفاده شود.
ENABLE_CACHE_CLEANING – از این پارامتر برای فعال کردن پاکسازی حافظه پنهان CUDA پس از اجرای هر مدل استفاده کنید (فقط در صورتی که مدل بر روی GPU باشد تأثیر دارد). تنظیم این پرچم روی true به دلیل عملیات تمیز کردن حافظه پنهان CUDA اضافی پس از هر اجرای مدل، بر عملکرد تأثیر منفی خواهد گذاشت. فقط در صورتی باید از این پرچم استفاده کنید که چندین مدل را با Triton سرو می‌کنید و در طول اجرای مدل با مشکلات حافظه CUDA مواجه می‌شوید.
ENABLE_JIT_EXECUTOR، ENABLE_JIT_PROFILING و ENABLE_TENSOR_FUSER – از این پارامترها برای غیرفعال کردن برخی بهینه‌سازی‌های PyTorch استفاده کنید که گاهی اوقات می‌توانند باعث رگرسیون تأخیر در مدل‌هایی با حالت‌های اجرای پیچیده و اشکال پویا شوند.

استنباط تریتون در SageMaker

SageMaker اجازه می دهد تا شما می توانید هر دو SME و MME را با NVIDIA Triton Inference Server مستقر کنید. شکل زیر معماری سطح بالای تریتون را نشان می دهد. این مخزن مدل یک مخزن مبتنی بر سیستم فایل از مدل هایی است که تریتون برای استنتاج در دسترس قرار خواهد داد. درخواست‌های استنتاج از طریق HTTPS به سرور می‌رسند و سپس به زمان‌بندی مناسب برای هر مدل هدایت می‌شوند. تریتون اجرا می کند چندین الگوریتم زمانبندی و دسته بندی که می تواند بر اساس مدل به مدل پیکربندی شود. زمانبندی هر مدل به صورت اختیاری دسته بندی درخواست های استنتاج را انجام می دهد و سپس درخواست ها را به آن ارسال می کند باطن مطابق با نوع مدل Backend استنتاج را با استفاده از ورودی های ارائه شده در درخواست های دسته ای انجام می دهد و سپس خروجی ها برگردانده می شوند.

هنگام پیکربندی گروه های مقیاس خودکار خود برای نقاط پایانی SageMaker، ممکن است بخواهید در نظر بگیرید SageMakerVariantInvocationsPerInstance به عنوان معیار اولیه برای تعیین ویژگی های مقیاس بندی گروه مقیاس خودکار شما. علاوه بر این، بر اساس اینکه آیا مدل‌های شما روی GPU یا CPU اجرا می‌شوند، می‌توانید از آن استفاده کنید CPUUtilization or GPUUtilization به عنوان معیارهای اضافی توجه داشته باشید که برای SMEها، از آنجایی که مدل‌های به کار گرفته‌شده همگی یکسان هستند، تنظیم سیاست‌های مناسب برای مطابقت با SLA‌های خود نسبتاً ساده است. برای MMEها، توصیه می‌کنیم مدل‌های مشابه را در پشت نقطه پایانی معین به کار ببرید تا عملکرد پایدارتر و قابل پیش‌بینی‌تری داشته باشید. در موارد استفاده که از مدل‌هایی با اندازه‌ها و الزامات مختلف استفاده می‌شود، ممکن است بخواهید آن حجم‌های کاری را در چندین MME از هم جدا کنید، یا زمان بیشتری را صرف تنظیم دقیق خط‌مشی گروه مقیاس خودکار آنها کنید تا بهترین تعادل هزینه و عملکرد را به دست آورید. دیدن الگوهای میزبانی مدل در Amazon SageMaker، قسمت 3: اجرای و بهینه سازی استنتاج چند مدل با نقاط پایانی چند مدل Amazon SageMaker برای اطلاعات بیشتر در مورد ملاحظات سیاست مقیاس خودکار برای MMEها. (توجه داشته باشید که اگرچه تنظیمات MMS در این مورد اعمال نمی شود، ملاحظات خط مشی همچنان اعمال می شوند.)

میزبانی مدل های ML در Amazon SageMaker با استفاده از Triton: مدل CV با PyTorch Backend | خدمات وب آمازون هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

برای لیستی از ظروف یادگیری عمیق NVIDIA Triton (DLC) که توسط استنتاج SageMaker پشتیبانی می شوند، به تصاویر ظروف یادگیری عمیق موجود.

بررسی اجمالی راه حل

در بخش‌های بعدی، نمونه‌ای را که در دسترس است بررسی می‌کنیم GitHub برای درک اینکه چگونه می توانیم از Triton و SageMaker MME در GPU برای استقرار یک مدل ResNet برای طبقه بندی تصاویر استفاده کنیم. برای اهداف نمایشی، ما از یک مدل ResNet50 از پیش آموزش دیده استفاده می کنیم که می تواند تصاویر را در 1,000 دسته طبقه بندی کند.

پیش نیازها

ابتدا به یک حساب کاربری AWS و یک هویت AWS و مدیریت دسترسی کاربر سرپرست (IAM). برای راهنمایی در مورد نحوه تنظیم یک حساب AWS، نگاه کنید چگونه یک حساب AWS جدید ایجاد و فعال کنم؟. برای راهنمایی در مورد نحوه ایمن کردن حساب خود با یک کاربر سرپرست IAM، ببینید ایجاد اولین کاربر و گروه کاربری سرپرست IAM شما.

SageMaker به دسترسی نیاز دارد سرویس ذخیره سازی ساده آمازون سطل (Amazon S3) که مدل شما را ذخیره می کند. یک نقش IAM با خط مشی ای ایجاد کنید که به SageMaker امکان دسترسی خواندن به سطل شما را می دهد.

اگر قصد دارید نوت بوک را در آن اجرا کنید Amazon SageMaker Studio، رجوع شود به شروع کنید برای دستورالعمل های راه اندازی

محیط خود را تنظیم کنید

برای تنظیم محیط خود، مراحل زیر را انجام دهید:

یک نمونه نوت بوک SageMaker را با یک نمونه g5.xlarge راه اندازی کنید.

شما همچنین می توانید این مثال را در یک نمونه نوت بوک استودیو اجرا کنید.

انتخاب کنید یک مخزن git عمومی را فقط در این نمونه نوت بوک شبیه سازی کنید و مخزن GitHub را مشخص کنید URL.
وقتی JupyterLab آماده شد، آن را اجرا کنید resnet_pytorch_python_backend_MME.ipynb نوت بوک با conda_python3 conda kernel و مرحله به مرحله این نوت بوک را اجرا کنید.

وابستگی ها را نصب کنید و کتابخانه مورد نیاز را وارد کنید

برای نصب وابستگی ها و وارد کردن کتابخانه مورد نیاز از کد زیر استفاده کنید:

!pip install nvidia-pyindex --quiet
!pip install tritonclient[http] --quiet # imports
import boto3, json, sagemaker, time
from sagemaker import get_execution_role
import numpy as np
from PIL import Image
import tritonclient.http as httpclient
# variables
s3_client = boto3.client("s3") # sagemaker variables
role = get_execution_role()
sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client("sagemaker-runtime")
sagemaker_session = sagemaker.Session(boto_session=boto3.Session())
bucket = sagemaker_session.default_bucket()

مصنوعات مدل را آماده کنید

La generate_model_pytorch.sh فایل در دایرکتوری فضای کاری حاوی اسکریپت هایی برای بارگیری و ذخیره یک مدل PyTorch است. ابتدا یک مدل ResNet50 از قبل آموزش دیده را با استفاده از بارگذاری می کنیم torchvision پکیج مدل ها ما مدل را به عنوان یک ذخیره می کنیم model.pt فایل با فرمت TorchScript بهینه سازی شده و سریال. TorchScript برای انجام یک مدل به جلو به ورودی‌های نمونه نیاز دارد، بنابراین یک نمونه از یک تصویر RGB را با سه کانال رنگی با ابعاد 224X224 ارسال می‌کنیم. اسکریپت برای صادرات این مدل را می توان در پیدا کرد GitHub repo.

!docker run --gpus=all --rm -it 
-v `pwd`/workspace:/workspace nvcr.io/nvidia/pytorch:23.02-py3 
            /bin/bash generate_model_pytorch.sh

تریتون الزامات خاصی برای چیدمان مخزن مدل دارد. در دایرکتوری مخزن مدل سطح بالا، هر مدل فهرست فرعی خود را دارد که حاوی اطلاعات مدل مربوطه است. هر دایرکتوری مدل در تریتون باید حداقل یک زیردایرکتوری عددی داشته باشد که نسخه ای از مدل را نشان می دهد، همانطور که در مثال زیر نشان داده شده است. مقدار 1 نشان دهنده نسخه 1 مدل Pytorch ما است. هر مدل توسط باطن خاص خود اجرا می شود، بنابراین هر زیر شاخه نسخه باید دارای مصنوع مدل مورد نیاز آن باطن باشد. از آنجا که ما از یک باطن PyTorch استفاده می کنیم، a model.pt فایل در دایرکتوری نسخه مورد نیاز است. برای جزئیات بیشتر در مورد قراردادهای نامگذاری برای فایل های مدل، مراجعه کنید فایل های مدل.

هر مدل تریتون باید یک config.pbtxt فایلی که پیکربندی مدل را توصیف می کند. برای کسب اطلاعات بیشتر در مورد تنظیمات پیکربندی، مراجعه کنید پیکربندی مدل. بیرون config.pbtxt فایل باطن را به عنوان مشخص می کند pytorch_libtorch، و اشکال تانسور ورودی و خروجی و اطلاعات نوع داده را تعریف می کند. همچنین مشخص می کنیم که می خواهیم این مدل را از طریق GPU روی GPU اجرا کنیم instance_group پارامتر. کد زیر را ببینید:

name: "resnet"
platform: "pytorch_libtorch" max_batch_size: 128
input {
  name: "INPUT__0"
  data_type: TYPE_FP32
  dims: 3
  dims: 224
  dims: 224
}
output {
  name: "OUTPUT__0"
  data_type: TYPE_FP32
  dims: 1000
} instance_group [
{
count: 1
kind: KIND_GPU
}

برای instance_group پیکربندی، زمانی که به سادگی یک تعداد مشخص شده باشد، تریتون تعداد x مدل را در هر دستگاه GPU موجود بارگیری می کند. اگر می‌خواهید کنترل کنید که مدل‌های خود در کدام دستگاه‌های GPU بارگذاری شوند، می‌توانید این کار را به صراحت با مشخص کردن شناسه‌های دستگاه GPU انجام دهید. توجه داشته باشید که برای MMEها، مشخص کردن صریح چنین شناسه‌های دستگاه GPU ممکن است منجر به مدیریت ضعیف حافظه شود، زیرا ممکن است چندین مدل صراحتاً سعی کنند یک دستگاه GPU یکسان را اختصاص دهند.

سپس مصنوعات مدل را tar.gz می کنیم، که فرمت مورد انتظار SageMaker است:

!tar -C triton-serve-pt/ -czf resnet_pt_v0.tar.gz 
resnetmodel_uri_pt = sagemaker_session.upload_data(path="resnet_pt_v0.tar.gz", key_prefix=prefix)

اکنون که مصنوعات مدل را در آمازون S3 بارگذاری کرده ایم، می توانیم یک نقطه پایانی چند مدل SageMaker ایجاد کنیم.

مدل را مستقر کنید

ما اکنون مدل تریتون را در یک MME SageMaker مستقر می کنیم. در تعریف ظرف، را تعریف کنید ModelDataUrl برای تعیین دایرکتوری S3 که شامل تمام مدل هایی است که SageMaker MME از آنها برای بارگیری و ارائه پیش بینی ها استفاده می کند. حالت را روی MultiModel برای نشان دادن SageMaker نقطه پایانی را با مشخصات ظرف MME ایجاد می کند. ما ظرف را با تصویری تنظیم می کنیم که از استقرار MME با GPU پشتیبانی می کند (به MME مراجعه کنید تصاویر ظرف برای جزئیات بیشتر). توجه داشته باشید که پارامتر mode تنظیم شده است MultiModel. این تمایز کلیدی است.

container = {"Image": mme_triton_image_uri, "ModelDataUrl": model_data_url, "Mode": "MultiModel"}

با استفاده از کلاینت SageMaker Boto3، مدل را با استفاده از create_model API. ما تعریف ظرف را به create_model API همراه با ModelName و ExecutionRoleArn:

create_model_response = sm_client.create_model(
ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)
print("Model Arn: " + create_model_response["ModelArn"])

ایجاد تنظیمات MME با استفاده از create_endpoint_config Boto3 API. یک نمونه محاسباتی شتابدار GPU را در آن مشخص کنید InstanceType (برای این پست، از یک نمونه g4dn.4xlarge استفاده می کنیم). توصیه می کنیم نقاط پایانی خود را حداقل با دو نمونه پیکربندی کنید. این به SageMaker اجازه می‌دهد تا مجموعه‌ای از پیش‌بینی‌های بسیار در دسترس را در چندین منطقه در دسترس برای مدل‌ها ارائه دهد.

create_endpoint_config_response = sm_client.create_endpoint_config(
EndpointConfigName=endpoint_config_name,
ProductionVariants=[
{ "InstanceType": "ml.g4dn.4xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic",
}
],
)
print("Endpoint Config Arn: " + create_endpoint_config_response["EndpointConfigArn"])

با استفاده از پیکربندی نقطه پایانی قبلی، یک نقطه پایانی جدید SageMaker ایجاد می کنیم و منتظر می مانیم تا استقرار به پایان برسد. وضعیت به تغییر خواهد کرد InService زمانی که استقرار موفقیت آمیز باشد.

create_endpoint_response = sm_client.create_endpoint(
EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)
print("Endpoint Arn: " + create_endpoint_response["EndpointArn"])

مدل را فراخوانی کنید و پیش بینی ها را اجرا کنید

روش زیر یک تصویر نمونه ای را که برای استنتاج استفاده خواهیم کرد به محموله ای تبدیل می کند که می تواند برای استنتاج به سرور تریتون ارسال شود.

La tritonclient پکیج روشهای مفیدی را برای تولید محموله بدون نیاز به دانستن جزئیات مشخصات ارائه می دهد. ما از روش‌های زیر برای تبدیل درخواست استنتاج خود به فرمت باینری استفاده می‌کنیم که تأخیر کمتری برای استنتاج فراهم می‌کند:

s3_client.download_file(
    "sagemaker-sample-files", "datasets/image/pets/shiba_inu_dog.jpg", "shiba_inu_dog.jpg"
) def get_sample_image():
    image_path = "./shiba_inu_dog.jpg"
    img = Image.open(image_path).convert("RGB")
    img = img.resize((224, 224))
    img = (np.array(img).astype(np.float32) / 255) - np.array(
        [0.485, 0.456, 0.406], dtype=np.float32
    ).reshape(1, 1, 3)
    img = img / np.array([0.229, 0.224, 0.225], dtype=np.float32).reshape(1, 1, 3)
    img = np.transpose(img, (2, 0, 1))
    return img.tolist() def _get_sample_image_binary(input_name, output_name):
    inputs = []
    outputs = []
    inputs.append(httpclient.InferInput(input_name, [1, 3, 224, 224], "FP32"))
    input_data = np.array(get_sample_image(), dtype=np.float32)
    input_data = np.expand_dims(input_data, axis=0)
    inputs[0].set_data_from_numpy(input_data, binary_data=True)
    outputs.append(httpclient.InferRequestedOutput(output_name, binary_data=True))
    request_body, header_length = httpclient.InferenceServerClient.generate_request_body(
        inputs, outputs=outputs
    )
    return request_body, header_length def get_sample_image_binary_pt():
    return _get_sample_image_binary("INPUT__0", "OUTPUT__0")

پس از اینکه نقطه پایانی با موفقیت ایجاد شد، می‌توانیم درخواست‌های استنتاج را با استفاده از آن به MME ارسال کنیم invoke_enpoint API. را مشخص می کنیم TargetModel در فراخوانی فراخوانی و ارسال در محموله برای هر نوع مدل:

request_body, header_length = get_sample_image_binary_pt()
response = runtime_sm_client.invoke_endpoint(
EndpointName=endpoint_name,
ContentType="application/vnd.sagemaker-triton.binary+json;json-header-size={}".format(
header_length
),
Body=request_body,
TargetModel="resnet_pt_v0.tar.gz",
)
# Parse json header size length from the response
header_length_prefix = "application/vnd.sagemaker-triton.binary+json;json-header-size="
header_length_str = response["ContentType"][len(header_length_prefix) :]
# Read response body
result = httpclient.InferenceServerClient.parse_response_body(
response["Body"].read(), header_length=int(header_length_str)
)
output0_data = result.as_numpy("OUTPUT__0")
print(output0_data)

علاوه بر این، SageMaker MME معیارهای سطح نمونه را برای نظارت با استفاده از آن ارائه می‌کند CloudWatch آمازون:

LoadedModelCount – تعداد مدل های بارگیری شده در کانتینرها
GPUUtilization – درصد واحدهای GPU که توسط کانتینرها استفاده می شود
GPUMemoryUtilization - درصد حافظه GPU استفاده شده توسط کانتینرها
DiskUtilization – درصد فضای دیسک مورد استفاده کانتینرها

SageMaker MMEs همچنین معیارهای بارگیری مدل را ارائه می دهد مانند موارد زیر:

ModelLoadingWaitTime – فاصله زمانی برای دانلود یا بارگذاری مدل
ModelUnloadingTime – فاصله زمانی تخلیه مدل از کانتینر
ModelDownloadingTime – زمان دانلود مدل از آمازون S3 است
ModelCacheHit - تعداد فراخوان‌هایی به مدل که قبلاً روی کانتینر بارگذاری شده‌اند تا بینش‌های سطح فراخوانی مدل را دریافت کنید

برای جزئیات بیشتر ، به مراجعه کنید Amazon SageMaker را با Amazon CloudWatch مانیتور کنید.

پاک کردن

برای جلوگیری از تحمیل هزینه، نقطه پایانی مدل را حذف کنید:

sm_client.delete_model(ModelName=sm_model_name)
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
sm_client.delete_endpoint(EndpointName=endpoint_name)

بهترین شیوه

هنگام استفاده از باطن PyTorch، بیشتر تصمیمات بهینه سازی به تاخیر بار کاری خاص یا الزامات توان عملیاتی شما و معماری مدلی که استفاده می کنید بستگی دارد. به طور کلی، برای مقایسه پارامترهای پیکربندی مبتنی بر داده برای بهبود عملکرد، باید از تریتون استفاده کنید. آنالیز عملکرد. با استفاده از این ابزار، باید منطق تصمیم گیری زیر را اتخاذ کنید:

آزمایش کنید و بررسی کنید که آیا معماری مدل شما می تواند به a تبدیل شود تنفر موتور و با تریتون مستقر شد باطن TensorRT. این روش ترجیحی برای استقرار مدل‌ها با پردازنده‌های گرافیکی NVIDIA است زیرا هم فرمت مدل TensorRT و هم زمان اجرا بهترین استفاده را از قابلیت‌های سخت‌افزاری زیربنایی می‌کنند.
همیشه تنظیم شده است INFERENCE_MODE به true برای بارهای کاری استنتاج خالص که در آن محاسبات autograd مورد نیاز نیست.
در صورت استقرار SMEها، استفاده از سخت افزار را با تعریف مناسب به حداکثر برسانید پیکربندی گروه نمونه با توجه به حافظه GPU یا RAM موجود (از ابزار Performance Analyzer برای یافتن اندازه مناسب استفاده کنید).

برای بهترین روش‌های خاص MME، مراجعه کنید الگوهای میزبانی مدل در Amazon SageMaker، قسمت 3: اجرای و بهینه سازی استنتاج چند مدل با نقاط پایانی چند مدل Amazon SageMaker.

نتیجه

در این پست، ما عمیقاً به باطن PyTorch پشتیبانی شده توسط Triton Inference Server، که شتاب را برای هر دو مدل مبتنی بر CPU و GPU ارائه می‌کند، وارد می‌شویم. ما برخی از پارامترهای پیکربندی را که می‌توانید برای بهینه‌سازی عملکرد مدل تنظیم کنید، بررسی کردیم. در نهایت، ما یک راهنما از یک نمونه دفترچه یادداشت برای نشان دادن استقرار یک استقرار نقطه پایانی چند مدل SageMaker. حتما آن را امتحان کنید!

درباره نویسنده

نیلم کوشیا یک معمار راه حل های سازمانی در AWS است. او با پیشینه ای در مهندسی نرم افزار، به طور ارگانیک به سمت معماری رفت. تمرکز فعلی او کمک به مشتریان سازمانی در سفر پذیرش ابری برای نتایج استراتژیک کسب و کار با حوزه عمق AI/ML است. او مشتاق نوآوری و شمول است. در اوقات فراغت خود از مطالعه و بیرون بودن لذت می برد.

ژائو مورا یک معمار راه حل های تخصصی AI/ML در AWS، مستقر در اسپانیا است. او در آموزش مدل‌های یادگیری عمیق و بهینه‌سازی استنتاج و ساختن پلتفرم‌های ML در مقیاس بزرگ در AWS به مشتریان کمک می‌کند. او همچنین یکی از حامیان فعال سخت افزارهای تخصصی ML و راه حل های ML با کد پایین است.

ویوک گانگاسانی یک معمار ارشد راه حل های یادگیری ماشین در خدمات وب آمازون است. او با استارت‌آپ‌های یادگیری ماشینی کار می‌کند تا برنامه‌های AI/ML را روی AWS بسازد و استقرار دهد. او در حال حاضر بر ارائه راه‌حل‌هایی برای MLOps، استنتاج ML و ML با کد پایین متمرکز است. او روی پروژه هایی در حوزه های مختلف از جمله پردازش زبان طبیعی و بینایی کامپیوتری کار کرده است.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoAiStream. Web3 Data Intelligence دانش تقویت شده دسترسی به اینجا.
ضرب کردن آینده با آدرین اشلی. دسترسی به اینجا.
خرید و فروش سهام در شرکت های PRE-IPO با PREIPO®. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/host-ml-models-on-amazon-sagemaker-using-triton-cv-model-with-pytorch-backend/

تمبر زمان: ممکن است 31، 2023

تمبر زمان: ممکن است 4، 2023

بازنشر افلاطون

ایمن آدرس‌های اینترنتی تعیین‌شده استودیوی SageMaker آمازون قسمت 3: دسترسی API خصوصی چند حسابی به استودیو

اعتبار سنجی اسناد و شناسایی تقلب در فرآیند پذیره نویسی وام مسکن با استفاده از خدمات هوش مصنوعی AWS: قسمت 1 | خدمات وب آمازون

پروژه های تأیید هویت خود را با استفاده از اجرای نمونه AWS Amplify و Amazon Rekognition تسریع کنید

آموزش مقیاس و استنتاج هزاران مدل ML با Amazon SageMaker | خدمات وب آمازون

با Amazon SageMaker قیمت املاک مسکونی را در ImmoScout24 پیش بینی کنید

بهبود دقت رونویسی تماس‌های مشتری-نماینده با واژگان سفارشی در Amazon Transcript

سفر یادگیری ماشین خود را با Amazon SageMaker Experiments و Amazon SageMaker Pipelines سازماندهی کنید

با استفاده از رابط های داخلی جدید با Amazon SageMaker Ground Truth Plus سریعتر به داده های درجه تولید برسید

تنظیم سریع و مقرون به صرفه LLaMA 2 با AWS Trainium | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب