مجموعه ابزار سنجش استنتاج بدون سرور Amazon SageMaker را معرفی می کنیم

بازنشر افلاطون

دنبال: 0

استنتاج بدون سرور Amazon SageMaker یک گزینه استنتاج هدفمند است که استقرار و مقیاس‌بندی مدل‌های یادگیری ماشین (ML) را برای شما آسان می‌کند. این یک مدل پرداخت به ازای استفاده ارائه می‌کند، که برای خدماتی که فراخوانی‌های نقطه پایانی نادر و غیرقابل پیش‌بینی هستند، ایده‌آل است. بر خلاف یک نقطه پایانی میزبانی بلادرنگ، که توسط یک نمونه طولانی مدت پشتیبانی می‌شود، منابع محاسباتی برای نقاط پایانی بدون سرور بر حسب تقاضا فراهم می‌شوند و در نتیجه نیاز به انتخاب انواع نمونه یا مدیریت سیاست‌های مقیاس‌بندی را از بین می‌برند.

معماری سطح بالا زیر نحوه عملکرد یک نقطه پایانی بدون سرور را نشان می دهد. یک مشتری یک نقطه پایانی را فراخوانی می کند که توسط زیرساخت مدیریت شده AWS پشتیبانی می شود.

با این حال، نقاط پایانی بدون سرور مستعد شروع سرد به ترتیب ثانیه هستند، و بنابراین برای بارهای کاری متناوب یا غیرقابل پیش بینی مناسب تر هستند.

برای کمک به تعیین اینکه آیا نقطه پایانی بدون سرور از منظر هزینه و عملکرد گزینه مناسبی برای استقرار است یا خیر، ما آن را توسعه داده‌ایم SageMaker Serverless Inference Benchmarking Toolkit، که پیکربندی‌های نقطه پایانی مختلف را آزمایش می‌کند و بهینه‌ترین آنها را با یک نمونه میزبانی بلادرنگ مقایسه می‌کند.

در این پست به معرفی جعبه ابزار و مروری بر پیکربندی و خروجی های آن می پردازیم.

بررسی اجمالی راه حل

شما می توانید جعبه ابزار را دانلود کرده و آن را نصب کنید GitHub repo. شروع کار آسان است: به سادگی کتابخانه را نصب کنید، a ایجاد کنید مدل SageMakerو نام مدل خود را به همراه یک فایل قالب‌بندی شده با خطوط JSON حاوی مجموعه نمونه‌ای از پارامترهای فراخوانی، از جمله بدنه بار و نوع محتوا، ارائه دهید. یک تابع راحت برای تبدیل لیستی از آرگومان های فراخوانی نمونه به یک فایل خطوط JSON یا یک فایل pickle برای بارهای باینری مانند تصاویر، ویدئو یا صدا ارائه شده است.

جعبه ابزار را نصب کنید

ابتدا کتابخانه بنچمارک را با استفاده از pip در محیط پایتون خود نصب کنید:

pip install sm-serverless-benchmarking

می توانید کد زیر را از an اجرا کنید Amazon SageMaker Studio نمونه، مثال، نمونه نوت بوک SageMaker، یا هر نمونه ای با دسترسی برنامه ای به AWS و مناسب هویت AWS و مدیریت دسترسی مجوزهای (IAM). مجوزهای IAM مورد نیاز در مستند شده است GitHub repo. برای راهنمایی بیشتر و سیاست‌های مثال برای IAM، مراجعه کنید چگونه Amazon SageMaker با IAM کار می کند. این کد یک معیار را با مجموعه ای از پارامترهای پیش فرض روی مدلی اجرا می کند که انتظار ورودی CSV با دو رکورد مثال را دارد. ارائه یک مجموعه نمونه از نمونه ها برای تجزیه و تحلیل نحوه عملکرد نقطه پایانی با بارهای ورودی مختلف، تمرین خوبی است.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

علاوه بر این، می‌توانید معیار را به‌عنوان یک کار پردازش SageMaker اجرا کنید، که ممکن است گزینه مطمئن‌تری برای بنچمارک‌های طولانی‌تر با تعداد زیادی فراخوان باشد. کد زیر را ببینید:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

توجه داشته باشید که این کار هزینه بیشتری برای اجرای یک نمونه ml.m5.large SageMaker Processing در طول مدت معیار متحمل خواهد شد.

هر دو روش تعدادی پارامتر را برای پیکربندی می‌پذیرند، مانند فهرستی از پیکربندی‌های حافظه برای معیار و تعداد دفعاتی که هر پیکربندی فراخوانی می‌شود. در بیشتر موارد، گزینه های پیش فرض باید به عنوان نقطه شروع کافی باشد، اما به آن مراجعه کنید GitHub repo برای لیست کامل و توضیحات هر پارامتر.

پیکربندی معیار

قبل از اینکه بنچمارک چه کاری انجام می‌دهد و چه خروجی‌هایی تولید می‌کند، مهم است که در مورد پیکربندی نقاط پایانی بدون سرور، چند مفهوم کلیدی را درک کنید.

وجود دارد دو گزینه پیکربندی کلیدی: MemorySizeInMB و MaxConcurrency. MemorySizeInMB مقدار حافظه اختصاص داده شده به نمونه را پیکربندی می کند و می تواند 1024 مگابایت، 2048 مگابایت، 3072 مگابایت، 4096 مگابایت، 5120 مگابایت، یا 6144 مگابایت باشد. تعداد vCPU ها نیز متناسب با مقدار حافظه اختصاص داده شده مقیاس می شود. این MaxConcurrency پارامتر تعداد درخواست‌های همزمان را که یک نقطه پایانی می‌تواند سرویس دهد را تنظیم می‌کند. با یک MaxConcurrency از 1، یک نقطه پایانی بدون سرور تنها می تواند یک درخواست را در یک زمان پردازش کند.

به طور خلاصه، MemorySizeInMB پارامتر مکانیزمی برای مقیاس پذیری عمودی فراهم می کند و به شما امکان می دهد حافظه و منابع را برای ارائه مدل های بزرگتر تنظیم کنید، در حالی که MaxConcurrency مکانیزمی برای مقیاس پذیری افقی فراهم می کند که به نقطه پایانی شما اجازه می دهد تا درخواست های همزمان بیشتری را پردازش کند.

هزینه عملیات نقطه پایانی تا حد زیادی توسط اندازه حافظه تعیین می شود و هیچ هزینه ای با افزایش حداکثر همزمانی وجود ندارد. با این حال، یک محدودیت حساب در هر منطقه برای حداکثر همزمانی در تمام نقاط پایانی وجود دارد. رجوع شود به نقاط پایانی و سهمیه SageMaker برای آخرین محدودیت ها

محک زدن خروجی ها

با توجه به این موضوع، هدف از محک زدن نقطه پایانی بدون سرور، تعیین مقرون‌به‌صرفه‌ترین و مطمئن‌ترین تنظیم اندازه حافظه و حداقل حداکثر همزمانی است که می‌تواند الگوهای ترافیک مورد انتظار شما را مدیریت کند.

به طور پیش فرض، این ابزار دو معیار را اجرا می کند. اولین معیار یک معیار پایداری است که یک نقطه پایانی را برای هر یک از پیکربندی های حافظه مشخص شده مستقر می کند و هر نقطه پایانی را با بارهای نمونه ارائه شده فراخوانی می کند. هدف این معیار تعیین موثرترین و پایدارترین تنظیمات MemorySizeInMB است. معیار تأخیرهای فراخوانی را ثبت می کند و هزینه مورد انتظار هر فراخوان را برای هر نقطه پایانی محاسبه می کند. سپس هزینه را با یک نمونه میزبانی بلادرنگ مشابه مقایسه می کند.

هنگامی که محک گذاری کامل شد، ابزار چندین خروجی در مشخص شده تولید می کند result_save_path دایرکتوری با ساختار دایرکتوری زیر:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

La benchmarking_report دایرکتوری حاوی یک گزارش تلفیقی با تمام خروجی های خلاصه است که در این پست به آنها اشاره می کنیم. دایرکتوری های اضافی حاوی خروجی های خام و میانی هستند که می توانید از آنها برای تجزیه و تحلیل های اضافی استفاده کنید. رجوع به GitHub repo برای توضیح دقیق تر هر مصنوع خروجی.

بیایید چند خروجی محک زدن واقعی را برای یک نقطه پایانی که مدل TensorFlow بینایی کامپیوتر MobileNetV2 را ارائه می‌کند، بررسی کنیم. اگر می خواهید این مثال را تکرار کنید، به ادامه مطلب مراجعه کنید نمونه نوت بوک دایرکتوری در مخزن GitHub.

اولین خروجی در گزارش تلفیقی یک جدول خلاصه است که معیارهای حداقل، میانگین، متوسط و حداکثر تاخیر را برای هر یک ارائه می‌کند. MemorySizeInMB پیکربندی موفقیت آمیز اندازه حافظه همانطور که در جدول زیر نشان داده شده است، متوسط تأخیر فراخوانی (invocation_latency_mean) با افزایش پیکربندی حافظه به 3072 مگابایت به بهبود ادامه داد، اما پس از آن دیگر بهبود یافت.