تقديم مجموعة أدوات قياس الاستدلال المعياري للاستدلال بدون خادم من Amazon SageMaker

أعاد نشره أفلاطون

المتابعون: 0

استدلال Amazon SageMaker Serverless هو خيار استدلال مبني لغرض معين يجعل من السهل عليك نشر نماذج التعلم الآلي (ML) وتوسيع نطاقها. يوفر نموذج الدفع لكل استخدام ، وهو مثالي للخدمات حيث تكون استدعاءات نقطة النهاية غير متكررة ولا يمكن التنبؤ بها. على عكس نقطة نهاية الاستضافة في الوقت الفعلي ، والمدعومة بمثيل طويل التشغيل ، يتم توفير موارد الحوسبة لنقاط النهاية التي لا تحتوي على خادم عند الطلب ، مما يلغي الحاجة إلى اختيار أنواع المثيلات أو إدارة سياسات التوسع.

توضح البنية عالية المستوى التالية كيفية عمل نقطة نهاية بدون خادم. يستدعي العميل نقطة نهاية ، مدعومة ببنية تحتية مُدارة من AWS.

ومع ذلك ، فإن نقاط النهاية التي لا تحتوي على خادم تكون عرضة للبدايات الباردة في حدود الثواني ، وبالتالي فهي أكثر ملاءمة لأحمال العمل المتقطعة أو غير المتوقعة.

للمساعدة في تحديد ما إذا كانت نقطة نهاية بدون خادم هي خيار النشر الصحيح من منظور التكلفة والأداء ، قمنا بتطوير SageMaker مجموعة أدوات قياس الاستدلال بدون خادم، الذي يختبر تكوينات مختلفة لنقاط النهاية ويقارن أفضلها مقابل مثيل استضافة في الوقت الفعلي.

في هذا المنشور ، نقدم مجموعة الأدوات ونقدم نظرة عامة على تكوينها ومخرجاتها.

حل نظرة عامة

يمكنك تنزيل مجموعة الأدوات وتثبيتها من ملف جيثب ريبو. الشروع في العمل سهل: ما عليك سوى تثبيت المكتبة وإنشاء ملف نموذج SageMaker، وقم بتوفير اسم النموذج الخاص بك مع ملف بتنسيق خطوط JSON يحتوي على عينة مجموعة من معلمات الاستدعاء ، بما في ذلك نص الحمولة ونوع المحتوى. يتم توفير وظيفة ملائمة لتحويل قائمة من نماذج وسيطات الاستدعاء إلى ملف خطوط JSON أو ملف مخلل للحمولات الثنائية مثل الصور أو الفيديو أو الصوت.

قم بتثبيت مجموعة الأدوات

قم أولاً بتثبيت مكتبة قياس الأداء في بيئة Python الخاصة بك باستخدام النقطة:

pip install sm-serverless-benchmarking

يمكنك تشغيل الكود التالي من ملف أمازون ساجميكر ستوديو نموذج، مثيل دفتر SageMaker، أو أي مثيل به الوصول الآلي إلى AWS والمناسب إدارة الهوية والوصول AWS (IAM) أذونات. تم توثيق أذونات IAM المطلوبة في ملف جيثب ريبو. للحصول على إرشادات إضافية وأمثلة لسياسات IAM ، يرجى الرجوع إلى كيف يعمل Amazon SageMaker مع IAM. يقوم هذا الرمز بتشغيل معيار مع مجموعة افتراضية من المعلمات على نموذج يتوقع إدخال CSV مع مثالين للسجلات. من الممارسات الجيدة تقديم مجموعة تمثيلية من الأمثلة لتحليل كيفية أداء نقطة النهاية مع أحمال الإدخال المختلفة.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

بالإضافة إلى ذلك ، يمكنك تشغيل المعيار كمهمة معالجة SageMaker ، والتي قد تكون خيارًا أكثر موثوقية لمعايير التشغيل الأطول مع عدد كبير من الدعوات. انظر الكود التالي:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

لاحظ أن هذا سيتكبد تكلفة إضافية لتشغيل مثيل معالجة SageMaker من ml.m5.large طوال مدة المعيار.

تقبل كلتا الطريقتين عددًا من المعلمات لتكوينها ، مثل قائمة تكوينات الذاكرة لقياس الأداء وعدد المرات التي سيتم فيها استدعاء كل تكوين. في معظم الحالات ، يجب أن تكون الخيارات الافتراضية كافية كنقطة بداية ، ولكن قم بالرجوع إلى ملف جيثب ريبو للحصول على قائمة وأوصاف كاملة لكل معلمة.

تكوين قياس الأداء

قبل الخوض في ما يفعله المعيار والمخرجات التي ينتجها ، من المهم فهم بعض المفاهيم الأساسية عندما يتعلق الأمر بتكوين نقاط نهاية بدون خادم.

هناك اثنين من خيارات التكوين الرئيسية: MemorySizeInMB و MaxConcurrency. MemorySizeInMB يكوّن حجم الذاكرة المخصص للمثيل ، ويمكن أن يكون 1024 ميجابايت أو 2048 ميجابايت أو 3072 ميجابايت أو 4096 ميجابايت أو 5120 ميجابايت أو 6144 ميجابايت. يتناسب عدد وحدات المعالجة المركزية الافتراضية أيضًا مع مقدار الذاكرة المخصصة. ال MaxConcurrency تقوم المعلمة بضبط عدد الطلبات المتزامنة التي تستطيع نقطة النهاية خدمتها. مع MaxConcurrency من 1 ، يمكن لنقطة نهاية بدون خادم معالجة طلب واحد فقط في كل مرة.

لتلخيص ، و MemorySizeInMB توفر المعلمة آلية للتوسع الرأسي ، مما يسمح لك بضبط الذاكرة وحساب الموارد لخدمة نماذج أكبر ، بينما MaxConcurrency يوفر آلية لقابلية التوسع الأفقي ، مما يسمح لنقطة النهاية الخاصة بك بمعالجة المزيد من الطلبات المتزامنة.

يتم تحديد تكلفة تشغيل نقطة النهاية إلى حد كبير من خلال حجم الذاكرة ، ولا توجد تكلفة مرتبطة بزيادة الحد الأقصى للتزامن. ومع ذلك ، هناك حد حساب لكل منطقة لأقصى قدر من التزامن عبر جميع نقاط النهاية. تشير إلى نقاط نهاية SageMaker والحصص لأحدث الحدود.

نواتج المقارنة المعيارية

بالنظر إلى هذا ، فإن الهدف من قياس نقطة نهاية بدون خادم هو تحديد إعداد حجم الذاكرة الأكثر فعالية من حيث التكلفة والموثوقية ، والحد الأدنى من التزامن الذي يمكنه التعامل مع أنماط حركة المرور المتوقعة.

بشكل افتراضي ، تقوم الأداة بتشغيل مقياسين. الأول هو معيار قياس الاستقرار ، والذي ينشر نقطة نهاية لكل من تكوينات الذاكرة المحددة ويستدعي كل نقطة نهاية مع حمولات العينة المتوفرة. الهدف من هذا المعيار هو تحديد إعداد MemorySizeInMB الأكثر فاعلية واستقرارًا. يسجل المعيار فترات انتقال الاستدعاء ويحسب التكلفة المتوقعة لكل استدعاء لكل نقطة نهاية. ثم يقارن التكلفة مقابل مثيل استضافة مماثل في الوقت الفعلي.

عند اكتمال القياس ، تولد الأداة عدة مخرجات في المحدد result_save_path الدليل بهيكل الدليل التالي:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

• benchmarking_report يحتوي الدليل على تقرير موحد مع جميع النواتج الموجزة التي حددناها في هذا المنشور. تحتوي الدلائل الإضافية على مخرجات أولية وسيطة يمكنك استخدامها لتحليلات إضافية. الرجوع إلى جيثب ريبو للحصول على وصف أكثر تفصيلاً لكل عنصر ناتج.

دعونا نفحص بعض نواتج قياس الأداء الفعلية لنقطة نهاية تخدم نموذج MobileNetV2 TensorFlow لرؤية الكمبيوتر. إذا كنت ترغب في إعادة إنتاج هذا المثال ، فراجع ملف مثال دفاتر الملاحظات الدليل في مستودع جيثب.

الناتج الأول في التقرير الموحد هو جدول ملخص يوفر الحد الأدنى والمتوسط والمتوسط والحد الأقصى من وقت الاستجابة لكل MemorySizeInMB تكوين حجم الذاكرة بنجاح. كما هو مبين في الجدول التالي ، متوسط زمن انتقال الاحتجاج (invocation_latency_mean) في التحسن مع زيادة تكوين الذاكرة إلى 3072 ميجابايت ، لكنها توقفت عن التحسن بعد ذلك.