أنماط الاستضافة النموذجية في Amazon SageMaker، الجزء الأول: أنماط التصميم الشائعة لبناء تطبيقات تعلم الآلة على Amazon SageMaker

أعاد نشره أفلاطون

المتابعون: 0

تعد تطبيقات التعلم الآلي (ML) معقدة لنشرها وغالبًا ما تتطلب القدرة على التوسع الكبير ، ولها متطلبات زمن انتقال منخفضة للغاية وميزانيات تكلفة صارمة. حالات الاستخدام ، مثل اكتشاف الاحتيال ، وتوصيات المنتج ، والتنبؤ بحركة المرور هي أمثلة حيث تكون أجزاء من الألف من الثانية ذات أهمية وحاسمة لنجاح الأعمال. يجب تلبية اتفاقيات مستوى الخدمة الصارمة (SLAs) ، وقد يتطلب الطلب النموذجي خطوات متعددة مثل المعالجة المسبقة ، وتحويل البيانات ، وهندسة الميزات ، ومنطق اختيار النموذج ، وتجميع النموذج ، والمعالجة اللاحقة.

قد يكون نشر نماذج تعلم الآلة على نطاق واسع بتكلفة محسّنة وكفاءات حسابية مهمة شاقة ومرهقة. لكل نموذج مزاياه وتبعياته الخاصة بناءً على مصادر البيانات الخارجية بالإضافة إلى بيئة وقت التشغيل مثل طاقة وحدة المعالجة المركزية / وحدة معالجة الرسومات لموارد الحوسبة الأساسية. قد يتطلب التطبيق نماذج ML متعددة لخدمة طلب استنتاج واحد. في سيناريوهات معينة ، قد يتدفق الطلب عبر نماذج متعددة. لا يوجد نهج واحد يناسب الجميع ، ومن المهم لممارسي ML البحث عن طرق مجربة ومثبتة لمعالجة تحديات استضافة ML المتكررة. وقد أدى ذلك إلى تطور أنماط التصميم لاستضافة نموذج ML.

في هذا المنشور ، نستكشف أنماط التصميم الشائعة لبناء تطبيقات ML الأمازون SageMaker.

أنماط التصميم لبناء تطبيقات ML

دعونا نلقي نظرة على أنماط التصميم التالية لاستخدامها في استضافة تطبيقات ML.

تطبيقات ML على أساس نموذج واحد

يعد هذا خيارًا رائعًا عندما تتطلب حالة استخدام ML نموذجًا واحدًا لخدمة الطلب. يتم نشر النموذج على بنية أساسية مخصصة للحوسبة مع القدرة على القياس بناءً على حركة مرور الإدخال. يعد هذا الخيار مثاليًا أيضًا عندما يكون لدى تطبيق العميل متطلبات استنتاج ذات زمن انتقال منخفض (بترتيب ملي ثانية أو ثانية).

تطبيقات ML متعددة النماذج

لجعل الاستضافة أكثر فعالية من حيث التكلفة ، يتيح لك نمط التصميم هذا استضافة نماذج متعددة على نفس البنية التحتية للمستأجر. يمكن لنماذج ML المتعددة مشاركة موارد المضيف أو الحاوية ، بما في ذلك التخزين المؤقت لنماذج ML الأكثر استخدامًا في الذاكرة ، مما يؤدي إلى استخدام أفضل للذاكرة وموارد الحساب. اعتمادًا على أنواع النماذج التي اخترت نشرها ، قد تستخدم الاستضافة المشتركة للنموذج الطرق التالية:

استضافة متعددة النماذج - يتيح لك هذا الخيار استضافة نماذج متعددة باستخدام حاوية خدمة مشتركة على نقطة نهاية واحدة. هذه الميزة مثالية عندما يكون لديك عدد كبير من الطرز المتشابهة التي يمكنك تقديمها من خلال حاوية خدمة مشتركة ولا تحتاج إلى الوصول إلى جميع الطرز في نفس الوقت.
استضافة متعددة الحاويات - يعد هذا الخيار مثاليًا عندما يكون لديك نماذج متعددة تعمل على مجموعات خدمة مختلفة مع احتياجات موارد مماثلة ، وعندما لا يكون لدى النماذج الفردية حركة مرور كافية للاستفادة من السعة الكاملة لمثيلات نقطة النهاية. تسمح لك الاستضافة متعددة الحاويات بنشر حاويات متعددة تستخدم نماذج أو أطر عمل مختلفة على نقطة نهاية واحدة. يمكن أن تكون النماذج غير متجانسة تمامًا ، مع مكدس تقديم مستقل خاص بها.
فرق النموذج - في كثير من حالات استخدام الإنتاج ، يمكن أن يكون هناك غالبًا العديد من النماذج الأولية التي تغذي المدخلات إلى نموذج معين في المراحل النهائية. هذا هو المكان الذي تكون فيه الفرق مفيدة. تتضمن أنماط المجموعات خلط الإخراج من نموذج أساسي واحد أو أكثر من أجل تقليل خطأ التعميم من التنبؤ. يمكن أن تكون النماذج الأساسية متنوعة ويتم تدريبها بواسطة خوارزميات مختلفة. يمكن لمجموعات النماذج أن تتفوق على النماذج الفردية لأن خطأ التنبؤ بالنموذج يتناقص عند استخدام نهج المجموعة.

فيما يلي حالات الاستخدام الشائعة لأنماط المجموعات ومخططات أنماط التصميم المقابلة لها:

جمع مبعثر - في نمط الانتثار والتجمع ، يتم توجيه طلب للاستدلال إلى عدد من النماذج. ثم يتم استخدام مُجمِّع لتجميع الردود وتقطيرها في استجابة استنتاج واحدة. على سبيل المثال ، قد تستخدم حالة استخدام تصنيف الصورة ثلاثة نماذج مختلفة لأداء المهمة. يتيح لك نمط التجميع المبعثر دمج النتائج من الاستدلالات التي تعمل على ثلاثة نماذج مختلفة واختيار نموذج التصنيف الأكثر احتمالية.

نماذج استضافة الأنماط في Amazon SageMaker، الجزء 1: أنماط التصميم الشائعة لبناء تطبيقات تعلم الآلة على Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

تجميع النموذج - في نمط التجميع ، يتم حساب متوسط النواتج من نماذج متعددة. بالنسبة لنماذج التصنيف ، يتم تقييم تنبؤات النماذج المتعددة لتحديد الفئة التي حصلت على أكبر عدد من الأصوات ويتم التعامل معها على أنها الناتج النهائي للمجموعة. على سبيل المثال ، في مشكلة تصنيف من فئتين لتصنيف مجموعة من الفاكهة على أنها برتقالة أو تفاح ، إذا صوت نموذجان لبرتقالة وصوت نموذج واحد لتفاحة ، فسيكون الناتج الإجمالي برتقاليًا. يساعد التجميع في مكافحة عدم الدقة في النماذج الفردية ويجعل الإخراج أكثر دقة.

اختيار ديناميكي - هناك نمط آخر لنماذج المجموعات وهو إجراء اختيار النموذج ديناميكيًا لسمات الإدخال المحددة. على سبيل المثال ، في إدخال معين لصور الفاكهة ، إذا كان الإدخال يحتوي على برتقالة ، فسيتم استخدام النموذج A لأنه مخصص للبرتقال. إذا كان الإدخال يحتوي على تفاحة ، فسيتم استخدام النموذج ب لأنه مخصص للتفاح.

تطبيقات ML للاستدلال التسلسلي - مع نمط الاستدلال التسلسلي ، المعروف أيضًا باسم خط أنابيب الاستدلال ، فإن حالات الاستخدام لها متطلبات المعالجة المسبقة للبيانات الواردة قبل استدعاء نموذج ML مدرب مسبقًا لتوليد الاستدلالات. بالإضافة إلى ذلك ، في بعض الحالات ، قد تحتاج الاستنتاجات التي تم إنشاؤها إلى مزيد من المعالجة ، بحيث يمكن استهلاكها بسهولة بواسطة التطبيقات النهائية. يسمح لك خط أنابيب الاستدلال بإعادة استخدام نفس رمز المعالجة المسبقة المستخدم أثناء تدريب النموذج لمعالجة بيانات طلب الاستدلال المستخدمة للتنبؤات.

منطق الأعمال - ينطوي إنتاج ML دائمًا على منطق الأعمال. تتضمن أنماط منطق العمل كل ما هو مطلوب لأداء مهمة ML التي ليست استدلال نموذج ML. يتضمن هذا تحميل النموذج من خدمة تخزين أمازون البسيطة (Amazon S3) ، على سبيل المثال ، عمليات البحث في قاعدة البيانات للتحقق من صحة الإدخال ، والحصول على ميزات محسوبة مسبقًا من متجر الميزات ، وما إلى ذلك. بعد اكتمال خطوات منطق الأعمال هذه ، يتم تمرير المدخلات إلى نماذج ML.

خيارات الاستدلال ML

لنشر النموذج ، من المهم العمل بشكل عكسي من حالة الاستخدام الخاصة بك. ما هو تكرار التنبؤ؟ هل تتوقع حركة مرور مباشرة لتطبيقك واستجابة في الوقت الفعلي لعملائك؟ هل لديك العديد من النماذج المدربة على مجموعات فرعية مختلفة من البيانات لنفس حالة الاستخدام؟ هل حركة التنبؤ تتقلب؟ هل الكمون من الاستدلال مصدر قلق؟ بناءً على هذه التفاصيل ، يمكن تنفيذ جميع أنماط التصميم السابقة باستخدام خيارات النشر التالية:

الاستدلال في الوقت الحقيقي - يعد الاستدلال في الوقت الفعلي مثاليًا لاستدلال أحمال العمل حيث يكون لديك متطلبات في الوقت الفعلي وتفاعلية وزمن انتقال منخفض. قد تتضمن أعباء عمل استدلال ML في الوقت الحقيقي تطبيق ML المستند إلى نموذج واحد ، حيث يتطلب التطبيق نموذج ML واحدًا فقط لخدمة طلب واحد ، أو تطبيق ML متعدد النماذج ، حيث يتطلب التطبيق نماذج ML متعددة لخدمة طلب واحد. طلب.
الاستدلال شبه الحقيقي (غير المتزامن) - مع الاستدلال شبه الحقيقي ، يمكنك وضع الطلبات الواردة في قائمة الانتظار. يمكن استخدام هذا لتشغيل الاستدلال على المدخلات التي تبلغ مئات الميغابايت. يعمل في الوقت الفعلي تقريبًا ويسمح للمستخدمين باستخدام الإدخال للاستدلال وقراءة الإخراج من نقطة النهاية من حاوية S3. يمكن أن يكون مفيدًا بشكل خاص في حالات البرمجة اللغوية العصبية ورؤية الكمبيوتر ، حيث توجد حمولات كبيرة تتطلب أوقاتًا أطول للمعالجة المسبقة.
الاستدلال الدفعي - يمكن استخدام الاستدلال الدفعي لتشغيل الاستدلال في وضع عدم الاتصال على مجموعة بيانات كبيرة. نظرًا لأنه يعمل دون اتصال بالإنترنت ، لا يوفر الاستدلال الدفعي أدنى زمن انتقال. هنا ، تتم معالجة طلب الاستدلال إما بمشغل مجدول أو قائم على الحدث لوظيفة الاستدلال الدفعي.
الاستدلال بلا خادم - يعتبر الاستدلال بدون خادم مثاليًا لأحمال العمل التي لها فترات خمول بين طفرات حركة المرور ويمكن أن تتسامح مع بضع ثوانٍ إضافية من زمن الوصول (البداية الباردة) للاستدعاء الأول بعد فترة الخمول. على سبيل المثال ، خدمة chatbot أو تطبيق لمعالجة النماذج أو تحليل البيانات من المستندات. في هذه الحالة ، قد ترغب في خيار الاستدلال عبر الإنترنت الذي يمكنه توفير سعة الحوسبة وتوسيع نطاقها تلقائيًا بناءً على حجم طلبات الاستدلال. وأثناء وقت الخمول ، يجب أن يكون قادرًا على إيقاف تشغيل سعة الحوسبة تمامًا حتى لا يتم شحنك. يزيل الاستدلال بدون خادم العبء الثقيل غير المتمايز لاختيار وإدارة الخوادم عن طريق التشغيل التلقائي لموارد الحوسبة وتوسيع نطاقها اعتمادًا على حركة المرور.

استخدم وظائف اللياقة لتحديد خيار استدلال ML الصحيح

يعد اتخاذ قرار بشأن خيار الاستضافة الصحيح أمرًا مهمًا لأنه يؤثر على المستخدمين النهائيين الذين تعرضهم تطبيقاتك. لهذا الغرض ، نحن نستعير مفهوم وظائف اللياقة البدنية، التي صاغها نيل فورد وزملاؤه من شركة ThoughtWorks لدى AWS Partner في عملهم بناء البنى التطورية. توفر وظائف اللياقة البدنية تقييمًا توجيهيًا لخيارات الاستضافة المختلفة بناءً على أهداف العميل. تساعدك وظائف اللياقة البدنية في الحصول على البيانات اللازمة للسماح بالتطور المخطط له للهندسة المعمارية الخاصة بك. يضعون قيمًا قابلة للقياس لتقييم مدى اقتراب الحل الخاص بك من تحقيق أهدافك المحددة. يمكن ويجب تكييف وظائف اللياقة البدنية مع تطور البنية لتوجيه عملية التغيير المطلوبة. يوفر هذا للمهندسين المعماريين أداة لتوجيه فرقهم مع الحفاظ على استقلالية الفريق.

هناك خمس وظائف رئيسية للياقة البدنية يهتم بها العملاء عندما يتعلق الأمر باختيار خيار استدلال ML الصحيح لاستضافة نماذج وتطبيقات ML الخاصة بهم.

وظيفة اللياقة البدنية	الوصف
التكلفة	يعد نشر نموذج ML وتطبيق ML على إطار عمل قابل للتطوير والحفاظ عليه عملية تجارية مهمة ، وقد تختلف التكاليف بشكل كبير اعتمادًا على الخيارات التي يتم إجراؤها حول البنية التحتية لاستضافة النموذج ، وخيار الاستضافة ، وأطر ML ، وخصائص نموذج ML ، والتحسينات ، وسياسة التوسع ، و اكثر. يجب أن تستخدم أحمال العمل البنية التحتية للأجهزة على النحو الأمثل لضمان بقاء التكلفة قيد الفحص. تشير وظيفة اللياقة البدنية هذه تحديدًا إلى تكلفة البنية التحتية ، والتي تعد جزءًا من التكلفة الإجمالية الإجمالية للملكية (TCO). تكاليف البنية التحتية هي التكاليف المجمعة للتخزين والشبكة والحساب. من المهم أيضًا فهم المكونات الأخرى للتكلفة الإجمالية للملكية ، بما في ذلك تكاليف التشغيل وتكاليف الأمان والامتثال. التكاليف التشغيلية هي التكاليف المجمعة لتشغيل ومراقبة وصيانة البنية التحتية لغسيل الأموال. يتم احتساب التكاليف التشغيلية على أنها عدد المهندسين المطلوبين بناءً على كل سيناريو والراتب السنوي للمهندسين ، مجمعة خلال فترة محددة. العملاء الذين يستخدمون حلول ML ذاتية الإدارة على الأمازون الحوسبة المرنة السحابية (Amazon EC2) ، خدمة الأمازون المرنة للحاويات (أمازون ECS) و خدمة أمازون مطاطا Kubernetes (Amazon EKS) بحاجة إلى بناء أدوات تشغيلية بأنفسهم. يتحمل العملاء الذين يستخدمون SageMaker تكلفة إجمالية أقل للملكية بشكل ملحوظ. SageMaker الاستدلال هو خدمة مُدارة بالكامل ويوفر إمكانات خارج الصندوق لنشر نماذج ML للاستدلال. لا تحتاج إلى توفير مثيلات أو مراقبة صحة المثيلات أو إدارة تحديثات الأمان أو التصحيحات أو إصدار مقاييس تشغيلية أو إنشاء مراقبة لأعباء عمل استدلال التعلم الآلي. لديها قدرات مضمنة لضمان التوافر والمرونة العالية. يدعم SageMaker الأمان من خلال التشفير من طرف إلى طرف في حالة السكون وفي أثناء النقل ، بما في ذلك تشفير وحدة تخزين الجذر و متجر أمازون مطاط بلوك حجم (Amazon EBS) ، سحابة أمازون الافتراضية الخاصة (Amazon VPC) دعم ، AWS الرابط الخاص، مفاتيح يديرها العميل ، إدارة الهوية والوصول AWS (IAM) التحكم في الوصول الدقيق ، أوس كلاود تريل عمليات التدقيق ، وتشفير الترميز الداخلي للتدريب ، والتحكم في الوصول المستند إلى العلامات ، وعزل الشبكة ، ووكيل التطبيق التفاعلي. يتم توفير كل ميزات الأمان هذه خارج الصندوق في SageMaker ، ويمكنها توفير عشرات الأعمال من أشهر التطوير من الجهد الهندسي على مدى 3 سنوات. SageMaker هي خدمة مؤهلة لقانون HIPAA ، وهي معتمدة بموجب PCI و SOC و GDPR و ISO. يدعم SageMaker أيضًا نقاط نهاية FIPS. لمزيد من المعلومات حول التكلفة الإجمالية للملكية ، يرجى الرجوع إلى التكلفة الإجمالية لملكية Amazon SageMaker.
استنتاج الكمون	تعد العديد من نماذج وتطبيقات ML حرجة في زمن الانتقال ، حيث يجب أن يكون زمن انتقال الاستدلال ضمن الحدود المحددة بواسطة هدف مستوى الخدمة. يعتمد زمن انتقال الاستدلال على العديد من العوامل ، بما في ذلك حجم النموذج ودرجة تعقيده ، والنظام الأساسي للأجهزة ، وبيئة البرامج ، وبنية الشبكة. على سبيل المثال ، يمكن أن تستغرق النماذج الأكبر والأكثر تعقيدًا وقتًا أطول لتشغيل الاستدلال.
الإنتاجية (المعاملات في الثانية)	بالنسبة لاستدلال النموذج ، يعد تحسين الإنتاجية أمرًا بالغ الأهمية لضبط الأداء وتحقيق الهدف التجاري لتطبيق ML. مع استمرارنا في التقدم بسرعة في جميع جوانب تعلم الآلة ، بما في ذلك التطبيقات منخفضة المستوى للعمليات الرياضية في تصميم الرقائق ، تلعب المكتبات الخاصة بالأجهزة دورًا أكبر في تحسين الأداء. تؤثر العوامل المختلفة مثل حجم الحمولة النافعة ، وقفزات الشبكة ، وطبيعة القفزات ، وميزات الرسم البياني للنموذج ، والمشغلين في النموذج ، ووحدة المعالجة المركزية ، ووحدة معالجة الرسومات ، وملف تعريف الذاكرة لمثيلات استضافة النموذج ، على إنتاجية نموذج ML.
تحجيم تعقيد التكوين	من الأهمية بمكان أن تعمل نماذج أو تطبيقات ML على إطار عمل قابل للتطوير يمكنه التعامل مع طلب حركة المرور المتغيرة. كما أنه يسمح بالاستفادة القصوى من موارد وحدة المعالجة المركزية ووحدة معالجة الرسومات ويمنع الإفراط في توفير موارد الحوسبة.
نمط حركة المرور المتوقع	يمكن أن تحتوي نماذج أو تطبيقات ML على أنماط حركة مرور مختلفة ، بدءًا من حركة المرور المباشرة المستمرة في الوقت الفعلي إلى فترات الذروة الدورية لآلاف الطلبات في الثانية ، ومن أنماط الطلبات غير المتكررة والتي لا يمكن التنبؤ بها إلى الطلبات المجمعة غير المتصلة بالإنترنت على مجموعات البيانات الأكبر. يوصى بالعمل للخلف من نمط حركة المرور المتوقع من أجل تحديد خيار الاستضافة المناسب لطراز ML الخاص بك.

نشر النماذج باستخدام SageMaker

SageMaker هي خدمة AWS مُدارة بالكامل توفر لكل مطور وعالم بيانات القدرة على إنشاء نماذج تعلم الآلة وتدريبها ونشرها بسرعة على نطاق واسع. باستخدام استدلال SageMaker ، يمكنك نشر نماذج ML على نقاط النهاية المستضافة والحصول على نتائج الاستدلال. يوفر SageMaker مجموعة واسعة من الأجهزة والميزات لتلبية متطلبات أعباء العمل الخاصة بك ، مما يسمح لك بتحديد أكثر من 70 نوع مثيل مع تسريع الأجهزة. يمكن لـ SageMaker أيضًا تقديم توصية بنوع مثيل الاستدلال باستخدام ميزة جديدة تسمى SageMaker Inference الموصى به ، في حال لم تكن متأكدًا من الأفضل بالنسبة لأعباء عملك.

يمكنك اختيار خيارات النشر لتلبية حالات الاستخدام الخاصة بك على أفضل وجه ، مثل الاستدلال في الوقت الفعلي ، ونقاط النهاية غير المتزامنة والدُفعية وحتى التي لا تحتوي على خادم. بالإضافة إلى ذلك ، يقدم SageMaker استراتيجيات نشر متنوعة مثل الكناري ، أزرق أخضر, ظل، واختبار A / B لنشر النموذج ، جنبًا إلى جنب مع النشر الفعال من حيث التكلفة مع نقاط النهاية متعددة النماذج والحاويات والقياس المرن. باستخدام استدلال SageMaker ، يمكنك عرض مقاييس الأداء لنقاط النهاية الخاصة بك في الأمازون CloudWatch, مقياس نقاط النهاية تلقائيًا بناءً على حركة المرور ، وتحديث النماذج الخاصة بك في الإنتاج دون فقدان أي توافر.

يقدم SageMaker أربعة خيارات لنشر النموذج الخاص بك حتى تتمكن من البدء في عمل تنبؤات:

الاستدلال في الوقت الحقيقي - هذا مناسب لأحمال العمل بمتطلبات زمن انتقال ميلي ثانية ، وأحجام حمولة تصل إلى 6 ميجا بايت ، وأوقات معالجة تصل إلى 60 ثانية.
تحويل دفعة - يعد هذا مثاليًا للتنبؤات غير المتصلة بالإنترنت على مجموعات كبيرة من البيانات المتوفرة مسبقًا.
الاستدلال غير المتزامن - تم تصميم هذا لأحمال العمل التي ليس لها متطلبات زمن انتقال ثانوي ، وأحجام حمولة تصل إلى 1 جيجابايت ، وأوقات معالجة تصل إلى 15 دقيقة.
الاستدلال بلا خادم - باستخدام الاستدلال بدون خادم ، يمكنك نشر نماذج تعلم الآلة بسرعة للاستدلال دون الحاجة إلى تكوين البنية الأساسية الأساسية أو إدارتها. بالإضافة إلى ذلك ، تدفع فقط مقابل سعة الحوسبة المستخدمة لمعالجة طلبات الاستدلال ، وهو أمر مثالي لأعباء العمل المتقطعة.

يمكن أن يساعدك الرسم التخطيطي التالي في فهم خيارات نشر نموذج استضافة SageMaker جنبًا إلى جنب مع تقييمات وظيفة اللياقة البدنية المرتبطة.

دعنا نستكشف كل خيار من خيارات النشر بمزيد من التفصيل.

الاستدلال في الوقت الفعلي في SageMaker

يوصى بالاستدلال في الوقت الفعلي من SageMaker إذا كان لديك حركة مرور مستدامة وتحتاج إلى زمن انتقال أقل ومتسق لطلباتك بأحجام حمولة تصل إلى 6 ميجابايت وأوقات معالجة تصل إلى 60 ثانية. تقوم بنشر النموذج الخاص بك في خدمات استضافة SageMaker والحصول على نقطة نهاية يمكن استخدامها للاستدلال. تتم إدارة نقاط النهاية هذه بشكل كامل وتدعم القياس التلقائي. يُعد الاستدلال في الوقت الفعلي شائعًا في حالات الاستخدام حيث تتوقع استجابة متزامنة بزمن انتقال منخفض مع أنماط حركة مرور يمكن التنبؤ بها ، مثل التوصيات المخصصة للمنتجات والخدمات أو حالات استخدام اكتشاف الاحتيال في المعاملات.

عادةً ما يرسل تطبيق العميل الطلبات إلى نقطة نهاية SageMaker HTTPS للحصول على استنتاجات من نموذج تم نشره. يمكنك نشر متغيرات متعددة للنموذج إلى نفس نقطة نهاية SageMaker HTTPS. هذا مفيد لاختبار تنوعات نموذج في الإنتاج. يسمح لك القياس التلقائي بضبط عدد المثيلات المتوفرة لنموذج بشكل ديناميكي استجابةً للتغيرات في عبء العمل لديك.

يوفر الجدول التالي إرشادات حول تقييم الاستدلال في الوقت الفعلي من SageMaker استنادًا إلى وظائف اللياقة البدنية.

وظيفة اللياقة البدنية	الوصف
التكلفة	تقدم نقاط النهاية في الوقت الفعلي استجابة متزامنة لطلبات الاستدلال. نظرًا لأن نقطة النهاية تعمل دائمًا ومتاحة لتقديم استجابة استدلال متزامنة في الوقت الفعلي ، فإنك تدفع مقابل استخدام المثيل. يمكن أن تزيد التكاليف بسرعة عند نشر نقاط نهاية متعددة ، خاصةً إذا كانت نقاط النهاية لا تستخدم المثيلات الأساسية بشكل كامل. يساعد اختيار المثيل المناسب للنموذج الخاص بك على ضمان حصولك على المثيل الأكثر أداءً بأقل تكلفة لنماذجك. يوصى باستخدام المقياس التلقائي لضبط السعة ديناميكيًا اعتمادًا على حركة المرور للحفاظ على أداء ثابت ويمكن التنبؤ به بأقل تكلفة ممكنة. يقوم SageMaker بتوسيع الوصول إلى عائلات مثيلات ML المستندة إلى Graviton2 و Graviton3. أوس جرافيتون تم تصميم المعالجات بشكل مخصص بواسطة Amazon Web Services باستخدام نوى Arm Neoverse 64 بت لتقديم أفضل أداء سعر لأحمال العمل السحابية التي تعمل على Amazon EC2. مع المثيلات المستندة إلى Graviton ، لديك المزيد من الخيارات لتحسين التكلفة والأداء عند نشر نماذج ML على SageMaker. يدعم SageMaker أيضًا ملفات حالات INF1، مما يوفر أداءً عاليًا وفعالية من حيث التكلفة لاستدلال ML. مع 1–16 شرائح AWS Inferentia لكل مثيل ، يمكن لمثيلات Inf1 التوسع في الأداء وتقديم ما يصل إلى ثلاثة أضعاف الإنتاجية وتكلفة أقل بنسبة تصل إلى 50٪ لكل استنتاج مقارنة بالمثيلات المستندة إلى AWS GPU. لاستخدام مثيلات Inf1 في SageMaker ، يمكنك تجميع نماذجك المدربة باستخدام أمازون سيجماكر نيو وحدد مثيلات Inf1 لنشر النموذج المترجم على SageMaker. يمكنك أيضًا استكشاف خطط التوفير لـ SageMaker للاستفادة من التوفير في التكاليف حتى 64٪ مقارنة بالسعر عند الطلب. عند إنشاء نقطة نهاية ، يقوم SageMaker بإرفاق وحدة تخزين EBS بكل مثيل حساب ML الذي يستضيف نقطة النهاية. يعتمد حجم وحدة التخزين على نوع المثيل. تتضمن التكلفة الإضافية لنقاط النهاية في الوقت الفعلي تكلفة سعة التخزين المتوفرة شهريًا بالجيجابايت ، بالإضافة إلى بيانات جيجابايت التي تتم معالجتها في وبيانات جيجابايت التي تتم معالجتها خارج مثيل نقطة النهاية.
استنتاج الكمون	يُعد الاستدلال في الوقت الفعلي مثاليًا عندما تحتاج إلى نقطة نهاية ثابتة بمتطلبات زمن انتقال ملي ثانية. يدعم أحجام حمولة تصل إلى 6 ميجا بايت ، وأوقات معالجة تصل إلى 60 ثانية.
الإنتاجية	تعتبر القيمة المثالية للإنتاجية الاستدلالية ذاتية لعوامل مثل النموذج وحجم إدخال النموذج وحجم الدُفعة ونوع مثيل نقطة النهاية. كأفضل ممارسة ، راجع مقاييس CloudWatch لطلبات الإدخال واستخدام الموارد ، وحدد نوع المثيل المناسب لتحقيق الإنتاجية المثلى. يمكن أن يكون تطبيق الأعمال محسنًا أو محسنًا لوقت الاستجابة. على سبيل المثال ، يمكن أن يساعد التجميع الديناميكي في زيادة إنتاجية التطبيقات الحساسة لزمن الانتقال باستخدام الاستدلال في الوقت الفعلي. ومع ذلك ، هناك حدود لحجم الدُفعة ، والتي بدونها يمكن أن يتأثر زمن انتقال الاستدلال. سينمو وقت استجابة الاستدلال كلما زادت حجم الدُفعة لتحسين الإنتاجية. لذلك ، يعد الاستدلال في الوقت الفعلي خيارًا مثاليًا للتطبيقات الحساسة لوقت الاستجابة. يوفر SageMaker خيارات للاستدلال غير المتزامن وتحويل الدُفعات ، والتي تم تحسينها لإعطاء إنتاجية أعلى مقارنة بالاستدلال في الوقت الفعلي إذا كانت تطبيقات الأعمال قادرة على تحمل زمن انتقال أعلى قليلاً.
تحجيم تعقيد التكوين	دعم نقاط نهاية الوقت الحقيقي من SageMaker التحجيم التلقائي خارج الصندوق. عندما يزداد عبء العمل ، يجلب القياس التلقائي المزيد من المثيلات عبر الإنترنت. عندما ينخفض عبء العمل ، يزيل القياس التلقائي الحالات غير الضرورية ، مما يساعدك على تقليل تكلفة الحوسبة. بدون التدرج التلقائي ، تحتاج إلى توفير ذروة حركة المرور أو عدم توفر نموذج المخاطرة. ما لم تكن حركة المرور إلى النموذج الخاص بك ثابتة على مدار اليوم ، ستكون هناك سعة زائدة غير مستخدمة. هذا يؤدي إلى انخفاض استخدام الموارد وإهدارها. باستخدام SageMaker ، يمكنك تكوين خيارات قياس مختلفة بناءً على نمط حركة المرور المتوقع. يعد التحجيم البسيط أو مقياس التتبع الهدف مثاليًا عندما تريد التوسع استنادًا إلى مقياس CloudWatch محدد. يمكنك القيام بذلك عن طريق اختيار مقياس معين وتعيين قيم الحد. المقاييس الموصى بها لهذا الخيار متوسطة `CPUUtilization` or `SageMakerVariantInvocationsPerInstance`. إذا كنت تحتاج إلى تكوين متقدم ، فيمكنك تعيين سياسة قياس خطوة لضبط عدد المثيلات ديناميكيًا للقياس بناءً على حجم اختراق الإنذار. يساعدك هذا في تكوين استجابة أكثر قوة عندما يصل الطلب إلى مستوى معين. يمكنك استخدام خيار تحجيم مجدول عندما تعلم أن الطلب يتبع جدولًا معينًا في اليوم أو الأسبوع أو الشهر أو السنة. يساعدك هذا في تحديد جدول لمرة واحدة أو جدول متكرر أو تعبيرات cron جنبًا إلى جنب مع أوقات البدء والانتهاء ، والتي تشكل حدود وقت بدء وتوقف إجراء القياس التلقائي. لمزيد من التفاصيل ، يرجى الرجوع إلى تكوين نقاط نهاية الاستدلال التلقائي في Amazon SageMaker و اختبار التحميل وتحسين نقطة نهاية Amazon SageMaker باستخدام القياس التلقائي.
نمط حركة المرور	يُعد الاستدلال في الوقت الفعلي مثاليًا لأعباء العمل بنمط حركة مرور مستمر أو منتظم.

الاستدلال غير المتزامن في SageMaker

الاستدلال غير المتزامن من SageMaker هو قدرة جديدة في SageMaker تضع الطلبات الواردة في قائمة الانتظار وتعالجها بشكل غير متزامن. يعد هذا الخيار مثاليًا للطلبات ذات الأحجام الكبيرة للحمولة الصافية (حتى 1 جيجابايت) ، وأوقات المعالجة الطويلة (حتى 15 دقيقة) ، ومتطلبات زمن الوصول شبه الحقيقي. تتضمن أمثلة أحمال العمل للاستدلال غير المتزامن شركات الرعاية الصحية التي تعالج صورًا طبية حيوية عالية الدقة أو مقاطع فيديو مثل مخططات صدى القلب لاكتشاف الحالات الشاذة. تتلقى هذه التطبيقات دفعات من حركة المرور الواردة في أوقات مختلفة من اليوم وتتطلب معالجة شبه فورية بتكلفة منخفضة. يمكن أن تتراوح أوقات المعالجة لهذه الطلبات بترتيب الدقائق ، مما يلغي الحاجة إلى تشغيل الاستدلال في الوقت الفعلي. بدلاً من ذلك ، يمكن معالجة حمولات الإدخال بشكل غير متزامن من متجر كائنات مثل Amazon S3 مع قائمة انتظار تلقائية وحد التزام محدد مسبقًا. عند المعالجة ، يضع SageMaker استجابة الاستنتاج في موقع Amazon S3 الذي تم إرجاعه مسبقًا. يمكنك اختياريًا اختيار تلقي إشعارات النجاح أو الخطأ عبر خدمة إعلام أمازون البسيطة (أمازون SNS).

يوفر الجدول التالي إرشادات حول تقييم الاستدلال غير المتزامن لـ SageMaker استنادًا إلى وظائف الملاءمة.

وظيفة اللياقة البدنية	الوصف
التكلفة	يعد الاستدلال غير المتزامن خيارًا رائعًا لأحمال العمل الحساسة من حيث التكلفة مع الحمولات الكبيرة وحركة المرور المتدفقة. يمكّنك الاستدلال غير المتزامن من توفير التكاليف عن طريق القياس التلقائي لعدد المثيلات إلى الصفر في حالة عدم وجود طلبات للمعالجة ، لذلك لا تدفع إلا عندما تقوم نقطة النهاية بمعالجة الطلبات. الطلبات التي يتم تلقيها في حالة عدم وجود أي مثيل يتم وضعها في قائمة الانتظار للمعالجة بعد زيادة مقياس نقطة النهاية.
استنتاج الكمون	يعتبر الاستدلال غير المتزامن مثاليًا لمتطلبات زمن الوصول شبه الحقيقي. يتم وضع الطلبات في قائمة انتظار ومعالجتها بمجرد توفر الحساب. ينتج عن هذا عادةً عشرات المللي ثانية في وقت الاستجابة.
الإنتاجية	يُعد الاستدلال غير المتزامن مثاليًا لحالات الاستخدام الحساسة غير المتعلقة بزمن الانتقال ، لأن التطبيقات لا تضطر إلى التنازل عن الإنتاجية. لا يتم إسقاط الطلبات أثناء ارتفاعات حركة المرور لأن نقطة نهاية الاستدلال غير المتزامن تصنف الطلبات بدلاً من إسقاطها.
تحجيم تعقيد التكوين	يدعم SageMaker ملفات التحجيم التلقائي لنقطة النهاية غير المتزامنة. على عكس نقاط النهاية المستضافة في الوقت الفعلي ، تدعم نقاط نهاية الاستدلال غير المتزامن تصغير الحالات إلى الصفر عن طريق تعيين الحد الأدنى للسعة على صفر. بالنسبة لنقاط النهاية غير المتزامنة ، يوصي SageMaker بشدة أن تقوم بإنشاء تكوين نهج لتحجيم تتبع الهدف لنموذج تم نشره (متغير). بالنسبة لحالات الاستخدام التي يمكن أن تتسامح مع عقوبة البداية الباردة لبضع دقائق ، يمكنك اختياريًا تقليص عدد مثيل نقطة النهاية إلى الصفر في حالة عدم وجود طلبات معلقة وتوسيع نطاقها عند وصول الطلبات الجديدة بحيث تدفع فقط مقابل المدة التي تعمل نقاط النهاية على معالجة الطلبات بنشاط.
نمط حركة المرور	تعمل نقاط النهاية غير المتزامنة على وضع الطلبات الواردة في قائمة انتظار ومعالجتها بشكل غير متزامن. إنها خيار جيد لأنماط حركة المرور المتقطعة أو النادرة.

الاستدلال الدفعي في SageMaker

يعتبر تحويل الدُفعات من SageMaker مثاليًا للتنبؤات دون اتصال بالإنترنت على مجموعات كبيرة من البيانات المتوفرة مسبقًا. ميزة التحويل الدفعي هي طريقة عالية الأداء وعالية الإنتاجية لتحويل البيانات وتوليد الاستدلالات. إنه مثالي للسيناريوهات التي تتعامل فيها مع مجموعات كبيرة من البيانات ، أو لا تحتاج إلى زمن انتقال ثانوي ، أو تحتاج إلى المعالجة المسبقة وتحويل بيانات التدريب. غالبًا ما يحتاج العملاء في مجالات معينة مثل الإعلان والتسويق أو الرعاية الصحية إلى إجراء تنبؤات غير متصلة بالإنترنت على مجموعات البيانات فائقة النطاق حيث غالبًا ما تكون الإنتاجية العالية هي الهدف من حالة الاستخدام ولا يمثل وقت الاستجابة مصدر قلق.

عندما تبدأ وظيفة تحويل الدُفعات ، يقوم SageMaker بتهيئة مثيلات الحساب وتوزيع حمل عمل الاستدلال بينها. يقوم بإصدار الموارد عند اكتمال الوظائف ، لذلك تدفع فقط مقابل ما تم استخدامه أثناء تشغيل وظيفتك. عند اكتمال المهمة ، يحفظ SageMaker نتائج التنبؤ في حاوية S3 التي تحددها. عادة ما تكون مهام الاستدلال الدفعي مرشحة جيدة للقياس الأفقي. يمكن لكل عامل داخل الكتلة أن يعمل على مجموعة فرعية مختلفة من البيانات دون الحاجة إلى تبادل المعلومات مع العمال الآخرين. تقدم AWS خيارات تخزين وحساب متعددة تتيح القياس الأفقي. تتضمن أمثلة أحمال العمل الخاصة بتحويل دفعة SageMaker التطبيقات غير المتصلة بالإنترنت مثل التطبيقات المصرفية للتنبؤ بضغوط العميل حيث يمكن جدولة مهمة غير متصلة بالإنترنت للتشغيل بشكل دوري.

يوفر الجدول التالي إرشادات حول تقييم تحويل دفعة SageMaker بناءً على وظائف الملاءمة.

وظيفة اللياقة البدنية	الوصف
التكلفة	يسمح لك تحويل الدُفعات من SageMaker بتشغيل تنبؤات على مجموعات بيانات دُفعات كبيرة أو صغيرة. يتم محاسبتك على نوع المثيل الذي تختاره ، بناءً على مدة الاستخدام. يدير SageMaker توفير الموارد في بداية الوظيفة ويطلقها عند اكتمال المهمة. لا توجد تكلفة معالجة بيانات إضافية.
استنتاج الكمون	يمكنك استخدام الاستدعاء المجدول أو المستند إلى الحدث. قد يختلف وقت الاستجابة اعتمادًا على حجم بيانات الاستدلال وتزامن الوظائف وتعقيد النموذج وقدرة مثيل الحوسبة.
الإنتاجية	يمكن تنفيذ مهام التحويل الدفعي على مجموعة من مجموعات البيانات ، من بيتابايت من البيانات إلى مجموعات البيانات الصغيرة جدًا. ليست هناك حاجة لتغيير حجم مجموعات البيانات الكبيرة إلى مجموعات صغيرة من البيانات. يمكنك تسريع مهام تحويل الدُفعات باستخدام القيم المثلى لمعلمات مثل MaxPayloadInMB, MaxConcurrentTransformsالطرق أو استراتيجية الدفعة. القيمة المثالية لـ `MaxConcurrentTransforms` يساوي عدد العاملين المحسوبين في وظيفة التحويل الدفعي. يمكن أن تؤدي المعالجة المجمعة إلى زيادة الإنتاجية وتحسين مواردك لأنها تساعد في إكمال عدد أكبر من الاستدلالات في فترة زمنية معينة على حساب زمن الانتقال. لتحسين نشر النموذج للحصول على إنتاجية أعلى ، فإن التوجيه العام هو زيادة حجم الدُفعة حتى ينخفض معدل النقل.
تحجيم تعقيد التكوين	يتم استخدام تحويل الدُفعات من SageMaker للاستدلال غير المتصل الذي لا يتأثر بزمن الانتقال.
نمط حركة المرور	للاستدلال دون اتصال بالإنترنت ، تتم جدولة وظيفة تحويل المجموعة أو بدئها باستخدام مشغل مستند إلى الحدث.

الاستدلال بدون خادم في SageMaker

يتيح لك SageMaker الاستدلال بدون خادم نشر نماذج ML للاستدلال دون الحاجة إلى تكوين البنية التحتية الأساسية أو إدارتها. استنادًا إلى حجم طلبات الاستدلال التي يتلقاها نموذجك ، يقوم SageMaker بالاستدلال بدون خادم تلقائيًا بتخصيص وقياس وإيقاف تشغيل سعة الحوسبة. ونتيجة لذلك ، فأنت تدفع فقط مقابل وقت الحساب لتشغيل كود الاستدلال ومقدار البيانات التي تمت معالجتها ، وليس لوقت الخمول. يمكنك استخدام خوارزميات SageMaker المضمنة وحاويات خدمة إطار عمل ML لنشر النموذج الخاص بك إلى نقطة نهاية للاستدلال بدون خادم أو اختيار إحضار الحاوية الخاصة بك. إذا أصبحت حركة المرور قابلة للتنبؤ بها ومستقرة ، يمكنك بسهولة التحديث من نقطة نهاية الاستدلال بدون خادم إلى نقطة نهاية في الوقت الفعلي من SageMaker دون الحاجة إلى إجراء تغييرات على صورة الحاوية الخاصة بك. باستخدام الاستدلال بدون خادم ، يمكنك أيضًا الاستفادة من ميزات SageMaker الأخرى ، بما في ذلك المقاييس المضمنة مثل عدد الاستدعاء والأخطاء ووقت الاستجابة ومقاييس المضيف والأخطاء في CloudWatch.

يوفر الجدول التالي إرشادات حول تقييم الاستدلال بدون خادم من SageMaker استنادًا إلى وظائف الملاءمة.

وظيفة اللياقة البدنية	الوصف
التكلفة	باستخدام نموذج الدفع عند التشغيل ، يعد الاستدلال بدون خادم خيارًا فعالاً من حيث التكلفة إذا كان لديك أنماط حركة مرور غير متكررة أو متقطعة. أنت تدفع فقط مقابل المدة التي تعالج فيها نقطة النهاية الطلب ، وبالتالي يمكنك توفير التكاليف إذا كان نمط حركة المرور متقطعًا.
استنتاج الكمون	توفر نقاط النهاية غير الخاضعة للخادم زمن انتقال منخفض للاستدلال (بترتيب من ميلي ثانية إلى ثوانٍ) ، مع القدرة على التحجيم الفوري من عشرات إلى آلاف الاستدلالات في غضون ثوانٍ بناءً على أنماط الاستخدام ، مما يجعلها مثالية لتطبيقات ML ذات حركة مرور متقطعة أو غير متوقعة. نظرًا لأن نقاط النهاية بدون خادم تقوم بحساب الموارد عند الطلب ، فقد تواجه نقطة النهاية بضع ثوانٍ إضافية من زمن الوصول (بداية باردة) لأول طلب بعد فترة الخمول. يعتمد وقت البدء البارد على حجم النموذج الخاص بك ، والوقت الذي يستغرقه تنزيل النموذج الخاص بك ، ووقت بدء تشغيل الحاوية الخاصة بك.
الإنتاجية	عند تكوين نقطة نهاية بدون خادم ، يمكنك تحديد حجم الذاكرة والحد الأقصى لعدد الاستدعاءات المتزامنة. يقوم SageMaker بالاستدلال بدون خادم تلقائيًا بتعيين موارد الحساب المتناسبة مع الذاكرة التي تحددها. إذا اخترت حجم ذاكرة أكبر ، فإن الحاوية الخاصة بك يمكنها الوصول إلى المزيد من وحدات المعالجة المركزية الافتراضية. كقاعدة عامة ، يجب أن يكون حجم الذاكرة على الأقل بحجم نموذجك. أحجام الذاكرة التي يمكنك اختيارها هي 1024 ميجابايت ، و 2048 ميجابايت ، و 3072 ميجابايت ، و 4096 ميجابايت ، و 5120 ميجابايت ، و 6144 ميجابايت. بغض النظر عن حجم الذاكرة الذي تختاره ، تتوفر في نقاط النهاية التي لا تحتوي على خادم 5 جيجابايت من مساحة التخزين المؤقتة على القرص.
تحجيم تعقيد التكوين	تقوم نقاط النهاية التي لا تحتوي على خادم تلقائيًا بتشغيل موارد الحوسبة وتوسيع نطاقها وفقًا لحركة المرور ، مما يلغي الحاجة إلى اختيار أنواع المثيلات أو إدارة سياسات التوسع. هذا يزيل العبء الثقيل غير المتمايز لاختيار وإدارة الخوادم.
نمط حركة المرور	يُعد الاستدلال بدون خادم مثاليًا لأحمال العمل ذات أنماط حركة المرور غير المتكررة أو المتقطعة.

نموذج استضافة أنماط التصميم في SageMaker

تستخدم نقاط نهاية استدلال SageMaker حاويات Docker لاستضافة نماذج ML. تسمح لك الحاويات بتجميع البرامج في وحدات قياسية تعمل باستمرار على أي نظام أساسي يدعم Docker. وهذا يضمن إمكانية النقل عبر الأنظمة الأساسية ، وعمليات نشر البنية التحتية غير القابلة للتغيير ، وإدارة التغيير الأسهل وتطبيقات CI / CD. يوفر SageMaker حاويات مُدارة مسبقًا لأطر عمل شائعة مثل Apache MXNet و TensorFlow و PyTorch و Sklearn و Hugging Face. للحصول على قائمة كاملة بصور حاوية SageMaker المتوفرة ، يرجى الرجوع إلى صور حاويات التعلم العميق المتاحة. في حالة عدم احتواء SageMaker على حاوية مدعومة ، يمكنك أيضًا إنشاء الحاوية الخاصة بك (BYOC) ودفع صورتك المخصصة ، وتثبيت التبعيات الضرورية لنموذجك.

لنشر نموذج على SageMaker ، تحتاج إلى حاوية (حاويات إطار عمل مُدارة من SageMaker أو BYOC) ومثيل حساب لاستضافة الحاوية. يدعم SageMaker العديد من الخيارات المتقدمة لأنماط تصميم استضافة نموذج ML المشترك حيث يمكن استضافة النماذج على حاوية واحدة أو استضافتها بشكل مشترك على حاوية مشتركة.

قد يستخدم تطبيق ML في الوقت الفعلي نموذجًا واحدًا أو نماذج متعددة لخدمة طلب تنبؤ واحد. يوضح الرسم البياني التالي سيناريوهات الاستدلال المختلفة لتطبيق ML.

دعنا نستكشف خيار استضافة SageMaker مناسبًا لكل سيناريوهات الاستدلال السابقة. يمكنك الرجوع إلى وظائف اللياقة لتقييم ما إذا كان هذا هو الخيار الصحيح لحالة الاستخدام المحددة.

استضافة تطبيق ML قائم على نموذج واحد

هناك العديد من الخيارات لاستضافة تطبيقات ML القائمة على نموذج واحد باستخدام خدمات استضافة SageMaker اعتمادًا على سيناريو النشر.

نقطة نهاية أحادية النموذج

تسمح لك نقاط النهاية أحادية النموذج من SageMaker باستضافة نموذج واحد على حاوية مستضافة على مثيلات مخصصة لزمن انتقال منخفض وإنتاجية عالية. تتم إدارة نقاط النهاية هذه بشكل كامل وتدعم القياس التلقائي. يمكنك تكوين نقطة النهاية أحادية النموذج كنقطة نهاية متاحة حيث تمر في تكوين البنية التحتية لنقطة النهاية مثل نوع المثيل وعددها ، أو نقطة نهاية بدون خادم حيث يقوم SageMaker تلقائيًا بتشغيل موارد الحوسبة وقياسها للداخل والخارج وفقًا لحركة المرور ، مما يلغي الحاجة لاختيار أنواع المثيل أو إدارة سياسات القياس. نقاط النهاية بدون خادم مخصصة للتطبيقات ذات حركة المرور المتقطعة أو غير المتوقعة.

يوضح الرسم التخطيطي التالي سيناريوهات استدلال نقطة نهاية أحادية النموذج.

يوفر الجدول التالي إرشادات حول تقييم وظائف الملاءمة لنقطة نهاية نموذج واحد متوفرة. بالنسبة إلى تقييمات وظيفة الملاءمة لنقطة النهاية بدون خادم ، ارجع إلى قسم نقطة النهاية بدون خادم في هذا المنشور.

وظيفة اللياقة البدنية	الوصف
التكلفة	تتم محاسبتك على استخدام نوع المثيل الذي تختاره. نظرًا لأن نقطة النهاية تعمل دائمًا ومتوفرة ، يمكن أن تزيد التكاليف بسرعة. يساعد اختيار المثيل المناسب للنموذج الخاص بك على ضمان حصولك على المثيل الأكثر أداءً بأقل تكلفة لنماذجك. يوصى باستخدام المقياس التلقائي لضبط السعة ديناميكيًا اعتمادًا على حركة المرور للحفاظ على أداء ثابت ويمكن التنبؤ به بأقل تكلفة ممكنة.
استنتاج الكمون	توفر نقطة النهاية أحادية النموذج استنتاجًا متزامنًا وتفاعليًا في الوقت الفعلي بمتطلبات زمن انتقال ملي ثانية.
الإنتاجية	يمكن أن يتأثر معدل النقل بعدة عوامل ، مثل حجم إدخال النموذج ، وحجم الدُفعة ، ونوع مثيل نقطة النهاية ، وما إلى ذلك. يوصى بمراجعة مقاييس CloudWatch لطلبات الإدخال واستخدام الموارد ، وتحديد نوع المثيل المناسب لتحقيق الإنتاجية المثلى. يوفر SageMaker ميزات لإدارة الموارد وتحسين أداء الاستدلال عند نشر نماذج ML. تستطيع تحسين أداء النموذج باستخدام Neo، أو استخدم مثيلات Inf1 للحصول على إنتاجية أفضل لنماذج SageMaker المستضافة باستخدام مثيل GPU لنقطة النهاية الخاصة بك.
تحجيم تعقيد التكوين	التدرج التلقائي مدعوم من خارج الصندوق. يوصي SageMaker باختيار ملف تكوين التحجيم عن طريق أداء اختبارات الحمل.
نمط حركة المرور	تعتبر نقطة النهاية أحادية النموذج مثالية لأحمال العمل ذات أنماط حركة المرور التي يمكن التنبؤ بها.

المشاركة في استضافة نماذج متعددة

عندما تتعامل مع عدد كبير من النماذج ، فإن نشر كل منها على نقطة نهاية فردية مع حاوية ومثيل مخصصين يمكن أن يؤدي إلى زيادة كبيرة في التكلفة. بالإضافة إلى ذلك ، يصبح من الصعب أيضًا إدارة العديد من النماذج في الإنتاج ، خاصة عندما لا تحتاج إلى استدعاء جميع النماذج في نفس الوقت ولكنك لا تزال بحاجة إلى أن تكون متاحة في جميع الأوقات. تعمل الاستضافة المشتركة لنماذج متعددة على نفس موارد الحوسبة الأساسية على تسهيل إدارة عمليات نشر ML على نطاق واسع وتقليل تكاليف الاستضافة من خلال زيادة استخدام نقطة النهاية وموارد الحوسبة الأساسية الخاصة بها. يدعم SageMaker خيارات الاستضافة المشتركة للنماذج المتقدمة مثل نقطة نهاية النماذج المتعددة (MME) للنماذج المتجانسة ونقطة نهاية الحاوية المتعددة (MCE) للنماذج غير المتجانسة. تستخدم النماذج المتجانسة نفس إطار عمل ML على حاوية خدمة مشتركة ، بينما تسمح لك النماذج غير المتجانسة بنشر حاويات خدمة متعددة تستخدم نماذج أو أطر عمل مختلفة على نقطة نهاية واحدة.

يوضح الرسم البياني التالي خيارات الاستضافة المشتركة النموذجية باستخدام SageMaker.

نقاط نهاية متعددة النماذج SageMaker

SageMaker الشركات الصغيرة والمتوسطة تسمح لك باستضافة نماذج متعددة باستخدام حاوية خدمة مشتركة على نقطة نهاية واحدة. هذا حل قابل للتطوير وفعال من حيث التكلفة لنشر عدد كبير من النماذج التي تلبي نفس حالة الاستخدام أو إطار العمل أو منطق الاستدلال. يمكن أن تقدم MME الطلبات ديناميكيًا بناءً على النموذج الذي استدعاه المتصل. كما أنه يقلل من عبء النشر لأن SageMaker يدير نماذج التحميل في الذاكرة ويقيسها بناءً على أنماط حركة المرور إليها. هذه الميزة مثالية عندما يكون لديك عدد كبير من الطرز المتشابهة التي يمكنك تقديمها من خلال حاوية خدمة مشتركة ولا تحتاج إلى الوصول إلى جميع الطرز في نفس الوقت. تتيح نقاط النهاية متعددة النماذج أيضًا مشاركة الوقت لموارد الذاكرة عبر النماذج الخاصة بك. يعمل هذا بشكل أفضل عندما تكون النماذج متشابهة إلى حد ما في الحجم وزمن انتقال الاستدعاء ، مما يسمح لـ MME باستخدام المثيلات بشكل فعال عبر جميع الطرز. تدعم SageMaker MMEs استضافة النماذج المدعومة من وحدة المعالجة المركزية ووحدة معالجة الرسومات. باستخدام النماذج المدعومة من وحدة معالجة الرسومات ، يمكنك خفض تكاليف نشر النموذج من خلال زيادة استخدام نقطة النهاية ومثيلاتها الحوسبة المسرعة الأساسية. لحالة استخدام العالم الحقيقي لـ MME ، يرجى الرجوع إلى كيفية توسيع نطاق استدلال التعلم الآلي لحالات استخدام SaaS متعددة المستأجرين.

يقدم الجدول التالي إرشادات حول تقييم وظائف اللياقة البدنية في MME.

وظيفة اللياقة البدنية	الوصف
التكلفة	تمكّن MMEs استخدام حاوية خدمة مشتركة لاستضافة آلاف النماذج على نقطة نهاية واحدة. هذا يقلل من تكاليف الاستضافة بشكل كبير من خلال تحسين استخدام نقطة النهاية مقارنة باستخدام نقاط النهاية أحادية النموذج. على سبيل المثال ، إذا كان لديك 10 نماذج لنشرها باستخدام مثيل ml.c5.large ، بناءً على تسعير SageMaker، تكلفة الحصول على 10 نقاط نهاية ثابتة أحادية النموذج هي: 10 * 0.102 USD = 1.02 USD لكل ساعة. بينما باستضافة MME واحد للنماذج العشرة ، نحقق وفورات في التكاليف بمقدار 10 أضعاف: 10 * 1 دولار = 0.102 دولار في الساعة.
استنتاج الكمون	بشكل افتراضي ، تخزن MMEs ذاكرة التخزين المؤقت للنماذج المستخدمة بشكل متكرر في الذاكرة وعلى القرص لتوفير استدلال بزمن انتقال منخفض. يتم إلغاء تحميل النماذج المخزنة مؤقتًا أو حذفها من القرص فقط عند نفاد الذاكرة أو مساحة القرص للحاوية لاستيعاب نموذج مستهدف حديثًا. تسمح MME بالتحميل البطيء للنماذج ، مما يعني تحميل النماذج في الذاكرة عند استدعائها لأول مرة. هذا يحسن استخدام الذاكرة. ومع ذلك ، فإنه يتسبب في حدوث ارتفاعات في وقت الاستجابة عند التحميل الأول ، مما يؤدي إلى مشكلة بدء التشغيل على البارد. لذلك ، تعتبر MME أيضًا مناسبة تمامًا للسيناريوهات التي يمكن أن تتسامح مع عقوبات وقت الاستجابة العرضية المتعلقة بالبدء البارد والتي تحدث عند استدعاء النماذج غير المستخدمة بشكل متكرر. لتحقيق أهداف زمن الوصول والإنتاجية لتطبيقات ML ، تُفضل مثيلات GPU على مثيلات وحدة المعالجة المركزية (نظرًا لعرض وحدات معالجة الرسومات (GPU) للطاقة الحسابية). مع دعم MME لوحدة معالجة الرسومات ، يمكنك نشر الآلاف من نماذج التعلم العميق خلف نقطة نهاية واحدة من SageMaker. يمكن لـ MME تشغيل نماذج متعددة على نواة GPU ، ومشاركة مثيلات GPU خلف نقطة نهاية عبر نماذج متعددة ، وتحميل النماذج وإلغاء تحميلها ديناميكيًا بناءً على حركة المرور الواردة. مع هذا ، يمكنك توفير التكلفة بشكل كبير وتحقيق أفضل أداء للسعر. إذا كانت حالة الاستخدام الخاصة بك تتطلب معاملات أعلى بكثير في الثانية (TPS) أو متطلبات زمن انتقال ، فإننا نوصي باستضافة النماذج على نقاط نهاية مخصصة.
الإنتاجية	تعتمد القيمة المثالية لصبيب استنتاج MME على عوامل مثل النموذج وحجم الحمولة ونوع مثيل نقطة النهاية. يتيح لك مقدار أكبر من ذاكرة المثيل تحميل المزيد من النماذج والاستعداد لخدمة طلبات الاستدلال. لا تحتاج إلى إضاعة الوقت في تحميل النموذج. تتيح لك كمية أكبر من وحدات المعالجة المركزية الافتراضية (vCPU) استدعاء المزيد من النماذج الفريدة بشكل متزامن. تقوم MMEs بشكل ديناميكي بتحميل وتفريغ النموذج من ذاكرة المثيل وإليها ، مما قد يؤثر على أداء الإدخال / الإخراج. تعمل وحدات MME من SageMaker مع GPU باستخدام خادم الاستدلال NVIDIA Triton، وهو برنامج يقدم الاستدلال مفتوح المصدر يبسط عملية تقديم الاستدلال ويوفر أداءً عاليًا للاستدلال. يقوم SageMaker بتحميل النموذج إلى ذاكرة حاوية NVIDIA Triton على مثيل مُسارع من خلال وحدة معالجة الرسومات ويخدم طلب الاستدلال. تتم مشاركة نواة GPU بين جميع النماذج في مثيل. إذا تم تحميل النموذج بالفعل في ذاكرة الحاوية ، فسيتم تقديم الطلبات اللاحقة بشكل أسرع لأن برنامج SageMaker لا يحتاج إلى تنزيله وتحميله مرة أخرى. يوصى بإجراء اختبار وتحليل الأداء المناسب في عمليات نشر الإنتاج الناجحة. يوفر SageMaker مقاييس CloudWatch لنقاط النهاية متعددة النماذج حتى تتمكن من تحديد استخدام نقطة النهاية ومعدل تسجيل الدخول إلى ذاكرة التخزين المؤقت للمساعدة في تحسين نقطة النهاية الخاصة بك.
تحجيم تعقيد التكوين	تدعم نقاط النهاية متعددة النماذج من SageMaker التدرج التلقائي بشكل كامل ، والذي يدير النسخ المتماثلة للنماذج لضمان مقياس النماذج استنادًا إلى أنماط حركة المرور. ومع ذلك ، يوصى باختبار الحمل المناسب لتحديد الحجم الأمثل للمثيلات للقياس التلقائي لنقطة النهاية. يعد تحديد الحجم المناسب لأسطول MME أمرًا مهمًا لتجنب تفريغ الكثير من الطرز. قد يؤدي تحميل مئات النماذج على عدد قليل من الحالات الكبيرة إلى الاختناق في بعض الحالات ، وقد يُفضل استخدام حالات أكثر وأصغر. للاستفادة من تحجيم النموذج الآلي في SageMaker ، تأكد من أن لديك ضبط التحجيم التلقائي للمثال لتوفير سعة مثيل إضافية. قم بإعداد سياسة التحجيم على مستوى نقطة النهاية الخاصة بك باستخدام معلمات مخصصة أو استدعاءات في الدقيقة (مستحسن) لإضافة المزيد من المثيلات إلى أسطول نقاط النهاية. تعتمد معدلات الاستدعاء المستخدمة لتشغيل حدث مقياس تلقائي على المجموعة الإجمالية للتنبؤات عبر المجموعة الكاملة من النماذج التي تخدمها نقطة النهاية.
نمط حركة المرور	تعد MMEs مثالية عندما يكون لديك عدد كبير من النماذج ذات الأحجام المتشابهة التي يمكنك تقديمها من خلال حاوية خدمة مشتركة ولا تحتاج إلى الوصول إلى جميع الطرز في نفس الوقت.

نقاط نهاية متعددة الحاويات من SageMaker

SageMaker MCEs دعم نشر ما يصل إلى 15 حاوية تستخدم نماذج أو أطر عمل مختلفة على نقطة نهاية واحدة ، واستدعاءها بشكل مستقل أو في تسلسل للاستدلال بزمن انتقال منخفض وتوفير التكاليف. يمكن أن تكون النماذج غير متجانسة تمامًا ، مع مكدس تقديم مستقل خاص بها. يمكن أن توفر لك الاستضافة الآمنة لنماذج متعددة من أطر عمل مختلفة في مثيل واحد ما يصل إلى 90٪ من التكلفة.

أنماط استدعاء MCE هي كما يلي:

خطوط أنابيب الاستدلال - يمكن استدعاء الحاويات في MME بتسلسل خطي ، يُعرف أيضًا باسم a خط أنابيب الاستدلال التسلسلي. يتم استخدامها عادةً لفصل المعالجة المسبقة والاستدلال النموذجي والمعالجة اللاحقة في حاويات مستقلة. يتم تمرير الإخراج من الحاوية الحالية كمدخلات إلى التالية. يتم تمثيلهم كنموذج خط أنابيب واحد في SageMaker. يمكن نشر خط أنابيب الاستدلال باعتباره MME ، حيث يمكن لإحدى الحاويات الموجودة في خط الأنابيب أن تخدم الطلبات ديناميكيًا بناءً على النموذج الذي يتم استدعاؤه.
الاحتجاج المباشر - مع الاحتجاج المباشر، يمكن إرسال طلب إلى حاوية استدلال محددة مستضافة على MCE.

يقدم الجدول التالي إرشادات حول تقييم وظائف اللياقة البدنية لـ MCEs.

وظيفة اللياقة البدنية	الوصف
التكلفة	تمكنك MCEs من تشغيل ما يصل إلى 15 حاوية ML مختلفة على نقطة نهاية واحدة واستدعاءها بشكل مستقل ، وبالتالي توفير التكاليف. يعد هذا الخيار مثاليًا عندما يكون لديك نماذج متعددة تعمل على مجموعات خدمة مختلفة مع احتياجات موارد مماثلة ، وعندما لا يكون لدى النماذج الفردية حركة مرور كافية للاستفادة من السعة الكاملة لمثيلات نقطة النهاية. لذلك ، تعد MCEs أكثر فعالية من حيث التكلفة من نقطة نهاية نموذج واحد. تقدم MCEs استجابة استدلال متزامنة ، مما يعني أن نقطة النهاية متاحة دائمًا وتدفع مقابل وقت تشغيل المثيل. يمكن أن تتراكم التكلفة اعتمادًا على عدد ونوع الحالات.
استنتاج الكمون	تعد MCEs مثالية لتشغيل تطبيقات ML مع أطر عمل وخوارزميات مختلفة لكل نموذج يتم الوصول إليها بشكل غير متكرر ولكنها لا تزال تتطلب استدلال زمن انتقال منخفض. النماذج متاحة دائمًا للاستدلال بزمن انتقال منخفض ولا توجد مشكلة في بدء التشغيل على البارد.
الإنتاجية	تقتصر MCEs على ما يصل إلى 15 حاوية على نقطة نهاية متعددة الحاويات ، ولا يتم دعم استنتاج GPU بسبب التنازع على الموارد. بالنسبة إلى نقاط النهاية متعددة الحاويات التي تستخدم وضع الاستدعاء المباشر ، لا يوفر SageMaker مقاييس على مستوى المثيل فقط كما هو الحال مع نقاط النهاية الشائعة الأخرى ، ولكنه يدعم أيضًا المقاييس لكل حاوية. كأفضل ممارسة ، راجع مقاييس CloudWatch لطلبات الإدخال واستخدام الموارد ، وحدد نوع المثيل المناسب لتحقيق الإنتاجية المثلى.
تحجيم تعقيد التكوين	تدعم MCEs التحجيم التلقائي. ومع ذلك ، من أجل تكوين القياس التلقائي ، يوصى بأن يعرض النموذج الموجود في كل حاوية استخدامًا مشابهًا لوحدة المعالجة المركزية وزمن انتقال لكل طلب استنتاج. يوصى بهذا لأنه إذا تحولت حركة المرور إلى نقطة النهاية متعددة الحاويات من نموذج استخدام منخفض لوحدة المعالجة المركزية إلى نموذج استخدام وحدة المعالجة المركزية عاليًا ، ولكن يظل حجم الاستدعاء الكلي كما هو ، ولا تتوسع نقطة النهاية ، وقد لا تكون هناك حالات كافية للتعامل مع جميع الطلبات الخاصة بنموذج استخدام وحدة المعالجة المركزية عالي الاستخدام.
نمط حركة المرور	تعد MCEs مثالية لأحمال العمل ذات أنماط حركة المرور المستمرة أو العادية ، لاستضافة النماذج عبر أطر عمل مختلفة (مثل TensorFlow أو PyTorch أو Sklearn) التي قد لا تحتوي على حركة مرور كافية لإشباع السعة الكاملة لمثيل نقطة النهاية.

استضافة تطبيق ML متعدد النماذج

تحتاج العديد من تطبيقات الأعمال إلى استخدام نماذج ML متعددة لخدمة طلب تنبؤ واحد لعملائها. على سبيل المثال ، شركة بيع بالتجزئة تريد تقديم توصيات لمستخدميها. قد يرغب تطبيق ML في حالة الاستخدام هذه في استخدام نماذج مخصصة مختلفة للتوصية بفئات مختلفة من المنتجات. إذا أرادت الشركة إضافة التخصيص إلى التوصيات باستخدام معلومات المستخدم الفردي ، فإن عدد النماذج المخصصة يزداد بشكل أكبر. إن استضافة كل نموذج مخصص على مثيل حوسبة مميز ليس فقط تكلفة باهظة ، ولكنه يؤدي أيضًا إلى قلة استخدام موارد الاستضافة إذا لم يتم استخدام جميع النماذج بشكل متكرر. يقدم SageMaker خيارات استضافة فعالة لتطبيقات ML متعددة النماذج.

يوضح الرسم التخطيطي التالي خيارات الاستضافة متعددة النماذج لنقطة نهاية واحدة باستخدام SageMaker.

خط أنابيب الاستدلال التسلسلي

خط أنابيب الاستدلال هو نموذج SageMaker يتكون من تسلسل خطي من 2-15 حاوية تعالج طلبات الاستدلالات على البيانات. يمكنك استخدام خط أنابيب للاستدلال لتحديد ونشر أي مجموعة من خوارزميات SageMaker المضمنة التي تم تدريبها مسبقًا والخوارزميات المخصصة الخاصة بك والمعبأة في حاويات Docker. يمكنك استخدام خط أنابيب الاستدلال للجمع بين مهام المعالجة المسبقة والتنبؤات والمعالجة اللاحقة لعلوم البيانات. يتم تمرير الإخراج من حاوية واحدة كمدخلات إلى التالية. عند تعريف الحاويات لنموذج خط الأنابيب ، فإنك تحدد أيضًا الترتيب الذي يتم تشغيل الحاويات به. يتم تمثيلهم كنموذج خط أنابيب واحد في SageMaker. يمكن نشر خط أنابيب الاستدلال باعتباره MME ، حيث يمكن لإحدى الحاويات الموجودة في خط الأنابيب أن تخدم الطلبات ديناميكيًا بناءً على النموذج الذي يتم استدعاؤه. يمكنك أيضًا تشغيل ملف تحويل دفعة وظيفة مع خط أنابيب للاستدلال. تدار خطوط أنابيب الاستدلال بشكل كامل.

يوفر الجدول التالي إرشادات حول تقييم وظائف الملاءمة لاستضافة نموذج ML باستخدام خط أنابيب الاستدلال التسلسلي.

وظيفة اللياقة البدنية	الوصف
التكلفة	يمكّنك خط أنابيب الاستدلال التسلسلي من تشغيل ما يصل إلى 15 حاوية ML مختلفة على نقطة نهاية واحدة ، مما يؤدي إلى فعالية تكلفة استضافة حاويات الاستدلال. لا توجد تكاليف إضافية لاستخدام هذه الميزة. أنت تدفع فقط مقابل المثيلات التي تعمل على نقطة نهاية. يمكن أن تتراكم التكلفة اعتمادًا على عدد ونوع الحالات.
استنتاج الكمون	عندما يتم نشر تطبيق ML كخط أنابيب للاستدلال ، فإن البيانات بين النماذج المختلفة لا تترك مساحة الحاوية. تعمل معالجة الميزات والاستدلالات بزمن انتقال منخفض لأن الحاويات موجودة في نفس مثيلات EC2.
الإنتاجية	ضمن نموذج خط أنابيب الاستدلال ، يعالج SageMaker الاستدعاءات كسلسلة من طلبات HTTP. تعالج الحاوية الأولى في خط الأنابيب الطلب الأولي ، ثم يتم إرسال الاستجابة الوسيطة كطلب إلى الحاوية الثانية ، وهكذا ، لكل حاوية في خط الأنابيب. يُرجع SageMaker الرد النهائي إلى العميل. الإنتاجية غير موضوعية لعوامل مثل النموذج ، وحجم إدخال النموذج ، وحجم الدفعة ، ونوع مثيل نقطة النهاية. كأفضل ممارسة ، راجع مقاييس CloudWatch لطلبات الإدخال واستخدام الموارد ، وحدد نوع المثيل المناسب لتحقيق الإنتاجية المثلى.
تحجيم تعقيد التكوين	تدعم خطوط أنابيب الاستدلال التسلسلي القياس التلقائي. ومع ذلك ، من أجل تكوين القياس التلقائي ، يوصى بأن يعرض النموذج الموجود في كل حاوية استخدامًا مشابهًا لوحدة المعالجة المركزية وزمن انتقال لكل طلب استنتاج. يوصى بهذا لأنه إذا تحولت حركة المرور إلى نقطة النهاية متعددة الحاويات من نموذج استخدام منخفض لوحدة المعالجة المركزية إلى نموذج استخدام وحدة المعالجة المركزية عاليًا ، ولكن يظل حجم الاستدعاء الكلي كما هو ، ولا تتوسع نقطة النهاية وقد لا تكون هناك حالات كافية التعامل مع جميع الطلبات لنموذج استخدام وحدة المعالجة المركزية عالية.
نمط حركة المرور	تعتبر خطوط أنابيب الاستدلال التسلسلي مثالية لأنماط حركة المرور التي يمكن التنبؤ بها مع النماذج التي تعمل بالتتابع على نفس نقطة النهاية.

نشر المجموعات النموذجية (Triton DAG):

تقدم SageMaker التكامل مع خادم الاستدلال NVIDIA Triton من خلال حاويات خادم الاستدلال Triton. تتضمن هذه الحاويات NVIDIA Triton Inference Server ، ودعم أطر عمل ML الشائعة ، ومتغيرات البيئة المفيدة التي تتيح لك تحسين الأداء على SageMaker. باستخدام صور حاوية NVIDIA Triton ، يمكنك بسهولة تقديم نماذج ML والاستفادة من تحسينات الأداء والتجميع الديناميكي والدعم متعدد الأطر الذي توفره NVIDIA Triton. يساعد Triton على زيادة استخدام GPU و CPU ، مما يقلل تكلفة الاستدلال.

في حالات استخدام الأعمال حيث تستخدم تطبيقات ML عدة نماذج لخدمة طلب التنبؤ ، إذا كان كل نموذج يستخدم إطار عمل مختلفًا أو تم استضافته في مثيل منفصل ، فقد يؤدي ذلك إلى زيادة عبء العمل والتكلفة بالإضافة إلى زيادة زمن الوصول الإجمالي. يدعم SageMaker NVIDIA Triton Inference Server نشر النماذج من جميع الأطر الرئيسية ، مثل تنسيقات نماذج TensorFlow GraphDef و TensorFlow SavedModel و ONNX و PyTorch TorchScript و TensorRT و Python / C ++ والمزيد. تمثل مجموعة نموذج Triton خط أنابيب لواحد أو أكثر من النماذج أو منطق المعالجة المسبقة والمعالجة اللاحقة ، وربط موترات الإدخال والإخراج بينهما. يؤدي طلب الاستدلال الفردي إلى المجموعة إلى تشغيل خط الأنابيب بأكمله. يحتوي Triton أيضًا على العديد من خوارزميات الجدولة والتجميع المدمجة التي تجمع بين طلبات الاستدلال الفردية لتحسين إنتاجية الاستدلال. قرارات الجدولة والتجميع هذه شفافة للعميل الذي يطلب الاستدلال. يمكن تشغيل النماذج على وحدات المعالجة المركزية أو وحدات معالجة الرسومات لتحقيق أقصى قدر من المرونة ودعم متطلبات الحوسبة غير المتجانسة.

يتم دعم استضافة العديد من النماذج المدعومة من GPU على نقاط النهاية متعددة النماذج من خلال خادم الاستدلال SageMaker Triton. تم تمديد خادم NVIDIA Triton Inference Server لتنفيذ ملف عقد MME API، للتكامل مع MMEs. يمكنك استخدام خادم الاستدلال NVIDIA Triton ، الذي يُنشئ تكوينًا لمستودع نموذجًا لخلفيات إطار عمل مختلفة ، لنشر MME مع التحجيم التلقائي. تتيح لك هذه الميزة توسيع نطاق مئات النماذج فائقة التخصيص التي تم ضبطها لتلائم تجارب المستخدم النهائي الفريدة في تطبيقات الذكاء الاصطناعي. يمكنك أيضًا استخدام هذه الميزة لتحقيق أداء سعر ضروري لتطبيق الاستدلال الخاص بك باستخدام وحدات معالجة الرسومات الجزئية. لمعرفة المزيد ، يرجى الرجوع إلى قم بتشغيل نماذج التعلم العميق المتعددة على وحدة معالجة الرسومات باستخدام نقاط النهاية متعددة النماذج من Amazon SageMaker.

يوفر الجدول التالي إرشادات حول تقييم وظائف الملاءمة لاستضافة نموذج ML باستخدام MMEs مع دعم GPU على حاويات الاستدلال Triton. بالنسبة لنقاط النهاية أحادية النموذج وتقييمات وظيفة الملاءمة لنقطة النهاية بدون خادم ، ارجع إلى الأقسام السابقة في هذا المنشور.

وظيفة اللياقة البدنية	الوصف
التكلفة	توفر SageMaker MMEs مع دعم GPU باستخدام Triton Inference Server طريقة قابلة للتطوير وفعالة من حيث التكلفة لنشر عدد كبير من نماذج التعلم العميق خلف نقطة نهاية SageMaker واحدة. مع MMEs ، تشترك نماذج متعددة في مثيل GPU خلف نقطة نهاية. يمكّنك هذا من كسر التكلفة المتزايدة الخطية لاستضافة نماذج متعددة وإعادة استخدام البنية التحتية عبر جميع النماذج. أنت تدفع مقابل وقت تشغيل المثال.
استنتاج الكمون	تم تصميم SageMaker المزود بـ Triton Inference Server خصيصًا لزيادة الإنتاجية واستخدام الأجهزة مع زمن انتقال منخفض للغاية (ملي ثانية من رقم واحد). لديها مجموعة واسعة من أطر عمل تعلم الآلة المدعومة (بما في ذلك TensorFlow و PyTorch و ONNX و XGBoost و NVIDIA TensorRT) وخلفيات البنية التحتية ، بما في ذلك NVIDIA GPUs و CPUs و استدلال AWS. مع دعم MME لوحدة معالجة الرسومات باستخدام SageMaker Triton Inference Server ، يمكنك نشر الآلاف من نماذج التعلم العميق خلف نقطة نهاية واحدة من SageMaker. يقوم SageMaker بتحميل النموذج إلى ذاكرة حاوية NVIDIA Triton على مثيل مُسارع من خلال وحدة معالجة الرسومات ويخدم طلب الاستدلال. تتم مشاركة نواة GPU بين جميع النماذج في مثيل. إذا تم تحميل النموذج بالفعل في ذاكرة الحاوية ، فسيتم تقديم الطلبات اللاحقة بشكل أسرع لأن برنامج SageMaker لا يحتاج إلى تنزيله وتحميله مرة أخرى.
الإنتاجية	توفر MME إمكانات لتشغيل نماذج متعددة للتعلم العميق أو ML على وحدة معالجة الرسومات ، في نفس الوقت ، باستخدام Triton Inference Server. يتيح لك ذلك بسهولة استخدام الاستدلال متعدد الأطر وعالي الأداء NVIDIA Triton الذي يخدم مع نشر نموذج SageMaker المُدار بالكامل. يدعم Triton جميع الاستنتاجات القائمة على NVIDIA GPU- و x86- و Arm® CPU- و AWS Inferentia. إنه يوفر تجميعًا ديناميكيًا ، وعمليات تشغيل متزامنة ، وتكوين النموذج الأمثل ، ومجموعة النماذج ، وتدفق مدخلات الصوت والفيديو لزيادة الإنتاجية والاستفادة إلى أقصى حد. قد تلعب عوامل أخرى مثل الشبكة وحجم الحمولة دورًا ضئيلًا في الحمل المرتبط بالاستدلال.
تحجيم تعقيد التكوين	يمكن لـ MME القياس أفقيًا باستخدام نهج القياس التلقائي ، وتوفير مثيلات حساب GPU إضافية استنادًا إلى مقاييس مثل `InvocationsPerInstance` و `GPUUtilization` لخدمة أي زيادة في حركة المرور لنقاط نهاية MME. باستخدام خادم الاستدلال Triton ، يمكنك بسهولة إنشاء حاوية مخصصة تتضمن نموذجك باستخدام Triton وإحضاره إلى SageMaker. سيتعامل SageMaker Inference مع الطلبات ويقيس حجم الحاوية تلقائيًا مع زيادة الاستخدام ، مما يجعل نشر النموذج مع Triton على AWS أسهل.
نمط حركة المرور	تعد MMEs مثالية لأنماط حركة المرور التي يمكن التنبؤ بها مع تشغيل النماذج مثل DAGs على نفس نقطة النهاية. يعتني SageMaker بتشكيل حركة المرور إلى نقطة نهاية MME ويحافظ على نسخ النماذج المثلى على مثيلات GPU للحصول على أفضل أداء للسعر. يستمر في توجيه حركة المرور إلى المثيل حيث يتم تحميل النموذج. إذا وصلت موارد المثيل إلى السعة بسبب الاستخدام العالي ، يقوم SageMaker بتفريغ النماذج الأقل استخدامًا من الحاوية لتحرير الموارد لتحميل النماذج الأكثر استخدامًا.

أفضل الممارسات

ضع في اعتبارك أفضل الممارسات التالية:

تماسك عالٍ وانخفاض اقتران بين النماذج - استضف النماذج في نفس الحاوية التي تتمتع بتماسك عالٍ (يقود وظائف الأعمال الفردية) وقم بتغليفها معًا لسهولة الترقية والإدارة. في الوقت نفسه ، افصل هذه النماذج عن بعضها البعض (استضفها في حاوية مختلفة) بحيث يمكنك بسهولة ترقية نموذج واحد دون التأثير على النماذج الأخرى. استضافة نماذج متعددة تستخدم حاويات مختلفة خلف نقطة نهاية واحدة واستدعاء ثم بشكل مستقل أو إضافة نموذج المعالجة المسبقة ومنطق المعالجة اللاحقة كخط أنابيب استدلال تسلسلي.
استنتاج الكمون - قم بتجميع النماذج التي تعتمد على وظائف الأعمال الفردية واستضافتها في حاوية واحدة لتقليل عدد القفزات وبالتالي تقليل زمن الوصول الإجمالي. هناك محاذير أخرى ، مثل ما إذا كانت النماذج المجمعة تستخدم أطر عمل متعددة ؛ يمكنك أيضًا اختيار الاستضافة في عدة حاويات ولكن تعمل على نفس المضيف لتقليل وقت الاستجابة وتقليل التكلفة.
مجموعة منطقيًا نماذج ML ذات التماسك العالي - قد تتكون المجموعة المنطقية من نماذج متجانسة (على سبيل المثال ، جميع طرز XGBoost) أو غير متجانسة (على سبيل المثال ، عدد قليل من XGBoost وعدد قليل من BERT). قد تتكون من نماذج يتم مشاركتها عبر وظائف عمل متعددة أو قد تكون محددة لتحقيق وظيفة عمل واحدة فقط.
- النماذج المشتركة - إذا كانت المجموعة المنطقية تتكون من نماذج مشتركة ، فستلعب سهولة ترقية النماذج وزمن الانتقال دورًا رئيسيًا في تصميم نقاط نهاية SageMaker. على سبيل المثال ، إذا كان وقت الاستجابة يمثل أولوية ، فمن الأفضل وضع جميع النماذج في حاوية واحدة خلف نقطة نهاية SageMaker واحدة لتجنب القفزات المتعددة. الجانب السلبي هو أنه إذا احتاج أي من النماذج إلى الترقية ، فسيؤدي ذلك إلى ترقية جميع نقاط نهاية SageMaker ذات الصلة التي تستضيف هذا النموذج.
- النماذج غير المشتركة - إذا كانت المجموعة المنطقية تتكون من نماذج محددة لميزات العمل فقط ولم تتم مشاركتها مع مجموعات أخرى ، فسيصبح تعقيد الحزم وأبعاد زمن الوصول مفتاحًا لتحقيقه. يُنصح باستضافة هذه النماذج في حاوية واحدة خلف نقطة نهاية SageMaker واحدة.
كفاءة استخدام الأجهزة (وحدة المعالجة المركزية ، وحدة معالجة الرسومات) - قم بتجميع النماذج القائمة على وحدة المعالجة المركزية معًا واستضافتها على نفس المضيف بحيث يمكنك استخدام وحدة المعالجة المركزية بكفاءة. وبالمثل ، قم بتجميع النماذج المستندة إلى وحدة معالجة الرسومات معًا بحيث يمكنك استخدامها وتوسيع نطاقها بكفاءة. هناك أحمال عمل مختلطة تتطلب كلاً من وحدة المعالجة المركزية ووحدة معالجة الرسومات على نفس المضيف. يجب أن تكون استضافة نماذج CPU فقط و GPU فقط على نفس المضيف مدفوعة بمتطلبات عالية من التماسك ووقت استجابة التطبيق. بالإضافة إلى ذلك ، فإن التكلفة والقدرة على القياس وقطر الانفجار عند التأثير في حالة الفشل هي الأبعاد الرئيسية التي يجب النظر فيها.
وظائف اللياقة البدنية - استخدم وظائف اللياقة كدليل لتحديد خيار استضافة ML.

وفي الختام

عندما يتعلق الأمر باستضافة ML ، لا يوجد نهج واحد يناسب الجميع. يحتاج ممارسو ML إلى اختيار نمط التصميم المناسب لمواجهة تحديات استضافة ML الخاصة بهم. يوفر تقييم وظائف اللياقة إرشادات توجيهية بشأن اختيار خيار استضافة ML المناسب.

لمزيد من التفاصيل حول كل خيار من خيارات الاستضافة ، راجع المنشورات التالية في هذه السلسلة:

عن المؤلفين

ضوال باتل هو مهندس رئيسي لتعلم الآلة في AWS. لقد عمل مع مؤسسات تتراوح من المؤسسات الكبيرة إلى الشركات الناشئة متوسطة الحجم في المشكلات المتعلقة بالحوسبة الموزعة والذكاء الاصطناعي. يركز على التعلم العميق بما في ذلك مجالات البرمجة اللغوية العصبية ورؤية الكمبيوتر. إنه يساعد العملاء على تحقيق استدلال نموذج عالي الأداء على SageMaker.

ديبالي راجال هو مدير الحساب الفني المتخصص في AI / ML في Amazon Web Services. وهي تعمل مع عملاء المؤسسات لتقديم التوجيه الفني بشأن تنفيذ حلول التعلم الآلي بأفضل الممارسات. في أوقات فراغها ، تستمتع بالمشي لمسافات طويلة ومشاهدة الأفلام والتسكع مع العائلة والأصدقاء.

سوراب تريكاندي هو مدير أول للمنتجات في Amazon SageMaker Inference. إنه متحمس للعمل مع العملاء وتحفزه هدف إضفاء الطابع الديمقراطي على التعلم الآلي. يركز على التحديات الأساسية المتعلقة بنشر تطبيقات ML المعقدة ، ونماذج ML متعددة المستأجرين ، وتحسين التكلفة ، وجعل نشر نماذج التعلم العميق أكثر سهولة. في أوقات فراغه ، يستمتع سوراب بالمشي لمسافات طويلة والتعرف على التقنيات المبتكرة واتباع TechCrunch وقضاء الوقت مع عائلته.