طرق الاختبار لنماذج Amazon SageMaker ML

أعاد نشره أفلاطون

المتابعون: 0

تمت كتابة هذا المنشور بالاشتراك مع Tobias Wenzel ، مدير هندسة البرمجيات لمنصة Intuit Machine Learning Platform.

نقدر جميعًا أهمية نموذج التعلم الآلي (ML) عالي الجودة والموثوق عند استخدام القيادة الذاتية أو التفاعل مع Alexa ، للحصول على أمثلة. تلعب نماذج ML أيضًا دورًا مهمًا بطرق أقل وضوحًا - يتم استخدامها بواسطة تطبيقات الأعمال والرعاية الصحية والمؤسسات المالية و amazon.com و TurboTax والمزيد.

نظرًا لأن التطبيقات التي تدعم ML أصبحت جوهرية للعديد من الشركات ، تحتاج النماذج إلى اتباع نفس النشاط والانضباط مثل تطبيقات البرامج. يتمثل أحد الجوانب المهمة في MLOps في تقديم إصدار جديد من نموذج ML المطور مسبقًا في الإنتاج باستخدام ممارسات DevOps المعمول بها مثل الاختبار وإصدار الإصدارات والتسليم المستمر والمراقبة.

هناك العديد من مفروضة إرشادات حول MLOps ، ويقدم هذا المنشور نظرة عامة على العملية التي يمكنك اتباعها والأدوات التي يجب استخدامها للاختبار. هذا يعتمد على التعاون بين يستشعر و AWS. لقد عملنا معًا لتنفيذ التوصيات الموضحة في هذا المنشور عمليًا وعلى نطاق واسع. هدف Intuit في أن يصبح منصة خبراء مدفوعة بالذكاء الاصطناعي يعتمد بشكل كبير على إستراتيجية زيادة سرعة تطوير النموذج الأولي بالإضافة إلى اختبار الإصدارات الجديدة.

المتطلبات الأساسية

فيما يلي المجالات الرئيسية التي يجب أخذها في الاعتبار أثناء نشر إصدارات النماذج الجديدة:

أداء دقة النموذج - من المهم أن استمر بالمتابعة لمقاييس تقييم النموذج مثل الدقة والدقة والتذكر ، والتأكد من أن المقاييس الموضوعية تظل كما هي نسبيًا أو تتحسن مع إصدار جديد من النموذج. في معظم الحالات ، لا يكون نشر إصدار جديد من النموذج منطقيًا إذا لم تتحسن تجربة المستخدمين النهائيين.
اختبار جودة البيانات - يجب أن تكون البيانات في البيئات غير الإنتاجية ، سواء كانت محاكية أو نسخة في الوقت المناسب ، ممثلة للبيانات التي سيتلقاها النموذج عند النشر الكامل ، من حيث الحجم أو التوزيع. إذا لم يكن الأمر كذلك ، فلن تكون عمليات الاختبار الخاصة بك تمثيلية ، وقد يتصرف نموذجك بشكل مختلف في الإنتاج.
أهمية الميزة والتكافؤ - يجب مقارنة أهمية الميزة في الإصدار الأحدث من النموذج نسبيًا بالنموذج القديم ، على الرغم من أنه قد يتم تقديم ميزات جديدة. هذا للتأكد من أن النموذج لا يصبح متحيزًا.
اختبار إجراءات العمل - من المهم أن يفي الإصدار الجديد من النموذج بأهداف العمل المطلوبة ضمن معايير مقبولة. على سبيل المثال ، يمكن أن يتمثل أحد مقاييس العمل في أن زمن الانتقال الشامل لأي خدمة يجب ألا يزيد عن 100 مللي ثانية ، أو أن تكلفة استضافة نموذج معين وإعادة تدريبه لا يمكن أن تزيد عن 10,000 دولار في السنة.
التكلفة - تتمثل إحدى الطرق البسيطة للاختبار في تكرار بيئة الإنتاج بأكملها كبيئة اختبار. هذه ممارسة شائعة في تطوير البرمجيات. ومع ذلك ، فإن مثل هذا النهج في حالة نماذج ML قد لا ينتج عنه عائد الاستثمار الصحيح اعتمادًا على حجم البيانات وقد يؤثر على النموذج من حيث مشكلة العمل التي يعالجها.
حماية - غالبًا ما يُتوقع أن تحتوي بيئات الاختبار على بيانات نموذجية بدلاً من بيانات العميل الحقيقية ، ونتيجة لذلك ، يمكن أن تكون قواعد معالجة البيانات والامتثال أقل صرامة. تمامًا مثل التكلفة ، إذا قمت ببساطة بنسخ بيئة الإنتاج في بيئة اختبار ، يمكنك إدخال مخاطر الأمان والامتثال.
إمكانية تطوير متجر الميزات - إذا قررت إحدى المؤسسات عدم إنشاء متجر منفصل لميزة الاختبار بسبب التكلفة أو لأسباب أمنية ، فيجب إجراء اختبار النموذج في متجر ميزات الإنتاج ، مما قد يتسبب في حدوث مشكلات في قابلية التوسع حيث يتم مضاعفة حركة المرور خلال فترة الاختبار.
أداء النموذج عبر الإنترنت - تختلف التقييمات عبر الإنترنت عن التقييمات غير المتصلة بالإنترنت ويمكن أن تكون مهمة في بعض الحالات مثل نماذج التوصيات لأنها تقيس رضا المستخدم في الوقت الفعلي بدلاً من الرضا المتصور. من الصعب محاكاة أنماط حركة المرور الحقيقية في غير الإنتاج بسبب الموسمية أو سلوك المستخدم الآخر ، لذلك لا يمكن تنفيذ أداء النموذج عبر الإنترنت إلا في الإنتاج.
الاداء العملي - نظرًا لأن النماذج تكبر ويتم نشرها بشكل متزايد بطريقة لامركزية على أجهزة مختلفة ، فمن المهم اختبار النموذج للأداء التشغيلي المطلوب مثل زمن الوصول ومعدل الخطأ والمزيد.

معظم فرق تعلم الآلة لديها نهج متعدد الجوانب لاختبار النموذج. في الأقسام التالية ، نقدم طرقًا للتعامل مع هذه التحديات خلال مراحل الاختبار المختلفة.

اختبار النموذج دون اتصال

الهدف من مرحلة الاختبار هذه هو التحقق من صحة الإصدارات الجديدة من نموذج موجود من وجهة نظر الدقة. يجب أن يتم ذلك بطريقة غير متصلة بالإنترنت حتى لا تؤثر على أي تنبؤات في نظام الإنتاج التي تخدم تنبؤات في الوقت الفعلي. من خلال ضمان أداء النموذج الجديد بشكل أفضل لمقاييس التقييم القابلة للتطبيق ، فإن هذا الاختبار يعالج التحدي 1 (أداء دقة النموذج). أيضًا ، باستخدام مجموعة البيانات الصحيحة ، يمكن لهذا الاختبار معالجة التحديين 2 و 3 (جودة بيانات الاختبار وأهمية الميزة والتكافؤ) ، مع فائدة إضافية تتمثل في مواجهة التحدي 5 (التكلفة).

تتم هذه المرحلة في بيئة التدريج.

يجب أن تلتقط حركة مرور الإنتاج ، والتي يمكنك استخدامها لإعادة تشغيلها في اختبار الرجوع دون اتصال بالإنترنت. يُفضل استخدام حركة مرور الإنتاج السابقة بدلاً من البيانات التركيبية. ال الأمازون SageMaker نموذج مراقب ميزة التقاط البيانات يسمح لك بالتقاط حركة مرور الإنتاج للنماذج المستضافة على الأمازون SageMaker. يسمح ذلك لمطوري النماذج باختبار نماذجهم ببيانات من أيام الذروة أو الأحداث المهمة الأخرى. ثم يتم إعادة البيانات التي تم التقاطها مقابل الإصدار النموذجي الجديد بطريقة دفعية باستخدام تحويل دفعة Sagemaker. هذا يعني أن تشغيل التحويل الدفعي يمكنه إجراء الاختبارات باستخدام البيانات التي تم جمعها على مدار أسابيع أو شهور في غضون ساعات قليلة. يمكن أن يؤدي ذلك إلى تسريع عملية تقييم النموذج بشكل كبير مقارنة بتشغيل نسختين أو أكثر من نموذج في الوقت الفعلي جنبًا إلى جنب وإرسال طلبات تنبؤ مكررة إلى كل نقطة نهاية. بالإضافة إلى العثور على إصدار أفضل أداءً بشكل أسرع ، يستخدم هذا الأسلوب أيضًا موارد الحساب لفترة زمنية أقصر ، مما يقلل التكلفة الإجمالية.

يتمثل التحدي في هذا النهج في الاختبار في أن مجموعة الميزات تتغير من إصدار نموذج إلى آخر. في هذا السيناريو ، نوصي بإنشاء مجموعة ميزات بمجموعة شاملة من الميزات لكلا الإصدارين بحيث يمكن الاستعلام عن جميع الميزات مرة واحدة وتسجيلها من خلال التقاط البيانات. يمكن لكل استدعاء تنبؤ بعد ذلك العمل فقط على تلك الميزات الضرورية للإصدار الحالي من النموذج.

كمكافأة إضافية ، من خلال الدمج توضيح Amazon SageMaker في اختبار النموذج غير المتصل بالإنترنت ، يمكنك التحقق من الإصدار الجديد من النموذج لمعرفة التحيز وكذلك مقارنة إحالة الميزة بالإصدار السابق من النموذج. باستخدام خطوط الأنابيب ، يمكنك تنظيم سير العمل بالكامل بحيث يمكن إجراء خطوة فحص الجودة بعد التدريب لإجراء تحليل لمقاييس النموذج وأهمية الميزة. يتم تخزين هذه المقاييس في ملف سجل نموذج SageMaker للمقارنة في الجولة التالية من التدريب.

اختبار التكامل والأداء

هناك حاجة إلى اختبار التكامل للتحقق من صحة العمليات التجارية الشاملة من منظور أداء وظيفي وكذلك من منظور أداء وقت التشغيل. ضمن هذه العملية ، يجب اختبار خط الأنابيب بالكامل ، بما في ذلك جلب الميزات وحسابها في متجر الميزات وتشغيل تطبيق ML. يجب أن يتم ذلك باستخدام مجموعة متنوعة من الحمولات المختلفة لتغطية مجموعة متنوعة من السيناريوهات والطلبات وتحقيق تغطية عالية لجميع عمليات تشغيل التعليمات البرمجية الممكنة. يعالج هذا التحدي 4 و 9 (اختبار إجراءات العمل والأداء التشغيلي) لضمان عدم كسر أي من العمليات التجارية مع الإصدار الجديد من النموذج.

يجب إجراء هذا الاختبار في بيئة التدريج.

يجب تنفيذ كل من اختبار التكامل واختبار الأداء من قبل فرق فردية باستخدام خط أنابيب MLOps الخاص بهم. بالنسبة لاختبار التكامل ، نوصي بالطريقة المجربة والمختبرة للحفاظ على بيئة ما قبل الإنتاج المكافئة وظيفيًا والاختبار باستخدام عدد قليل من الحمولات المختلفة. يمكن أتمتة سير عمل الاختبار كما هو موضح في هذه الورشة. لاختبار الأداء ، يمكنك استخدام التوصية بالاستدلال من Amazon SageMaker، والذي يوفر نقطة بداية رائعة لتحديد نوع المثيل وعدد هذه المثيلات المراد استخدامها. لهذا ، ستحتاج إلى استخدام أداة منشئ الأحمال ، مثل المشاريع مفتوحة المصدر com.perfsizesagemaker و بيرفسيز التي طورها Intuit. يسمح لك Perfsizesagemaker باختبار تكوينات نقطة نهاية النموذج تلقائيًا مع مجموعة متنوعة من الحمولات وأوقات الاستجابة ومعاملات الذروة في متطلبات الثانية. يولد نتائج اختبار مفصلة تقارن إصدارات النماذج المختلفة. Perfsize هي الأداة المصاحبة التي تحاول إجراء تكوينات مختلفة بالنظر إلى معاملات الذروة فقط في الثانية ووقت الاستجابة المتوقع.

إختبار أ / ب

في العديد من الحالات التي يكون فيها رد فعل المستخدم على الناتج الفوري للنموذج مطلوبًا ، مثل تطبيقات التجارة الإلكترونية ، لا يكفي التقييم الوظيفي للنموذج غير المتصل بالإنترنت. في هذه السيناريوهات ، تحتاج إلى اختبار النماذج A / B في الإنتاج قبل اتخاذ قرار تحديث النماذج. ينطوي اختبار A / B أيضًا على مخاطر لأنه قد يكون هناك تأثير حقيقي على العميل. تُعد طريقة الاختبار هذه بمثابة التحقق النهائي من أداء ML ، وهو اختبار سلامة هندسي خفيف الوزن. تتناول هذه الطريقة أيضًا التحديين 8 و 9 (أداء النموذج عبر الإنترنت والتميز التشغيلي).

يجب إجراء اختبار A / B في بيئة إنتاج.

باستخدام SageMaker ، يمكنك بسهولة إجراء اختبار A / B على نماذج ML عن طريق التشغيل متغيرات إنتاج متعددة في نقطة النهاية. يمكن توجيه حركة المرور بزيادات إلى الإصدار الجديد لتقليل مخاطر نموذج التصرف السيئ على الإنتاج. إذا كانت نتائج اختبار A / B تبدو جيدة ، فسيتم توجيه حركة المرور إلى الإصدار الجديد ، مما يؤدي في النهاية إلى أكثر من 100٪ من حركة المرور. نوصي باستخدام حواجز حماية النشر للانتقال من النموذج A إلى B. لإجراء مناقشة أكثر اكتمالاً حول استخدام اختبار A / B تخصيص أمازون نماذج كمثال ، الرجوع إلى استخدام اختبار A / B لقياس فعالية التوصيات التي تم إنشاؤها بواسطة Amazon Personalize.

اختبار النموذج عبر الإنترنت

في هذا السيناريو ، يختلف الإصدار الجديد من النموذج اختلافًا كبيرًا عن الإصدار الذي يخدم بالفعل حركة مرور مباشرة في الإنتاج ، وبالتالي فإن نهج الاختبار دون اتصال بالإنترنت لم يعد مناسبًا لتحديد فعالية إصدار النموذج الجديد. السبب الأبرز لذلك هو التغيير في الميزات المطلوبة لإنتاج التنبؤ ، بحيث لا يمكن استخدام المعاملات المسجلة مسبقًا لاختبار النموذج. في هذا السيناريو ، نوصي باستخدام عمليات نشر الظل. توفر عمليات نشر الظل القدرة على نشر الظل (أو تشالنجر) إلى جانب الإنتاج (أو بطل) النموذج الذي يخدم التوقعات حاليًا. يتيح لك ذلك تقييم كيفية أداء نموذج الظل في حركة مرور الإنتاج. لا يتم تقديم توقعات نموذج الظل للتطبيق الطالب ؛ تم تسجيلهم للتقييم في وضع عدم الاتصال. من خلال نهج الظل للاختبار ، نتصدى للتحديات 4 و 5 و 6 و 7 (اختبار إجراءات العمل ، والتكلفة ، والأمان ، وقابلية تطوير متجر الميزات).

يجب إجراء اختبار النموذج عبر الإنترنت في بيئات التدريج أو الإنتاج.

يجب استخدام طريقة اختبار إصدارات النماذج الجديدة هذه كحل أخير إذا تعذر استخدام جميع الطرق الأخرى. نوصي باستخدامه كملاذ أخير لأن المكالمات المزدوجة لنماذج متعددة تولد عبئًا إضافيًا على جميع خدمات المصب في الإنتاج ، مما قد يؤدي إلى اختناقات في الأداء بالإضافة إلى زيادة تكلفة الإنتاج. التأثير الأكثر وضوحًا لذلك يكون على طبقة خدمة المعالم. بالنسبة لحالات الاستخدام التي تشترك في ميزات من مجموعة مشتركة من البيانات المادية ، نحتاج إلى أن نكون قادرين على محاكاة حالات استخدام متعددة للوصول بشكل متزامن إلى جدول البيانات نفسه لضمان عدم وجود تنازع على الموارد قبل الانتقال إلى الإنتاج. حيثما أمكن ، يجب تجنب الاستعلامات المكررة لمتجر الميزات ، ويجب إعادة استخدام الميزات المطلوبة لكلا الإصدارين من النموذج للاستدلال الثاني. مخازن الميزات على أساس الأمازون DynamoDB، كما بناه Intuit ، يمكن تنفيذه مسرع أمازون دينامو دي بي(DAX) للتخزين المؤقت وتجنب مضاعفة الإدخال / الإخراج إلى قاعدة البيانات. هذه وغيرها من خيارات التخزين المؤقت يمكن أن تخفف من التحدي 7 (ميزة تطوير المتجر).

لمواجهة التحدي 5 (التكلفة) وكذلك 7 ، نقترح استخدام عمليات نشر الظل لأخذ عينات من حركة المرور الواردة. يمنح هذا مالكي النماذج طبقة أخرى من التحكم لتقليل التأثير على أنظمة الإنتاج.

يجب أن يكون نشر الظل على متن الطائرة إلى مراقب النموذج العروض تمامًا مثل عمليات نشر الإنتاج العادية من أجل مراقبة التحسينات في إصدار المنافس.

وفي الختام

يوضح هذا المنشور اللبنات الأساسية لإنشاء مجموعة شاملة من العمليات والأدوات لمواجهة التحديات المختلفة من خلال اختبار النموذج. على الرغم من أن كل مؤسسة فريدة من نوعها ، إلا أن هذا من شأنه أن يساعدك على البدء وتضييق نطاق اعتباراتك عند تنفيذ استراتيجية الاختبار الخاصة بك.

عن المؤلفين

توبياس وينزل هو مدير هندسة البرمجيات لمنصة Intuit Machine Learning Platform في ماونتن فيو ، كاليفورنيا. لقد عمل على المنصة منذ إنشائها في عام 2016 وساعد في تصميمها وبنائها من الألف إلى الياء. في وظيفته ، ركز على الامتياز التشغيلي للمنصة وجعلها ناجحة من خلال أعمال Intuit الموسمية. بالإضافة إلى ذلك ، فهو متحمس للتوسيع المستمر للمنصة بأحدث التقنيات.

شيفانشو أوبدهياي هو مهندس حلول رئيسي في مجموعة تطوير الأعمال والصناعات الإستراتيجية لدى AWS. في هذا المنصب ، يساعد معظم المتبنين المتقدمين لـ AWS على تحويل صناعتهم من خلال الاستخدام الفعال للبيانات والذكاء الاصطناعي.

آلان تان هو مدير أول للمنتجات في SageMaker ، ويقود الجهود في الاستدلال على النماذج الكبيرة. إنه متحمس لتطبيق التعلم الآلي في مجال التحليلات. خارج العمل ، يستمتع بالخارج.