يعد الحفاظ على سير عمل التعلم الآلي (ML) في الإنتاج مهمة صعبة لأنه يتطلب إنشاء خطوط أنابيب للتكامل المستمر والتسليم المستمر (CI/CD) لرموز ونماذج تعلم الآلة، وإصدار النماذج، ومراقبة البيانات وانجراف المفاهيم، وإعادة تدريب النماذج، والدليل عملية الموافقة للتأكد من أن الإصدارات الجديدة من النموذج تلبي متطلبات الأداء والامتثال.
في هذا المنشور، نصف كيفية إنشاء سير عمل MLOps لاستدلال الدُفعة الذي يعمل على أتمتة جدولة الوظائف ومراقبة النماذج وإعادة التدريب والتسجيل، بالإضافة إلى معالجة الأخطاء والإشعارات باستخدام الأمازون SageMaker, أمازون إيفينت بريدج, AWS لامدا, خدمة إعلام أمازون البسيطة (Amazon SNS)، وHashiCorp Terraform، وGitLab CI/CD. يوفر سير عمل MLOps المقدم قالبًا قابلاً لإعادة الاستخدام لإدارة دورة حياة ML من خلال الأتمتة والمراقبة وقابلية التدقيق وقابلية التوسع، وبالتالي تقليل التعقيدات وتكاليف الحفاظ على أعباء عمل الاستدلال الدفعي في الإنتاج.
حل نظرة عامة
يوضح الشكل التالي بنية MLOps المستهدفة المقترحة لاستدلال مجموعة المؤسسات التي تستخدم البنية التحتية لـ GitLab CI/CD وTerraform كرمز (IaC) بالتزامن مع أدوات وخدمات AWS. يعمل GitLab CI/CD بمثابة منسق الماكرو، الذي يقوم بالتنسيق model build
و model deploy
خطوط الأنابيب، والتي تشمل تحديد المصادر والبناء والإمداد خطوط أنابيب Amazon SageMaker ودعم الموارد باستخدام SageMaker Python SDK وTerraform. يتم استخدام SageMaker Python SDK لإنشاء خطوط أنابيب SageMaker أو تحديثها للتدريب، والتدريب على تحسين المعلمات الفائقة (HPO)، والاستدلال الدفعي. يتم استخدام Terraform لإنشاء موارد إضافية مثل قواعد EventBridge ووظائف Lambda وموضوعات SNS لمراقبة مسارات SageMaker وإرسال الإشعارات (على سبيل المثال، عند فشل خطوة المسار أو نجاحها). تعمل خطوط أنابيب SageMaker كمنسق للتدريب على نموذج تعلم الآلة وسير عمل الاستدلال.
يمثل تصميم البنية هذا إستراتيجية متعددة الحسابات حيث يتم إنشاء نماذج تعلم الآلة وتدريبها وتسجيلها في سجل نموذج مركزي ضمن حساب تطوير علوم البيانات (الذي يحتوي على ضوابط أكثر من حساب تطوير التطبيق النموذجي). بعد ذلك، يتم نشر خطوط أنابيب الاستدلال على حسابات التدريج والإنتاج باستخدام الأتمتة من أدوات DevOps مثل GitLab CI/CD. يمكن أيضًا وضع السجل النموذجي المركزي في حساب الخدمات المشتركة بشكل اختياري. تشير إلى نموذج التشغيل للحصول على أفضل الممارسات المتعلقة باستراتيجية الحسابات المتعددة لتعلم الآلة.
في الأقسام الفرعية التالية، نناقش الجوانب المختلفة للتصميم المعماري بالتفصيل.
البنية التحتية كرمز
يوفر IaC طريقة لإدارة البنية التحتية لتكنولوجيا المعلومات من خلال ملفات يمكن قراءتها آليًا، مما يضمن التحكم الفعال في الإصدار. في هذا المنشور ونموذج التعليمات البرمجية المصاحب له، نوضح كيفية الاستخدام هاشيكورب تيرافورم مع GitLab CI/CD لإدارة موارد AWS بفعالية. يؤكد هذا النهج على الفائدة الرئيسية لـ IaC، حيث يقدم عملية شفافة وقابلة للتكرار في إدارة البنية التحتية لتكنولوجيا المعلومات.
التدريب النموذجي وإعادة التدريب
في هذا التصميم، يتم تشغيل مسار تدريب SageMaker وفقًا لجدول زمني (عبر EventBridge) أو بناءً على جدول زمني خدمة تخزين أمازون البسيطة (Amazon S3) مشغل الحدث (على سبيل المثال، عندما يتم وضع ملف تشغيل أو بيانات تدريب جديدة، في حالة وجود كائن بيانات تدريب واحد، في Amazon S3) لإعادة معايرة النموذج بانتظام باستخدام البيانات الجديدة. لا يقدم هذا التدفق تغييرات هيكلية أو مادية على النموذج لأنه يستخدم معلمات تشعبية ثابتة تمت الموافقة عليها أثناء عملية مراجعة نموذج المؤسسة.
يسجل مسار التدريب إصدار النموذج الذي تم تدريبه حديثًا في ملف سجل نموذج Amazon SageMaker إذا تجاوز النموذج عتبة أداء النموذج المحددة مسبقًا (على سبيل المثال، RMSE للانحدار ودرجة F1 للتصنيف). عند تسجيل إصدار جديد من النموذج في سجل النموذج، فإنه يؤدي إلى إرسال إشعار إلى عالم البيانات المسؤول عبر Amazon SNS. يحتاج عالم البيانات بعد ذلك إلى مراجعة أحدث إصدار من النموذج والموافقة عليه يدويًا في ملف أمازون ساجميكر ستوديو واجهة المستخدم أو عبر استدعاء API باستخدام واجهة سطر الأوامر AWS (AWS CLI) أو AWS SDK for Python (Boto3) قبل استخدام الإصدار الجديد من النموذج للاستدلال.
يتم إنشاء مسار تدريب SageMaker والموارد الداعمة له بواسطة GitLab model build
خط أنابيب، إما عن طريق التشغيل اليدوي لخط أنابيب GitLab أو تلقائيًا عند دمج التعليمات البرمجية في main
فرع من model build
مستودع جيت.
الاستدلال الدفعي
يتم تشغيل مسار الاستدلال الدفعي لـ SageMaker وفقًا لجدول زمني (عبر EventBridge) أو استنادًا إلى مشغل حدث S3 أيضًا. يقوم خط أنابيب الاستدلال الدفعي تلقائيًا بسحب أحدث إصدار معتمد من النموذج من سجل النموذج ويستخدمه للاستدلال. يتضمن مسار الاستدلال الدفعي خطوات للتحقق من جودة البيانات مقابل خط الأساس الذي تم إنشاؤه بواسطة مسار التدريب، بالإضافة إلى جودة النموذج (أداء النموذج) في حالة توفر تسميات الحقيقة الأساسية.
إذا اكتشف مسار الاستدلال الدفعي مشكلات في جودة البيانات، فسوف يقوم بإخطار عالم البيانات المسؤول عبر Amazon SNS. إذا اكتشف مشكلات في جودة النموذج (على سبيل المثال، RMSE أكبر من الحد المحدد مسبقًا)، فستفشل خطوة المسار الخاصة بفحص جودة النموذج، مما سيؤدي بدوره إلى تشغيل حدث EventBridge لبدء التدريب باستخدام مسار HPO.
يتم إنشاء خط أنابيب الاستدلال الدفعي SageMaker والموارد الداعمة له بواسطة GitLab model deploy
خط أنابيب، إما عن طريق التشغيل اليدوي لخط أنابيب GitLab أو تلقائيًا عند دمج التعليمات البرمجية في main
فرع من model deploy
مستودع جيت.
ضبط النموذج وإعادة ضبطه
يتم تشغيل تدريب SageMaker مع مسار HPO عند فشل خطوة التحقق من جودة النموذج الخاصة بخط أنابيب الاستدلال الدفعي. يتم إجراء فحص جودة النموذج من خلال مقارنة تنبؤات النموذج مع تسميات الحقيقة الأرضية الفعلية. إذا كان مقياس جودة النموذج (على سبيل المثال، RMSE للانحدار ودرجة F1 للتصنيف) لا يلبي معيارًا محددًا مسبقًا، فسيتم وضع علامة على خطوة فحص جودة النموذج على أنها فاشلة. يمكن أيضًا تشغيل تدريب SageMaker مع مسار HPO يدويًا (في SageMaker Studio UI أو عبر استدعاء واجهة برمجة التطبيقات باستخدام AWS CLI أو SageMaker Python SDK) بواسطة عالم البيانات المسؤول إذا لزم الأمر. نظرًا لأن المعلمات الفائقة للنموذج تتغير، يحتاج عالم البيانات المسؤول إلى الحصول على موافقة من مجلس مراجعة نموذج المؤسسة قبل أن تتم الموافقة على إصدار النموذج الجديد في سجل النموذج.
يتم إنشاء تدريب SageMaker مع خط أنابيب HPO والموارد الداعمة له بواسطة GitLab model build
خط أنابيب، إما عن طريق التشغيل اليدوي لخط أنابيب GitLab أو تلقائيًا عند دمج التعليمات البرمجية في main
فرع من model build
مستودع جيت.
مراقبة النموذج
يتم إنشاء إحصاءات البيانات وخطوط الأساس للقيود كجزء من التدريب والتدريب على خطوط أنابيب HPO. ويتم حفظها في Amazon S3 وتسجيلها أيضًا مع النموذج المُدرب في سجل النموذج إذا اجتاز النموذج التقييم. البنية المقترحة لاستخدامات خط أنابيب الاستدلال الدفعي الأمازون SageMaker نموذج مراقب للتحقق من جودة البيانات، أثناء استخدام Custom أمازون SageMaker معالجة خطوات فحص جودة النموذج. يقوم هذا التصميم بفصل البيانات وفحوصات جودة النموذج، مما يسمح لك بدوره بإرسال إشعار تحذيري فقط عند اكتشاف انحراف البيانات؛ وقم بتشغيل التدريب باستخدام خط أنابيب HPO عند اكتشاف انتهاك لجودة النموذج.
الموافقة على النموذج
بعد تسجيل نموذج تم تدريبه حديثًا في سجل النماذج، يتلقى عالم البيانات المسؤول إشعارًا. إذا تم تدريب النموذج من خلال مسار التدريب (إعادة المعايرة باستخدام بيانات التدريب الجديدة أثناء إصلاح المعلمات الفائقة)، ليست هناك حاجة للحصول على موافقة مجلس مراجعة نموذج المؤسسة. يمكن لعالم البيانات مراجعة الإصدار الجديد من النموذج والموافقة عليه بشكل مستقل. من ناحية أخرى، إذا تم تدريب النموذج من خلال التدريب على خط أنابيب HPO (إعادة الضبط عن طريق تغيير المعلمات الفائقة)، فإن إصدار النموذج الجديد يحتاج إلى الخضوع لعملية مراجعة المؤسسة قبل أن يتم استخدامه للاستدلال في الإنتاج. عند اكتمال عملية المراجعة، يمكن لعالم البيانات المتابعة والموافقة على الإصدار الجديد من النموذج في سجل النموذج. تغيير حالة حزمة النموذج إلى Approved
سيؤدي ذلك إلى تشغيل وظيفة Lambda عبر EventBridge، والتي بدورها ستقوم بتشغيل GitLab model deploy
خط الأنابيب عبر استدعاء API. سيؤدي هذا إلى تحديث مسار الاستدلال الدفعي لـ SageMaker تلقائيًا لاستخدام أحدث إصدار معتمد من النموذج للاستدلال.
هناك طريقتان رئيسيتان للموافقة على إصدار نموذج جديد أو رفضه في سجل النموذج: استخدام AWS SDK لـ Python (Boto3) أو من SageMaker Studio UI. افتراضيًا، يتم تعيين كل من مسار التدريب والتدريب باستخدام خط أنابيب HPO ModelApprovalStatus
إلى PendingManualApproval
. يمكن لعالم البيانات المسؤول تحديث حالة الموافقة للنموذج عن طريق الاتصال بـ update_model_package
واجهة برمجة التطبيقات من Boto3. تشير إلى قم بتحديث حالة الموافقة على نموذج للحصول على تفاصيل حول تحديث حالة الموافقة للنموذج عبر واجهة مستخدم SageMaker Studio.
تصميم إدخال/إخراج البيانات
يتفاعل SageMaker مباشرة مع Amazon S3 لقراءة المدخلات وتخزين مخرجات الخطوات الفردية في مسارات التدريب والاستدلال. يوضح الرسم البياني التالي مدى اختلاف نصوص بايثون، وبيانات التدريب الأولية والمعالجة، وبيانات الاستدلال الأولية والمعالجة، ونتائج الاستدلال وتسميات الحقيقة الأساسية (إذا كانت متوفرة لمراقبة جودة النموذج)، والنماذج الفنية، ومقاييس تقييم التدريب والاستدلال (مراقبة جودة النموذج)، بالإضافة إلى الخطوط الأساسية لجودة البيانات وتقارير الانتهاك (لمراقبة جودة البيانات) التي يمكن تنظيمها ضمن مجموعة S3. يشير اتجاه الأسهم في الرسم التخطيطي إلى الملفات التي تعتبر مدخلات أو مخرجات من الخطوات الخاصة بها في مسارات SageMaker. تم ترميز الأسهم بالألوان بناءً على نوع خطوة خط الأنابيب لتسهيل قراءتها. سيقوم المسار تلقائيًا بتحميل نصوص Python النصية من مستودع GitLab وتخزين ملفات الإخراج أو نماذج النماذج من كل خطوة في مسار S3 المناسب.
مهندس البيانات مسؤول عن ما يلي:
- تحميل بيانات التدريب المصنفة إلى المسار المناسب في Amazon S3. يتضمن ذلك إضافة بيانات تدريب جديدة بانتظام لضمان وصول خط أنابيب التدريب والتدريب باستخدام خط أنابيب HPO إلى بيانات التدريب الحديثة لإعادة تدريب النموذج وإعادة ضبطه، على التوالي.
- تحميل بيانات الإدخال للاستدلال على المسار المناسب في حاوية S3 قبل التشغيل المخطط لخط أنابيب الاستدلال.
- تحميل تسميات الحقيقة الأساسية إلى مسار S3 المناسب لمراقبة جودة النموذج.
يكون عالم البيانات مسؤولاً عما يلي:
- إعداد ملصقات الحقيقة الأساسية وتقديمها لفريق هندسة البيانات لتحميلها على Amazon S3.
- أخذ الإصدارات النموذجية التي تم تدريبها من خلال خط أنابيب HPO من خلال عملية مراجعة المؤسسة والحصول على الموافقات اللازمة.
- الموافقة يدويًا على إصدارات النماذج المدربة حديثًا أو رفضها في السجل النموذجي.
- الموافقة على بوابة الإنتاج لخط الاستدلال والموارد الداعمة للترقية إلى الإنتاج.
عينة من الرموز
في هذا القسم، نقدم نموذجًا للتعليمات البرمجية لعمليات الاستدلال الدفعي من خلال إعداد حساب واحد كما هو موضح في الرسم التخطيطي التالي للبنية. يمكن العثور على نموذج التعليمات البرمجية في مستودع جيثب، ويمكن أن تكون بمثابة نقطة بداية للاستدلال المجمعي من خلال مراقبة النماذج وإعادة التدريب التلقائي باستخدام بوابات الجودة التي غالبًا ما تكون مطلوبة للمؤسسات. يختلف نموذج التعليمات البرمجية عن البنية المستهدفة بالطرق التالية:
- ويستخدم حساب AWS واحدًا لإنشاء نموذج تعلم الآلة ونشره وموارد الدعم. تشير إلى تنظيم بيئة AWS الخاصة بك باستخدام حسابات متعددة للحصول على إرشادات حول إعداد الحسابات المتعددة على AWS.
- يستخدم خط أنابيب GitLab CI/CD واحد لبناء ونشر نموذج ML وموارد الدعم.
- عندما يتم التدريب على إصدار جديد من النموذج والموافقة عليه، لا يتم تشغيل مسار GitLab CI/CD تلقائيًا ويجب تشغيله يدويًا بواسطة عالم البيانات المسؤول لتحديث مسار الاستدلال الدفعي SageMaker بأحدث إصدار معتمد من النموذج.
- إنه يدعم فقط المشغلات المستندة إلى الأحداث S3 لتشغيل مسارات تدريب SageMaker والاستدلال.
المتطلبات الأساسية المسبقة
يجب أن تتوفر لديك المتطلبات الأساسية التالية قبل نشر هذا الحل:
- حساب AWS
- استوديو SageMaker
- دور تنفيذ SageMaker مع Amazon S3 للقراءة/الكتابة و خدمة إدارة مفتاح AWS (AWS KMS) أذونات تشفير/فك تشفير
- حاوية S3 لتخزين البيانات والبرامج النصية والعناصر النموذجية
- Terraform الإصدار 0.13.5 أو أكبر
- GitLab مع مشغل Docker العامل لتشغيل خطوط الأنابيب
- AWS CLI
- jq
- بفك
- Python3 (Python 3.7 أو أحدث) وحزم Python التالية:
- هههههههههههه
- sagemaker
- الباندا
- pyyaml
هيكل المستودع
• مستودع جيثب يحتوي على الدلائل والملفات التالية:
/code/lambda_function/
- يحتوي هذا الدليل على ملف Python الخاص بوظيفة Lambda التي تقوم بإعداد وإرسال رسائل إعلام (عبر Amazon SNS) حول تغييرات حالة خطوة خطوط أنابيب SageMaker/data/
– يتضمن هذا الدليل ملفات البيانات الأولية (بيانات التدريب والاستدلال وبيانات الحقيقة الأرضية)/env_files/
– يحتوي هذا الدليل على ملف متغيرات الإدخال Terraform/pipeline_scripts/
- يحتوي هذا الدليل على ثلاثة نصوص Python لإنشاء وتحديث التدريب والاستدلال والتدريب باستخدام خطوط أنابيب HPO SageMaker، بالإضافة إلى ملفات التكوين لتحديد معلمات كل خط أنابيب/scripts/
- يحتوي هذا الدليل على نصوص بايثون إضافية (مثل المعالجة المسبقة والتقييم) التي يتم الرجوع إليها من خلال التدريب والاستدلال والتدريب على خطوط أنابيب HPO.gitlab-ci.yml
- يحدد هذا الملف تكوين خط أنابيب GitLab CI/CD/events.tf
– يحدد هذا الملف موارد EventBridge/lambda.tf
- يحدد هذا الملف وظيفة إعلام Lambda وما يرتبط بها إدارة الهوية والوصول AWS (IAM) الموارد/main.tf
– يحدد هذا الملف مصادر بيانات Terraform والمتغيرات المحلية/sns.tf
- يحدد هذا الملف موارد Amazon SNS/tags.json
- يتيح لك ملف JSON هذا الإعلان عن أزواج قيمة مفتاح العلامة المخصصة وإلحاقها بموارد Terraform الخاصة بك باستخدام متغير محلي/variables.tf
– يقوم هذا الملف بتعريف كافة متغيرات Terraform
المتغيرات والتكوين
يوضح الجدول التالي المتغيرات المستخدمة لتحديد معلمات هذا الحل. الرجوع إلى ./env_files/dev_env.tfvars
ملف لمزيد من التفاصيل.
الاسم | الوصف |
bucket_name |
حاوية S3 المستخدمة لتخزين البيانات والبرامج النصية والعناصر النموذجية |
bucket_prefix |
بادئة S3 لمشروع ML |
bucket_train_prefix |
بادئة S3 لبيانات التدريب |
bucket_inf_prefix |
بادئة S3 لبيانات الاستدلال |
notification_function_name |
اسم وظيفة Lambda التي تقوم بإعداد وإرسال رسائل إعلام حول تغييرات حالة خطوات خطوط أنابيب SageMaker |
custom_notification_config |
التكوين لتخصيص رسالة الإعلام لخطوات محددة لخط أنابيب SageMaker عند اكتشاف حالة تشغيل قناة محددة |
email_recipient |
قائمة عناوين البريد الإلكتروني لتلقي إشعارات تغيير حالة خطوات خطوط أنابيب SageMaker |
pipeline_inf |
اسم مسار الاستدلال SageMaker |
pipeline_train |
اسم مسار تدريب SageMaker |
pipeline_trainwhpo |
اسم تدريب SageMaker مع خط أنابيب HPO |
recreate_pipelines |
إذا تم التعيين على true ، سيتم حذف مسارات SageMaker الثلاثة الموجودة (التدريب والاستدلال والتدريب باستخدام HPO) وسيتم إنشاء مسارات جديدة عند تشغيل GitLab CI/CD |
model_package_group_name |
اسم مجموعة الحزمة النموذجية |
accuracy_mse_threshold |
الحد الأقصى لقيمة MSE قبل طلب تحديث النموذج |
role_arn |
دور IAM ARN لدور تنفيذ خط أنابيب SageMaker |
kms_key |
مفتاح KMS ARN لتشفير Amazon S3 وSageMaker |
subnet_id |
معرف الشبكة الفرعية لتكوين شبكة SageMaker |
sg_id |
معرف مجموعة الأمان لتكوين شبكة SageMaker |
upload_training_data |
إذا تم التعيين على true ، سيتم تحميل بيانات التدريب إلى Amazon S3، وستؤدي عملية التحميل هذه إلى تشغيل مسار التدريب |
upload_inference_data |
إذا تم التعيين على true ، سيتم تحميل بيانات الاستدلال إلى Amazon S3، وستؤدي عملية التحميل هذه إلى تشغيل مسار الاستدلال |
user_id |
معرف الموظف لمستخدم SageMaker الذي تمت إضافته كعلامة إلى موارد SageMaker |
انشر الحل
أكمل الخطوات التالية لنشر الحل في حساب AWS الخاص بك:
- انسخ مستودع GitHub في دليل العمل الخاص بك.
- قم بمراجعة وتعديل تكوين خط أنابيب GitLab CI/CD ليناسب بيئتك. يتم تحديد التكوين في
./gitlab-ci.yml
ملف. - ارجع إلى ملف README لتحديث متغيرات الحل العامة في ملف
./env_files/dev_env.tfvars
ملف. يحتوي هذا الملف على متغيرات لكل من نصوص Python وأتمتة Terraform.- تحقق من معلمات SageMaker Pipelines الإضافية التي تم تحديدها في ملفات YAML ضمن
./batch_scoring_pipeline/pipeline_scripts/
. قم بمراجعة المعلمات وتحديثها إذا لزم الأمر.
- تحقق من معلمات SageMaker Pipelines الإضافية التي تم تحديدها في ملفات YAML ضمن
- قم بمراجعة البرامج النصية لإنشاء خطوط أنابيب SageMaker في
./pipeline_scripts/
وكذلك البرامج النصية التي يتم الرجوع إليها من قبلهم في./scripts/
مجلد. تعتمد أمثلة البرامج النصية المتوفرة في GitHub repo على مجموعة بيانات أذن البحر. إذا كنت ستستخدم مجموعة بيانات مختلفة، فتأكد من تحديث البرامج النصية لتناسب مشكلتك الخاصة. - ضع ملفات البيانات الخاصة بك في
./data/
المجلد باستخدام اصطلاح التسمية التالي. إذا كنت تستخدم مجموعة بيانات Abalone مع الأمثلة النصية المقدمة، فتأكد من أن ملفات البيانات بدون رأس، وأن بيانات التدريب تتضمن متغيرات مستقلة ومتغيرات مستهدفة مع الاحتفاظ بالترتيب الأصلي للأعمدة، وأن بيانات الاستدلال تتضمن فقط المتغيرات المستقلة، والحقيقة الأساسية يتضمن الملف المتغير الهدف فقط.training-data.csv
inference-data.csv
ground-truth.csv
- قم بتنفيذ الكود ودفعه إلى المستودع لتشغيل خط أنابيب GitLab CI/CD (التشغيل الأول). لاحظ أن تشغيل خط الأنابيب الأول سيفشل على
pipeline
المرحلة لأنه لا يوجد إصدار نموذج معتمد حتى الآن لاستخدام البرنامج النصي لخط أنابيب الاستدلال. راجع سجل الخطوات وتحقق من اسم قناة SageMaker الجديدةTrainingPipeline
تم إنشاؤه بنجاح.
-
- افتح واجهة مستخدم SageMaker Studio، ثم قم بمراجعة مسار التدريب وتشغيله.
- بعد التشغيل الناجح لمسار التدريب، قم بالموافقة على إصدار النموذج المسجل في سجل النموذج، ثم أعد تشغيل مسار GitLab CI/CD بالكامل.
- قم بمراجعة مخرجات خطة Terraform في
build
منصة. الموافقة على الدليلapply
مرحلة في مسار GitLab CI/CD لاستئناف تشغيل المسار وتفويض Terraform لإنشاء موارد المراقبة والإشعارات في حساب AWS الخاص بك. - أخيرًا، راجع حالة تشغيل مسارات SageMaker وإخراجها في واجهة مستخدم SageMaker Studio وتحقق من بريدك الإلكتروني بحثًا عن رسائل الإشعارات، كما هو موضح في لقطة الشاشة التالية. نص الرسالة الافتراضي بتنسيق JSON.
خطوط أنابيب SageMaker
في هذا القسم، نقوم بوصف مسارات SageMaker الثلاثة ضمن سير عمل MLOps.
خط أنابيب التدريب
يتكون مسار التدريب من الخطوات التالية:
- خطوة المعالجة المسبقة، بما في ذلك تحويل الميزات والتشفير
- خطوة التحقق من جودة البيانات لإنشاء إحصاءات البيانات والقيود الأساسية باستخدام بيانات التدريب
- خطوة التدريب
- خطوة تقييم التدريب
- خطوة الشرط للتحقق مما إذا كان النموذج المدرب يلبي حد الأداء المحدد مسبقًا
- خطوة تسجيل النموذج لتسجيل النموذج المدرب حديثاً في سجل النموذج إذا كان النموذج المدرب يلبي حد الأداء المطلوب
كلا ال skip_check_data_quality
و register_new_baseline_data_quality
تم ضبط المعلمات على True
في خط التدريب. تقوم هذه المعلمات بتوجيه المسار لتخطي فحص جودة البيانات وإنشاء وتسجيل إحصائيات البيانات الجديدة أو خطوط الأساس للقيود باستخدام بيانات التدريب. ويصور الشكل التالي التشغيل الناجح لخط أنابيب التدريب.
دفعة خط أنابيب الاستدلال
يتكون خط أنابيب الاستدلال الدفعي من الخطوات التالية:
- إنشاء نموذج من أحدث إصدار نموذج معتمد في سجل النماذج
- خطوة المعالجة المسبقة، بما في ذلك تحويل الميزات والتشفير
- خطوة الاستدلال دفعة
- خطوة المعالجة المسبقة للتحقق من جودة البيانات، والتي تقوم بإنشاء ملف CSV جديد يحتوي على بيانات الإدخال وتنبؤات النماذج لاستخدامها في فحص جودة البيانات
- خطوة فحص جودة البيانات، والتي تتحقق من البيانات المدخلة مقابل إحصائيات خط الأساس والقيود المرتبطة بالنموذج المسجل
- خطوة الشرط للتحقق من توفر بيانات الحقيقة الأرضية. إذا كانت بيانات الحقيقة الأرضية متاحة، فسيتم تنفيذ خطوة التحقق من جودة النموذج
- خطوة حساب جودة النموذج، والتي تحسب أداء النموذج بناءً على تسميات الحقيقة الأساسية
كلا ال skip_check_data_quality
و register_new_baseline_data_quality
تم ضبط المعلمات على False
في خط أنابيب الاستدلال. تقوم هذه المعلمات بتوجيه المسار لإجراء فحص جودة البيانات باستخدام إحصائيات البيانات أو خط الأساس للقيود المرتبطة بالنموذج المسجل (supplied_baseline_statistics_data_quality
و supplied_baseline_constraints_data_quality
) وتخطي إنشاء أو تسجيل إحصائيات البيانات الجديدة والقيود الأساسية أثناء الاستدلال. يوضح الشكل التالي تشغيل خط أنابيب الاستدلال الدفعي حيث فشلت خطوة التحقق من جودة البيانات بسبب الأداء الضعيف للنموذج على بيانات الاستدلال. في هذه الحالة بالذات، سيتم تشغيل التدريب باستخدام خط أنابيب HPO تلقائيًا لضبط النموذج.
التدريب مع خط أنابيب HPO
يتكون التدريب باستخدام خط أنابيب HPO من الخطوات التالية:
- خطوة المعالجة المسبقة (تحويل الميزة وترميزها)
- خطوة التحقق من جودة البيانات لإنشاء إحصاءات البيانات والقيود الأساسية باستخدام بيانات التدريب
- خطوة ضبط المعلمة الفائقة
- خطوة تقييم التدريب
- خطوة الشرط للتحقق مما إذا كان النموذج المدرب يلبي حد الدقة المحدد مسبقًا
- خطوة تسجيل النموذج إذا كان أفضل نموذج مدرب يلبي حد الدقة المطلوب
كلا ال skip_check_data_quality
و register_new_baseline_data_quality
تم ضبط المعلمات على True
في التدريب مع خط أنابيب HPO. يوضح الشكل التالي التشغيل الناجح للتدريب باستخدام خط أنابيب HPO.
تنظيف
أكمل الخطوات التالية لتنظيف مواردك:
- توظيف
destroy
المرحلة في مسار GitLab CI/CD للتخلص من جميع الموارد التي توفرها Terraform. - استخدم AWS CLI من أجل قائمة و إزالة أي خطوط الأنابيب المتبقية التي تم إنشاؤها بواسطة البرامج النصية بايثون.
- اختياريًا، احذف موارد AWS الأخرى مثل حاوية S3 أو دور IAM الذي تم إنشاؤه خارج مسار CI/CD.
وفي الختام
في هذا المنشور، أوضحنا كيف يمكن للمؤسسات إنشاء مسارات عمل MLOps لوظائف الاستدلال المجمعة الخاصة بها باستخدام Amazon SageMaker وAmazon EventBridge وAWS Lambda وAmazon SNS وHashiCorp Terraform وGitLab CI/CD. يقوم سير العمل المقدم بأتمتة مراقبة البيانات والنماذج، وإعادة تدريب النماذج، بالإضافة إلى تشغيل المهام المجمعة، وإصدار التعليمات البرمجية، وتوفير البنية التحتية. يمكن أن يؤدي هذا إلى تخفيضات كبيرة في التعقيدات وتكاليف الحفاظ على وظائف الاستدلال الدفعي في الإنتاج. لمزيد من المعلومات حول تفاصيل التنفيذ، قم بمراجعة جيثب ريبو.
حول المؤلف
حسن شجاعي هو عالم بيانات أول لدى AWS Professional Services، حيث يساعد العملاء في مختلف الصناعات مثل الرياضة والتأمين والخدمات المالية على حل تحديات أعمالهم من خلال استخدام البيانات الضخمة والتعلم الآلي والتقنيات السحابية. قبل توليه هذا المنصب، قاد حسن مبادرات متعددة لتطوير تقنيات النمذجة الجديدة القائمة على الفيزياء والمبنية على البيانات لشركات الطاقة الكبرى. خارج العمل، حسن شغوف بالكتب والمشي لمسافات طويلة والتصوير الفوتوغرافي والتاريخ.
ونشين ليو هو مهندس البنية التحتية السحابية الأول. يقدم Wenxin المشورة لشركات المؤسسات حول كيفية تسريع اعتماد السحابة ودعم ابتكاراتهم على السحابة. إنه محب للحيوانات الأليفة ولديه شغف بالتزلج على الجليد والسفر.
فيفيك لاكشمانان هو مهندس التعلم الآلي في أمازون. حصل على درجة الماجستير في هندسة البرمجيات مع التخصص في علوم البيانات والعديد من سنوات الخبرة باعتباره MLE. Vivek متحمس لتطبيق التقنيات المتطورة وبناء حلول AI/ML للعملاء على السحابة. إنه شغوف بالإحصاء والبرمجة اللغوية العصبية وقابلية شرح النماذج في الذكاء الاصطناعي/التعلم الآلي. يستمتع في أوقات فراغه بلعب الكريكيت والقيام برحلات برية.
أندي كراكشيولو هو مهندس البنية التحتية السحابية. يتمتع آندي بخبرة تزيد عن 15 عامًا في البنية التحتية لتكنولوجيا المعلومات، وهو متخصص بارع في مجال تكنولوجيا المعلومات ويركز على تحقيق النتائج. بالإضافة إلى تحسين البنية التحتية لتكنولوجيا المعلومات والعمليات والأتمتة، يتمتع آندي بسجل حافل في تحليل عمليات تكنولوجيا المعلومات وتحديد أوجه عدم الاتساق وتنفيذ تحسينات العمليات التي تزيد الكفاءة وتقلل التكاليف وتزيد الأرباح.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون السيارات / المركبات الكهربائية ، كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- تشارت بريم. ارفع مستوى لعبة التداول الخاصة بك مع ChartPrime. الوصول هنا.
- BlockOffsets. تحديث ملكية الأوفست البيئية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/mlops-for-batch-inference-with-model-monitoring-and-retraining-using-amazon-sagemaker-hashicorp-terraform-and-gitlab-ci-cd/
- :لديها
- :يكون
- :ليس
- :أين
- $ UP
- 100
- 125
- 13
- 15 سنة
- 15%
- 26%
- 29
- 500
- 7
- a
- من نحن
- تسريع
- الوصول
- إنجاز
- حسابي
- الحسابات
- دقة
- في
- يقدم
- وأضاف
- مضيفا
- إضافة
- إضافي
- العنوان
- تبني
- ضد
- AI / ML
- الكل
- يسمح
- على طول
- أيضا
- أمازون
- الأمازون SageMaker
- أمازون ويب سيرفيسز
- an
- تحليل
- و
- والبنية التحتية
- أي وقت
- API
- تطبيق
- تطوير التطبيقات
- تطبيق
- نهج
- مناسب
- موافقة
- الموافقات
- الموافقة على
- من وزارة الصحة
- هندسة معمارية
- هي
- AS
- الجوانب
- أسوشيتد
- At
- القابلية للتدقيق
- يأذن
- السيارات
- الأتمتة
- أوتوماتيك
- تلقائيا
- أتمتة
- متاح
- AWS
- AWS لامدا
- الخدمات المهنية AWS
- على أساس
- خط الأساس
- BE
- لان
- كان
- قبل
- تستفيد
- أفضل
- أفضل الممارسات
- كبير
- البيانات الكبيرة
- مجلس
- الجسدي
- كُتُب
- على حد سواء
- الفرع
- ابني
- بنيت
- الأعمال
- by
- تحسب
- حساب
- دعوة
- دعوة
- CAN
- حقيبة
- مركزي
- التحديات
- تحدي
- تغيير
- التغييرات
- متغير
- التحقق
- تدقيق
- الشيكات
- تصنيف
- سحابة
- اعتماد السحابة
- البنية التحتية السحابية
- الكود
- الأعمدة
- الشركات
- مقارنة
- إكمال
- التعقيدات
- الالتزام
- تتألف
- مفهوم
- الاعداد
- بالتزامن
- القيود
- يحتوي
- متواصل
- مراقبة
- ضوابط
- اتفاقية
- التكاليف
- استطاع
- خلق
- خلق
- يخلق
- خلق
- خلق
- كريكيت
- على
- العملاء
- المتطور والحديث
- البيانات
- علم البيانات
- عالم البيانات
- تعتمد على البيانات
- يعلن
- الترتيب
- تعريف
- يعرف
- الدرجة العلمية
- التوصيل
- شرح
- تظاهر
- نشر
- نشر
- نشر
- وصف
- تصميم
- التفاصيل
- تفاصيل
- الكشف عن
- تطوير
- التطوير التجاري
- مختلف
- اتجاه
- مباشرة
- الدلائل
- يكتشف
- بحث
- عامل في حوض السفن
- هل
- لا
- اثنان
- أثناء
- كل
- أسهل
- على نحو فعال
- كفاءة
- فعال
- إما
- القضاء
- البريد الإلكتروني
- موظف
- طاقة
- مهندس
- الهندسة
- التحسينات
- ضمان
- ضمان
- مشروع
- الشركات
- كامل
- البيئة
- خطأ
- تقييم
- الحدث/الفعالية
- مثال
- يتجاوز
- متحمس
- القائمة
- الخبره في مجال الغطس
- f1
- يفشلون
- فشل
- فشل
- الميزات
- الشكل
- قم بتقديم
- ملفات
- مالي
- الخدمات المالية
- الاسم الأول
- ثابت
- متابعيك
- في حالة
- شكل
- وجدت
- تبدأ من
- وظيفة
- وظائف
- البوابات و حواجز اللعب
- العلاجات العامة
- ولدت
- توليد
- بوابة
- GitHub جيثب:
- Go
- الذهاب
- أكبر
- أرض
- تجمع
- توجيه
- يد
- معالجة
- يملك
- he
- يساعد
- له
- تاريخ
- كيفية
- كيفية
- HTML
- HTTP
- HTTPS
- تحسين Hyperparameter
- ID
- تحديد
- هوية
- if
- يوضح
- التنفيذ
- تحقيق
- in
- تتضمن
- يشمل
- بما فيه
- القيمة الاسمية
- مستقل
- بشكل مستقل
- يشير
- فرد
- الصناعات
- معلومات
- البنية التحتية
- المبادرات
- الابتكارات
- إدخال
- المدخلات
- التأمين
- التكامل
- يتفاعل
- إلى
- تقديم
- مسائل
- IT
- انها
- وظيفة
- المشــاريــع
- JPG
- جسون
- م
- القفل
- ملصقات
- آخر
- قيادة
- تعلم
- ليد
- دورة حياة
- خط
- قائمة
- محلي
- سجل
- آلة
- آلة التعلم
- الرئيسية
- الحفاظ على
- جعل
- إدارة
- إدارة
- إدارة
- كتيب
- يدويا
- ملحوظ
- سادة
- مادة
- تعرف علي
- يجتمع
- الرسالة
- رسائل
- متري
- المقاييس
- ML
- MLOps
- نموذج
- تصميم
- عارضات ازياء
- تعديل
- مراقبة
- الأكثر من ذلك
- متعدد
- عين
- تسمية
- ضروري
- حاجة
- بحاجة
- إحتياجات
- الشبكات
- جديد
- حديثا
- البرمجة اللغوية العصبية
- لا
- إعلام
- الإخطارات
- رواية
- موضوع
- تحصل
- الحصول على
- of
- الوهب
- عروض
- غالبا
- on
- منها
- فقط
- عملية
- عمليات
- التحسين
- تحسين
- or
- طلب
- المنظمات
- منظم
- أصلي
- أخرى
- الناتج
- في الخارج
- صفقة
- حزم
- أزواج
- المعلمات
- جزء
- خاص
- يمر
- عاطفي
- مسار
- نفذ
- أداء
- تنفيذ
- تصوير
- خط أنابيب
- خطة
- مخطط
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- لعب
- البوينت
- فقير
- منشور
- الممارسات
- تنبؤات
- يستعد
- الشروط
- يقدم
- قدم
- قبل
- المشكلة
- والمضي قدما
- عملية المعالجة
- معالجتها
- الإنتــاج
- محترف
- الأرباح
- الترويج
- المقترح
- ثبت
- المقدمة
- ويوفر
- توفير
- تسحب
- دفع
- بايثون
- جودة
- الخام
- عرض
- نادي القراءة
- يتلقى
- يستلم
- الأخيرة
- سجل
- تخفيض
- تقليص
- بخصوص
- تسجيل جديد
- مسجل
- تسجيل
- سجلات
- التسجيل
- سجل
- بانتظام
- المتبقية
- تكرار
- التقارير
- مستودع
- يمثل
- مطلوب
- المتطلبات الأساسية
- يتطلب
- الموارد
- هؤلاء
- على التوالي
- مسؤول
- النتائج
- استئنف
- قابلة لإعادة الاستخدام
- مراجعة
- طريق
- النوع
- القواعد
- يجري
- عداء
- تشغيل
- يدير
- sagemaker
- الاستدلال SageMaker
- خطوط الأنابيب SageMaker
- التدرجية
- جدول
- جدولة
- علوم
- عالم
- أحرز هدفاً
- مخطوطات
- الإستراحة
- القسم
- إرسال
- إرسال
- يرسل
- خدمة
- يخدم
- خدماتنا
- طقم
- الإعداد
- عدة
- شاركت
- ينبغي
- أظهرت
- يظهر
- هام
- الاشارات
- عزباء
- تطبيقات الكمبيوتر
- هندسة البرمجيات
- حل
- الحلول
- حل
- مصادر
- مصادر
- محدد
- محدد
- رياضة
- المسرح
- انطلاق
- بداية
- ابتداء
- الولايه او المحافظه
- إحصائيات
- الحالة
- خطوة
- خطوات
- تخزين
- متجر
- تخزين
- الإستراتيجيات
- الهيكلي
- ستوديو
- ناجح
- بنجاح
- هذه
- بدلة
- دعم
- الدعم
- جدول
- TAG
- مع الأخذ
- الهدف
- مهمة
- فريق
- تقنيات
- التكنولوجيا
- قالب
- Terraform
- من
- أن
- •
- من مشاركة
- منهم
- then
- هناك.
- وبالتالي
- تشبه
- هم
- ثلاثة
- عتبة
- عبر
- الوقت
- إلى
- أدوات
- تيشرت
- المواضيع
- مسار
- سجل تتبع
- متدرب
- قادة الإيمان
- تحول
- شفاف
- السفر
- يثير
- أثار
- حقيقة
- منعطف أو دور
- اثنان
- نوع
- نموذجي
- ui
- مع
- يؤكد
- تحديث
- تحديث
- تم التحميل
- تحميل
- تستخدم
- مستعمل
- مستخدم
- يستخدم
- استخدام
- الاستفادة من
- تستخدم
- قيمنا
- متغير
- تحقق من
- الإصدار
- الإصدارات
- بواسطة
- عنيف
- تحذير
- طريق..
- طرق
- we
- الويب
- خدمات ويب
- حسن
- متى
- سواء
- التي
- في حين
- من الذى
- سوف
- مع
- في غضون
- للعمل
- سير العمل
- سير العمل
- عامل
- يامل
- سنوات
- حتى الآن
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت