ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps PlatoBlockchain Data Intelligence بسهولة. البحث العمودي. عاي.

ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps بسهولة

Amazon SageMaker الطيار الآلي، خدمة التعلم الآلي منخفضة الكود (ML) التي تبني وتدرّب وتضبط أفضل نماذج تعلّم الآلة تلقائيًا استنادًا إلى البيانات المجدولة ، تم دمجها الآن مع خطوط أنابيب Amazon SageMaker، أول خدمة تكامل مستمر وتوصيل مستمر (CI / CD) مبنية لهذا الغرض لتعلّم الآلة. يتيح ذلك أتمتة التدفق الشامل لنماذج ML للمبنى باستخدام الطيار الآلي ودمج النماذج في خطوات CI / CD اللاحقة.

حتى الآن ، لبدء تجربة الطيار الآلي داخل خطوط الأنابيب ، عليك إنشاء سير عمل لبناء النموذج عن طريق كتابة رمز تكامل مخصص باستخدام خطوط الأنابيب لامدا or اﻟﻤﻌﺎﻟﺠﺔ خطوات. لمزيد من المعلومات، راجع انقل نماذج Amazon SageMaker Autopilot ML من التجربة إلى الإنتاج باستخدام خطوط أنابيب Amazon SageMaker.

مع دعم الطيار الآلي كخطوة أصلية داخل خطوط الأنابيب ، يمكنك الآن إضافة خطوة تدريب آلية (AutoMLStep) في خطوط الأنابيب واستدعاء تجربة الطيار الآلي مع تجميع وضع التدريب. على سبيل المثال ، إذا كنت تقوم ببناء سير عمل للتدريب والتقييم لحالة استخدام للكشف عن الاحتيال باستخدام خطوط الأنابيب ، فيمكنك الآن بدء تجربة الطيار الآلي باستخدام خطوة AutoML ، والتي تقوم تلقائيًا بتشغيل تجارب متعددة للعثور على أفضل نموذج في مجموعة بيانات إدخال معينة . بعد إنشاء أفضل نموذج باستخدام ملف خطوة النموذج، يمكن تقييم أدائها على بيانات الاختبار باستخدام خطوة التحويل و خطوة المعالجة لبرنامج نصي تقييم مخصص داخل خطوط الأنابيب. في النهاية ، يمكن تسجيل النموذج في سجل نموذج SageMaker باستخدام خطوة النموذج بالاشتراك مع خطوة الشرط.

في هذا المنشور ، نعرض كيفية إنشاء سير عمل ML من طرف إلى طرف لتدريب وتقييم نموذج ML الذي تم إنشاؤه بواسطة SageMaker باستخدام خطوة AutoML التي تم إطلاقها حديثًا في خطوط الأنابيب وتسجيله في سجل نموذج SageMaker. يمكن نشر نموذج ML مع أفضل أداء في نقطة نهاية SageMaker.

نظرة عامة على مجموعة البيانات

نحن نستخدم المتاحة للجمهور مجموعة بيانات تعداد البالغين لعام 1994 الخاص بالاتحاد الدولي للدراجات للتنبؤ بما إذا كان الشخص لديه دخل سنوي يزيد عن 50,000 دولار في السنة. هذه مشكلة تصنيف ثنائي؛ خيارات متغير الدخل المستهدف هي إما 50 ألفًا.

تحتوي مجموعة البيانات على 32,561 صفًا للتدريب والتحقق و 16,281 صفًا للاختبار مع 15 عمودًا لكل منها. يتضمن هذا المعلومات الديموغرافية حول الأفراد و class كعمود مستهدف يشير إلى فئة الدخل.

اسم العمود الوصف
السن مستمر
فئة العمل خاص ، حكومة ذاتية ، غير مؤسسية ، شركة ذاتية ، حكومة اتحادية ، حكومة محلية ، حكومة دولة ، بدون أجر ، لم تعمل أبدًا
com.fnlwgt مستمر
التعليم البكالوريوس ، بعض الكلية ، 11 ، HS-grad ، Prof-school ، Assoc-acdm ، Assoc-voc ، 9 ، 7-8 ، 12 ، ماجستير ، 1-4 ، 10 ، دكتوراه ، 5-6 ، مرحلة ما قبل المدرسة
تعليم الأسطوانات مستمر
الحالة الزوجية متزوج-زوجة-متزوجة ، مطلقة ، لم يتزوج مطلقًا ، منفصل ، أرمل ، متزوج-زوجة-غائبة ، متزوج-زوج-زوج-زوجة
احتلال دعم تقني ، إصلاح حرفي ، خدمات أخرى ، مبيعات ، تنفيذي-إداري ، متخصص ، متخصص ، عمال النظافة ، فحص الآلة ، Adm-clerical ، Farming-Fishing ، Transport-move ، Priv-house-service ، خدمة الحماية ، القوات المسلحة
صلة زوجة ، ابن خاص ، زوج ، ليس في الأسرة ، قريب آخر ، غير متزوج
سباق أبيض ، آسيوي-باك-آيلند ، عامر-هندي-إسكيمو ، أخرى ، أسود
جنس انثى ذكر
مكاسب رأس المال مستمر
خسارة رأس المال مستمر
ساعات في الأسبوع مستمر
الوطن الأم الولايات المتحدة ، كمبوديا ، إنجلترا ، بورتوريكو ، كندا ، ألمانيا ، الولايات المتحدة البعيدة (غوام-USVI ، إلخ) ، الهند ، اليابان ، اليونان ، الجنوب ، الصين ، كوبا ، إيران ، هندوراس ، الفلبين ، إيطاليا ، بولندا ، جامايكا ، فيتنام ، المكسيك ، البرتغال ، أيرلندا ، فرنسا ، جمهورية الدومينيكان ، لاوس ، الإكوادور ، تايوان ، هايتي ، كولومبيا ، المجر ، غواتيمالا ، نيكاراغوا ، اسكتلندا ، تايلاند ، يوغوسلافيا ، السلفادور ، تريناداد وتوباغو ، بيرو ، هونغ ، هولندا
فئة فئة الدخل إما 50 ألفًا

حل نظرة عامة

نحن نستخدم خطوط الأنابيب لتنظيم مختلف خطوات خط الأنابيب مطلوب لتدريب نموذج الطيار الآلي. نقوم بإنشاء وتشغيل ملف تجربة الطيار الآلي كجزء من خطوة AutoML كما هو موضح في هذا البرنامج التعليمي.

الخطوات التالية مطلوبة لعملية تدريب الطيار الآلي الشاملة هذه:

  • قم بإنشاء ومراقبة وظيفة تدريب الطيار الآلي باستخدام AutoMLStep.
  • قم بإنشاء نموذج SageMaker باستخدام ModelStep. تجلب هذه الخطوة أفضل البيانات الوصفية والتحف للنموذج التي قدمها الطيار الآلي في الخطوة السابقة.
  • تقييم نموذج الطيار الآلي المدرب على مجموعة بيانات الاختبار باستخدام TransformStep.
  • قارن الإخراج من التشغيل السابق TransformStep باستخدام التسميات المستهدفة الفعلية ProcessingStep.
  • قم بتسجيل نموذج ML في ملف سجل نموذج SageMaker استخدام ModelStep، إذا تجاوز مقياس التقييم الذي تم الحصول عليه مسبقًا حدًا محددًا مسبقًا في ConditionStep.
  • انشر نموذج ML كنقطة نهاية SageMaker لأغراض الاختبار.

معمار

يوضح الرسم التخطيطي للهندسة المعمارية أدناه خطوات خط الأنابيب المختلفة اللازمة لحزم جميع الخطوات في خط أنابيب تدريب SageMaker Autopilot قابل للتكرار ، وآلي ، وقابل للتطوير. تتم قراءة ملفات البيانات من حاوية S3 ويتم استدعاء خطوات خط الأنابيب بالتسلسل.

تجول

يقدم هذا المنشور شرحًا مفصلاً لخطوات خط الأنابيب. نراجع الكود ونناقش مكونات كل خطوة. لنشر الحل ، ارجع إلى سبيل المثال دفتر، والذي يوفر إرشادات خطوة بخطوة لتنفيذ سير عمل الطيار الآلي MLOps باستخدام خطوط الأنابيب.

المتطلبات الأساسية المسبقة

أكمل المتطلبات الأساسية التالية:

عندما تكون مجموعة البيانات جاهزة للاستخدام ، نحتاج إلى إعداد خطوط الأنابيب لإنشاء عملية قابلة للتكرار لإنشاء نماذج ML تلقائيًا وتدريبها باستخدام الطيار الآلي. نحن نستخدم ال سيج ميكر SDK لتعريف خط تدريب ML من طرف إلى طرف وتشغيله وتتبعه برمجيًا.

خطوات خط الأنابيب

في الأقسام التالية ، ننتقل من خلال الخطوات المختلفة في خط أنابيب SageMaker ، بما في ذلك تدريب AutoML ، وإنشاء النموذج ، والاستدلال الدفعي ، والتقييم ، والتسجيل الشرطي لأفضل نموذج. يوضح الرسم البياني التالي تدفق خط الأنابيب بالكامل.

ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps PlatoBlockchain Data Intelligence بسهولة. البحث العمودي. عاي.

خطوة تدريب AutoML

An كائن AutoML يستخدم لتعريف تشغيل وظيفة تدريب الطيار الآلي ويمكن إضافته إلى خط أنابيب SageMaker باستخدام AutoMLStep class ، كما هو موضح في الكود التالي. يجب تحديد وضع تدريب التجميع ، ولكن يمكن تعديل المعلمات الأخرى حسب الحاجة. على سبيل المثال ، بدلاً من ترك وظيفة AutoML تستنتج ML تلقائيًا نوع المشكلة و مقياس موضوعي، يمكن أن يتم ترميزها من خلال تحديد problem_type و job_objective تم تمرير المعلمات إلى كائن AutoML.

automl = AutoML(
    role=execution_role,
    target_attribute_name=target_attribute_name,
    sagemaker_session=pipeline_session,
    total_job_runtime_in_seconds=max_automl_runtime,
    mode="ENSEMBLING",
)
train_args = automl.fit(
    inputs=[
        AutoMLInput(
            inputs=s3_train_val,
            target_attribute_name=target_attribute_name,
            channel_type="training",
        )
    ]
)
step_auto_ml_training = AutoMLStep(
    name="AutoMLTrainingStep",
    step_args=train_args,
)

خطوة إنشاء النموذج

تعتني خطوة AutoML بتوليد العديد من المرشحين لنموذج ML ، والجمع بينهم ، والحصول على أفضل نموذج ML. يتم تخزين عناصر النماذج والبيانات الوصفية تلقائيًا ويمكن الحصول عليها عن طريق استدعاء get_best_auto_ml_model() الطريقة في خطوة تدريب AutoML. يمكن بعد ذلك استخدام هذه لإنشاء نموذج SageMaker كجزء من خطوة النموذج:

best_auto_ml_model = step_auto_ml_training.get_best_auto_ml_model(
    execution_role, sagemaker_session=pipeline_session
)
step_args_create_model = best_auto_ml_model.create(instance_type=instance_type)
step_create_model = ModelStep(name="ModelCreationStep", step_args=step_args_create_model)

خطوات التحويل والتقييم الدفعي

نستخدم كائن محول For الاستدلال دفعة في مجموعة بيانات الاختبار ، والتي يمكن استخدامها بعد ذلك لأغراض التقييم. تتم مقارنة تنبؤات المخرجات بتسميات الحقيقة الفعلية أو الأرضية باستخدام وظيفة مقاييس Scikit-Learn. نقوم بتقييم نتائجنا بناءً على نتيجة F1. يتم حفظ مقاييس الأداء في ملف JSON ، والذي تتم الإشارة إليه عند تسجيل النموذج في الخطوة التالية.

خطوات التسجيل المشروط

في هذه الخطوة ، نسجل نموذج الطيار الآلي الجديد الخاص بنا في سجل نموذج SageMaker ، إذا كان يتجاوز عتبة قياس التقييم المحددة مسبقًا.

إنشاء وتشغيل خط الأنابيب

بعد تحديد الخطوات ، نقوم بدمجها في خط أنابيب SageMaker:

pipeline = Pipeline(
    name="AutoMLTrainingPipeline",
    parameters=[
        instance_count,
        instance_type,
        max_automl_runtime,
        model_approval_status,
        model_package_group_name,
        model_registration_metric_threshold,
        s3_bucket,
        target_attribute_name,
    ],
    steps=[
        step_auto_ml_training,
        step_create_model,
        step_batch_transform,
        step_evaluation,
        step_conditional_registration,
    ],
    sagemaker_session=pipeline_session,
)

يتم تنفيذ الخطوات بترتيب تسلسلي. يدير خط الأنابيب جميع الخطوات لوظيفة AutoML باستخدام الطيار الآلي وخطوط الأنابيب للتدريب وتقييم النموذج وتسجيل النموذج.

يمكنك عرض النموذج الجديد بالانتقال إلى سجل النموذج في وحدة تحكم الاستوديو والفتح AutoMLModelPackageGroup. اختر أي إصدار لوظيفة تدريبية لعرض المقاييس الموضوعية على جودة النموذج علامة التبويب.

ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps PlatoBlockchain Data Intelligence بسهولة. البحث العمودي. عاي.

يمكنك عرض تقرير الشرح على شرح علامة التبويب لفهم توقعات نموذجك.

ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps PlatoBlockchain Data Intelligence بسهولة. البحث العمودي. عاي.

لعرض تجربة الطيار الآلي الأساسية لجميع النماذج التي تم إنشاؤها في AutoMLStep، انتقل إلى AutoML الصفحة واختر اسم الوظيفة.

ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps PlatoBlockchain Data Intelligence بسهولة. البحث العمودي. عاي.

انشر النموذج

بعد أن قمنا بمراجعة أداء نموذج ML يدويًا ، يمكننا نشر نموذجنا الذي تم إنشاؤه حديثًا إلى نقطة نهاية SageMaker. لهذا ، يمكننا تشغيل الخلايا في دفتر الملاحظات التي تنشئ نقطة نهاية النموذج باستخدام تكوين النموذج المحفوظ في سجل نموذج SageMaker.

لاحظ أن هذا البرنامج النصي مشترك لأغراض العرض التوضيحي ، ولكن يوصى باتباع خط أنابيب CI / CD أكثر قوة لنشر الإنتاج لاستدلال ML. لمزيد من المعلومات ، يرجى الرجوع إلى إنشاء مهام سير عمل تعلم الآلة وأتمتتها وإدارتها وتوسيع نطاقها باستخدام Amazon SageMaker Pipelines.

نبذة عامة

يصف هذا المنشور نهج خط أنابيب ML سهل الاستخدام لتدريب نماذج ML المجدولة (AutoML) تلقائيًا باستخدام الطيار الآلي وخطوط الأنابيب والاستوديو. يعمل AutoML على تحسين كفاءة ممارسي ML ، وتسريع المسار من تجربة ML إلى الإنتاج دون الحاجة إلى خبرة واسعة في ML. نحدد خطوات خط الأنابيب ذات الصلة اللازمة لإنشاء نموذج ML وتقييمه وتسجيله. ابدأ بتجربة سبيل المثال دفتر لتدريب ونشر نماذج AutoML المخصصة الخاصة بك.

لمزيد من المعلومات حول الطيار الآلي وخطوط الأنابيب ، يرجى الرجوع إلى أتمتة تطوير النموذج باستخدام Amazon SageMaker Autopilot و خطوط أنابيب Amazon SageMaker.

شكر خاص لكل من ساهم في الإطلاق: Shenghua Yue و John He و Ao Guo و Xinlu Tu و Tian Qin و Yanda Hu و Zhankui Lu و Dewen Qi.


حول المؤلف

ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps PlatoBlockchain Data Intelligence بسهولة. البحث العمودي. عاي.جانيشا أناند هو مدير أول للمنتجات في فريق SageMaker Low / No Code ML ، والذي يتضمن SageMaker Autopilot. إنها تستمتع بالقهوة والبقاء نشطة وقضاء الوقت مع عائلتها.

ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps PlatoBlockchain Data Intelligence بسهولة. البحث العمودي. عاي.مارسيلو أبرلي هو مهندس ML في AWS AI. هو يساعد مختبر أمازون ML Solutions يقوم العملاء ببناء أنظمة وأطر ML (-Ops) قابلة للتطوير. في أوقات فراغه ، يستمتع بالمشي لمسافات طويلة وركوب الدراجات في منطقة خليج سان فرانسيسكو.

ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps PlatoBlockchain Data Intelligence بسهولة. البحث العمودي. عاي.جيريمي كوهين هو مهندس حلول مع AWS حيث يساعد العملاء على بناء حلول متطورة قائمة على السحابة. في أوقات فراغه ، يستمتع بالمشي لمسافات قصيرة على الشاطئ ، واستكشاف منطقة الخليج مع عائلته ، وإصلاح الأشياء حول المنزل ، وكسر الأشياء حول المنزل ، والشواء.

ابدأ تجارب Amazon SageMaker Autopilot مباشرة من داخل Amazon SageMaker Pipelines لأتمتة عمليات سير عمل MLOps PlatoBlockchain Data Intelligence بسهولة. البحث العمودي. عاي.Shenghua يو هو مهندس تطوير برمجيات في Amazon SageMaker. تركز على بناء أدوات ومنتجات ML للعملاء. خارج العمل ، تستمتع بالهواء الطلق واليوغا والمشي لمسافات طويلة.

الطابع الزمني:

اكثر من التعلم الآلي من AWS