الإنشاء والمشاركة والنشر: كيف يحقق محللو الأعمال وعلماء البيانات وقتًا أسرع للتسويق باستخدام ML بدون كود و Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الإنشاء والمشاركة والنشر: كيف يحقق محللو الأعمال وعلماء البيانات وقتًا أسرع للتسويق باستخدام ML بدون كود و Amazon SageMaker Canvas

يساعد التعلم الآلي (ML) المؤسسات على زيادة الإيرادات ، ودفع نمو الأعمال ، وتقليل التكلفة من خلال تحسين وظائف الأعمال الأساسية عبر قطاعات متعددة ، مثل التنبؤ بالطلب ، وتسجيل الائتمان ، والتسعير ، والتنبؤ بتضخم العملاء ، وتحديد أفضل العروض التالية ، والتنبؤ بالشحنات المتأخرة ، و تحسين جودة التصنيع. تستغرق دورات تطوير ML التقليدية شهورًا وتتطلب علوم البيانات ومهارات هندسية نادرة. غالبًا ما تجلس أفكار المحللين لنماذج التعلم الآلي في مجموعات طويلة من الأعمال المتراكمة في انتظار عرض النطاق الترددي لفريق علوم البيانات ، بينما يركز علماء البيانات على مشروعات تعلم الآلة الأكثر تعقيدًا التي تتطلب مجموعة مهاراتهم الكاملة.

للمساعدة في كسر هذا الجمود ، قمنا بذلك قدم Amazon SageMaker Canvas، حل ML بدون رمز يمكن أن يساعد الشركات على تسريع تسليم حلول ML حتى ساعات أو أيام. يمكّن SageMaker Canvas المحللين من استخدام البيانات المتاحة بسهولة في بحيرات البيانات ومستودعات البيانات ومخازن البيانات التشغيلية ؛ بناء نماذج ML ؛ واستخدامها لعمل تنبؤات بشكل تفاعلي ولتسجيل الدفعة على مجموعات البيانات المجمعة — كل ذلك بدون كتابة سطر واحد من التعليمات البرمجية.

في هذا المنشور ، نوضح كيف يتيح SageMaker Canvas إمكانية التعاون بين علماء البيانات ومحللي الأعمال ، وتحقيق وقت أسرع للتسويق وتسريع تطوير حلول ML. يحصل المحللون على مساحة عمل ML الخاصة بهم بدون كود في SageMaker Canvas ، دون الحاجة إلى أن يصبحوا خبيرًا في تعلم الآلة. يمكن للمحللين بعد ذلك مشاركة نماذجهم من Canvas ببضع نقرات ، والتي سيتمكن علماء البيانات من العمل بها أمازون ساجميكر ستوديو، بيئة تطوير متكاملة ML من طرف إلى طرف (IDE). من خلال العمل معًا ، يمكن لمحللي الأعمال تقديم معرفتهم بالمجال ونتائج التجربة ، بينما يمكن لعلماء البيانات إنشاء خطوط أنابيب بشكل فعال وتبسيط العملية.

دعنا نتعمق في الشكل الذي سيبدو عليه سير العمل.

يبني محللو الأعمال نموذجًا ، ثم يشاركونه

لفهم كيفية تبسيط SageMaker Canvas للتعاون بين محللي الأعمال وعلماء البيانات (أو مهندسي ML) ، نتعامل أولاً مع العملية كمحلل أعمال. قبل أن تبدأ ، ارجع إلى الإعلان عن Amazon SageMaker Canvas - قدرة التعلم الآلي المرئية بدون تعليمات برمجية لمحللي الأعمال للحصول على إرشادات حول بناء النموذج واختباره باستخدام SageMaker Canvas.

في هذا المنشور ، نستخدم نسخة معدلة من مجموعة بيانات كشف الاحتيال ببطاقة الائتمان من Kaggle ، مجموعة بيانات معروفة لمشكلة تصنيف ثنائي. مجموعة البيانات في الأصل غير متوازنة إلى حد كبير - فهي تحتوي على عدد قليل جدًا من الإدخالات المصنفة على أنها فئة سلبية (معاملات شاذة). بغض النظر عن توزيع الميزات المستهدفة ، لا يزال بإمكاننا استخدام مجموعة البيانات هذه ، لأن SageMaker Canvas تتعامل مع هذا الخلل أثناء تدريب النموذج وضبطه تلقائيًا. تتكون مجموعة البيانات هذه من حوالي 9 ملايين خلية. يمكنك أيضًا تنزيل ملف نسخة مصغرة من مجموعة البيانات هذه. حجم مجموعة البيانات أصغر بكثير ، حيث يبلغ حوالي 500,000 خلية ، نظرًا لأنه تم أخذ عينات أقل بشكل عشوائي ، ثم تم أخذ عينات منها بشكل زائد باستخدام تقنية SMOTE لضمان فقدان أقل قدر ممكن من المعلومات أثناء هذه العملية. إن إجراء تجربة كاملة باستخدام مجموعة البيانات المخفضة هذه يكلفك 0 دولارًا أمريكيًا ضمن الطبقة المجانية من SageMaker Canvas.

بعد بناء النموذج ، يمكن للمحللين استخدامه لعمل تنبؤات مباشرة في Canvas إما للطلبات الفردية ، أو لمجموعة بيانات الإدخال بأكملها بشكل مجمّع.

استخدم النموذج المدرب لتوليد التنبؤات

يمكن أيضًا مشاركة النماذج التي تم إنشاؤها باستخدام Canvas Standard Build بسهولة بنقرة زر واحدة مع علماء البيانات ومهندسي ML الذين يستخدمون SageMaker Studio. يسمح هذا لعالم البيانات بالتحقق من صحة أداء النموذج الذي قمت بإنشائه وتقديم الملاحظات. يمكن لمهندسي ML اختيار نموذجك ودمجه مع مهام سير العمل والمنتجات الحالية المتاحة لشركتك وعملائك. لاحظ أنه في وقت كتابة هذا التقرير ، لا يمكن مشاركة نموذج تم إنشاؤه باستخدام Canvas Quick Build أو نموذج توقع السلاسل الزمنية.

تعد مشاركة نموذج عبر Canvas UI أمرًا سهلاً:

  1. في الصفحة التي تعرض النماذج التي قمت بإنشائها ، اختر نموذجًا.
  2. اختار مشاركة.شارك النموذج المدرب من علامة التبويب تحليل
  3. اختر إصدارًا واحدًا أو أكثر من النموذج الذي تريد مشاركته.
  4. اختياريًا ، قم بتضمين ملاحظة تعطي مزيدًا من السياق حول النموذج أو المساعدة التي تبحث عنها.
  5. اختار أنشئ رابط SageMaker Studio.شارك النموذج مع SageMaker Studio
  6. انسخ الرابط الذي تم إنشاؤه.انسخ الرابط الذي تم إنشاؤه

وهذا كل شيء! يمكنك الآن مشاركة الرابط مع زملائك عبر Slack أو البريد الإلكتروني أو أي طريقة أخرى تفضلها. يجب أن يكون عالم البيانات في نفس مجال SageMaker Studio للوصول إلى النموذج الخاص بك ، لذا تأكد من أن هذا هو الحال مع مسؤول مؤسستك.

شارك النموذج عن طريق إرسال رسالة Slack أو بريد إلكتروني

يصل علماء البيانات إلى معلومات النموذج من SageMaker Studio

الآن ، دعنا نلعب دور عالم البيانات أو مهندس ML ، ونرى الأشياء من وجهة نظرهم باستخدام SageMaker Studio.

يأخذنا الرابط الذي يشاركه المحلل إلى SageMaker Studio ، وهو أول IDE قائم على السحابة لسير عمل ML من طرف إلى طرف.

اعرض نظرة عامة على النموذج كما هو موضح في SageMaker Studio

يتم فتح علامة التبويب تلقائيًا ، وتعرض نظرة عامة على النموذج الذي أنشأه المحلل في SageMaker Canvas. يمكنك أن ترى بسرعة اسم النموذج ، ونوع مشكلة ML ، وإصدار النموذج ، والمستخدم الذي أنشأ النموذج (ضمن الحقل معرّف مستخدم Canvas). يمكنك أيضًا الوصول إلى تفاصيل حول مجموعة بيانات الإدخال وأفضل نموذج تمكنت SageMaker من إنتاجه. سوف نتعمق في ذلك لاحقًا في المنشور.

على إدخال مجموعة البيانات علامة التبويب ، يمكنك أيضًا مشاهدة تدفق البيانات من المصدر إلى مجموعة بيانات الإدخال. في هذه الحالة ، يتم استخدام مصدر بيانات واحد فقط ولم يتم تطبيق أي عمليات ربط ، لذلك يتم عرض مصدر واحد. يمكنك تحليل الإحصائيات والتفاصيل المتعلقة بمجموعة البيانات عن طريق الاختيار افتح دفتر استكشاف البيانات. يتيح لك هذا الكمبيوتر الدفتري استكشاف البيانات التي كانت متاحة قبل تدريب النموذج ، ويحتوي على تحليل للمتغير الهدف ، وعينة من بيانات الإدخال ، وإحصاءات وأوصاف الأعمدة والصفوف ، بالإضافة إلى معلومات أخرى مفيدة لعالم البيانات من أجل معرفة المزيد عن مجموعة البيانات. لمعرفة المزيد حول هذا التقرير ، يرجى الرجوع إلى تقرير استكشاف البيانات.

اعرض نظرة عامة على النموذج ، مع الوظائف المكتملة ومعلومات الوظيفة

بعد تحليل مجموعة بيانات الإدخال ، دعنا ننتقل إلى علامة التبويب الثانية من نظرة عامة على النموذج ، وظيفة AutoML. تحتوي علامة التبويب هذه على وصف لوظيفة AutoML عندما تحدد خيار Standard Build في SageMaker Canvas.

تعمل تقنية AutoML الموجودة أسفل SageMaker Canvas على التخلص من الرفع الثقيل لنماذج ML الخاصة بالمباني. يقوم تلقائيًا بإنشاء وتدريب وضبط أفضل نموذج ML استنادًا إلى بياناتك باستخدام نهج آلي ، مع السماح لك بالحفاظ على التحكم الكامل والرؤية. يتم تضمين هذه الرؤية على النماذج المرشحة التي تم إنشاؤها بالإضافة إلى المعلمات المفرطة المستخدمة أثناء عملية AutoML في ملف دفتر جيل المرشح، المتاح في علامة التبويب هذه.

وظيفة AutoML تحتوي علامة التبويب أيضًا على قائمة بكل نموذج تم إنشاؤه كجزء من عملية AutoML ، مرتبة حسب مقياس الهدف F1. لتسليط الضوء على أفضل نموذج من وظائف التدريب التي تم إطلاقها ، يتم استخدام علامة بدائرة خضراء في أفضل موديل عمودي. يمكنك أيضًا تصور المقاييس الأخرى المستخدمة أثناء مرحلة التدريب والتقييم بسهولة ، مثل درجة الدقة والمنطقة الواقعة تحت المنحنى (AUC). لمعرفة المزيد حول النماذج التي يمكنك تدريبها أثناء وظيفة AutoML والمقاييس المستخدمة لتقييم أداء النموذج المدرب ، ارجع إلى دعم النموذج والمقاييس والتحقق من الصحة.

لمعرفة المزيد حول النموذج ، يمكنك الآن النقر بزر الماوس الأيمن فوق النموذج الأفضل والاختيار فتح في تفاصيل النموذج. بدلاً من ذلك ، يمكنك اختيار ملف أفضل نموذج الارتباط في الجزء العلوي من نظرة عامة على النموذج قسم قمت بزيارته لأول مرة.

تفاصيل النموذج مع أهمية الميزات والمقاييس

تحتوي صفحة تفاصيل النموذج على عدد كبير من المعلومات المفيدة المتعلقة بالنموذج الأفضل أداءً مع بيانات الإدخال هذه. دعنا نركز أولاً على الملخص الموجود أعلى الصفحة. تُظهر لقطة الشاشة المثال السابق أنه من بين مئات عمليات التدريب على النموذج ، كان أداء نموذج XGBoost أفضل على مجموعة بيانات الإدخال. في وقت كتابة هذا التقرير ، كان بإمكان SageMaker Canvas تدريب ثلاثة أنواع من خوارزميات ML: المتعلم الخطي ، و XGBoost ، و Perceptron متعدد الطبقات (MLP) ، ولكل منها مجموعة متنوعة من خطوط أنابيب المعالجة المسبقة والمعلمات الفائقة. لمعرفة المزيد حول كل خوارزمية ، راجع صفحة الخوارزميات المدعومة.

يتضمن SageMaker أيضًا وظيفة توضيحية بفضل التنفيذ الفعال والقابل للتطوير لـ نواة، استنادًا إلى مفهوم قيمة Shapley من مجال نظرية اللعبة التعاونية التي تعين لكل ميزة قيمة مهمة لتوقع معين. يتيح ذلك الشفافية حول كيفية وصول النموذج إلى توقعاته ، ومن المفيد جدًا تحديد أهمية الميزة. يمكن تنزيل تقرير توضيحي كامل يتضمن أهمية الميزة بتنسيق PDF أو دفتر ملاحظات أو بيانات أولية. في هذا التقرير ، يتم عرض مجموعة أكبر من المقاييس بالإضافة إلى قائمة كاملة بالمعلمات المفرطة المستخدمة أثناء مهمة AutoML. لمعرفة المزيد حول كيفية قيام SageMaker بتوفير أدوات شرح متكاملة لحلول AutoML وخوارزميات ML القياسية ، راجع استخدم أدوات شرح متكاملة وحسِّن جودة النموذج باستخدام Amazon SageMaker Autopilot.

أخيرًا ، تعرض علامات التبويب الأخرى في طريقة العرض هذه معلومات حول تفاصيل الأداء (مصفوفة الارتباك ومنحنى الاسترجاع الدقيق ومنحنى ROC) والتحف المستخدمة للمدخلات والتي تم إنشاؤها أثناء مهمة AutoML وتفاصيل الشبكة.

في هذه المرحلة ، يكون لعالم البيانات خياران: نشر النموذج مباشرةً ، أو إنشاء خط أنابيب تدريب يمكن جدولته أو تشغيله يدويًا أو تلقائيًا. توفر الأقسام التالية بعض الأفكار حول كلا الخيارين.

انشر النموذج مباشرة

إذا كان عالم البيانات راضيًا عن النتائج التي تم الحصول عليها من خلال وظيفة AutoML ، فيمكنه نشر النموذج مباشرةً من ملف تفاصيل النموذج صفحة. الأمر بسيط مثل الاختيار نشر النموذج بجانب اسم النموذج.

تفاصيل نموذج إضافية ، من أين يتم نشر النموذج

يعرض لك SageMaker خيارين للنشر: نقطة نهاية في الوقت الفعلي ، يتم تشغيلها بواسطة نقاط نهاية Amazon SageMaker، والاستدلال الجماعي ، مدعوم من تحويل دفعة Amazon SageMaker.

خيار لبدء التنبؤ من AutoML

يوفر SageMaker أيضًا أوضاعًا أخرى للاستدلال. لمعرفة المزيد ، انظر نشر النماذج للاستدلال.

لتمكين وضع التنبؤات في الوقت الفعلي ، ما عليك سوى إعطاء اسم نقطة النهاية ونوع المثيل وعدد المثيلات. نظرًا لأن هذا النموذج لا يتطلب موارد حسابية ثقيلة ، يمكنك استخدام مثيل قائم على وحدة المعالجة المركزية مع عدد أولي يبلغ 1. يمكنك معرفة المزيد حول الأنواع المختلفة المتاحة ومواصفاتها على صفحة تسعير Amazon SageMaker (في ال التسعير عند الطلب ، اختر ال الاستدلال في الوقت الفعلي التبويب). إذا كنت لا تعرف المثيل الذي يجب أن تختاره للنشر ، فيمكنك أيضًا أن تطلب من SageMaker العثور على أفضل واحد لك وفقًا لمؤشرات الأداء الرئيسية الخاصة بك باستخدام التوصية بالاستدلال SageMaker. يمكنك أيضًا توفير معلمات اختيارية إضافية ، فيما يتعلق بما إذا كنت تريد التقاط بيانات الطلب والاستجابة إلى نقطة النهاية أو منها. يمكن أن يكون هذا مفيدًا إذا كنت تخطط لذلك مراقبة نموذجك. يمكنك أيضًا اختيار المحتوى الذي ترغب في تقديمه كجزء من إجابتك — سواء كان ذلك مجرد توقع أو احتمالية توقع واحتمال كل الفئات والتسميات المستهدفة.

لتشغيل وظيفة تسجيل الدُفعات للحصول على تنبؤات لمجموعة كاملة من المدخلات في وقت واحد ، يمكنك تشغيل وظيفة تحويل الدُفعات من وحدة تحكم إدارة AWS أو عبر SageMaker Python SDK. لمعرفة المزيد حول تحويل الدُفعات ، ارجع إلى استخدم تحويل الدُفعات ومثال دفاتر الملاحظات.

تحديد خط أنابيب التدريب

نادرًا ما يمكن اعتبار نماذج ML ثابتة وغير متغيرة ، لأنها تنحرف عن خط الأساس الذي تم تدريبهم عليه. تتطور بيانات العالم الحقيقي بمرور الوقت ، ويظهر منها المزيد من الأنماط والأفكار ، والتي قد يتم التقاطها أو لا يتم التقاطها بواسطة النموذج الأصلي المدرب على البيانات التاريخية. لحل هذه المشكلة ، يمكنك إعداد خط تدريب يقوم تلقائيًا بإعادة تدريب النماذج الخاصة بك بأحدث البيانات المتاحة.

عند تحديد خط الأنابيب هذا ، يتمثل أحد خيارات عالم البيانات في استخدام AutoML مرة أخرى في خط أنابيب التدريب. يمكنك تشغيل مهمة AutoML برمجيًا عن طريق استدعاء create_auto_ml_job () API من ملف AWS Boto3 SDK. يمكنك استدعاء هذه العملية من AWS لامدا وظيفة داخل وظائف خطوة AWS سير العمل ، أو من LambdaStep في خطوط أنابيب Amazon SageMaker.

بدلاً من ذلك ، يمكن لعالم البيانات استخدام المعرفة والتحف والمعلمات الفائقة التي تم الحصول عليها من وظيفة AutoML لتحديد خط تدريب كامل. أنت بحاجة إلى الموارد التالية:

  • الخوارزمية التي عملت بشكل أفضل لحالة الاستخدام - لقد حصلت بالفعل على هذه المعلومات من ملخص نموذج Canvas الذي تم إنشاؤه. لحالة الاستخدام هذه ، إنها خوارزمية XGBoost المدمجة. للحصول على إرشادات حول كيفية استخدام SageMaker Python SDK لتدريب خوارزمية XGBoost مع SageMaker ، راجع استخدم XGBoost مع SageMaker Python SDK.
    معلومات حول الخوارزمية التي تم تدريبها بوظيفة Canvas
  • المعلمات التشعبية المشتقة من وظيفة AutoML - هذه متوفرة في شرح الجزء. يمكنك استخدامها كمدخلات عند تحديد مهمة التدريب باستخدام SageMaker Python SDK.
    نموذج hyperparameters
  • كود هندسة الميزات المتوفر في قسم القطع الأثرية - يمكنك استخدام هذا الرمز للمعالجة المسبقة للبيانات قبل التدريب (على سبيل المثال ، عبر Amazon SageMaker Processing) ، أو قبل الاستدلال (على سبيل المثال ، كجزء من خط أنابيب الاستدلال SageMaker).
    S3 URI الخاص برمز هندسة الميزات

يمكنك دمج هذه الموارد كجزء من خط أنابيب SageMaker. نحذف تفاصيل التنفيذ في هذا المنشور - ترقبوا المزيد من المحتوى القادم حول هذا الموضوع.

وفي الختام

يتيح لك SageMaker Canvas استخدام ML لإنشاء تنبؤات دون الحاجة إلى كتابة أي تعليمات برمجية. يمكن لمحلل الأعمال البدء في استخدامه بشكل مستقل مع مجموعات البيانات المحلية ، بالإضافة إلى البيانات المخزنة عليها بالفعل خدمة تخزين أمازون البسيطة (Amazon S3) ، الأمازون الأحمر، أو ندفة الثلج. بنقرات قليلة فقط ، يمكنهم إعداد مجموعات البيانات الخاصة بهم والانضمام إليها ، وتحليل الدقة المقدرة ، والتحقق من الأعمدة المؤثرة ، وتدريب النموذج الأفضل أداءً ، وإنشاء تنبؤات فردية أو مجموعات جديدة ، كل ذلك دون الحاجة إلى جذب عالم بيانات خبير. بعد ذلك ، حسب الحاجة ، يمكنهم مشاركة النموذج مع فريق من علماء البيانات أو مهندسي MLOps ، الذين يستوردون النماذج إلى SageMaker Studio ، ويعملون جنبًا إلى جنب مع المحلل لتقديم حل إنتاج.

يمكن لمحللي الأعمال اكتساب رؤى من بياناتهم بشكل مستقل دون الحصول على شهادة في ML ، ودون الحاجة إلى كتابة سطر واحد من التعليمات البرمجية. يمكن لعلماء البيانات الآن الحصول على مزيد من الوقت للعمل على مشاريع أكثر تحديًا يمكنها استخدام معرفتهم الواسعة بالذكاء الاصطناعي والتعلم الآلي بشكل أفضل.

نعتقد أن هذا التعاون الجديد يفتح الباب أمام بناء العديد من حلول ML الأكثر قوة لعملك. لديك الآن محللون يقدمون رؤى تجارية قيّمة ، بينما تسمح لعلماء البيانات ومهندسي تعلم الآلة بالمساعدة في تحسين وضبط وتوسيع نطاق العمل حسب الحاجة.

مصادر إضافية

  • لمعرفة المزيد حول كيفية مساعدة SageMaker بشكل أكبر لمحللي الأعمال ، يرجى الرجوع إلى Amazon SageMaker لمحللي الأعمال.
  • لمعرفة المزيد حول كيفية قيام SageMaker بالسماح لعلماء البيانات بتطوير وتدريب ونشر نماذج ML الخاصة بهم ، تحقق من Amazon SageMaker لعلماء البيانات.
  • لمزيد من المعلومات حول كيفية مساعدة SageMaker لمهندسي MLOps في تبسيط دورة حياة ML باستخدام MLOps ، يرجى الرجوع إلى Amazon SageMaker لمهندسي MLOps.

حول المؤلف

الإنشاء والمشاركة والنشر: كيف يحقق محللو الأعمال وعلماء البيانات وقتًا أسرع للتسويق باستخدام ML بدون كود و Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. البحث العمودي. عاي.دافيد جاليتيلي مهندس حلول متخصص للذكاء الاصطناعي / تعلم الآلة في منطقة أوروبا والشرق الأوسط وإفريقيا. يقيم في بروكسل ويعمل بشكل وثيق مع العملاء في جميع أنحاء البنلوكس. لقد كان مطورًا منذ أن كان صغيرًا جدًا ، حيث بدأ البرمجة في سن السابعة. بدأ تعلم الذكاء الاصطناعي / تعلم الآلة في الجامعة ، ووقع في حبها منذ ذلك الحين.

الإنشاء والمشاركة والنشر: كيف يحقق محللو الأعمال وعلماء البيانات وقتًا أسرع للتسويق باستخدام ML بدون كود و Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. البحث العمودي. عاي.مارك روي هو مهندس رئيسي لتعلم الآلة في AWS ، يساعد العملاء على تصميم وبناء حلول AI / ML. يغطي عمل Mark مجموعة واسعة من حالات استخدام ML ، مع اهتمام أساسي برؤية الكمبيوتر والتعلم العميق وتوسيع ML عبر المؤسسة. لقد ساعد الشركات في العديد من الصناعات ، بما في ذلك التأمين والخدمات المالية والإعلام والترفيه والرعاية الصحية والمرافق والتصنيع. يحمل مارك ست شهادات AWS ، بما في ذلك شهادة التخصص في ML. قبل انضمامه إلى AWS ، كان مارك مهندسًا معماريًا ومطورًا وقائدًا تقنيًا لأكثر من 25 عامًا ، بما في ذلك 19 عامًا في الخدمات المالية.

الطابع الزمني:

اكثر من التعلم الآلي من AWS