هل النموذج الخاص بك جيد؟ نظرة عميقة على المقاييس المتقدمة لـ Amazon SageMaker Canvas

أعاد نشره أفلاطون

المتابعون: 0

إذا كنت محلل أعمال ، فمن المحتمل أن يكون فهم سلوك العملاء أحد أهم الأشياء التي تهتم بها. يمكن أن يؤدي فهم الأسباب والآليات الكامنة وراء قرارات شراء العملاء إلى تسهيل نمو الإيرادات. ومع ذلك ، فإن فقدان العملاء (يشار إليه عادة باسم زبد العملاء) يشكل خطرًا دائمًا. يمكن أن يكون اكتساب رؤى حول سبب مغادرة العملاء أمرًا بالغ الأهمية للحفاظ على الأرباح والإيرادات.

على الرغم من أن التعلم الآلي (ML) يمكن أن يوفر رؤى قيمة ، إلا أن خبراء تعلم الآلة كانوا بحاجة إلى بناء نماذج توقع تغيرات العملاء حتى تقديم قماش أمازون سيج ميكر.

SageMaker Canvas هي خدمة مُدارة برمز منخفض / بدون رمز تسمح لك بإنشاء نماذج ML يمكنها حل العديد من مشكلات العمل دون كتابة سطر واحد من التعليمات البرمجية. كما أنه يمكّنك من تقييم النماذج باستخدام مقاييس متقدمة كما لو كنت عالم بيانات.

في هذا المنشور ، نوضح كيف يمكن لمحلل الأعمال تقييم وفهم نموذج تغيير التصنيف الذي تم إنشاؤه باستخدام SageMaker Canvas باستخدام المقاييس المتقدمة فاتورة غير مدفوعة. نشرح المقاييس ونعرض التقنيات للتعامل مع البيانات للحصول على أداء أفضل للنموذج.

المتطلبات الأساسية المسبقة

إذا كنت ترغب في تنفيذ كل أو بعض المهام الموضحة في هذا المنشور ، فأنت بحاجة إلى حساب AWS مع إمكانية الوصول إلى SageMaker Canvas. تشير إلى توقع تضخيم العميل من خلال التعلم الآلي بدون رمز باستخدام Amazon SageMaker Canvas لتغطية الأساسيات حول SageMaker Canvas ونموذج churn ومجموعة البيانات.

مقدمة لتقييم أداء النموذج

كدليل عام ، عندما تحتاج إلى تقييم أداء نموذج ما ، فأنت تحاول قياس مدى جودة توقع النموذج لشيء ما عندما يرى بيانات جديدة. يسمى هذا التوقع الإستنباط. تبدأ بتدريب النموذج باستخدام البيانات الموجودة ، ثم تطلب من النموذج أن يتنبأ بالنتيجة على البيانات التي لم يراها بالفعل. ما مدى دقة توقع النموذج لهذه النتيجة هو ما تنظر إليه لفهم أداء النموذج.

إذا لم ير النموذج البيانات الجديدة ، فكيف سيعرف أي شخص ما إذا كان التنبؤ جيدًا أم سيئًا؟ حسنًا ، الفكرة هي استخدام البيانات التاريخية بالفعل حيث تكون النتائج معروفة بالفعل ومقارنة هذه القيم بالقيم المتوقعة للنموذج. يتم تمكين ذلك من خلال تخصيص جزء من بيانات التدريب السابقة بحيث يمكن مقارنتها مع ما يتوقعه النموذج لهذه القيم.

في مثال تضاؤل العميل (وهي مشكلة تصنيف فئوية) ، تبدأ بمجموعة بيانات تاريخية تصف العملاء بسمات عديدة (واحدة في كل سجل). يمكن أن تكون إحدى السمات ، المسماة Churn ، صواب أو خطأ ، وتصف ما إذا كان العميل قد ترك الخدمة أم لا. لتقييم دقة النموذج ، قمنا بتقسيم مجموعة البيانات هذه وتدريب النموذج باستخدام جزء واحد (مجموعة بيانات التدريب) ، ونطلب من النموذج التنبؤ بالنتيجة (صنف العميل على أنه Churn أم لا) مع الجزء الآخر (مجموعة بيانات الاختبار). ثم نقارن تنبؤ النموذج بالحقيقة الأساسية الواردة في مجموعة بيانات الاختبار.

تفسير المقاييس المتقدمة

في هذا القسم ، نناقش المقاييس المتقدمة في SageMaker Canvas والتي يمكن أن تساعدك على فهم أداء النموذج.

الارتباك مصفوفة

تستخدم لوحة SageMaker Canvas مصفوفات التشويش لمساعدتك على التصور عندما يُنشئ نموذج تنبؤات بشكل صحيح. في مصفوفة الارتباك ، يتم ترتيب نتائجك لمقارنة القيم المتوقعة مقابل القيم التاريخية (المعروفة) الفعلية. يوضح المثال التالي كيفية عمل مصفوفة الارتباك مع نموذج تنبؤ من فئتين يتنبأ بالتسميات الموجبة والسالبة:

صحيح إيجابي - تنبأ النموذج بشكل صحيح بإيجابية عندما كانت التسمية الحقيقية إيجابية
صحيح سلبي - توقع النموذج بشكل صحيح سلبيًا عندما كانت التسمية الحقيقية سلبية
إيجابية كاذبة - توقع النموذج بشكل غير صحيح أنه إيجابي عندما كانت التسمية الحقيقية سلبية
سلبي خطأ - توقع النموذج بشكل خاطئ سلبيًا عندما كانت التسمية الحقيقية موجبة

الصورة التالية هي مثال لمصفوفة الارتباك لفئتين. في نموذج التموج الخاص بنا ، تأتي القيم الفعلية من مجموعة بيانات الاختبار ، وتأتي القيم المتوقعة من طرح نموذجنا.

دقة

الدقة هي النسبة المئوية للتنبؤات الصحيحة من جميع صفوف أو عينات مجموعة الاختبار. إنها العينات الحقيقية التي تم توقعها على أنها صحيحة ، بالإضافة إلى العينات الخاطئة التي تم التنبؤ بها بشكل صحيح على أنها False ، مقسومة على العدد الإجمالي للعينات في مجموعة البيانات.

إنه أحد أهم المقاييس التي يجب فهمها لأنها ستخبرك بالنسبة المئوية التي تنبأ بها النموذج بشكل صحيح ، ولكنها قد تكون مضللة في بعض الحالات. على سبيل المثال:

عدم التوازن الطبقي - عندما لا يتم توزيع الفئات في مجموعة البيانات الخاصة بك بالتساوي (لديك عدد غير متناسب من العينات من فئة واحدة وقليل جدًا من العينات الأخرى) ، فقد تكون الدقة مضللة. في مثل هذه الحالات ، حتى النموذج الذي يتنبأ ببساطة بفئة الأغلبية لكل حالة يمكن أن يحقق دقة عالية.
تصنيف حساس للتكلفة - في بعض التطبيقات ، يمكن أن تختلف تكلفة التصنيف الخاطئ لفئات مختلفة. على سبيل المثال ، إذا كنا نتوقع ما إذا كان دواء ما يمكن أن يؤدي إلى تفاقم حالة ما ، فإن النتيجة السلبية الخاطئة (على سبيل المثال ، التنبؤ بأن الدواء قد لا يتفاقم عندما يحدث بالفعل) يمكن أن يكون أكثر تكلفة من النتيجة الإيجابية الزائفة (على سبيل المثال ، توقع أن الدواء قد يؤدي إلى تفاقم الحالة. عندما لا يحدث ذلك في الواقع).

الدقة والاستدعاء ودرجة F1

الدقة هي جزء الإيجابيات الحقيقية (TP) من جميع الإيجابيات المتوقعة (TP + FP). يقيس نسبة التوقعات الإيجابية الصحيحة بالفعل.

Recall هو جزء الإيجابيات الحقيقية (TP) من جميع الإيجابيات الفعلية (TP + FN). يقيس نسبة الحالات الإيجابية التي تم توقعها بشكل صحيح على أنها إيجابية بواسطة النموذج.

تجمع درجة F1 بين الدقة والاستدعاء لتوفير درجة واحدة توازن المفاضلة بينهما. يتم تعريفه على أنه الوسط التوافقي للدقة والاستدعاء:

درجة F1 = 2 * (دقة * استدعاء) / (دقة + استدعاء)

تتراوح درجة F1 من 0-1 ، مع وجود درجة أعلى تشير إلى أداء أفضل. تشير درجة F1 المثالية إلى أن النموذج قد حقق دقة مثالية واسترجاعًا مثاليًا ، وتشير الدرجة 1 إلى أن تنبؤات النموذج خاطئة تمامًا.

توفر درجة F1 تقييمًا متوازنًا لأداء النموذج. إنه يأخذ في الاعتبار الدقة والاسترجاع ، مما يوفر مقياس تقييم أكثر إفادة يعكس قدرة النموذج على تصنيف الحالات الإيجابية بشكل صحيح وتجنب الإيجابيات الكاذبة والسلبيات الكاذبة.

على سبيل المثال ، في التشخيص الطبي واكتشاف الاحتيال وتحليل المشاعر ، تعتبر F1 ذات صلة خاصة. في التشخيص الطبي ، يعد التحديد الدقيق لوجود مرض أو حالة معينة أمرًا بالغ الأهمية ، ويمكن أن يكون للسلبيات الكاذبة أو الإيجابيات الكاذبة عواقب وخيمة. تأخذ درجة F1 في الاعتبار كلاً من الدقة (القدرة على تحديد الحالات الإيجابية بشكل صحيح) والتذكر (القدرة على العثور على جميع الحالات الإيجابية) ، مما يوفر تقييمًا متوازنًا لأداء النموذج في اكتشاف المرض. وبالمثل ، في اكتشاف الاحتيال ، حيث يكون عدد حالات الاحتيال الفعلي منخفضًا نسبيًا مقارنة بالحالات غير الاحتيالية (الفئات غير المتوازنة) ، قد تكون الدقة وحدها مضللة بسبب العدد الكبير من السلبيات الحقيقية. توفر درجة F1 مقياسًا شاملاً لقدرة النموذج على اكتشاف كل من الحالات الاحتيالية وغير الاحتيالية ، مع مراعاة كل من الدقة والاسترجاع. وفي تحليل المشاعر ، إذا كانت مجموعة البيانات غير متوازنة ، فقد لا تعكس الدقة أداء النموذج بدقة في تصنيف حالات فئة المشاعر الإيجابية.

AUC (المنطقة الواقعة تحت المنحنى)

يقوم مقياس AUC بتقييم قدرة نموذج التصنيف الثنائي على التمييز بين الفئات الإيجابية والسلبية في جميع عتبات التصنيف. أ عتبة هي قيمة يستخدمها النموذج لاتخاذ قرار بين الفئتين المحتملتين ، وتحويل احتمال أن تكون العينة جزءًا من فئة إلى قرار ثنائي. لحساب AUC ، يتم رسم المعدل الإيجابي الحقيقي (TPR) والمعدل الإيجابي الكاذب (FPR) عبر إعدادات عتبة مختلفة. يقيس TPR نسبة الإيجابيات الحقيقية من جميع الإيجابيات الفعلية ، بينما يقيس FPR نسبة الإيجابيات الكاذبة من جميع السلبيات الفعلية. يوفر المنحنى الناتج ، المسمى منحنى خاصية تشغيل المستقبل (ROC) ، تمثيلًا مرئيًا لـ TPR و FPR عند إعدادات عتبة مختلفة. تمثل قيمة AUC ، التي تتراوح من 0-1 ، المنطقة الواقعة أسفل منحنى ROC. تشير قيم AUC الأعلى إلى أداء أفضل ، مع المصنف المثالي الذي يحقق AUC قدره 1.

يُظهر المخطط التالي منحنى ROC ، مع TPR كمحور Y و FPR كمحور X. كلما اقترب المنحنى من الزاوية اليسرى العلوية للمخطط ، كان أداء النموذج أفضل في تصنيف البيانات إلى فئات.

للتوضيح ، دعنا ننتقل إلى مثال. لنفكر في نموذج كشف الاحتيال. عادة ، يتم تدريب هذه النماذج من مجموعات البيانات غير المتوازنة. يرجع هذا إلى حقيقة أن جميع المعاملات في مجموعة البيانات تقريبًا غير احتيالية ، مع تصنيف عدد قليل منها على أنها عمليات احتيال. في هذه الحالة ، قد لا تلتقط الدقة وحدها أداء النموذج بشكل كافٍ لأنه ربما يتأثر بشدة بوفرة الحالات غير الاحتيالية ، مما يؤدي إلى درجات دقة عالية مضللة.

في هذه الحالة ، ستكون AUC مقياسًا أفضل لتقييم أداء النموذج لأنه يوفر تقييمًا شاملاً لقدرة النموذج على التمييز بين المعاملات الاحتيالية وغير الاحتيالية. إنه يقدم تقييمًا أكثر دقة ، مع الأخذ في الاعتبار المفاضلة بين المعدل الإيجابي الحقيقي والمعدل الإيجابي الخاطئ عند عتبات تصنيف مختلفة.

تمامًا مثل درجة F1 ، تكون مفيدة بشكل خاص عندما تكون مجموعة البيانات غير متوازنة. إنه يقيس المقايضة بين TPR و FPR ويوضح مدى قدرة النموذج على التفريق بين الفئتين بغض النظر عن توزيعهما. هذا يعني أنه حتى إذا كانت إحدى الفئات أصغر بكثير من الأخرى ، فإن منحنى ROC يقيم أداء النموذج بطريقة متوازنة من خلال النظر في كلا الفئتين على قدم المساواة.

مواضيع رئيسية إضافية

المقاييس المتقدمة ليست الأدوات المهمة الوحيدة المتاحة لك لتقييم أداء نموذج ML وتحسينه. يعد إعداد البيانات وهندسة الميزات وتحليل تأثير الميزات من الأساليب الأساسية لبناء النموذج. تلعب هذه الأنشطة دورًا مهمًا في استخلاص رؤى ذات مغزى من البيانات الأولية وتحسين أداء النموذج ، مما يؤدي إلى نتائج أكثر قوة وثاقبة.

إعداد البيانات وهندسة الميزات

هندسة الميزات هي عملية اختيار وتحويل وإنشاء متغيرات (ميزات) جديدة من البيانات الأولية ، وتلعب دورًا رئيسيًا في تحسين أداء نموذج ML. يتضمن تحديد المتغيرات أو الميزات الأكثر صلة من البيانات المتاحة إزالة الميزات غير ذات الصلة أو الزائدة عن الحاجة والتي لا تساهم في القدرة التنبؤية للنموذج. يتضمن تحويل ميزات البيانات إلى تنسيق مناسب القياس والتطبيع والتعامل مع القيم المفقودة. وأخيرًا ، يتم إنشاء ميزات جديدة من البيانات الحالية من خلال التحويلات الرياضية ، أو الجمع بين ميزات مختلفة أو التفاعل معها ، أو إنشاء ميزات جديدة من المعرفة الخاصة بالمجال.

تحليل أهمية الميزة

يُنشئ SageMaker Canvas تحليل أهمية الميزة الذي يشرح تأثير كل عمود في مجموعة البيانات الخاصة بك على النموذج. عندما تقوم بإنشاء تنبؤات ، يمكنك رؤية تأثير العمود الذي يحدد الأعمدة التي لها أكبر تأثير على كل توقع. سيعطيك هذا نظرة ثاقبة حول الميزات التي تستحق أن تكون جزءًا من نموذجك النهائي وأي الميزات يجب تجاهلها. تأثير العمود هو درجة النسبة المئوية التي تشير إلى مقدار الأهمية التي يتمتع بها العمود في عمل التنبؤات فيما يتعلق بالأعمدة الأخرى. بالنسبة لتأثير العمود بنسبة 25٪ ، يزن Canvas التنبؤ بنسبة 25٪ للعمود و 75٪ للأعمدة الأخرى.

نهج لتحسين دقة النموذج

على الرغم من وجود طرق متعددة لتحسين دقة النموذج ، إلا أن علماء البيانات وممارسي تعلم الآلة يتبعون عادةً أحد النهجين اللذين تمت مناقشتهما في هذا القسم ، باستخدام الأدوات والمقاييس الموضحة سابقًا.

النهج المتمحور حول النموذج

في هذا النهج ، تظل البيانات دائمًا كما هي وتُستخدم لتحسين النموذج بشكل متكرر لتحقيق النتائج المرجوة. الأدوات المستخدمة مع هذا النهج تشمل:

تجربة خوارزميات ML متعددة ذات صلة
ضبط وتحسين الخوارزمية والمعلمة الفائقة
طرق تجميع النماذج المختلفة
باستخدام نماذج مدربة مسبقًا (يوفر SageMaker ملفات نماذج مدمجة أو مدربة مسبقًا لمساعدة ممارسي تعلم الآلة)
AutoML ، وهو ما يفعله SageMaker Canvas خلف الكواليس (باستخدام ملفات Amazon SageMaker الطيار الآلي) الذي يشمل كل ما سبق

النهج المتمحور حول البيانات

في هذا النهج ، ينصب التركيز على إعداد البيانات ، وتحسين جودة البيانات ، وتعديل البيانات بشكل متكرر لتحسين الأداء:

استكشاف إحصائيات مجموعة البيانات المستخدمة لتدريب النموذج ، المعروف أيضًا باسم تحليل البيانات الاستكشافية (EDA)
تحسين جودة البيانات (تنظيف البيانات ، واحتساب القيم المفقودة ، واكتشاف وإدارة الانحرافات)
اختيار ميزة
هندسة الميزات
زيادة البيانات

تحسين أداء النموذج باستخدام Canvas

نبدأ بالنهج المرتكز على البيانات. نستخدم وظيفة معاينة النموذج لإجراء EDA أولي. يوفر لنا هذا خطًا أساسيًا يمكننا استخدامه لأداء زيادة البيانات ، وإنشاء خط أساس جديد ، وأخيراً الحصول على أفضل نموذج بنهج يركز على النموذج باستخدام وظيفة البناء القياسية.

نستخدم مجموعة البيانات الاصطناعية من شركة اتصالات الهاتف المحمول. تحتوي مجموعة البيانات النموذجية هذه على 5,000 سجل ، حيث يستخدم كل سجل 21 سمة لوصف ملف تعريف العميل. تشير إلى توقع تضخيم العميل من خلال التعلم الآلي بدون رمز باستخدام Amazon SageMaker Canvas للحصول على وصف كامل.

معاينة النموذج في نهج تتمحور حول البيانات

كخطوة أولى ، نفتح مجموعة البيانات ، ونحدد العمود للتنبؤ على أنه Churn ؟، وننشئ نموذج معاينة عن طريق اختيار معاينة النموذج.

• معاينة النموذج سيعرض الجزء التقدم حتى يصبح نموذج المعاينة جاهزًا.

عندما يكون النموذج جاهزًا ، يقوم SageMaker Canvas بإنشاء تحليل أهمية الميزة.

أخيرًا ، عند اكتماله ، سيعرض الجزء قائمة بالأعمدة مع تأثيرها على النموذج. هذه مفيدة لفهم مدى صلة الميزات بتوقعاتنا. تأثير العمود هو درجة النسبة المئوية التي تشير إلى مقدار الأهمية التي يتمتع بها العمود في عمل التنبؤات فيما يتعلق بالأعمدة الأخرى. في المثال التالي ، بالنسبة لعمود المكالمات الليلية ، يرجح SageMaker Canvas التنبؤ كـ 4.04٪ للعمود و 95.9٪ للأعمدة الأخرى. كلما زادت القيمة ، زاد التأثير.

كما نرى ، نموذج المعاينة بدقة 95.6٪. دعنا نحاول تحسين أداء النموذج باستخدام نهج قائم على البيانات. نقوم بإعداد البيانات واستخدام تقنيات هندسة الميزات لتحسين الأداء.

كما هو موضح في لقطة الشاشة التالية ، يمكننا أن نلاحظ أن أعمدة الهاتف والحالة لها تأثير أقل بكثير على توقعاتنا. لذلك ، سوف نستخدم هذه المعلومات كمدخلات لمرحلتنا التالية ، إعداد البيانات.

يوفر SageMaker Canvas تحويلات بيانات ML التي يمكنك من خلالها تنظيف بياناتك وتحويلها وإعدادها لبناء النموذج. يمكنك استخدام هذه التحويلات في مجموعات البيانات الخاصة بك دون أي رمز ، وستتم إضافتها إلى وصفة النموذج ، وهي عبارة عن سجل لإعداد البيانات الذي تم إجراؤه على بياناتك قبل إنشاء النموذج.

لاحظ أن أي تحويلات بيانات تستخدمها فقط تعدل بيانات الإدخال عند إنشاء نموذج ولا تعدل مجموعة البيانات أو مصدر البيانات الأصلي.

تتوفر التحويلات التالية في SageMaker Canvas لتجهيز بياناتك للبناء:

استخراج التاريخ والوقت
قم بإسقاط الأعمدة
صفوف التصفية
الوظائف والمشغلين
إدارة الصفوف
إعادة تسمية الأعمدة
إزالة الصفوف
استبدل القيم
إعادة تشكيل بيانات السلاسل الزمنية

لنبدأ بإسقاط الأعمدة التي وجدنا أنها ذات تأثير ضئيل على تنبؤاتنا.

على سبيل المثال ، في مجموعة البيانات هذه ، يكون رقم الهاتف معادلاً لرقم حساب فقط - فهو عديم الفائدة أو حتى ضار في التنبؤ باحتمالية حدوث اضطراب في الحسابات الأخرى. وبالمثل ، لا تؤثر حالة العميل على نموذجنا كثيرًا. دعنا نزيل أعمدة الهاتف والحالة عن طريق إلغاء تحديد تلك الميزات الموجودة أسفل اسم العمود.

الآن ، دعنا نجري بعض عمليات تحويل البيانات الإضافية وهندسة الميزات.

على سبيل المثال ، لاحظنا في تحليلنا السابق أن المبلغ المدفوع للعملاء له تأثير مباشر على الاضطراب. لذلك ، دعونا ننشئ عمودًا جديدًا يحسب إجمالي الرسوم لعملائنا من خلال الجمع بين الرسوم والدقائق والمكالمات لليوم وليلة والليل والمكالمات الدولية. للقيام بذلك ، نستخدم الصيغ المخصصة في SageMaker Canvas.

لنبدأ بالاختيار وظائف، ثم نضيف إلى مربع نص الصيغة النص التالي:

(مكالمات نهارية * رسوم يومية * دقائق نهارية) + (مكالمات حواء * شحن حواء * دقائق حواء) + (مكالمات ليلية * رسوم ليلية * دقائق ليلية) + (مكالمات دولية * رسوم دولية * دقائق دولية)

امنح العمود الجديد اسمًا (على سبيل المثال ، إجمالي الرسوم) ، واختر أضف بعد إنشاء المعاينة. يجب أن تبدو وصفة النموذج الآن كما هو موضح في لقطة الشاشة التالية.

عند اكتمال إعداد البيانات هذا ، نقوم بتدريب نموذج معاينة جديد لمعرفة ما إذا كان النموذج قد تحسن. يختار معاينة النموذج مرة أخرى ، وسيظهر الجزء السفلي الأيمن التقدم.

عند انتهاء التدريب ، سيبدأ في إعادة حساب الدقة المتوقعة ، كما سيُنشئ تحليلًا جديدًا لتأثير العمود.

وأخيرًا ، عند اكتمال العملية بأكملها ، يمكننا رؤية نفس الجزء الذي رأيناه سابقًا ولكن بدقة نموذج المعاينة الجديد. يمكنك ملاحظة زيادة دقة النموذج بنسبة 0.4٪ (من 95.6٪ إلى 96٪).

قد تختلف الأرقام في الصور السابقة عن أرقامك لأن ML يقدم بعض العشوائية في عملية نماذج التدريب ، مما قد يؤدي إلى نتائج مختلفة في بنى مختلفة.

النهج المتمحور حول النموذج لإنشاء النموذج

تقدم Canvas خيارين لبناء النماذج الخاصة بك:

بناء قياسي - يبني أفضل نموذج من عملية محسّنة حيث يتم تبادل السرعة للحصول على دقة أفضل. يستخدم Auto-ML ، الذي يقوم بأتمتة المهام المختلفة لـ ML ، بما في ذلك اختيار النموذج ، وتجربة العديد من الخوارزميات ذات الصلة بحالة استخدام ML ، وضبط المعلمة الفائقة ، وإنشاء تقارير شرح النموذج.
بناء سريع - يبني نموذجًا بسيطًا في جزء صغير من الوقت مقارنة بالبنية القياسية ، ولكن يتم استبدال الدقة بالسرعة. يعد النموذج السريع مفيدًا عند التكرار لفهم تأثير تغييرات البيانات على دقة النموذج بشكل أسرع.

دعنا نواصل استخدام نهج البناء القياسي.

بناء قياسي

كما رأينا من قبل ، يبني التصميم القياسي أفضل نموذج من عملية محسّنة لزيادة الدقة.

تستغرق عملية بناء نموذج التموج حوالي 45 دقيقة. خلال هذا الوقت ، يختبر Canvas المئات من خطوط الأنابيب المرشحة ، ويختار أفضل نموذج. في لقطة الشاشة التالية ، يمكننا أن نرى الوقت المتوقع للبناء والتقدم.

من خلال عملية البناء القياسية ، قام نموذج ML الخاص بنا بتحسين دقة نموذجنا إلى 96.903٪ ، وهو تحسن كبير.

اكتشف المقاييس المتقدمة

دعنا نستكشف النموذج باستخدام المقاييس المتقدمة التبويب. على ال سجل علامة التبويب، اختر المقاييس المتقدمة.

ستعرض هذه الصفحة مصفوفة الارتباك التالية بالاشتراك مع المقاييس المتقدمة: درجة F1 ، والدقة ، والدقة ، والاستدعاء ، ودرجة F1 ، والجامعة الأمريكية بالقاهرة.

توليد تنبؤات

الآن بعد أن تبدو المقاييس جيدة ، يمكننا إجراء تنبؤ تفاعلي على تنبؤ علامة التبويب ، إما في توقع دفعة واحدة أو واحدة (في الوقت الفعلي).

لدينا خياران:

استخدم هذا النموذج للتشغيل لتشغيل التنبؤات المجمعة أو الفردية
أرسل النموذج إلى استوديو Amazon Sagemaker لمشاركتها مع علماء البيانات

تنظيف

لتجنب تكبد المستقبل رسوم الجلسة، تسجيل الخروج من قماش SageMaker.

وفي الختام

يوفر SageMaker Canvas أدوات قوية تمكنك من بناء وتقييم دقة النماذج ، وتحسين أدائها دون الحاجة إلى الترميز أو علوم البيانات المتخصصة وخبرة ML. كما رأينا في المثال من خلال إنشاء نموذج زخم العميل ، من خلال الجمع بين هذه الأدوات مع كل من النهج المتمحور حول البيانات والنموذج المتمحور باستخدام المقاييس المتقدمة ، يمكن لمحللي الأعمال إنشاء نماذج التنبؤ وتقييمها. من خلال الواجهة المرئية ، يمكنك أيضًا إنشاء تنبؤات ML دقيقة بنفسك. نحن نشجعك على الاطلاع على المراجع ومعرفة عدد هذه المفاهيم التي قد تنطبق في أنواع أخرى من مشاكل ML.

مراجع حسابات

حول المؤلف

هل النموذج الخاص بك جيد؟ نظرة متعمقة على المقاييس المتقدمة لـ Amazon SageMaker Canvas | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. ماركوس هو مهندس حلول التعلم الآلي في AWS الأب ومقره فلوريدا ، الولايات المتحدة. في هذا المنصب ، يكون مسؤولاً عن توجيه ومساعدة المؤسسات الناشئة في الولايات المتحدة في استراتيجيتها تجاه السحابة ، وتقديم إرشادات حول كيفية معالجة المشكلات عالية المخاطر وتحسين أعباء عمل التعلم الآلي لديهم. يتمتع بخبرة تزيد عن 25 عامًا في مجال التكنولوجيا ، بما في ذلك تطوير الحلول السحابية والتعلم الآلي وتطوير البرامج والبنية التحتية لمركز البيانات.

هل النموذج الخاص بك جيد؟ نظرة متعمقة على المقاييس المتقدمة لـ Amazon SageMaker Canvas | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. Indrajit هو مهندس حلول AWS Enterprise Sr. في دوره ، يساعد العملاء على تحقيق نتائج أعمالهم من خلال اعتماد السحابة. يقوم بتصميم هياكل التطبيقات الحديثة على أساس الخدمات المصغرة ، والخوادم ، وواجهات برمجة التطبيقات ، والأنماط التي تحركها الأحداث. إنه يعمل مع العملاء لتحقيق أهدافهم في تحليل البيانات والتعلم الآلي من خلال اعتماد ممارسات وحلول DataOps و MLOps. يتحدث Indrajit بانتظام في أحداث AWS العامة مثل مؤتمرات القمة وورش عمل ASEAN ، وقد نشر العديد من منشورات مدونة AWS ، وطور ورش عمل تقنية موجهة للعملاء تركز على البيانات والتعلم الآلي على AWS.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون السيارات / المركبات الكهربائية ، كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
BlockOffsets. تحديث ملكية الأوفست البيئية. الوصول هنا.
المصدر https://aws.amazon.com/blogs/machine-learning/is-your-model-good-a-deep-dive-into-amazon-sagemaker-canvas-advanced-metrics/

الطابع الزمني: 31 تموز، 2023

الطابع الزمني: مارس 1 ،2023

حقق الكفاءة باستخدام أفضل ممارسات CI / CD على Amazon Lex

الكتلة المصدر:

التعلم الآلي من AWS

عقدة المصدر: 1585088

الطابع الزمني: يوليو 7، 2022

قم بإجراء تحليل تداخل الجمهور في AWS Clean Rooms | خدمات ويب أمازون

الكتلة المصدر:

التعلم الآلي من AWS

عقدة المصدر: 1955850

الطابع الزمني: مارس 12 ،2024

أعاد نشره أفلاطون

ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | خدمات الويب الأمازون

حقق الكفاءة باستخدام أفضل ممارسات CI / CD على Amazon Lex

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي