استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية

أعاد نشره أفلاطون

المتابعون: 0

تحليل البيانات الاستكشافية (EDA) هو مهمة شائعة يقوم بها محللو الأعمال لاكتشاف الأنماط وفهم العلاقات والتحقق من صحة الافتراضات وتحديد الحالات الشاذة في بياناتهم. في التعلم الآلي (ML) ، من المهم أولاً فهم البيانات وعلاقاتها قبل الدخول في بناء النموذج. قد تستغرق دورات تطوير ML التقليدية أحيانًا شهورًا وتتطلب مهارات متقدمة في علوم البيانات والهندسة ML ، بينما يمكن أن تساعد حلول ML بدون رمز الشركات على تسريع تسليم حلول ML إلى أيام أو حتى ساعات.

قماش أمازون سيج ميكر هي أداة ML بدون تعليمات برمجية تساعد محللي الأعمال على إنشاء تنبؤات دقيقة لتعلم الآلة دون الحاجة إلى كتابة تعليمات برمجية أو دون الحاجة إلى أي خبرة في تعلم الآلة. يوفر Canvas واجهة مرئية سهلة الاستخدام لتحميل مجموعات البيانات وتنظيفها وتحويلها ، متبوعًا ببناء نماذج ML وإنشاء تنبؤات دقيقة.

في هذا المنشور ، نتعرف على كيفية أداء EDA لاكتساب فهم أفضل لبياناتك قبل إنشاء نموذج ML الخاص بك ، وذلك بفضل التصورات المرئية المتقدمة المضمنة في Canvas. تساعدك هذه المرئيات على تحليل العلاقات بين الميزات في مجموعات البيانات الخاصة بك وفهم بياناتك بشكل أفضل. يتم ذلك بشكل حدسي ، مع القدرة على التفاعل مع البيانات واكتشاف الأفكار التي قد تمر دون أن يلاحظها أحد من خلال الاستعلام المخصص. يمكن إنشاؤها بسرعة من خلال "متخيل البيانات" داخل Canvas قبل إنشاء نماذج ML وتدريبها.

حل نظرة عامة

تضيف هذه التصورات إلى مجموعة القدرات الخاصة بإعداد البيانات والاستكشاف التي قدمتها شركة Canvas بالفعل ، بما في ذلك القدرة على تصحيح القيم المفقودة واستبدال القيم المتطرفة ؛ تصفية مجموعات البيانات والانضمام إليها وتعديلها ؛ واستخراج قيم زمنية محددة من الطوابع الزمنية. لمعرفة المزيد حول كيف يمكن أن تساعدك Canvas في تنظيف مجموعة البيانات وتحويلها وإعدادها ، تحقق من تحضير البيانات مع عمليات التحويل المتقدمة.

بالنسبة لحالة الاستخدام الخاصة بنا ، فإننا ننظر في سبب تضخم العملاء في أي عمل وتوضيح كيف يمكن أن تساعد EDA من وجهة نظر المحلل. مجموعة البيانات التي نستخدمها في هذا المنشور عبارة عن مجموعة بيانات تركيبية من شركة اتصالات الهاتف المحمول للتنبؤ بتضارب العملاء والتي يمكنك تنزيلها (churn.csv) ، أو يمكنك إحضار مجموعة البيانات الخاصة بك لتجربتها. للحصول على إرشادات حول استيراد مجموعة البيانات الخاصة بك ، يرجى الرجوع إلى استيراد البيانات في Amazon SageMaker Canvas.

المتطلبات الأساسية المسبقة

اتبع التعليمات الموجودة في المتطلبات الأساسية لإعداد Amazon SageMaker Canvas قبل المضي قدمًا.

قم باستيراد مجموعة البيانات الخاصة بك إلى Canvas

لاستيراد نموذج مجموعة البيانات إلى Canvas ، أكمل الخطوات التالية:

سجّل الدخول إلى Canvas كمستخدم أعمالأولاً ، نقوم بتحميل مجموعة البيانات المذكورة سابقًا من جهاز الكمبيوتر المحلي الخاص بنا إلى Canvas. إذا كنت تريد استخدام مصادر أخرى ، مثل الأمازون الأحمر، تشير إلى اتصل بمصدر بيانات خارجي.
اختار استيراد.
اختار تحميل، ثم اختر حدد الملفات من جهاز الكمبيوتر الخاص بك.
حدد مجموعة البيانات الخاصة بك (churn.csv) واختر تواريخ الاستيراد.
حدد مجموعة البيانات واختر إنشاء نموذج.
في حالة نموذج اسم، أدخل اسمًا (بالنسبة لهذا المنشور ، قمنا بإعطاء اسم توقع زخم).
اختار إنشاء.

بمجرد تحديد مجموعة البيانات الخاصة بك ، يتم تقديمك بنظرة عامة توضح أنواع البيانات والقيم المفقودة والقيم غير المتطابقة والقيم الفريدة والقيم المتوسطة أو الوضع للأعمدة المعنية.
من منظور EDA ، يمكنك ملاحظة عدم وجود قيم مفقودة أو غير متطابقة في مجموعة البيانات. بصفتك محلل أعمال ، قد ترغب في الحصول على نظرة ثاقبة أولية حول بناء النموذج حتى قبل البدء في استكشاف البيانات لتحديد كيفية أداء النموذج والعوامل التي تساهم في أداء النموذج. يمنحك Canvas القدرة على الحصول على رؤى من بياناتك قبل إنشاء نموذج عن طريق معاينة النموذج أولاً.
قبل القيام بأي استكشاف للبيانات ، اختر معاينة النموذج.
حدد العمود للتنبؤ (تمخض). يكتشف Canvas تلقائيًا أن هذا هو توقع من فئتين.
اختار معاينة النموذج. يستخدم SageMaker Canvas مجموعة فرعية من بياناتك لإنشاء نموذج سريعًا للتحقق مما إذا كانت بياناتك جاهزة لإنشاء تنبؤ دقيق. باستخدام نموذج العينة هذا ، يمكنك فهم دقة النموذج الحالي والتأثير النسبي لكل عمود على التنبؤات.

تظهر لقطة الشاشة التالية معاينتنا.

تشير معاينة النموذج إلى أن النموذج يتوقع الهدف الصحيح بنسبة 95.6٪ من الوقت. يمكنك أيضًا رؤية تأثير العمود الأولي (تأثير كل عمود على العمود الهدف). لنقم ببعض استكشاف البيانات ، والتصور ، والتحويل ، ثم ننتقل إلى بناء نموذج.

استكشاف البيانات

يوفر Canvas بالفعل بعض التصورات الأساسية الشائعة ، مثل توزيع البيانات في طريقة عرض الشبكة على البناء التبويب. تعد هذه رائعة للحصول على نظرة عامة عالية المستوى على البيانات ، وفهم كيفية توزيع البيانات ، والحصول على نظرة عامة موجزة عن مجموعة البيانات.

بصفتك محلل أعمال ، قد تحتاج إلى الحصول على رؤى عالية المستوى حول كيفية توزيع البيانات بالإضافة إلى كيفية انعكاس التوزيع مقابل العمود الهدف (تمخض) لفهم علاقة البيانات بسهولة قبل بناء النموذج. يمكنك الآن الاختيار عرض الشبكة للحصول على نظرة عامة حول توزيع البيانات.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تُظهر لقطة الشاشة التالية نظرة عامة على توزيع مجموعة البيانات.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمكننا إبداء الملاحظات التالية:

يأخذ الهاتف العديد من القيم الفريدة ليكون له أي فائدة عملية. نحن نعلم أن الهاتف هو معرف عميل ولا نريد إنشاء نموذج قد يأخذ في الاعتبار عملاء محددين ، بل نتعلم بمعنى أكثر عمومية ما يمكن أن يؤدي إلى الاضطراب. يمكنك إزالة هذا المتغير.
يتم توزيع معظم الميزات الرقمية بشكل جيد ، بعد ملف جاوس منحنى الجرس. في ML ، تريد أن يتم توزيع البيانات بشكل طبيعي لأن أي متغير يعرض التوزيع الطبيعي يمكن التنبؤ به بدقة أعلى.

دعنا نتعمق أكثر ونتحقق من التصورات المتقدمة المتوفرة في Canvas.

عرض مرئي للمعلومات

بصفتك محللي أعمال ، فأنت تريد معرفة ما إذا كانت هناك علاقات بين عناصر البيانات ، وكيفية ارتباطها بالخلط. باستخدام Canvas ، يمكنك استكشاف بياناتك وتصورها ، مما يساعدك على اكتساب رؤى متقدمة لبياناتك قبل إنشاء نماذج ML الخاصة بك. يمكنك تصور استخدام المخططات المبعثرة والمخططات الشريطية ومخططات المربعات ، والتي يمكن أن تساعدك في فهم بياناتك واكتشاف العلاقات بين الميزات التي قد تؤثر على دقة النموذج.

لبدء إنشاء تصوراتك ، أكمل الخطوات التالية:

على البناء علامة تبويب تطبيق Canvas ، اختر متخيل البيانات.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

المسرع الرئيسي للتصور في Canvas هو متخيل البيانات. دعنا نغير حجم العينة للحصول على منظور أفضل.

اختر عدد الصفوف بجوار عينة التصور.
استخدم شريط التمرير لتحديد حجم العينة المطلوب.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

اختار تحديث لتأكيد التغيير في حجم عينتك.

قد ترغب في تغيير حجم العينة بناءً على مجموعة البيانات الخاصة بك. في بعض الحالات ، قد يكون لديك بضع مئات إلى بضعة آلاف من الصفوف حيث يمكنك تحديد مجموعة البيانات بأكملها. في بعض الحالات ، قد يكون لديك عدة آلاف من الصفوف ، وفي هذه الحالة يمكنك تحديد بضع مئات أو بضعة آلاف من الصفوف بناءً على حالة الاستخدام الخاصة بك.

يُظهر مخطط التبعثر العلاقة بين متغيرين كميين تم قياسهما لنفس الأفراد. في حالتنا ، من المهم فهم العلاقة بين القيم للتحقق من الارتباط.

نظرًا لأن لدينا مكالمات ودقائق ورسوم ، فسنرسم العلاقة بينها في النهار والمساء والليل.

أولا ، دعنا ننشئ مؤامرة مبعثرة بين الدقائق اليومية مقابل الدقائق اليومية.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمكننا ملاحظة أنه مع زيادة عدد الدقائق اليومية ، تزداد رسوم اليوم أيضًا.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الأمر نفسه ينطبق على مكالمات المساء.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

المكالمات الليلية لها نفس النمط.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

نظرًا لأن الدقائق والشحن يبدو أنهما يزدادان خطيًا ، يمكنك ملاحظة أن بينهما ارتباطًا وثيقًا ببعضهما البعض. يمكن أن يؤدي تضمين أزواج الميزات هذه في بعض خوارزميات ML إلى مساحة تخزين إضافية وتقليل سرعة التدريب ، وقد يؤدي وجود معلومات مماثلة في أكثر من عمود واحد إلى أن يبالغ النموذج في التأكيد على التأثيرات ويؤدي إلى تحيز غير مرغوب فيه في النموذج. دعنا نزيل ميزة واحدة من كل زوج من الأزواج شديدة الارتباط: رسوم يومية من الزوج مع Day Mins ، و Night Charge من الزوج مع Night Mins ، و Intl Charge من الزوج باستخدام Intl Mins.

توازن البيانات واختلافها

المخطط الشريطي هو رسم بياني بين متغير فئوي على المحور س ومتغير رقمي على المحور ص لاستكشاف العلاقة بين كلا المتغيرين. لنقم بإنشاء مخطط شريطي لمعرفة كيفية توزيع المكالمات عبر عمودنا المستهدف Churn for True and False. يختار مخطط الأعمدة واسحب مكالمات اليوم وأفلتها وانتقل إلى المحور الصادي والمحور السيني على التوالي.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الآن ، لنقم بإنشاء مخطط الشريط نفسه للمكالمات المسائية مقابل التمخض.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد ذلك ، لنقم بإنشاء مخطط شريطي للمكالمات الليلية مقابل الخفض.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يبدو أن هناك اختلافًا في السلوك بين العملاء الذين تسببوا في حدوث تغير في السلوك وأولئك الذين لم يفعلوا ذلك.

تعد مخططات الصندوق مفيدة لأنها تظهر اختلافات في سلوك البيانات حسب الفئة (تمخض أم لا). نظرًا لأننا سنقوم بالتنبؤ بالتضخيم (العمود الهدف) ، فلنقم بإنشاء مخطط مربع لبعض الميزات مقابل العمود الهدف لدينا لاستنتاج إحصائيات وصفية حول مجموعة البيانات مثل المتوسط ، والحد الأقصى ، والدقيق ، والمتوسط ، والقيم المتطرفة.

اختار مربع مؤامرة وقم بسحب وإسقاط Day mins و Churn إلى المحور y والمحور x ، على التوالي.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمكنك أيضًا تجربة نفس الأسلوب مع الأعمدة الأخرى مقابل العمود الهدف (زبد).

لنقم الآن بإنشاء مخطط مربع بالدقائق اليومية مقابل مكالمات خدمة العملاء لفهم كيفية امتداد مكالمات خدمة العملاء عبر قيمة الدقائق اليومية. يمكنك أن ترى أن مكالمات خدمة العملاء ليس لها تبعية أو ارتباط في قيمة دقائق اليوم.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

من ملاحظاتنا ، يمكننا تحديد أن مجموعة البيانات متوازنة إلى حد ما. نريد أن يتم توزيع البيانات بالتساوي عبر قيم صحيحة وخاطئة بحيث لا يكون النموذج متحيزًا تجاه قيمة واحدة.

التحولات

استنادًا إلى ملاحظاتنا ، قمنا بإسقاط عمود الهاتف لأنه مجرد رقم حساب وأعمدة رسوم يومية ، رسوم عشية ، رسوم ليلية لأنها تحتوي على معلومات متداخلة مثل أعمدة الدقائق ، ولكن يمكننا تشغيل معاينة مرة أخرى للتأكيد.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد تحليل البيانات وتحويلها ، دعنا نعاين النموذج مرة أخرى.

يمكنك ملاحظة أن الدقة المقدرة للنموذج قد تغيرت من 95.6٪ إلى 93.6٪ (قد يختلف ذلك) ، إلا أن تأثير العمود (أهمية الميزة) لأعمدة معينة قد تغير بشكل كبير ، مما يحسن سرعة التدريب وكذلك تأثير الأعمدة على التنبؤ بينما ننتقل إلى الخطوات التالية لبناء النموذج. لا تتطلب مجموعة البيانات الخاصة بنا تحويلاً إضافيًا ، ولكن إذا احتجت إلى ذلك ، يمكنك الاستفادة من ذلك تحويل بيانات ML لتنظيف وتحويل وإعداد بياناتك لبناء النموذج.

قم ببناء النموذج

يمكنك الآن المضي قدمًا في بناء نموذج وتحليل النتائج. لمزيد من المعلومات ، يرجى الرجوع إلى توقع تضخيم العميل من خلال التعلم الآلي بدون رمز باستخدام Amazon SageMaker Canvas.

تنظيف

لتجنب تكبد المستقبل رسوم الجلسة, تسجيل الخروج قماش.

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

وفي الختام

في هذا المنشور ، أوضحنا كيف يمكنك استخدام إمكانات تصور Canvas لـ EDA لفهم بياناتك بشكل أفضل قبل بناء النموذج ، وإنشاء نماذج ML دقيقة ، وإنشاء تنبؤات باستخدام واجهة no-code ، ومرئية ، والتأشير والنقر.

حول المؤلف

راجاكومار سامباثكومار هو مدير الحساب الفني الرئيسي في AWS ، حيث يوفر إرشادات للعملاء حول محاذاة تكنولوجيا الأعمال ويدعم إعادة ابتكار نماذج وعمليات التشغيل السحابية الخاصة بهم. إنه شغوف بالسحابة والتعلم الآلي. راج أيضًا متخصص في التعلم الآلي ويعمل مع عملاء AWS لتصميم ونشر وإدارة أعباء العمل والبنى الخاصة بهم في AWS.

راهول نبيرا هو مستشار تحليلات البيانات في خدمات AWS الاحترافية. يركز عمله الحالي على تمكين العملاء من بناء بياناتهم وأعباء عمل التعلم الآلي على AWS. في أوقات فراغه ، يستمتع بلعب الكريكيت والكرة الطائرة.

رافيتيا يلامانتشيلي هو مهندس حلول للمؤسسات مع Amazon Web Services ومقره نيويورك. إنه يعمل مع عملاء مؤسسات الخدمات المالية الكبيرة لتصميم ونشر تطبيقات آمنة للغاية وقابلة للتطوير وموثوقة وفعالة من حيث التكلفة على السحابة. يتمتع بأكثر من 11 عامًا من إدارة المخاطر والاستشارات التكنولوجية وتحليلات البيانات وتجربة التعلم الآلي. عندما لا يساعد العملاء ، فإنه يستمتع بالسفر ولعب PS5.

الطابع الزمني: 18 أكتوبر 202219 أكتوبر 2022

الطابع الزمني: مارس 23 ،2023

استخدم Amazon SageMaker Canvas لتحليل البيانات الاستكشافية

أعاد نشره أفلاطون

حل نظرة عامة

المتطلبات الأساسية المسبقة

قم باستيراد مجموعة البيانات الخاصة بك إلى Canvas

استكشاف البيانات

عرض مرئي للمعلومات

توازن البيانات واختلافها

التحولات

قم ببناء النموذج

تنظيف

وفي الختام

حول المؤلف

اكثر من التعلم الآلي من AWS

استدلال تعلم الآلة الموفر من حيث التكلفة مع نماذج متعددة الأطر على Amazon SageMaker

الجيل المعزز للاسترجاع باستخدام LangChain وAmazon SageMaker JumpStart والبحث الدلالي MongoDB Atlas | خدمات الويب الأمازون

كيف قامت AWS Prototyping بتمكين ICL-Group من بناء نماذج رؤية الكمبيوتر على Amazon SageMaker | خدمات الويب الأمازون

قم بتمكين التشفير المتجانس تمامًا باستخدام نقاط نهاية Amazon SageMaker للاستدلال الآمن في الوقت الفعلي

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي