استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML

مختبر استوديو Amazon SageMaker هي بيئة تطوير مجانية للتعلم الآلي (ML) تعتمد على JupyterLab مفتوح المصدر ليتمكن أي شخص من تعلمه وتجربته باستخدام موارد حوسبة AWS ML. يعتمد على نفس البنية وواجهة المستخدم مثل أمازون ساجميكر ستوديو، ولكن مع مجموعة فرعية من إمكانيات الاستوديو.

عندما تبدأ العمل على مبادرات ML ، فأنت بحاجة إلى إجراء تحليل استكشافي للبيانات (EDA) أو إعداد البيانات قبل متابعة بناء النموذج. أمازون سيج ميكر داتا رانجلر هي قدرة الأمازون SageMaker هذا يجعل الأمر أسرع لعلماء ومهندسي البيانات لإعداد البيانات لتطبيقات ML عبر واجهة مرئية. يقلل Data Wrangler الوقت الذي يستغرقه تجميع البيانات وإعدادها لـ ML من أسابيع إلى دقائق.

المسرع الرئيسي لإعداد الميزات في Data Wrangler هو تقرير الرؤى وجودة البيانات. يتحقق هذا التقرير من جودة البيانات ويساعد في الكشف عن حالات الشذوذ في بياناتك ، بحيث يمكنك إجراء هندسة البيانات المطلوبة لإصلاح مجموعة البيانات الخاصة بك. يمكنك استخدام تقرير جودة البيانات والرؤى لإجراء تحليل لبياناتك لاكتساب رؤى حول مجموعة البيانات الخاصة بك ، مثل عدد القيم المفقودة وعدد القيم المتطرفة. إذا كانت لديك مشكلات تتعلق ببياناتك ، مثل التسرب المستهدف أو عدم التوازن ، فيمكن لتقرير الإحصاءات أن يلفت انتباهك إلى هذه المشكلات ويساعدك على تحديد خطوات إعداد البيانات التي تحتاج إلى تنفيذها.

يمكن لمستخدمي Studio Lab الاستفادة من Data Wrangler لأن جودة البيانات وهندسة الميزات ضرورية للأداء التنبئي لنموذجك. تساعد Data Wrangler في جودة البيانات وهندسة الميزات من خلال تقديم رؤى حول مشكلات جودة البيانات وتمكين التكرار السريع للميزات والهندسة بسهولة باستخدام واجهة مستخدم ذات رمز منخفض.

في هذا المنشور ، نوضح لك كيفية إجراء تحليل البيانات الاستكشافية ، وإعداد البيانات وتحويلها باستخدام Data Wrangler ، وتصدير البيانات المحولة والمعدة إلى Studio Lab لتنفيذ بناء النموذج.

حل نظرة عامة

يتضمن الحل الخطوات عالية المستوى التالية:

  1. قم بإنشاء حساب AWS والمستخدم الإداري. هذا شرط أساسي
  2. قم بتنزيل مجموعة البيانات churn.csv.
  3. قم بتحميل مجموعة البيانات إلى خدمة تخزين أمازون البسيطة (أمازون S3).
  4. قم بإنشاء مجال SageMaker Studio وقم بتشغيل Data Wrangler.
  5. قم باستيراد مجموعة البيانات إلى تدفق Data Wrangler من Amazon S3.
  6. قم بإنشاء تقرير جودة البيانات والرؤى واستخلص استنتاجات حول هندسة الميزات الضرورية.
  7. قم بإجراء تحويلات البيانات الضرورية في Data Wrangler.
  8. قم بتنزيل تقرير جودة البيانات والرؤى ومجموعة البيانات المحولة.
  9. قم بتحميل البيانات إلى مشروع Studio Lab للتدريب على النموذج.

يوضح الرسم البياني التالي سير العمل هذا.

المتطلبات الأساسية المسبقة

لاستخدام Data Wrangler و Studio Lab ، تحتاج إلى المتطلبات الأساسية التالية:

قم ببناء سير عمل لإعداد البيانات باستخدام Data Wrangler

للبدء ، أكمل الخطوات التالية:

  1. قم بتحميل مجموعة البيانات الخاصة بك إلى Amazon S3.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  2. على وحدة تحكم SageMaker ، تحت لوحة التحكم في جزء التنقل ، اختر استوديو.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  3. على إطلاق التطبيق القائمة بجوار ملف تعريف المستخدم الخاص بك ، اختر استوديو.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
    بعد تسجيل الدخول بنجاح إلى Studio ، يجب أن ترى بيئة تطوير مثل لقطة الشاشة التالية.
  4. لإنشاء سير عمل Data Wrangler جديد ، في قم بتقديم القائمة، اختر جديد، ثم اختر تدفق رانجلر البيانات.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
    الخطوة الأولى في Data Wrangler هي استيراد معلوماتك. يمكنك استيراد البيانات من مصادر بيانات متعددة ، مثل Amazon S3 ، أمازون أثينا, الأمازون الأحمر, ندفة الثلجو Databricks. في هذا المثال ، نستخدم Amazon S3 ، إذا كنت تريد فقط معرفة كيفية عمل Data Wrangler ، فيمكنك دائمًا الاختيار استخدم عينة مجموعة بيانات.
  5. اختار تواريخ الاستيراد.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  6. اختار الأمازون S3.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  7. اختر مجموعة البيانات التي قمت بتحميلها واختر استيراد.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
    يمكّنك Data Wrangler إما من استيراد مجموعة البيانات بأكملها أو أخذ عينة منها.
  8. للحصول على إحصاءات حول مجموعة البيانات بسرعة ، اختر أول ك For أخذ العينات وأدخل 50000 من أجل حجم العينة.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

افهم جودة البيانات واحصل على رؤى

دعنا نستخدم تقرير جودة البيانات والرؤى لإجراء تحليل للبيانات التي قمنا باستيرادها إلى Data Wrangler. يمكنك استخدام التقرير لفهم الخطوات التي تحتاج إلى اتخاذها لتنظيف بياناتك ومعالجتها. يقدم هذا التقرير معلومات مثل عدد القيم المفقودة وعدد القيم المتطرفة. إذا كانت لديك مشكلات تتعلق ببياناتك ، مثل التسرب المستهدف أو عدم التوازن ، فيمكن لتقرير الإحصاءات أن يلفت انتباهك إلى هذه المشكلات.

  1. اختر علامة الجمع الموجودة بجانب أنواع البيانات واختر احصل على رؤى البيانات.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  2. في حالة نوع التحليل، اختر تقرير الرؤى وجودة البيانات.
  3. في حالة العمود الهدف، اختر يخض، يحرك بعنف؟.
  4. في حالة نوع المشكلةتحديد تصنيف.
  5. اختار إنشاء.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يتم تقديم تقرير مفصل يمكنك مراجعته وتنزيله. يتضمن التقرير عدة أقسام مثل النموذج السريع وملخص الميزات وارتباط الميزات ورؤى البيانات. توفر لقطات الشاشة التالية أمثلة على هذه الأقسام.

استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي. استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي. استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

ملاحظات من التقرير

من التقرير يمكننا إبداء الملاحظات التالية:

  • لم يتم العثور على صفوف مكررة.
  • State يبدو أن العمود موزع بشكل متساوٍ تمامًا ، وبالتالي فإن البيانات متوازنة من حيث عدد سكان الولاية.
  • Phone يقدم العمود عددًا كبيرًا جدًا من القيم الفريدة بحيث لا يكون لها أي استخدام عملي. هناك قيم فريدة كثيرة جدًا تجعل هذا العمود غير مفيد. يمكننا إسقاط Phone عمود في تحولنا.
  • استنادًا إلى قسم ارتباط الميزة في التقرير ، Mins و Charge مترابطة للغاية. يمكننا إزالة واحد منهم.

تحول

بناءً على ملاحظاتنا ، نريد إجراء التحولات التالية:

  • إزالة Phone العمود لأنه يحتوي على العديد من القيم الفريدة.
  • نرى أيضًا العديد من الميزات التي لها ارتباطًا أساسيًا بنسبة 100 ٪ مع بعضها البعض. يمكن أن يؤدي تضمين أزواج الميزات هذه في بعض خوارزميات تعلم الآلة إلى خلق مشاكل غير مرغوب فيها ، بينما في حالات أخرى ، لن يؤدي إلا إلى التكرار الطفيف والتحيز. دعنا نزيل ميزة واحدة من كل زوج من الأزواج شديدة الارتباط: Day Charge من الزوج مع Day Mins, Night Charge من الزوج مع Night Minsو Intl Charge من الزوج مع Intl Mins.
  • تحول True or False في ال Churn العمود ليكون قيمة عددية 1 أو 0.
  1. ارجع إلى تدفق البيانات واختر علامة الجمع الموجودة بجانب أنواع البيانات.
  2. اختار أضف التحويل.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  3. اختار أضف خطوة.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  4. يمكنك البحث عن التحويل الذي تبحث عنه (في حالتنا ، إدارة الأعمدة).
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  5. اختار إدارة الأعمدة.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  6. في حالة تحولأختر عمود الإسقاط.
  7. في حالة أعمدة لإسقاطهاأختر Phone, Day Charge, Eve Charge, Night Chargeو Intl Charge.
  8. اختار أرسال، ثم اختر تحديث.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
    دعنا نضيف تحويلًا آخر لإجراء تشفير قاطع على ملف Churn? العمود.
  9. اختر التحويل تشفير قاطع.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  10. في حالة تحول، اختر ترميز ترتيبي.
  11. في حالة أعمدة الإدخال، اختر ال Churn? العمود.
  12. في حالة إستراتيجية معالجة غير صحيحة، اختر استبدل بـ NaN.
  13. اختار أرسال، ثم اختر تحديث.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الآن True و False يتم تحويلها إلى 1 و 0 على التوالي.

استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الآن بعد أن أصبح لدينا فهم جيد للبيانات وقمنا بإعداد البيانات وتحويلها لبناء النموذج ، يمكننا نقل البيانات إلى Studio Lab لبناء النموذج.

قم بتحميل البيانات إلى Studio Lab

لبدء استخدام البيانات في Studio Lab ، أكمل الخطوات التالية:

  1. اختار تصدير البيانات إلى تصدير إلى دلو S3.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  2. في حالة موقع Amazon S3، أدخل مسار S3 الخاص بك.
  3. حدد نوع الملف.
  4. اختار تصدير البيانات.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  5. بعد تصدير البيانات ، يمكنك تنزيل البيانات من حاوية S3 إلى جهاز الكمبيوتر المحلي الخاص بك.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  6. يمكنك الآن الانتقال إلى Studio Lab وتحميل الملف إلى Studio Lab.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
    بدلاً من ذلك ، يمكنك الاتصال بـ Amazon S3 من Studio Lab. لمزيد من المعلومات ، يرجى الرجوع إلى استخدم الموارد الخارجية في Amazon SageMaker Studio Lab.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  7. لنقم بتثبيت برنامج SageMaker واستيراد الباندا.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  8. استيراد جميع المكتبات كما هو مطلوب.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  9. الآن يمكننا قراءة ملف CSV.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  10. لنطبع churn لتأكيد صحة مجموعة البيانات.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الآن بعد أن أصبحت لديك مجموعة البيانات التي تمت معالجتها في Studio Lab ، يمكنك تنفيذ المزيد من الخطوات المطلوبة لبناء النموذج.

تسعير داتا رانجلر

يمكنك تنفيذ جميع الخطوات الواردة في هذا المنشور لـ EDA أو إعداد البيانات داخل Data Wrangler و دفع على سبيل المثال البسيط ، أسعار الوظائف والتخزين بناءً على الاستخدام أو الاستهلاك. لا يلزم دفع رسوم مقدمة أو رسوم الترخيص.

تنظيف

عندما لا تستخدم Data Wrangler ، فمن المهم إغلاق المثيل الذي يتم تشغيله عليه لتجنب تكبد رسوم إضافية. لتجنب فقدان العمل ، احفظ تدفق البيانات قبل إيقاف تشغيل Data Wrangler.

  1. لحفظ تدفق البيانات في Studio ، اختر قم بتقديم، ثم اختر حفظ تدفق رانجلر البيانات.
    يقوم Data Wrangler تلقائيًا بحفظ تدفق البيانات الخاصة بك كل 60 ثانية.
  2. لإغلاق مثيل Data Wrangler ، في Studio ، اختر تشغيل المثيلات والنواة.
  3. تحت تشغيل التطبيقات، اختر رمز إيقاف التشغيل بجوار ملف sagemaker-data-wrangler-1.0 app.
  4. اختار اغلاق كل شيء للتأكيد.
    استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يعمل Data Wrangler على مثيل ml.m5.4xlarge. يختفي هذا المثال من جريان الجري عند إغلاق تطبيق Data Wrangler.

بعد إغلاق تطبيق Data Wrangler ، يجب إعادة تشغيله في المرة التالية التي تفتح فيها ملف تدفق Data Wrangler. وهذا يمكن أن يستغرق بضع دقائق.

وفي الختام

في هذا المنشور ، رأينا كيف يمكنك الحصول على رؤى في مجموعة البيانات الخاصة بك ، وإجراء تحليل استكشافي للبيانات ، وإعداد البيانات وتحويلها باستخدام Data Wrangler داخل Studio ، وتصدير البيانات المحولة والمجهزة إلى Studio Lab وتنفيذ بناء النموذج وخطوات أخرى.

باستخدام SageMaker Data Wrangler ، يمكنك تبسيط عملية إعداد البيانات وهندسة الميزات ، وإكمال كل خطوة من خطوات سير عمل إعداد البيانات ، بما في ذلك اختيار البيانات ، والتنقية ، والاستكشاف ، والتصور من واجهة مرئية واحدة.


عن المؤلفين

استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.راجاكومار سامباثكومار هو مدير الحساب الفني الرئيسي في AWS ، حيث يوفر إرشادات للعملاء بشأن مواءمة تكنولوجيا الأعمال ويدعم إعادة ابتكار نماذج وعمليات التشغيل السحابية الخاصة بهم. إنه شغوف بالسحابة والتعلم الآلي. راج أيضًا متخصص في التعلم الآلي ويعمل مع عملاء AWS لتصميم ونشر وإدارة أعباء العمل والبنى الخاصة بهم في AWS.

استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.ميناكشيسوندارام ثاندافارايان هو أحد كبار المتخصصين في الذكاء الاصطناعي / التعلم الآلي ولديه شغف بتصميم وإنشاء وتعزيز تجارب البيانات والتحليلات التي تركز على الإنسان. إنه يدعم عملاء AWS الإستراتيجيين في تحولهم نحو مؤسسة تعتمد على البيانات.

استخدم Amazon SageMaker Data Wrangler لإعداد البيانات و Studio Labs لتعلم وتجربة ML PlatoBlockchain Data Intelligence. البحث العمودي. عاي.جيمس وو هو مهندس حلول متخصص في الذكاء الاصطناعي / التعلم الآلي في AWS. مساعدة العملاء على تصميم وبناء حلول الذكاء الاصطناعي / التعلم الآلي. يغطي عمل James مجموعة واسعة من حالات استخدام ML ، مع اهتمام أساسي برؤية الكمبيوتر والتعلم العميق وتوسيع ML عبر المؤسسة. قبل انضمامه إلى AWS ، كان جيمس مهندسًا معماريًا ومطورًا وقائدًا في مجال التكنولوجيا لأكثر من 10 سنوات ، بما في ذلك 6 سنوات في الهندسة و 4 سنوات في صناعات التسويق والإعلان.

الطابع الزمني:

اكثر من التعلم الآلي من AWS