استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

استخدم عينات Github مع Amazon SageMaker Data Wrangler

أمازون سيجص داتا رانجلر هي أداة إعداد بيانات قائمة على واجهة المستخدم تساعد في إجراء تحليل البيانات والمعالجة المسبقة والتخيل مع ميزات لتنظيف البيانات وتحويلها وإعدادها بشكل أسرع. تساعد قوالب التدفق المبنية مسبقًا من Data Wrangler في جعل إعداد البيانات أسرع لعلماء البيانات وممارسي التعلم الآلي (ML) من خلال مساعدتك في تسريع وفهم أنماط أفضل الممارسات لتدفق البيانات باستخدام مجموعات البيانات الشائعة.

يمكنك استخدام تدفقات رانجلر البيانات لأداء المهام التالية:

  • عرض مرئي للمعلومات - فحص الخصائص الإحصائية لكل عمود في مجموعة البيانات ، وبناء الرسوم البيانية ، ودراسة القيم المتطرفة
  • تنظيف البيانات - إزالة التكرارات وإسقاط أو ملء الإدخالات بقيم مفقودة وإزالة القيم المتطرفة
  • إثراء البيانات وهندسة الميزات - معالجة الأعمدة لبناء المزيد من الميزات التعبيرية ، واختيار مجموعة فرعية من الميزات للتدريب

سيساعدك هذا المنشور على فهم Data Wrangler باستخدام نموذج التدفقات المبنية مسبقًا التالية GitHub جيثب:. يعرض المستودع تحويل البيانات الجدولية ، وتحويلات بيانات السلاسل الزمنية ، وتحويلات مجموعة البيانات المنضمة. يتطلب كل نوع نوعًا مختلفًا من التحولات بسبب طبيعتها الأساسية. يتم جمع البيانات الجدولية أو المقطعية القياسية في نقطة زمنية محددة. في المقابل ، يتم التقاط بيانات السلاسل الزمنية بشكل متكرر بمرور الوقت ، حيث تعتمد كل نقطة بيانات متتالية على قيمها السابقة.

لنلقِ نظرة على مثال لكيفية استخدام تدفق بيانات العينة لبيانات جدولية.

المتطلبات الأساسية المسبقة

داتا رانجلر هو برنامج الأمازون SageMaker الميزة المتاحة داخل أمازون ساجميكر ستوديو، لذلك نحتاج إلى اتباع عملية إعداد الاستوديو لتحسين بيئة الاستوديو وأجهزة الكمبيوتر المحمولة. على الرغم من أنه يمكنك الاختيار من بين عدد قليل من طرق المصادقة ، فإن أبسط طريقة لإنشاء مجال Studio هي اتباع بداية سريعة تعليمات. يستخدم البدء السريع نفس الإعدادات الافتراضية مثل ملف إعداد الاستوديو القياسي. يمكنك أيضًا اختيار على متن الطائرة باستخدام مركز هوية AWS IAM (خلفًا لـ AWS Single Sign-On) للمصادقة (انظر على متن الطائرة إلى مجال Amazon SageMaker باستخدام مركز هوية IAM).

قم باستيراد مجموعة البيانات وملفات التدفق إلى Data Wrangler باستخدام Studio

توضح الخطوات التالية كيفية استيراد البيانات إلى SageMaker ليتم استهلاكها بواسطة Data Wrangler:

قم بتهيئة Data Wrangler عبر Studio UI عن طريق الاختيار تدفق بيانات جديد.

استنساخ جيثب ريبو لتنزيل ملفات التدفق في بيئة الاستوديو الخاصة بك.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

عند اكتمال النسخ ، يجب أن تكون قادرًا على رؤية محتوى المستودع في الجزء الأيمن.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

اختر الملف تصنيفات الحجوزات الفندقية لاستيراد ملف التدفق إلى Data Wrangler.

إذا كنت تستخدم التسلسل الزمني أو تدفق البيانات المنضمة ، فسيظهر التدفق كاسم مختلف. بعد استيراد التدفق ، يجب أن تشاهد لقطة الشاشة التالية. يوضح لنا هذا الأخطاء لأننا نحتاج إلى التأكد من أن ملف التدفق يشير إلى مصدر البيانات الصحيح بتنسيق خدمة تخزين أمازون البسيطة (أمازون S3).

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

اختار تحرير مجموعة البيانات لإحضار كل حاويات S3 الخاصة بك. بعد ذلك ، اختر مجموعة البيانات hotel_bookings.csv من دلو S3 للتشغيل عبر تدفق البيانات الجدولية.

لاحظ أنه إذا كنت تستخدم ملف تدفق البيانات المنضم، قد تضطر إلى استيراد مجموعات بيانات متعددة إلى Data Wranglerاستخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

في الجزء الأيسر ، تأكد فقرة تم اختياره كمحدد و أخذ العينات ومن المقرر أن أول ك. مجموعة البيانات الخاصة بنا صغيرة بما يكفي لتشغيل تحويلات Data Wrangler على مجموعة البيانات الكاملة ، لكننا أردنا إبراز كيفية استيراد مجموعة البيانات. إذا كانت لديك مجموعة بيانات كبيرة ، ففكر في استخدام أخذ العينات. يختار استيراد لاستيراد مجموعة البيانات هذه إلى Data Wrangler.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد استيراد مجموعة البيانات ، يتحقق Data Wrangler تلقائيًا من صحة مجموعة البيانات ويكتشف أنواع البيانات. يمكنك أن ترى أن الأخطاء قد اختفت لأننا نشير إلى مجموعة البيانات الصحيحة. يعرض محرر التدفق الآن كتلتين توضحان أنه تم استيراد البيانات من مصدر وأن أنواع البيانات التي تم التعرف عليها. يمكنك أيضًا تعديل أنواع البيانات إذا لزم الأمر.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تُظهر لقطة الشاشة التالية أنواع البيانات لدينا.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

دعنا نلقي نظرة على بعض التحويلات التي تم إجراؤها كجزء من هذا التدفق الجدولي. إذا كنت تستخدم ملف السلاسل الزمنية or انضم تدفقات البيانات ، تحقق من بعض التحويلات الشائعة في جيثب ريبو. أجرينا بعض تحليل البيانات الاستكشافية الأساسية باستخدام تقارير رؤى البيانات التي درست التسرب المستهدف والعلاقة الخطية للميزات في مجموعة البيانات ، وتحليلات ملخص الجدول ، وإمكانية النمذجة السريعة. استكشف الخطوات الموجودة على جيثب ريبو.

نقوم الآن بإسقاط الأعمدة بناءً على التوصيات المقدمة في تقرير رؤى البيانات والجودة.

  • لتسرب الهدف ، قم بإسقاطه حجز_حالة.
  • بالنسبة للأعمدة الزائدة ، قم بإسقاط days_in_waiting_list، hotel، reservedroom_room_type ، تاريخ_الوصول_الشهر ، تاريخ_الحجز ، تاريخ_الحجز ، الأطفال ، و وصول_تاريخ_يوم_من_الشهر.
  • استنادًا إلى نتائج الارتباط الخطي ، قم بإسقاط الأعمدة وصول_تاريخ_أسبوع_العدد و تاريخ_الوصول لأن قيم الارتباط لأزواج الميزات (الأعمدة) هذه أكبر من الحد الموصى به وهو 0.90.
  • بناءً على نتائج الارتباط غير الخطي ، انخفاض حجز_حالة. تم بالفعل وضع علامة على هذا العمود ليتم إسقاطه بناءً على تحليل التسرب الهدف.
  • القيم الرقمية للعملية (القياس الأدنى-الأقصى) لـ Lead_time، stays_in_weekend_nights، stays_in_weekday_nights، is_repeated_guest، prev_cancellations، prev_bookings_not_canceled، booking_changes، adr، total_of_specical_requests، و فضاءات_توقف السيارات_المطلوبة.
  • المتغيرات الفئوية ذات الترميز الواحد الساخن مثل وجبة ، is_repeated_guest ، market_segment ، تعيين_نوع_الغرفة ، نوع_الإيداع ، و نوع العميل.
  • قم بموازنة المتغير المستهدف العشوائي الزائد من أجل عدم توازن الفئة استخدم القدرة على النمذجة السريعة للتعامل مع القيم المتطرفة والقيم المفقودة.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تصدير إلى Amazon S3

لقد مررنا الآن بالتحولات المختلفة ومستعدون لتصدير البيانات إلى Amazon S3. يقوم هذا الخيار بإنشاء مهمة معالجة SageMaker ، والتي تقوم بتشغيل تدفق معالجة Data Wrangler وحفظ مجموعة البيانات الناتجة في حاوية S3 محددة. اتبع الخطوات التالية لإعداد التصدير إلى Amazon S3:

اختر علامة الجمع بجانب مجموعة من عناصر التحويل واختر أضف الوجهة، ثم الأمازون S3.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  • في حالة اسم مجموعة البيانات، أدخل اسمًا لمجموعة البيانات الجديدة ، على سبيل المثال NYC_export.
  • في حالة نوع الملف، اختر CSV.
  • في حالة محدد، اختر فاصلة.
  • في حالة ضغط، اختر بدون اضاءة.
  • في حالة موقع Amazon S3، استخدم نفس اسم المجموعة الذي أنشأناه سابقًا.
  • اختار أضف الوجهة.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

اختار خلق وظيفة.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

في حالة اسم العمل، أدخل اسمًا أو احتفظ بالخيار المُنشأ تلقائيًا واختر افضل الرحلات السياحية. لدينا وجهة واحدة فقط ، S3:testingtabulardata، ولكن قد يكون لديك وجهات متعددة من خطوات مختلفة في سير عملك. اترك ال مفتاح KMS ARN الحقل فارغ واختر التالى.

الآن عليك تكوين القدرة الحسابية لوظيفة ما. يمكنك الاحتفاظ بجميع القيم الافتراضية لهذا المثال.

  • في حالة نوع الطلب، استخدم ml.m5.4xlarge.
  • في حالة عدد المثيلات، استخدم 2.
  • يمكنك استكشاف تكوين إضافي، ولكن احتفظ بالإعدادات الافتراضية.
  • اختار يجري.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

لقد بدأت وظيفتك الآن ، وتستغرق معالجة 6 جيجابايت من البيانات بعض الوقت وفقًا لتدفق معالجة Data Wrangler الخاص بنا. ستكون تكلفة هذه الوظيفة حوالي 2 دولار أمريكي ، لأن ml.m5.4xlarge يكلف 0.922 دولارًا أمريكيًا في الساعة ونحن نستخدم اثنين منهم.

إذا اخترت اسم الوظيفة ، فسيتم إعادة توجيهك إلى نافذة جديدة تحتوي على تفاصيل الوظيفة.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

في صفحة تفاصيل الوظيفة ، يمكنك رؤية جميع المعلمات من الخطوات السابقة.

عندما تتغير حالة الوظيفة إلى مكتمل ، يمكنك أيضًا التحقق من وقت المعالجة (بالثواني) القيمة. تستغرق مهمة المعالجة هذه حوالي 5-10 دقائق حتى تكتمل.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

عند اكتمال المهمة ، تتوفر ملفات مخرجات التدريب والاختبار في مجلدات إخراج S3 المقابلة. يمكنك العثور على موقع الإخراج من تكوينات مهمة المعالجة.

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد اكتمال مهمة معالجة Data Wrangler ، يمكننا التحقق من النتائج المحفوظة في دلو S3 الخاص بنا. لا تنسى تحديث ملف job_name متغير مع اسم وظيفتك.

يمكنك الآن استخدام هذه البيانات التي تم تصديرها لتشغيل نماذج ML.

تنظيف

احذف حاويات S3 الخاصة بك وخاصتك تدفق البيانات رانجلر لحذف الموارد الأساسية ومنع التكاليف غير المرغوب فيها بعد الانتهاء من التجربة.

وفي الختام

في هذا المنشور ، أوضحنا كيف يمكنك استيراد تدفق البيانات المجدول مسبقًا إلى Data Wrangler ، وتوصيله بمجموعة البيانات الخاصة بنا ، وتصدير النتائج إلى Amazon S3. إذا كانت حالات الاستخدام تتطلب منك معالجة بيانات السلاسل الزمنية أو الانضمام إلى مجموعات بيانات متعددة ، فيمكنك استعراض تدفقات العينات الأخرى سابقة الإنشاء في جيثب ريبو.

بعد قيامك باستيراد سير عمل الإعداد المسبق للبيانات ، يمكنك دمجه مع Amazon SageMaker Processing ، خطوط أنابيب Amazon SageMakerو متجر ميزات Amazon SageMaker لتبسيط مهمة معالجة ومشاركة وتخزين بيانات تدريب ML. يمكنك أيضًا تصدير تدفق بيانات العينة هذا إلى برنامج نصي بلغة Python وإنشاء خط أنابيب إعداد بيانات ML مخصص ، وبالتالي تسريع سرعة الإصدار.

نحن نشجعك على التحقق من موقعنا مستودع جيثب للحصول على تدريب عملي وإيجاد طرق جديدة لتحسين دقة النموذج! لمعرفة المزيد حول SageMaker ، قم بزيارة دليل مطور Amazon SageMaker.


حول المؤلف

استخدم عينات Github مع Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.العشاء دعاء هو مهندس حلول أول مقره في منطقة خليج سان فرانسيسكو. إنها تساعد عملاء AWS Enterprise على النمو من خلال فهم أهدافهم وتحدياتهم ، وتوجههم حول كيفية تصميم تطبيقاتهم بطريقة سحابية أصلية مع التأكد من أنها مرنة وقابلة للتطوير. إنها شغوفة بتقنيات التعلم الآلي والاستدامة البيئية.

الطابع الزمني:

اكثر من التعلم الآلي من AWS