استخدم عينات Github مع Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

المتابعون: 0

أمازون سيج ص داتا رانجلر هي أداة إعداد بيانات قائمة على واجهة المستخدم تساعد في إجراء تحليل البيانات والمعالجة المسبقة والتخيل مع ميزات لتنظيف البيانات وتحويلها وإعدادها بشكل أسرع. تساعد قوالب التدفق المبنية مسبقًا من Data Wrangler في جعل إعداد البيانات أسرع لعلماء البيانات وممارسي التعلم الآلي (ML) من خلال مساعدتك في تسريع وفهم أنماط أفضل الممارسات لتدفق البيانات باستخدام مجموعات البيانات الشائعة.

يمكنك استخدام تدفقات رانجلر البيانات لأداء المهام التالية:

عرض مرئي للمعلومات - فحص الخصائص الإحصائية لكل عمود في مجموعة البيانات ، وبناء الرسوم البيانية ، ودراسة القيم المتطرفة
تنظيف البيانات - إزالة التكرارات وإسقاط أو ملء الإدخالات بقيم مفقودة وإزالة القيم المتطرفة
إثراء البيانات وهندسة الميزات - معالجة الأعمدة لبناء المزيد من الميزات التعبيرية ، واختيار مجموعة فرعية من الميزات للتدريب

سيساعدك هذا المنشور على فهم Data Wrangler باستخدام نموذج التدفقات المبنية مسبقًا التالية GitHub جيثب:. يعرض المستودع تحويل البيانات الجدولية ، وتحويلات بيانات السلاسل الزمنية ، وتحويلات مجموعة البيانات المنضمة. يتطلب كل نوع نوعًا مختلفًا من التحولات بسبب طبيعتها الأساسية. يتم جمع البيانات الجدولية أو المقطعية القياسية في نقطة زمنية محددة. في المقابل ، يتم التقاط بيانات السلاسل الزمنية بشكل متكرر بمرور الوقت ، حيث تعتمد كل نقطة بيانات متتالية على قيمها السابقة.

لنلقِ نظرة على مثال لكيفية استخدام تدفق بيانات العينة لبيانات جدولية.

المتطلبات الأساسية المسبقة

داتا رانجلر هو برنامج الأمازون SageMaker الميزة المتاحة داخل أمازون ساجميكر ستوديو، لذلك نحتاج إلى اتباع عملية إعداد الاستوديو لتحسين بيئة الاستوديو وأجهزة الكمبيوتر المحمولة. على الرغم من أنه يمكنك الاختيار من بين عدد قليل من طرق المصادقة ، فإن أبسط طريقة لإنشاء مجال Studio هي اتباع بداية سريعة تعليمات. يستخدم البدء السريع نفس الإعدادات الافتراضية مثل ملف إعداد الاستوديو القياسي. يمكنك أيضًا اختيار على متن الطائرة باستخدام مركز هوية AWS IAM (خلفًا لـ AWS Single Sign-On) للمصادقة (انظر على متن الطائرة إلى مجال Amazon SageMaker باستخدام مركز هوية IAM).