השתמש בדגימות Github עם Amazon SageMaker Data Wrangler

הועלה מחדש על ידי אפלטון

עוקב: 0

אמזון סייג מייק r Data Wrangler הוא כלי הכנת נתונים מבוסס ממשק משתמש המסייע בביצוע ניתוח נתונים, עיבוד מקדים והדמיה עם תכונות לניקוי, שינוי והכנת נתונים מהר יותר. תבניות זרימה מובנות מראש של Data Wrangler עוזרות להפוך את הכנת הנתונים למהירה יותר עבור מדעני נתונים ומתרגלי למידת מכונה (ML) על ידי כך שהם עוזרים לך להאיץ ולהבין דפוסי שיטות עבודה מומלצות עבור זרימות נתונים באמצעות מערכי נתונים נפוצים.

אתה יכול להשתמש בזרימות Data Wrangler כדי לבצע את המשימות הבאות:

נתונים להדמיה – בחינת מאפיינים סטטיסטיים לכל עמודה במערך הנתונים, בניית היסטוגרמות, לימוד חריגים
ניקוי נתונים - הסרת כפילויות, שחרור או מילוי של ערכים עם ערכים חסרים, הסרת חריגים
העשרת נתונים והנדסת תכונות - עיבוד עמודות לבניית תכונות אקספרסיביות יותר, בחירת תת-קבוצה של תכונות לאימון

פוסט זה יעזור לך להבין את Data Wrangler באמצעות הזרימות הבאות המובנות מראש GitHub. המאגר מציג טרנספורמציה של נתונים טבלאיים, טרנספורמציות של נתוני סדרות זמן והמרת נתונים מצורפים. כל אחד מהם דורש סוג אחר של טרנספורמציות בגלל הטבע הבסיסי שלו. נתוני טבלה או חתך סטנדרטיים נאספים בנקודת זמן מסוימת. לעומת זאת, נתוני סדרות זמן נקלטים שוב ושוב לאורך זמן, כאשר כל נקודת נתונים עוקבים תלויה בערכי העבר שלה.

הבה נסתכל על דוגמה כיצד אנו יכולים להשתמש בזרימת הנתונים לדוגמה עבור נתונים טבלאיים.

תנאים מוקדמים

Data Wrangler הוא אמזון SageMaker תכונה זמינה בתוך סטודיו SageMaker של אמזון, לכן עלינו לעקוב אחר תהליך ההטמעה של Studio כדי להעלות את סביבת Studio ומחברות. למרות שאתה יכול לבחור מבין כמה שיטות אימות, הדרך הפשוטה ביותר ליצור תחום Studio היא לבצע את התחלה מהירה הוראות. ההתחלה המהירה משתמשת באותן הגדרות ברירת המחדל כמו הגדרות סטודיו סטנדרטיות. אתה יכול גם לבחור לעלות על הסיפון באמצעות AWS IAM Identity Center (יורש של AWS Single Sign-On) לאימות (ראה נכלל ב-Amazon SageMaker Domain באמצעות IAM Identity Center).