השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler

אמזון סייג מייקr Data Wrangler הוא כלי הכנת נתונים מבוסס ממשק משתמש המסייע בביצוע ניתוח נתונים, עיבוד מקדים והדמיה עם תכונות לניקוי, שינוי והכנת נתונים מהר יותר. תבניות זרימה מובנות מראש של Data Wrangler עוזרות להפוך את הכנת הנתונים למהירה יותר עבור מדעני נתונים ומתרגלי למידת מכונה (ML) על ידי כך שהם עוזרים לך להאיץ ולהבין דפוסי שיטות עבודה מומלצות עבור זרימות נתונים באמצעות מערכי נתונים נפוצים.

אתה יכול להשתמש בזרימות Data Wrangler כדי לבצע את המשימות הבאות:

  • נתונים להדמיה – בחינת מאפיינים סטטיסטיים לכל עמודה במערך הנתונים, בניית היסטוגרמות, לימוד חריגים
  • ניקוי נתונים - הסרת כפילויות, שחרור או מילוי של ערכים עם ערכים חסרים, הסרת חריגים
  • העשרת נתונים והנדסת תכונות - עיבוד עמודות לבניית תכונות אקספרסיביות יותר, בחירת תת-קבוצה של תכונות לאימון

פוסט זה יעזור לך להבין את Data Wrangler באמצעות הזרימות הבאות המובנות מראש GitHub. המאגר מציג טרנספורמציה של נתונים טבלאיים, טרנספורמציות של נתוני סדרות זמן והמרת נתונים מצורפים. כל אחד מהם דורש סוג אחר של טרנספורמציות בגלל הטבע הבסיסי שלו. נתוני טבלה או חתך סטנדרטיים נאספים בנקודת זמן מסוימת. לעומת זאת, נתוני סדרות זמן נקלטים שוב ושוב לאורך זמן, כאשר כל נקודת נתונים עוקבים תלויה בערכי העבר שלה.

הבה נסתכל על דוגמה כיצד אנו יכולים להשתמש בזרימת הנתונים לדוגמה עבור נתונים טבלאיים.

תנאים מוקדמים

Data Wrangler הוא אמזון SageMaker תכונה זמינה בתוך סטודיו SageMaker של אמזון, לכן עלינו לעקוב אחר תהליך ההטמעה של Studio כדי להעלות את סביבת Studio ומחברות. למרות שאתה יכול לבחור מבין כמה שיטות אימות, הדרך הפשוטה ביותר ליצור תחום Studio היא לבצע את התחלה מהירה הוראות. ההתחלה המהירה משתמשת באותן הגדרות ברירת המחדל כמו הגדרות סטודיו סטנדרטיות. אתה יכול גם לבחור לעלות על הסיפון באמצעות AWS IAM Identity Center (יורש של AWS Single Sign-On) לאימות (ראה נכלל ב-Amazon SageMaker Domain באמצעות IAM Identity Center).

ייבא את מערך הנתונים וקבצי הזרימה אל Data Wrangler באמצעות Studio

השלבים הבאים מתארים כיצד לייבא נתונים לתוך SageMaker שייצרכו על ידי Data Wrangler:

אתחול Data Wrangler דרך ממשק המשתמש של Studio על ידי בחירה זרימת נתונים חדשה.

שיבט את GitHub ריפו כדי להוריד את קבצי הזרימה לסביבת הסטודיו שלך.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כאשר השיבוט הושלם, אתה אמור להיות מסוגל לראות את תוכן המאגר בחלונית השמאלית.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בחר את הקובץ Hotel-Bookings-Classification.flow לייבא את קובץ הזרימה אל Data Wrangler.

אם אתה משתמש בסדרת הזמן או בזרימת הנתונים המצורפת, הזרם יופיע בשם אחר. לאחר שהזרימה יובאה, אתה אמור לראות את צילום המסך הבא. זה מראה לנו שגיאות כי אנחנו צריכים לוודא שקובץ הזרימה מצביע על מקור הנתונים הנכון שירות אחסון פשוט של אמזון (אמזון S3).

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לבחור ערוך מערך נתונים להעלות את כל דלי ה-S3 שלך. לאחר מכן, בחר את מערך הנתונים hotel_bookings.csv מהדלי S3 שלך לריצה דרך זרימת נתונים טבלאית.

שים לב שאם אתה משתמש ב- הצטרף לזרימת נתונים, ייתכן שיהיה עליך לייבא מערכי נתונים מרובים לתוך Data Wranglerהשתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בחלונית הימנית, ודא פסקה נבחר כמפריד ו דגימה מוגדר הראשון ק. מערך הנתונים שלנו קטן מספיק כדי להפעיל טרנספורמציות של Data Wrangler על מערך הנתונים המלא, אך רצינו להדגיש כיצד ניתן לייבא את מערך הנתונים. אם יש לך מערך נתונים גדול, שקול להשתמש בדגימה. בחר תבואו לייבא מערך נתונים זה ל-Data Wrangler.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לאחר ייבוא ​​מערך הנתונים, Data Wrangler מאמת אוטומטית את מערך הנתונים ומזהה את סוגי הנתונים. אתה יכול לראות שהשגיאות נעלמו כי אנחנו מצביעים על מערך הנתונים הנכון. עורך הזרימה מציג כעת שני בלוקים המראים שהנתונים יובאו ממקור וסוגי נתונים זוהו. ניתן גם לערוך את סוגי הנתונים במידת הצורך.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

צילום המסך הבא מציג את סוגי הנתונים שלנו.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בואו נסתכל על כמה מהטרנספורמציות שנעשו כחלק מהזרימה הטבלאית הזו. אם אתה משתמש ב- סדרת זמן or הצטרף זרימת נתונים, בדוק כמה טרנספורמציות נפוצות ב- GitHub ריפו. ביצענו כמה ניתוח נתונים חקרניים בסיסיים באמצעות דוחות של תובנות נתונים שחקרו את דליפת היעד וקולינאריות התכונות במערך הנתונים, ניתוחי סיכום טבלאות ויכולת מידול מהיר. חקור את השלבים ב- GitHub ריפו.

כעת אנו שומטים עמודות על סמך ההמלצות שסופקו על ידי דוח 'תובנות נתונים ואיכות'.

  • לדליפת מטרה, שחרר reservation_status.
  • עבור עמודות מיותרות, שחרר ימים_ברשימת_המתנה, מלון, סוג_חדר_שמור, חודש_תאריך_הגעה, תאריך_סטטוס_הזמנה, תינוקות, ו הגעה_תאריך_יום_חודש.
  • בהתבסס על תוצאות מתאם ליניארי, שחרר עמודות הגעה_תאריך_מספר_שבוע ו הגעה_תאריך_שנה כי ערכי המתאם עבור צמדי תכונות (עמודות) אלה גדולים מהסף המומלץ של 0.90.
  • בהתבסס על תוצאות מתאם לא ליניארי, ירידה reservation_status. עמודה זו כבר סומנה לביטול בהתבסס על ניתוח דליפת היעד.
  • עיבוד ערכים מספריים (מינימום-מקסימום קנה מידה) עבור זמן אספקה, שהות_ב_לילות_סוף השבוע, שהות_בלילי_שבוע, הוא_אורח_חוזר, ביטולים קודמים, הזמנות_קודמות_לא_מבוטלות, שינויים_ההזמנות, adr, סך_בקשות_הספציפיות, ו מקומות חניה_דרושים.
  • קידוד חד-חם משתנים קטגוריים כמו ארוחה, הוא_אורח_חוזר, פלח_שוק, סוג_חדר מוקצה, סוג_הפקדה, ו סוג_לקוח.
  • איזון משתנה היעד דגימת יתר אקראית לחוסר איזון בכיתה. השתמש ביכולת הדוגמנות המהירה כדי להתמודד עם חריגים וערכים חסרים.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ייצוא לאמזון S3

כעת עברנו את ההמרות השונות ומוכנים לייצא את הנתונים לאמזון S3. אפשרות זו יוצרת משימת עיבוד של SageMaker, אשר מפעילה את זרימת העיבוד של Data Wrangler ושומרת את מערך הנתונים שנוצר בדלי S3 שצוין. בצע את השלבים הבאים כדי להגדיר את הייצוא לאמזון S3:

בחר את סימן הפלוס לצד אוסף של רכיבי טרנספורמציה ובחר הוסף יעד, לאחר מכן אמזון S3.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  • בעד שם ערכת נתונים, הזן שם עבור מערך הנתונים החדש, למשל NYC_export.
  • בעד סוג קובץ, בחר CSV.
  • בעד מפריד, בחר פְּסִיק.
  • בעד דְחִיסָה, בחר ללא חתימה.
  • בעד מיקום אמזון S3, השתמש באותו שם דלי שיצרנו קודם לכן.
  • לבחור הוסף יעד.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לבחור צור עבודה.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בעד שם העבודה, הזן שם או השאר את האפשרות שנוצרה אוטומטית ובחר יעד. יש לנו רק יעד אחד, S3:testingtabulardata, אבל ייתכן שיש לך יעדים מרובים משלבים שונים בזרימת העבודה שלך. עזוב את ה מפתח KMS ARN שדה ריק ובחר הַבָּא.

כעת עליך להגדיר את קיבולת המחשוב עבור עבודה. אתה יכול לשמור את כל ערכי ברירת המחדל עבור דוגמה זו.

  • בעד סוג מופע, השתמש ב-ml.m5.4xlarge.
  • בעד ספירת מקרים, השתמש ב-2.
  • אתה יכול לחקור תצורה נוספת, אך שמור על הגדרות ברירת המחדל.
  • לבחור הפעלה.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עכשיו העבודה שלך התחילה, ולוקח קצת זמן לעבד 6 GB של נתונים לפי זרימת העיבוד של Data Wrangler שלנו. העלות עבור עבודה זו תהיה בסביבות $2 USD, כי ml.m5.4xlarge עולה $0.922 USD לשעה ואנחנו משתמשים בשניים מהם.

אם תבחר בשם המשרה, תופנה לחלון חדש עם פרטי המשרה.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בעמוד פרטי המשרה תוכלו לראות את כל הפרמטרים מהשלבים הקודמים.

כאשר סטטוס העבודה משתנה לסיום, אתה יכול גם לבדוק את זמן עיבוד (שניות) ערך. עבודת עיבוד זו נמשכת כ-5-10 דקות.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בסיום העבודה, קבצי הפלט של הרכבת והבדיקה זמינים בתיקיות הפלט המתאימות של S3. אתה יכול למצוא את מיקום הפלט מתצורות עבודת העיבוד.

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לאחר סיום עבודת העיבוד של Data Wrangler, נוכל לבדוק את התוצאות שנשמרו בדלי S3 שלנו. אל תשכח לעדכן את job_name משתנה עם שם העבודה שלך.

כעת תוכל להשתמש בנתונים המיוצאים האלה להפעלת דגמי ML.

לנקות את

מחק את דלי ה-S3 שלך וגם שלך זרימת רנגלר נתונים על מנת למחוק את המשאבים הבסיסיים ולמנוע עלויות לא רצויות לאחר שתסיים את הניסוי.

סיכום

בפוסט זה, הראינו כיצד ניתן לייבא את זרימת הנתונים הבנויה מראש בטבלה לתוך Data Wrangler, לחבר אותה למערך הנתונים שלנו ולייצא את התוצאות לאמזון S3. אם מקרי השימוש שלך דורשים ממך לבצע מניפולציות בנתוני סדרות זמן או להצטרף למערכי נתונים מרובים, תוכל לעבור על זרימות הדוגמאות האחרות שנבנו מראש ב- GitHub ריפו.

לאחר שייבאת זרימת עבודה מוכנה מראש להכנת נתונים, תוכל לשלב אותה עם Amazon SageMaker Processing, צינורות SageMaker של אמזון, ו חנות הפונקציות של אמזון SageMaker כדי לפשט את המשימה של עיבוד, שיתוף ואחסון נתוני אימון ML. אתה יכול גם לייצא את זרימת הנתונים לדוגמה הזו לסקריפט של Python וליצור צינור הכנה לנתוני ML מותאם אישית, ובכך להאיץ את מהירות השחרור שלך.

אנו ממליצים לך לבדוק את שלנו מאגר GitHub לתרגול מעשי ולמצוא דרכים חדשות לשיפור דיוק המודל! למידע נוסף על SageMaker, בקר באתר Amazon SageMaker מדריך למפתחים.


על הכותבים

השתמש בדגימות Github עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אשה דואה הוא אדריכל פתרונות בכיר שבסיסו באזור מפרץ סן פרנסיסקו. היא עוזרת ללקוחות AWS Enterprise לצמוח על ידי הבנת המטרות והאתגרים שלהם, ומנחה אותם כיצד הם יכולים לתכנן את היישומים שלהם באופן מקורי בענן תוך הקפדה על גמישות וניתנות להרחבה. היא נלהבת מטכנולוגיות למידת מכונה וקיימות סביבתית.

בול זמן:

עוד מ למידת מכונות AWS