השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות ב-ML

Amazon SageMaker Studio Lab היא סביבת פיתוח חינמית של למידת מכונה (ML) המבוססת על JupyterLab בקוד פתוח עבור כל אחד ללמוד ולהתנסות ב-ML באמצעות משאבי מחשוב של AWS ML. זה מבוסס על אותם ארכיטקטורה וממשק משתמש כמו סטודיו SageMaker של אמזון, אבל עם תת-קבוצה של יכולות Studio.

כאשר אתה מתחיל לעבוד על יוזמות ML, עליך לבצע ניתוח נתונים חקרניים (EDA) או הכנת נתונים לפני שתמשיך בבניית מודל. רנגלר הנתונים של אמזון SageMaker היא יכולת של אמזון SageMaker מה שמאפשר למדעני ומהנדסי נתונים להכין נתונים עבור יישומי ML דרך ממשק חזותי. Data Wrangler מקטין את הזמן שלוקח לצבור ולהכין נתונים עבור ML משבועות לדקות.

מאיץ מפתח להכנת תכונות ב-Data Wrangler הוא דוח איכות נתונים ותובנות. דוח זה בודק את איכות הנתונים ומסייע בזיהוי חריגות בנתונים שלך, כך שתוכל לבצע את הנדסת הנתונים הנדרשת כדי לתקן את מערך הנתונים שלך. אתה יכול להשתמש בדוח איכות נתונים ותובנות כדי לבצע ניתוח של הנתונים שלך כדי לקבל תובנות על מערך הנתונים שלך, כגון מספר הערכים החסרים ומספר החריגים. אם יש לך בעיות בנתונים שלך, כגון דליפת יעד או חוסר איזון, דוח התובנות יכול להביא את תשומת לבך לבעיות אלו ולעזור לך לזהות את שלבי הכנת הנתונים שאתה צריך לבצע.

משתמשי Studio Lab יכולים להפיק תועלת מ-Data Wrangler מכיוון שאיכות הנתונים והנדסת תכונות הם קריטיים לביצועים החזויים של המודל שלך. Data Wrangler עוזר עם איכות נתונים והנדסת תכונות על ידי מתן תובנות לגבי בעיות איכות נתונים ומאפשר בקלות איטרציה מהירה של תכונות והנדסה באמצעות ממשק משתמש בקוד נמוך.

בפוסט זה, אנו מראים לך כיצד לבצע ניתוח נתונים חקרני, להכין ולהמיר נתונים באמצעות Data Wrangler, ולייצא את הנתונים שעברו טרנספורמציה ומוכנים ל-Studio Lab כדי לבצע בניית מודל.

סקירת פתרונות

הפתרון כולל את השלבים הבאים ברמה גבוהה:

  1. צור חשבון AWS ומשתמש אדמין. זהו תנאי מוקדם
  2. הורד את מערך הנתונים churn.csv.
  3. טען את מערך הנתונים ל שירות אחסון פשוט של אמזון (אמזון S3).
  4. צור דומיין של SageMaker Studio והפעל את Data Wrangler.
  5. ייבא את מערך הנתונים לזרימת Data Wrangler מאמזון S3.
  6. צור את דוח איכות הנתונים והתובנות והסק מסקנות לגבי הנדסת תכונות נחוצה.
  7. בצע את שינויי הנתונים הדרושים ב-Data Wrangler.
  8. הורד את דוח איכות הנתונים והתובנות ואת מערך הנתונים שעבר שינוי.
  9. העלה את הנתונים לפרויקט של Studio Lab להכשרת מודלים.

התרשים הבא ממחיש זרימת עבודה זו.

תנאים מוקדמים

כדי להשתמש ב-Data Wrangler ו-Studio Lab, אתה צריך את התנאים המוקדמים הבאים:

בנו זרימת עבודה להכנת נתונים עם Data Wrangler

כדי להתחיל, בצע את הצעדים הבאים:

  1. העלה את מערך הנתונים שלך לאמזון S3.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. במסוף SageMaker, תחת לוח בקרה בחלונית הניווט, בחר סטודיו.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  3. על אפליקציית צהריים תפריט לצד פרופיל המשתמש שלך, בחר סטודיו.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    לאחר שתתחבר בהצלחה לסטודיו, אתה אמור לראות סביבת פיתוח כמו צילום המסך הבא.
  4. כדי ליצור זרימת עבודה חדשה של Data Wrangler, ב- שלח בתפריט, בחר חדש, ואז לבחור זרימת רנגלר נתונים.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    הצעד הראשון ב-Data Wrangler הוא לעשות לייבא הנתונים שלך. אתה יכול לייבא נתונים ממקורות נתונים מרובים, כגון Amazon S3, אמזונה אתנה, האדום של אמזון, פְּתִית שֶׁלֶג, ו דאטבריקס. בדוגמה זו, אנו משתמשים באמזון S3. אם אתה רק רוצה לראות איך Data Wrangler עובד, אתה תמיד יכול לבחור השתמש במערך נתונים לדוגמה.
  5. בחרו ייבא נתונים.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  6. בחרו אמזון S3.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  7. בחר את מערך הנתונים שהעלית ובחר תבואו.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    Data Wrangler מאפשר לך לייבא את כל מערך הנתונים או לדגום חלק ממנו.
  8. כדי לקבל במהירות תובנות על מערך הנתונים, בחר הראשון ק ל דגימה והזן 50000 עבור גודל המדגם.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הבן את איכות הנתונים וקבל תובנות

בואו נשתמש בדוח איכות נתונים ותובנות כדי לבצע ניתוח של הנתונים שייבאנו ל-Data Wrangler. אתה יכול להשתמש בדוח כדי להבין אילו צעדים עליך לנקוט כדי לנקות ולעבד את הנתונים שלך. דוח זה מספק מידע כגון מספר הערכים החסרים ומספר החריגים. אם יש לך בעיות עם הנתונים שלך, כגון דליפת יעד או חוסר איזון, דוח התובנות יכול להביא את הבעיות האלה לתשומת לבך.

  1. בחר את סימן הפלוס שליד סוגי מידע ולבחור קבל תובנות נתונים.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. בעד סוג ניתוח, בחר דוח איכות נתונים ותובנות.
  3. בעד עמודת יעד, בחר מַחבֵּצָה?.
  4. בעד סוג הבעיהבחר מִיוּן.
  5. בחרו צור.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מוצג לך דוח מפורט שתוכל לעיין ולהוריד. הדוח כולל מספר חלקים כמו מודל מהיר, סיכום תכונות, מתאם תכונות ותובנות נתונים. צילומי המסך הבאים מספקים דוגמאות לקטעים אלה.

השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

תצפיות מתוך הדו"ח

מהדו"ח נוכל להעלות את ההערות הבאות:

  • לא נמצאו שורות כפולות.
  • השמיים State נראה שהעמודה מחולקת באופן שווה למדי, כך שהנתונים מאוזנים מבחינת אוכלוסיית המדינה.
  • השמיים Phone העמודה מציגה יותר מדי ערכים ייחודיים מכדי שיהיה בהם שימוש מעשי. יותר מדי ערכים ייחודיים הופכים את העמודה הזו ללא שימושית. אנחנו יכולים להפיל את Phone עמודה בשינוי שלנו.
  • בהתבסס על קטע מתאם תכונה בדוח, Mins ו Charge נמצאים בקורלציה גבוהה. אנחנו יכולים להסיר אחד מהם.

טרנספורמציה

בהתבסס על התצפיות שלנו, אנו רוצים לבצע את התמורות הבאות:

  • הסר את Phone העמודה כי יש לה ערכים ייחודיים רבים.
  • אנו רואים גם כמה תכונות שיש להן בעצם מתאם של 100% אחת עם השנייה. הכללת צמדי תכונות אלו באלגוריתמי ML מסוימים עלולה ליצור בעיות לא רצויות, בעוד שבאחרים היא תציג רק יתירות והטיה מינורית. הבה נסיר תכונה אחת מכל אחד מהזוגות המתואמים ביותר: Day Charge מהזוג עם Day Mins, Night Charge מהזוג עם Night Mins, ו Intl Charge מהזוג עם Intl Mins.
  • המרת True or False ב Churn העמודה תהיה ערך מספרי של 1 או 0.
  1. חזור לזרימת הנתונים ובחר בסימן הפלוס שליד סוגי מידע.
  2. בחרו הוסף טרנספורמציה.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  3. בחרו הוסף שלב.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  4. אתה יכול לחפש את הטרנספורמציה שאתה מחפש (במקרה שלנו, נהל עמודות).
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  5. בחרו נהל עמודות.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  6. בעד לשנותבחר זרוק טור.
  7. בעד עמודות להורדהבחר Phone, Day Charge, Eve Charge, Night Charge, ו Intl Charge.
  8. בחרו תצוגה מקדימה, ואז לבחור עדכון.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    בואו נוסיף טרנספורמציה נוספת כדי לבצע קידוד קטגורי ב- Churn? עמודה.
  9. בחר את ההמרה מקודד קטגורי.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  10. בעד לשנות, בחר קידוד רגיל.
  11. בעד עמודות קלט, בחר את Churn? עמודה.
  12. בעד אסטרטגיית טיפול לא חוקית, בחר החלף ב-NaN.
  13. בחרו תצוגה מקדימה, ואז לבחור עדכון.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עַכשָׁיו True ו False מומרים ל-1 ו-0, בהתאמה.

השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת, לאחר שהבנו היטב את הנתונים והכנו והפכנו את הנתונים לבניית מודלים, אנו יכולים להעביר את הנתונים ל- Studio Lab לבניית מודלים.

העלה את הנתונים ל-Studio Lab

כדי להתחיל להשתמש בנתונים ב-Studio Lab, בצע את השלבים הבאים:

  1. בחרו ייצא נתונים ל יצוא לדלי S3.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. בעד מיקום אמזון S3, הזן את נתיב ה-S3 שלך.
  3. ציין את סוג הקובץ.
  4. בחרו ייצא נתונים.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  5. לאחר ייצוא הנתונים, תוכל להוריד את הנתונים מדלי S3 למחשב המקומי שלך.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  6. כעת תוכלו לעבור ל-Studio Lab ולהעלות את הקובץ ל-Studio Lab.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    לחלופין, אתה יכול להתחבר לאמזון S3 מ-Studio Lab. למידע נוסף, עיין ב השתמש במשאבים חיצוניים ב-Amazon SageMaker Studio Lab.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  7. בואו נתקין את SageMaker ונייבא פנדות.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  8. ייבא את כל הספריות לפי הצורך.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  9. כעת נוכל לקרוא את קובץ ה-CSV.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  10. בואו להדפיס churn כדי לוודא שמערך הנתונים נכון.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת, לאחר שיש לך את מערך הנתונים המעובד ב-Studio Lab, תוכל לבצע שלבים נוספים הנדרשים לבניית מודל.

תמחור Data Wrangler

אתה יכול לבצע את כל השלבים בפוסט זה עבור EDA או הכנת נתונים בתוך Data Wrangler ו לשלם עבור הדוגמה הפשוטה, עבודות ותמחור אחסון מבוסס על שימוש או צריכה. לא נדרשות דמי רישוי מראש.

לנקות את

כאשר אינך משתמש ב-Data Wrangler, חשוב לסגור את המופע בו הוא פועל כדי להימנע מחיובים נוספים. כדי למנוע אובדן עבודה, שמור את זרימת הנתונים שלך לפני כיבוי Data Wrangler.

  1. כדי לשמור את זרימת הנתונים שלך בסטודיו, בחר שלח, ואז לבחור שמור את זרימת הנתונים של Wrangler.
    Data Wrangler שומר אוטומטית את זרימת הנתונים שלך כל 60 שניות.
  2. כדי לכבות את מופע Data Wrangler, ב-Studio, בחר מופעי ריצות וגרעינים.
  3. תַחַת הפעלת אפליקציות, בחר בסמל הכיבוי שליד sagemaker-data-wrangler-1.0 app.
  4. בחרו סגור את כולם כדי לאשר.
    השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

Data Wrangler פועל על מופע ml.m5.4xlarge. המקרה הזה נעלם מופעי ריצה כאשר אתה מכבה את אפליקציית Data Wrangler.

לאחר כיבוי אפליקציית Data Wrangler, עליה להפעיל מחדש בפעם הבאה שתפתח קובץ זרימה של Data Wrangler. זה יכול לקחת כמה דקות.

סיכום

בפוסט הזה ראינו איך אתה יכול לקבל תובנות על מערך הנתונים שלך, לבצע ניתוח נתונים חקרני, להכין ולהמיר נתונים באמצעות Data Wrangler בתוך Studio, ולייצא את הנתונים שעברו טרנספורמציה ומוכנים ל-Studio Lab ולבצע בניית מודל ושלבים נוספים.

עם SageMaker Data Wrangler, אתה יכול לפשט את תהליך הכנת הנתונים והנדסת תכונות, ולהשלים כל שלב בזרימת העבודה של הכנת הנתונים, כולל בחירת נתונים, ניקוי, חקירה והדמיה מממשק ויזואלי יחיד.


על המחברים

השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ראג'קומאר סמפאטקומאר הוא מנהל חשבון טכני ראשי ב-AWS, המספק ללקוחות הדרכה על יישור טכנולוגיה עסקית ותומך בהמצאה מחדש של המודלים והתהליכים של תפעול הענן שלהם. הוא נלהב מהענן ולמידת מכונה. Raj הוא גם מומחה למידת מכונה ועובד עם לקוחות AWS כדי לתכנן, לפרוס ולנהל את עומסי העבודה והארכיטקטורות של AWS שלהם.

השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.Meenakshisundaram Thandavarayan הוא מומחה בכיר בינה מלאכותית/ML עם תשוקה לעצב, ליצור ולקדם חוויות נתונים ואנליטיקס ממוקדות באדם. הוא תומך בלקוחות AWS Strategic בשינוי שלהם לארגון מונע נתונים.

השתמש ב-Amazon SageMaker Data Wrangler להכנת נתונים וב-Studio Labs כדי ללמוד ולהתנסות עם ML PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'יימס וו הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML בכיר ב-AWS. עוזר ללקוחות לתכנן ולבנות פתרונות AI/ML. עבודתו של ג'יימס מכסה מגוון רחב של מקרי שימוש ב-ML, עם עניין עיקרי בראייה ממוחשבת, למידה עמוקה והרחבת ML ברחבי הארגון. לפני שהצטרף ל-AWS, ג'יימס היה אדריכל, מפתח ומוביל טכנולוגיה במשך למעלה מ-10 שנים, כולל 6 שנים בהנדסה ו-4 שנים בתעשיות שיווק ופרסום.

בול זמן:

עוד מ למידת מכונות AWS