היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.

היכרות עם ההדמיות החדשות של Amazon SageMaker Data Wrangler

בדיקה ידנית של איכות הנתונים וניקוי הנתונים היא תהליך כואב וגוזל זמן שיכול לקחת נתח עצום מזמנו של מדען נתונים בפרויקט. על פי סקר 2020 של מדעני נתונים שנערך על ידי Anaconda, מדעני נתונים מקדישים כ-66% מזמנם במשימות הכנת וניתוח נתונים, כולל טעינה (19%), ניקוי (26%) והצגה של נתונים (21%). אמזון SageMaker מציעה מגוון של כלים להכנת נתונים כדי לענות על צרכי הלקוח והעדפות שונות. עבור משתמשים המעדיפים ממשק אינטראקטיבי מבוסס GUI, SageMaker Data Wrangler מציע יותר מ-300 הדמיות, ניתוחים וטרנספורמציות מובנות לעיבוד יעיל של נתונים המגובים על ידי Spark מבלי לכתוב שורת קוד אחת.

הדמיית נתונים בלמידת מכונה (ML) היא תהליך איטרטיבי ודורשת הדמיה מתמשכת של מערך הנתונים לצורך גילוי, חקירה ואימות. הצבת נתונים לפרספקטיבה כרוכה לראות כל אחת מהעמודות כדי להבין שגיאות נתונים אפשריות, ערכים חסרים, סוגי נתונים שגויים, נתונים מטעים/שגויים, נתונים חריגים ועוד.

בפוסט זה נראה לך איך רנגלר הנתונים של אמזון SageMaker מייצר אוטומטית הדמיות מפתח של הפצת נתונים, מזהה בעיות באיכות הנתונים ומציג תובנות נתונים כגון חריגים עבור כל תכונה מבלי לכתוב שורת קוד אחת. זה עוזר לשפר את חוויית רשת הנתונים עם אזהרות איכות אוטומטיות (לדוגמה, ערכים חסרים או ערכים לא חוקיים). ההדמיות שנוצרות אוטומטית הן גם אינטראקטיביות. לדוגמה, אתה יכול להציג טבלה של חמשת הפריטים הנפוצים ביותר מסודרים לפי אחוזים, ולרחף מעל הסרגל כדי לעבור בין ספירה לאחוז.

תנאים מוקדמים

Amazon SageMaker Data Wrangler היא תכונה של SageMaker הזמינה בתוך SageMaker Studio. אתה יכול לעקוב תהליך ההצטרפות לסטודיו לסובב את סביבת הסטודיו ואת המחברות. למרות שאתה יכול לבחור מבין כמה שיטות אימות, הדרך הפשוטה ביותר ליצור תחום Studio היא לבצע את הוראות להפעלה מהירה. ההתחלה המהירה משתמשת באותן הגדרות ברירת המחדל כמו ההגדרה הרגילה של Studio. אתה יכול גם לבחור לעלות על הסיפון באמצעות מרכז הזהות של AWS וניהול גישה (IAM). (יורש של AWS Single Sign-On) לאימות (ראה נכלל ב-Amazon SageMaker Domain באמצעות IAM Identity Center).

הדרכה לפתרון

התחל שלך סטודיו SageMaker סביבה וליצור חדש זרימת רנגלר נתונים. אתה יכול לייבא מערך נתונים משלך או להשתמש במערך נתונים לדוגמה (כביר) כפי שניתן לראות בתמונה הבאה. שני הצמתים הללו (ה מָקוֹר הצומת וה- נתונים סוג node) ניתנים ללחיצה - כאשר אתה לוחץ פעמיים על שני הצמתים הללו, Data Wrangler יציג את הטבלה.

במקרה שלנו, הבה נלחץ לחיצה ימנית על סוגי מידע סמל ו הוסף טרנספורמציה:

כעת אתה אמור לראות הדמיות על גבי כל עמודה. אנא המתן לזמן מה לטעינת התרשימים. ההשהיה תלויה בגודל מערך הנתונים (עבור מערך הנתונים של Titanic, זה אמור לקחת 1-2 שניות במופע ברירת המחדל).

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.

גלול אל הסרגל העליון האופקי על ידי ריחוף מעל תיאור כלי. כעת, לאחר שהתרשימים נטענו, אתה יכול לראות את התפלגות הנתונים, ערכים לא חוקיים וערכים חסרים. חריגים וערכים חסרים הם מאפיינים של נתונים שגויים, וזה קריטי לזהות אותם מכיוון שהם עלולים להשפיע על התוצאות שלך. המשמעות היא שמכיוון שהנתונים שלך הגיעו ממדגם לא מייצג, ייתכן שהממצאים שלך לא ניתנים להכללה למצבים מחוץ למחקר שלך. סיווג ערכים ניתן לראות בתרשימים בתחתית היכן תקף ערכים מיוצגים בלבן, חוקי ערכים בכחול, ו חסר ערכים בסגול. אתה יכול גם להסתכל על חריגים מתואר על ידי הנקודות הכחולות משמאל או ימין לתרשים.

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.

כל ההדמיות מגיעות בצורה של היסטוגרמות. עבור נתונים שאינם קטגוריים, ערכת דלי מוגדרת עבור כל סל. עבור נתונים קטגוריים, כל ערך ייחודי מטופל כסל. על גבי ההיסטוגרמה, יש תרשים עמודות המציג את הערכים הלא חוקיים והחסרים. אנו יכולים להציג את היחס בין ערכים חוקיים לסוגים מספריים, קטגוריים, בינאריים, טקסט ותאריך תאריך, כמו גם את היחס בין הערכים החסרים על סמך סך התאים האפסים והריקים, ולבסוף, את היחס בין הערכים הלא חוקיים. הבה נסתכל על כמה דוגמאות כדי להבין איך אתה יכול לראות את אלה באמצעות מדגם Titanic Dataset של Data Wrangler שנטען מראש.

דוגמה 1 - אנו יכולים להסתכל על 20% הערכים החסרים עבור ה גיל תכונה/עמודה. חשוב לטפל בנתונים החסרים בתחום המחקר/ML הקשורים לנתונים, בין אם על ידי הסרה או זקיפתם (טיפול בערכים החסרים בהערכה מסוימת).

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.
אתה יכול לעבד ערכים חסרים באמצעות ה טפל בערכים חסרים להפוך קבוצה. להשתמש ב זקוף נעדר טרנספורמציה ליצירת ערכים זקופים שבהם נמצאו ערכים חסרים בעמודת הקלט. התצורה תלויה בסוג הנתונים שלך.

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.

בדוגמה זו, גיל לעמודה יש ​​סוג נתונים מספרי. עבור אסטרטגיה זקיפת, אנו יכולים לבחור לזקוף את אומר או חציון משוער מעל הערכים הקיימים במערך הנתונים שלך.

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.

כעת, לאחר שהוספנו את השינוי, אנו יכולים לראות שה- גיל אין יותר ערכים חסרים בעמודה.

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.

דוגמה 2 - אנו יכולים להסתכל על 27% הערכים הלא חוקיים עבור כרטיס תכונה/עמודה שהיא של STRING סוּג. נתונים לא חוקיים יכולים לייצר אומדנים מוטים, שיכולים להפחית את דיוק המודל ולגרום למסקנות שגויות. הבה נחקור כמה טרנספורמציות שאנו יכולים להשתמש בהן כדי לטפל בנתונים הלא חוקיים ב- כרטיס עמודה.

בהסתכלות על צילום המסך, אנו רואים שחלק מהכניסות נכתבות בפורמט המכיל אלפבית לפני ספרות "המחשב 17318" ואחרים הם רק ספרות כגון "11769".

אנו יכולים לבחור להחיל טרנספורמציה כדי לחפש ולערוך דפוסים ספציפיים בתוך מחרוזות כגון "PC" ולהחליף אותם. לאחר מכן, נוכל להטיל את שלנו מחרוזת עמודה לסוג חדש כגון ארוך לצורך קלות השימוש.

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.

זה עדיין משאיר אותנו עם 19% ערכים חסרים על כרטיס תכונה. בדומה לדוגמא 1, כעת נוכל לזקוף את הערכים החסרים באמצעות ממוצע או חציון משוער. העתיד כרטיס לא אמורים להיות עוד ערכים לא חוקיים או חסרים לפי התמונה למטה.

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.

כדי לוודא שלא תחויב בחיובים לאחר ביצוע המדריך הזה, ודא שאתה כבה את אפליקציית Data Wrangler.

סיכום 

בפוסט הזה הצגנו את החדש אמזון Sagemaker Data Wrangler יישומון שיעזור להסיר את הרמה כבדה ללא הבחנה עבור משתמשי קצה במהלך הכנת נתונים עם הדמיות חזותיות אוטומטיות ותובנות פרופיל נתונים עבור כל תכונה. הווידג'ט הזה מקל על הצגת נתונים חזותית (לדוגמה, היסטוגרמה קטגורית/לא קטגורית), לזהות בעיות באיכות הנתונים (לדוגמה, ערכים חסרים וערכים לא חוקיים), ותובנות נתונים משטחים (לדוגמה, חריגים ופריט N העליון).

אתה יכול להתחיל להשתמש ביכולת הזו היום בכל האזורים שבהם SageMaker Studio זמין. תן לזה הזדמנות, וספר לנו מה אתה חושב. אנו תמיד מצפים למשוב שלך, בין אם דרך אנשי הקשר הרגילים שלך לתמיכה ב-AWS, או ב- פורום AWS עבור SageMaker.


על הכותבים

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.אשה דואה הוא אדריכל פתרונות בכיר שבסיסו באזור מפרץ סן פרנסיסקו. היא עוזרת ללקוחות AWS Enterprise לצמוח על ידי הבנת המטרות והאתגרים שלהם, ומנחה אותם כיצד הם יכולים לתכנן את היישומים שלהם באופן מקורי בענן תוך הקפדה על גמישות וניתנות להרחבה. היא נלהבת מטכנולוגיות למידת מכונה וקיימות סביבתית.

היכרות עם אמזון SageMaker Data Wrangler ההדמיות החדשות של PlatoBlockchain Data Intelligence של PlatoBlockchain. חיפוש אנכי. איי.פרת 'פאטל הוא אדריכל פתרונות ב-AWS באזור מפרץ סן פרנסיסקו. Parth מנחה לקוחות להאיץ את המסע שלהם לענן ומסייע להם לאמץ את הענן AWS בהצלחה. הוא מתמקד ב-ML ומודרניזציה של יישומים.

בול זמן:

עוד מ למידת מכונות AWS