בפוסט זה, אנו מציגים ניתוח חדש ב- דוח איכות נתונים ותובנות of רנגלר הנתונים של אמזון SageMaker. ניתוח זה מסייע לך לאמת תכונות טקסטואליות לנכונות ולחשוף שורות לא חוקיות לתיקון או השמטה.
Data Wrangler מקטין את הזמן שלוקח לצבור ולהכין נתונים ללמידת מכונה (ML) משבועות לדקות. אתה יכול לפשט את תהליך הכנת הנתונים והנדסת תכונות, ולהשלים כל שלב בזרימת העבודה של הכנת הנתונים, כולל בחירת נתונים, ניקוי, חקירה והדמיה, מממשק ויזואלי יחיד.
סקירת פתרונות
עיבוד מוקדם של נתונים כולל לעתים קרובות ניקוי נתונים טקסטואליים כגון כתובות דוא"ל, מספרי טלפון ושמות מוצרים. לנתונים אלה יכולים להיות מגבלות שלמות שעשויות להיות מתוארות על ידי ביטויים רגולריים. לדוגמה, כדי להיחשב תקף, ייתכן שמספר טלפון מקומי יצטרך לעקוב אחר דפוס כמו [1-9][0-9]{2}-[0-9]{4}
, שתתאים לספרה שאינה אפס, ואחריה שתי ספרות נוספות, ואחריהן מקף, ואחריהן ארבע ספרות נוספות.
תרחישים נפוצים הגורמים לנתונים לא חוקיים עשויים לכלול כניסה אנושית לא עקבית, למשל מספרי טלפון בפורמטים שונים (5551234 לעומת 555 1234 לעומת 555-1234) או נתונים בלתי צפויים, כגון 0, 911 או 411. עבור מוקד טלפוני של לקוחות, חשוב להשמיט מספרים כגון 0, 911 או 411, ולאמת ערכים (ועשויים להיות נכונים) כגון 5551234 או 555 1234.
למרבה הצער, למרות שקיימים אילוצים טקסטואליים, ייתכן שהם לא יסופקו עם הנתונים. לכן, מדען נתונים שמכין מערך נתונים חייב לחשוף באופן ידני את האילוצים על ידי התבוננות בנתונים. זה יכול להיות מייגע, מועד לשגיאות ולאורך זמן.
למידת דפוסים מנתחת אוטומטית את הנתונים שלך ומציגה אילוצים טקסטואליים שעשויים לחול על מערך הנתונים שלך. לדוגמא עם מספרי טלפון, למידת דפוסים יכולה לנתח את הנתונים ולזהות שהרוב המכריע של מספרי הטלפון עוקבים אחר האילוץ הטקסטואלי [1-9][0-9]{2}-[0-9][4]
. זה גם יכול להתריע על כך שיש דוגמאות לנתונים לא חוקיים כדי שתוכל לא לכלול או לתקן אותם.
בסעיפים הבאים, אנו מדגימים כיצד להשתמש בלימוד דפוסים ב-Data Wrangler באמצעות מערך נתונים בדיוני של קטגוריות מוצרים וקודי SKU (יחידת שמירה במלאי).
מערך נתונים זה מכיל תכונות המתארות מוצרים לפי חברה, מותג וצריכת אנרגיה. יש לציין שהוא כולל מק"ט תכונה שאינו מעוצב בצורה לא נכונה. כל הנתונים במערך נתונים זה הם בדיוניים ונוצרים באופן אקראי באמצעות שמות מותגים ושמות מכשירים אקראיים.
תנאים מוקדמים
לפני שתתחיל להשתמש ב-Data Wrangler, להורדה מערך הנתונים לדוגמה והעלה אותו למיקום ב שירות אחסון פשוט של אמזון (אמזון S3). להנחיות, עיין ב העלאת חפצים.
ייבא את מערך הנתונים שלך
כדי לייבא את מערך הנתונים שלך, בצע את השלבים הבאים:
- ב-Data Wrangler, בחר ייבוא וחקור נתונים עבור ML.
- בחרו תבואו.
- בעד ייבא נתונים, בחר אמזון S3.
- אתר את הקובץ באמזון S3 ובחר תבואו.
לאחר הייבוא, נוכל לנווט לזרימת הנתונים.
קבל תובנות נתונים
בשלב זה, אנו יוצרים דוח תובנות נתונים הכולל מידע על איכות הנתונים. למידע נוסף, עיין ב קבל תובנות על נתונים ואיכות נתונים. השלם את השלבים הבאים:
- על זרימת נתונים לשונית, בחר את סימן הפלוס שלצד סוגי מידע.
- בחרו קבל תובנות נתונים.
- בעד סוג ניתוח, בחר דוח איכות נתונים ותובנות.
- לפוסט הזה, עזוב עמודת יעד ו סוג הבעיה ריק. אם אתה מתכנן להשתמש במערך הנתונים שלך עבור משימת רגרסיה או סיווג עם תכונת יעד, אתה יכול לבחור באפשרויות אלה והדוח יכלול ניתוח על האופן שבו תכונות הקלט שלך קשורות ליעד שלך. לדוגמה, הוא יכול להפיק דוחות על דליפת יעד. למידע נוסף, עיין ב עמודת יעד.
- בחרו צור.
כעת יש לנו דוח איכות נתונים ותובנות נתונים. אם נגלול מטה אל ה מק"ט בסעיף, נוכל לראות דוגמה ללימוד דפוסים המתארים את ה-SKU. נראה שיש בתכונה זו כמה נתונים לא חוקיים, ונדרש תיקון בר-פעולה.
לפני שננקה את תכונת ה-SKU, בואו נגלול עד ל- מותג קטע כדי לראות עוד כמה תובנות. כאן אנו רואים שני דפוסים נחשפו, מה שמצביע על כך שרוב שמות המותגים הם מילים בודדות המורכבות מתווים של מילים או תווים אלפביתיים. א תו מילה הוא קו תחתון או תו שעשוי להופיע במילה בכל שפה. למשל, המיתרים Hello_world
ו écoute
שניהם מורכבים מתווי מילים: H
ו é
.
עבור פוסט זה, אנחנו לא מנקים את התכונה הזו.
הצג תובנות למידת דפוסים
בואו נחזור לניקוי מק"טים ונתקרב לתבנית ולהודעת האזהרה.
כפי שמוצג בצילום המסך הבא, למידת דפוסים מציגה דפוס בעל דיוק גבוה התואם ל-97.78% מהנתונים. הוא גם מציג כמה דוגמאות התואמות לתבנית וכן דוגמאות שאינן תואמות לתבנית. באי-התאמות, אנו רואים כמה SKUs לא חוקיים.
בנוסף לדפוסים שעל פני השטח, עשויה להופיע אזהרה המציינת פעולה אפשרית לניקוי נתונים אם יש דפוס דיוק גבוה וכן נתונים מסוימים שאינם תואמים את הדפוס.
אנחנו יכולים להשמיט את הנתונים הלא חוקיים. אם נבחר (קליק ימני) על הביטוי הרגולרי, נוכל להעתיק את הביטוי [A-Z]{3}-[0-9]{4,5}
.
הסר נתונים לא חוקיים
בואו ניצור טרנספורמציה כדי להשמיט נתונים שאינם תואמים שאינם תואמים את הדפוס הזה.
- על זרימת נתונים לשונית, בחר את סימן הפלוס שלצד סוגי מידע.
- בחרו הוסף טרנספורמציה.
- בחרו הוסף שלב.
- חיפוש
regex
ולבחור חפש וערוך. - בעד לשנות, בחר המר אי-התאמות לחסרות.
- בעד עמודות קלט, בחר
SKU
. - בעד תבנית, הזן את הביטוי הרגולרי שלנו.
- בחרו תצוגה מקדימה, ואז לבחור להוסיף.
כעת הנתונים הזרים הוסרו מהתכונות. - כדי להסיר את השורות, הוסף את השלב ידית חסרה ובחר את ההמרה טיפה חסרה.
- בחרו
SKU
בתור עמודת הקלט.
אנו חוזרים לזרימת הנתונים שלנו כשהנתונים השגויים הוסרו.
סיכום
בפוסט זה, הראינו לך כיצד להשתמש בתכונת למידת דפוסים בתובנות נתונים כדי למצוא נתונים טקסטואליים לא חוקיים במערך הנתונים שלך, כמו גם כיצד לתקן או להשמיט נתונים אלה.
כעת, לאחר שניקית עמודה טקסטואלית, אתה יכול לדמיין את מערך הנתונים שלך באמצעות אנליזה או שאתה יכול להגיש בקשה טרנספורמציות מובנות לעיבוד נוסף של הנתונים שלך. כאשר אתה מרוצה מהנתונים שלך, אתה יכול להכשיר דוגמנית עם טייס אוטומטי של אמזון, או ייצא את הנתונים שלך למקור נתונים כגון Amazon S3.
ברצוננו להודות לניקיטה איבקין על סקירתו המהודרת.
על המחברים
וישאל קאפור הוא מדען יישומי בכיר עם AWS AI. הוא נלהב לעזור ללקוחות להבין את הנתונים שלהם ב-Data Wrangler. בזמנו הפנוי הוא רוכב על אופני הרים, עושה סנובורד ומבלה עם משפחתו.
זוהר קרנין הוא מדען ראשי באמזון AI. תחומי המחקר שלו הם בתחומים של אלגוריתמים של למידת מכונה מקוונת בקנה מידה גדול. הוא מפתח אלגוריתמים של למידת מכונה ניתנים להרחבה עבור Amazon SageMaker.
אג'אי שארמה הוא מנהל מוצר ראשי של Amazon SageMaker, שם הוא מתמקד ב-Data Wrangler, כלי להכנת נתונים חזותיים עבור מדעני נתונים. לפני AWS, אג'אי היה מומחה למדעי נתונים בחברת McKinsey and Company, שם הוביל התקשרויות ממוקדות ML עבור חברות פיננסים וביטוח מובילות ברחבי העולם. אג'אי נלהב ממדעי הנתונים ואוהב לחקור את האלגוריתמים האחרונים וטכניקות למידת מכונה.
דרק ברון הוא מנהל פיתוח תוכנה עבור Amazon SageMaker Data Wrangler
- AI
- איי אמנות
- מחולל אמנות ai
- איי רובוט
- אמזון SageMaker
- רנגלר הנתונים של אמזון SageMaker
- בינה מלאכותית
- הסמכת בינה מלאכותית
- בינה מלאכותית בבנקאות
- רובוט בינה מלאכותית
- רובוטים של בינה מלאכותית
- תוכנת בינה מלאכותית
- למידת מכונות AWS
- blockchain
- blockchain conference ai
- קוינגניוס
- בינה מלאכותית של שיחה
- קריפטו כנס ai
- של דאל
- למידה עמוקה
- גוגל איי
- בינוני (200)
- למידת מכונה
- אפלטון
- plato ai
- מודיעין אפלטון
- משחק אפלטון
- אפלטון נתונים
- פלטוגיימינג
- סולם ai
- תחביר
- זפירנט