זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler

בפוסט זה, אנו מציגים ניתוח חדש ב- דוח איכות נתונים ותובנות of רנגלר הנתונים של אמזון SageMaker. ניתוח זה מסייע לך לאמת תכונות טקסטואליות לנכונות ולחשוף שורות לא חוקיות לתיקון או השמטה.

Data Wrangler מקטין את הזמן שלוקח לצבור ולהכין נתונים ללמידת מכונה (ML) משבועות לדקות. אתה יכול לפשט את תהליך הכנת הנתונים והנדסת תכונות, ולהשלים כל שלב בזרימת העבודה של הכנת הנתונים, כולל בחירת נתונים, ניקוי, חקירה והדמיה, מממשק ויזואלי יחיד.

סקירת פתרונות

עיבוד מוקדם של נתונים כולל לעתים קרובות ניקוי נתונים טקסטואליים כגון כתובות דוא"ל, מספרי טלפון ושמות מוצרים. לנתונים אלה יכולים להיות מגבלות שלמות שעשויות להיות מתוארות על ידי ביטויים רגולריים. לדוגמה, כדי להיחשב תקף, ייתכן שמספר טלפון מקומי יצטרך לעקוב אחר דפוס כמו [1-9][0-9]{2}-[0-9]{4}, שתתאים לספרה שאינה אפס, ואחריה שתי ספרות נוספות, ואחריהן מקף, ואחריהן ארבע ספרות נוספות.

תרחישים נפוצים הגורמים לנתונים לא חוקיים עשויים לכלול כניסה אנושית לא עקבית, למשל מספרי טלפון בפורמטים שונים (5551234 לעומת 555 1234 לעומת 555-1234) או נתונים בלתי צפויים, כגון 0, 911 או 411. עבור מוקד טלפוני של לקוחות, חשוב להשמיט מספרים כגון 0, 911 או 411, ולאמת ערכים (ועשויים להיות נכונים) כגון 5551234 או 555 1234.

למרבה הצער, למרות שקיימים אילוצים טקסטואליים, ייתכן שהם לא יסופקו עם הנתונים. לכן, מדען נתונים שמכין מערך נתונים חייב לחשוף באופן ידני את האילוצים על ידי התבוננות בנתונים. זה יכול להיות מייגע, מועד לשגיאות ולאורך זמן.

למידת דפוסים מנתחת אוטומטית את הנתונים שלך ומציגה אילוצים טקסטואליים שעשויים לחול על מערך הנתונים שלך. לדוגמא עם מספרי טלפון, למידת דפוסים יכולה לנתח את הנתונים ולזהות שהרוב המכריע של מספרי הטלפון עוקבים אחר האילוץ הטקסטואלי [1-9][0-9]{2}-[0-9][4]. זה גם יכול להתריע על כך שיש דוגמאות לנתונים לא חוקיים כדי שתוכל לא לכלול או לתקן אותם.

בסעיפים הבאים, אנו מדגימים כיצד להשתמש בלימוד דפוסים ב-Data Wrangler באמצעות מערך נתונים בדיוני של קטגוריות מוצרים וקודי SKU (יחידת שמירה במלאי).

מערך נתונים זה מכיל תכונות המתארות מוצרים לפי חברה, מותג וצריכת אנרגיה. יש לציין שהוא כולל מק"ט תכונה שאינו מעוצב בצורה לא נכונה. כל הנתונים במערך נתונים זה הם בדיוניים ונוצרים באופן אקראי באמצעות שמות מותגים ושמות מכשירים אקראיים.

תנאים מוקדמים

לפני שתתחיל להשתמש ב-Data Wrangler, להורדה מערך הנתונים לדוגמה והעלה אותו למיקום ב שירות אחסון פשוט של אמזון (אמזון S3). להנחיות, עיין ב העלאת חפצים.

ייבא את מערך הנתונים שלך

כדי לייבא את מערך הנתונים שלך, בצע את השלבים הבאים:

  1. ב-Data Wrangler, בחר ייבוא ​​וחקור נתונים עבור ML.
  2. בחרו תבואו.
    זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  3. בעד ייבא נתונים, בחר אמזון S3.
    זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  4. אתר את הקובץ באמזון S3 ובחר תבואו.
    זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לאחר הייבוא, נוכל לנווט לזרימת הנתונים.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

קבל תובנות נתונים

בשלב זה, אנו יוצרים דוח תובנות נתונים הכולל מידע על איכות הנתונים. למידע נוסף, עיין ב קבל תובנות על נתונים ואיכות נתונים. השלם את השלבים הבאים:

  1. על זרימת נתונים לשונית, בחר את סימן הפלוס שלצד סוגי מידע.
  2. בחרו קבל תובנות נתונים.
    זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  3. בעד סוג ניתוח, בחר דוח איכות נתונים ותובנות.
  4. לפוסט הזה, עזוב עמודת יעד ו סוג הבעיה ריק. אם אתה מתכנן להשתמש במערך הנתונים שלך עבור משימת רגרסיה או סיווג עם תכונת יעד, אתה יכול לבחור באפשרויות אלה והדוח יכלול ניתוח על האופן שבו תכונות הקלט שלך קשורות ליעד שלך. לדוגמה, הוא יכול להפיק דוחות על דליפת יעד. למידע נוסף, עיין ב עמודת יעד.
  5. בחרו צור.
    זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת יש לנו דוח איכות נתונים ותובנות נתונים. אם נגלול מטה אל ה מק"ט בסעיף, נוכל לראות דוגמה ללימוד דפוסים המתארים את ה-SKU. נראה שיש בתכונה זו כמה נתונים לא חוקיים, ונדרש תיקון בר-פעולה.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לפני שננקה את תכונת ה-SKU, בואו נגלול עד ל- מותג קטע כדי לראות עוד כמה תובנות. כאן אנו רואים שני דפוסים נחשפו, מה שמצביע על כך שרוב שמות המותגים הם מילים בודדות המורכבות מתווים של מילים או תווים אלפביתיים. א תו מילה הוא קו תחתון או תו שעשוי להופיע במילה בכל שפה. למשל, המיתרים Hello_world ו écoute שניהם מורכבים מתווי מילים: H ו é.

עבור פוסט זה, אנחנו לא מנקים את התכונה הזו.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הצג תובנות למידת דפוסים

בואו נחזור לניקוי מק"טים ונתקרב לתבנית ולהודעת האזהרה.

כפי שמוצג בצילום המסך הבא, למידת דפוסים מציגה דפוס בעל דיוק גבוה התואם ל-97.78% מהנתונים. הוא גם מציג כמה דוגמאות התואמות לתבנית וכן דוגמאות שאינן תואמות לתבנית. באי-התאמות, אנו רואים כמה SKUs לא חוקיים.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בנוסף לדפוסים שעל פני השטח, עשויה להופיע אזהרה המציינת פעולה אפשרית לניקוי נתונים אם יש דפוס דיוק גבוה וכן נתונים מסוימים שאינם תואמים את הדפוס.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אנחנו יכולים להשמיט את הנתונים הלא חוקיים. אם נבחר (קליק ימני) על הביטוי הרגולרי, נוכל להעתיק את הביטוי [A-Z]{3}-[0-9]{4,5}.

הסר נתונים לא חוקיים

בואו ניצור טרנספורמציה כדי להשמיט נתונים שאינם תואמים שאינם תואמים את הדפוס הזה.

  1. על זרימת נתונים לשונית, בחר את סימן הפלוס שלצד סוגי מידע.
  2. בחרו הוסף טרנספורמציה.
    זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  3. בחרו הוסף שלב.
  4. חיפוש regex ולבחור חפש וערוך.
    זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  5. בעד לשנות, בחר המר אי-התאמות לחסרות.
  6. בעד עמודות קלט, בחר SKU.
  7. בעד תבנית, הזן את הביטוי הרגולרי שלנו.
  8. בחרו תצוגה מקדימה, ואז לבחור להוסיף.
    זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    כעת הנתונים הזרים הוסרו מהתכונות.
  9. כדי להסיר את השורות, הוסף את השלב ידית חסרה ובחר את ההמרה טיפה חסרה.
  10. בחרו SKU בתור עמודת הקלט.
    זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אנו חוזרים לזרימת הנתונים שלנו כשהנתונים השגויים הוסרו.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

בפוסט זה, הראינו לך כיצד להשתמש בתכונת למידת דפוסים בתובנות נתונים כדי למצוא נתונים טקסטואליים לא חוקיים במערך הנתונים שלך, כמו גם כיצד לתקן או להשמיט נתונים אלה.

כעת, לאחר שניקית עמודה טקסטואלית, אתה יכול לדמיין את מערך הנתונים שלך באמצעות אנליזה או שאתה יכול להגיש בקשה טרנספורמציות מובנות לעיבוד נוסף של הנתונים שלך. כאשר אתה מרוצה מהנתונים שלך, אתה יכול להכשיר דוגמנית עם טייס אוטומטי של אמזון, או ייצא את הנתונים שלך למקור נתונים כגון Amazon S3.

ברצוננו להודות לניקיטה איבקין על סקירתו המהודרת.


על המחברים

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.וישאל קאפור הוא מדען יישומי בכיר עם AWS AI. הוא נלהב לעזור ללקוחות להבין את הנתונים שלהם ב-Data Wrangler. בזמנו הפנוי הוא רוכב על אופני הרים, עושה סנובורד ומבלה עם משפחתו.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.זוהר קרנין הוא מדען ראשי באמזון AI. תחומי המחקר שלו הם בתחומים של אלגוריתמים של למידת מכונה מקוונת בקנה מידה גדול. הוא מפתח אלגוריתמים של למידת מכונה ניתנים להרחבה עבור Amazon SageMaker.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אג'אי שארמה הוא מנהל מוצר ראשי של Amazon SageMaker, שם הוא מתמקד ב-Data Wrangler, כלי להכנת נתונים חזותיים עבור מדעני נתונים. לפני AWS, אג'אי היה מומחה למדעי נתונים בחברת McKinsey and Company, שם הוביל התקשרויות ממוקדות ML עבור חברות פיננסים וביטוח מובילות ברחבי העולם. אג'אי נלהב ממדעי הנתונים ואוהב לחקור את האלגוריתמים האחרונים וטכניקות למידת מכונה.

זיהוי דפוסים בנתוני טקסט עם Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. דרק ברון הוא מנהל פיתוח תוכנה עבור Amazon SageMaker Data Wrangler

בול זמן:

עוד מ למידת מכונות AWS