זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas

אנליסטים עסקיים עובדים עם נתונים ואוהבים לנתח, לחקור ולהבין נתונים כדי להשיג תוצאות עסקיות אפקטיביות. כדי לטפל בבעיות עסקיות, הם מסתמכים לעתים קרובות על מתרגלי למידת מכונה (ML) כגון מדעני נתונים שיסייעו בטכניקות כגון ניצול ML לבניית מודלים תוך שימוש בנתונים קיימים ויצירת תחזיות. עם זאת, זה לא תמיד אפשרי, מכיוון שמדעני נתונים בדרך כלל קשורים במשימות שלהם ואין להם רוחב פס לעזור לאנליסטים.

כדי להיות עצמאי ולהשיג את המטרות שלך כאנליסט עסקי, זה יהיה אידיאלי לעבוד עם כלים קלים לשימוש, אינטואיטיביים וויזואליים המשתמשים ב-ML ללא צורך לדעת את הפרטים ולהשתמש בקוד. שימוש בכלים אלה יעזור לך לפתור את הבעיות העסקיות שלך ולהשיג את התוצאות הרצויות.

במטרה לעזור לך ולארגון שלך להיות יעילים יותר, ולהשתמש ב-ML מבלי לכתוב קוד, אנחנו הציג את Amazon SageMaker Canvas. זהו פתרון ML ללא קוד שעוזר לך לבנות מודלים מדויקים של ML ללא צורך ללמוד פרטים טכניים, כגון אלגוריתמי ML ומדדי הערכה. SageMaker Canvas מציע ממשק חזותי ואינטואיטיבי המאפשר לייבא נתונים, לאמן מודלים של ML, לבצע ניתוח מודלים וליצור תחזיות ML, כל זאת מבלי לכתוב שורת קוד אחת.

בעת שימוש ב- SageMaker Canvas כדי להתנסות, אתה עלול להיתקל בבעיות איכות נתונים כגון ערכים חסרים או סוג הבעיה השגוי. ייתכן שבעיות אלו לא יתגלו עד מאוחר למדי בתהליך לאחר אימון מודל ML. כדי להקל על האתגר הזה, SageMaker Canvas תומך כעת באימות נתונים. תכונה זו בודקת באופן יזום בעיות בנתונים שלך ומספקת הנחיות לגבי פתרונות.

בפוסט זה, נדגים כיצד ניתן להשתמש ביכולת אימות הנתונים בתוך SageMaker Canvas לפני בניית המודל. כפי שהשם מרמז, תכונה זו מאמתת את מערך הנתונים שלך, מדווחת על בעיות ומספקת עצות שימושיות לתיקון אותן. על ידי שימוש בנתונים באיכות טובה יותר, תקבל מודל ML בעל ביצועים טובים יותר.

אמת נתונים ב- SageMaker Canvas

אימות נתונים הוא תכונה חדשה ב- SageMaker Canvas כדי לבדוק באופן יזום בעיות פוטנציאליות של איכות הנתונים. לאחר ייבוא ​​הנתונים ובחר עמודת יעד, תינתן לך אפשרות לאמת את הנתונים שלך כפי שמוצג כאן:

אם תבחר לאמת את הנתונים שלך, Canvas מנתח את הנתונים שלך עבור תנאים רבים, כולל:

  • יותר מדי תוויות ייחודיות בעמודת היעד שלך – עבור סוג מודל חיזוי הקטגוריה
  • יותר מדי תוויות ייחודיות בעמודת היעד שלך למספר השורות בנתונים שלך – עבור סוג מודל חיזוי הקטגוריה
  • סוג דגם שגוי עבור הנתונים שלך – סוג המודל אינו מתאים לנתונים שאתה חוזה בעמודת היעד
  • יותר מדי שורות לא חוקיות - חסרים ערכים בעמודת היעד שלך
  • כל עמודות התכונות הן עמודות טקסט - הם יוסרו עבור בנייה סטנדרטית
  • מעט מדי עמודות - מעט מדי עמודות בנתונים שלך
  • אין שורות שלמות - כל השורות בנתונים שלך מכילות ערכים חסרים
  • שם עמודה אחד או יותר מכילים קו תחתון כפול – SageMaker לא יכול להתמודד עם (__) בכותרת העמודה

פרטים עבור כל קריטריון אימות יסופקו בחלקים המאוחרים של פוסט זה.

אם כל הבדיקות יעברו, תקבל את האישור הבא: "לא נמצאו בעיות במערך הנתונים שלך".

זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אם תימצא בעיה כלשהי, תקבל הודעה כדי לראות ולהבין. זה מציג את בעיות איכות הנתונים בשלב מוקדם, וזה מאפשר לך לטפל בהן מיד לפני בזבוז זמן ומשאבים בהמשך התהליך.

זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אתה יכול לבצע את ההתאמות שלך ולהמשיך לאמת את מערך הנתונים שלך עד שכל הבעיות יטופלו.

אימות עמודות יעד וסוגי מודל

כאשר אתה בונה מודל ML ב- SageMaker Canvas, מספר בעיות של איכות נתונים הקשורות ל עמודת יעד עלול לגרום לכשל בבניית הדגם שלך. SageMaker Canvas בודק סוגים שונים של בעיות שעשויות להשפיע על שלך עמודת יעד.

זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. עבור עמודת היעד שלך, סמן את סוג דגם שגוי עבור הנתונים שלך. לדוגמה, אם נבחר מודל חיזוי של 2 קטגוריות אך לעמודת היעד שלך יש יותר מ-2 תוויות ייחודיות, אז SageMaker Canvas תספק את אזהרת האימות הבאה.
    זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. אם סוג הדגם הוא חיזוי קטגוריה 2 או 3+, עליך לאמת יותר מדי תוויות ייחודיות עבור עמודת היעד שלך. המספר המרבי של מחלקות ייחודיות הוא 2000. אם תבחר עמודה עם יותר מ-2000 ערכים ייחודיים בעמודת היעד שלך, Canvas יספק את אזהרת האימות הבאה.
    זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  3. בנוסף ליותר מדי תוויות יעד ייחודיות, כדאי גם להיזהר מהן תוויות יעד ייחודיות רבות עבור מספר השורות בנתונים שלך. SageMaker Canvas אוכפת יחס בין תווית היעד למספר השורות הכולל להיות פחות מ-10%. זה מוודא שיש לך מספיק ייצוג לכל קטגוריה עבור דגם באיכות גבוהה ומצמצם את הפוטנציאל להתאמת יתר. המודל שלך נחשב להתאים יתר על המידה כאשר הוא מנבא היטב את נתוני האימון אך לא על נתונים חדשים שלא ראה בעבר. מתייחס כאן ללמוד 'יותר.
    זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  4. לבסוף, הסימון האחרון עבור עמודת היעד הוא יותר מדי שורות לא חוקיות. אם בעמודת היעד שלך יש יותר מ-10% מהנתונים חסרים או לא חוקיים, זה ישפיע על ביצועי המודל שלך, ובמקרים מסוימים יגרום לכשל בבניית המודל שלך. בדוגמה הבאה יש ערכים חסרים רבים (חסרים יותר מ-90%) בעמודת היעד, ואתה מקבל את אזהרת האימות הבאה.
    זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אם אתה מקבל אחת מהאזהרות לעיל עבור עמודת היעד שלך, השתמש בשלבים הבאים כדי להקל על הבעיות:

  1. האם אתה משתמש בעמודת היעד הימנית?
  2. בחרת את סוג הדגם הנכון?
  3. האם אתה יכול להגדיל את מספר השורות במערך הנתונים שלך לכל תווית יעד?
  4. האם אתה יכול לאחד/לקבץ תוויות דומות יחד?
  5. האם תוכל למלא את הערכים החסרים/לא חוקיים?
  6. האם יש לך מספיק נתונים כדי שתוכל להוריד את הערכים החסרים/לא חוקיים?
  7. אם כל האפשרויות לעיל אינן מנקות את האזהרה, עליך לשקול להשתמש במערך נתונים אחר.

עיין ב תיעוד לשינוי נתונים של SageMaker Canvas כדי לבצע את שלבי הזקיפה שהוזכרו לעיל.

אמת את כל העמודות

מלבד עמודת היעד, אתה עלול להיתקל בבעיות איכות נתונים גם בעמודות נתונים אחרות (עמודות תכונה). עמודות תכונות הן נתוני קלט המשמשים לביצוע חיזוי ML.

  • כל מערך נתונים צריך לכלול לפחות עמודת תכונה אחת ועמודת יעד אחת (1 עמודות בסך הכל). אחרת, SageMaker Canvas ייתן לך א מעט מדי עמודות בנתונים שלך אַזהָרָה. עליך לעמוד בדרישה זו לפני שתוכל להמשיך בבניית מודל.
    זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  • לאחר מכן, עליך לוודא שלנתונים שלך יש לפחות עמודה מספרית אחת. אם לא, אז תקבל את כל עמודות התכונות הן עמודות טקסט אַזהָרָה. הסיבה לכך היא שבדרך כלל עמודות טקסט נשמטות במהלך בנייה סטנדרטית, ובכך משאירות את המודל ללא תכונות לאימון. לכן, זה יגרום לבניית המודל שלך להיכשל. אתה יכול להשתמש ב- SageMaker Canvas כדי לקודד חלק מעמודות הטקסט למספרים או להשתמש בבנייה מהירה במקום בבנייה רגילה.
    זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  • הסוג השלישי של אזהרה שאתה עשוי לקבל עבור עמודות תכונה הוא אין שורות שלמות. אימות זה בודק אם יש לך לפחות שורה אחת ללא ערכים חסרים. SageMaker Canvas דורש לפחות שורה אחת שלמה, אחרת שלך בנייה מהירה ייכשל. נסו למלא את הערכים החסרים לפני בניית המודל.
    זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  • הסוג האחרון של אימות הוא שם עמודה אחד או יותר מכילים קו תחתון כפול. זוהי דרישה ספציפית של SageMaker Canvas. אם יש לך קווים תחתונים כפולים (__) בכותרות העמודות שלך, זה יגרום לך בנייה מהירה להיכשל. שנה את שמות העמודות כדי להסיר קווי תחתון כפולים ולאחר מכן נסה שוב.
    זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לנקות את

כדי להימנע מהימצאות עתידית חיובי הפגישה, התנתק מ- SageMaker Canvas.

זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

SageMaker Canvas הוא פתרון ML ללא קוד המאפשר לאנליסטים עסקיים ליצור מודלים מדויקים של ML ולייצר תחזיות באמצעות ממשק חזותי, הצבע והקליק. הראינו לך כיצד SageMaker Canvas עוזר לך לוודא את איכות הנתונים ולהפחית בעיות נתונים על ידי אימות יזום של מערך הנתונים. על ידי זיהוי הבעיות מוקדם, SageMaker Canvas עוזר לך לבנות מודלים איכותיים של ML ולהפחית איטרציות בנייה ללא מומחיות במדעי נתונים ותכנות. למידע נוסף על תכונה חדשה זו, עיין ב- תיעוד SageMaker Canvas.

כדי להתחיל וללמוד עוד על SageMaker Canvas, עיין במשאבים הבאים:


על המחברים

זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. הריהראן סורש הוא אדריכל פתרונות בכיר ב-AWS. הוא נלהב מבסיסי נתונים, למידת מכונה ועיצוב פתרונות חדשניים. לפני שהצטרף ל-AWS, הריהראן היה ארכיטקט מוצר, מומחה ליישום בנקאות ליבה ומפתח, ועבד עם ארגוני BFSI במשך יותר מ-11 שנים. מחוץ לטכנולוגיה, הוא נהנה מצנחי רחיפה ורכיבה על אופניים.

זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.סינת מיריאלה הוא מנהל חשבונות טכניים בכיר ב-AWS העובד עבור לקוחות רכב בארה"ב. Sainath מתלהבת מתכנון ובניית יישומים מבוזרים בקנה מידה גדול באמצעות AI/ML. בזמנו הפנוי סינט מבלה עם משפחה וחברים.

זיהוי והימנעות מבעיות נתונים נפוצות תוך בניית דגמי ML ללא קוד עם Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'יימס וו הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML בכיר ב-AWS. עוזר ללקוחות לתכנן ולבנות פתרונות AI/ML. עבודתו של ג'יימס מכסה מגוון רחב של מקרי שימוש ב-ML, עם עניין עיקרי בראייה ממוחשבת, למידה עמוקה והרחבת ML ברחבי הארגון. לפני שהצטרף ל-AWS, ג'יימס היה אדריכל, מפתח ומוביל טכנולוגיה במשך למעלה מ-10 שנים, כולל 6 שנים בהנדסה ו-4 שנים בתעשיות שיווק ופרסום.

בול זמן:

עוד מ למידת מכונות AWS