התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

תקן מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler

רנגלר הנתונים של אמזון SageMaker עוזר לך להבין, לצבור, לשנות ולהכין נתונים ללמידת מכונה (ML) מממשק חזותי יחיד. הוא מכיל למעלה מ-300 טרנספורמציות נתונים מובנות כך שתוכל לנרמל במהירות, להפוך ולשלב תכונות ללא צורך בכתיבת קוד.

עוסקים במדעי הנתונים מייצרים, מתבוננים ומעבדים נתונים כדי לפתור בעיות עסקיות היכן שהם צריכים לשנות ולחלץ תכונות ממערכי נתונים. טרנספורמציות כגון קידוד רגיל או קידוד חם אחד לומדים קידודים במערך הנתונים שלך. יציאות מקודדות אלו מכונות פרמטרים מאומנים. כאשר מערכי נתונים משתנים עם הזמן, ייתכן שיהיה צורך להתאים מחדש קידודים בנתונים שלא נראו בעבר כדי לשמור על זרימת הטרנספורמציה רלוונטית לנתונים שלך.

אנו נרגשים להכריז על תכונת ה-Refit פרמטר מאומן מחדש, המאפשרת לך להשתמש בפרמטרים שעברו הכשרה קודמים ולהתאים אותם מחדש כרצונך. בפוסט זה, אנו מדגימים כיצד להשתמש בתכונה זו.

סקירה כללית של תכונת התיקון של Data Wrangler

אנו ממחישים כיצד תכונה זו פועלת עם הדוגמה הבאה, לפני שאנו צוללים לפרטים הספציפיים של תכונת הפרמטר המאומן מחדש.

נניח למערך הנתונים של הלקוחות שלך יש תכונה קטגורית עבור country מיוצג כמחרוזות כמו Australia ו Singapore. אלגוריתמי ML דורשים כניסות מספריות; לכן, יש לקודד את הערכים הקטגוריים הללו לערכים מספריים. קידוד נתונים קטגוריים הוא תהליך של יצירת ייצוג מספרי לקטגוריות. לדוגמה, אם למדינה בקטגוריה שלך יש ערכים Australia ו Singapore, אתה יכול לקודד מידע זה לשני וקטורים: [1, 0] לייצוג Australia ו-[0, 1] לייצג Singapore. השינוי המשמש כאן הוא קידוד חם אחד והפלט המקודד החדש משקף את הפרמטרים המאומנים.

לאחר אימון המודל, עם הזמן הלקוחות שלך עשויים לגדול ויש לך ערכים ברורים יותר ברשימת המדינות. מערך הנתונים החדש יכול להכיל קטגוריה נוספת, India, שלא היה חלק ממערך הנתונים המקורי, מה שיכול להשפיע על דיוק המודל. לכן, יש צורך להכשיר את המודל שלך עם הנתונים החדשים שנאספו לאורך זמן.

כדי להתגבר על בעיה זו, עליך לרענן את הקידוד כדי לכלול את הקטגוריה החדשה ולעדכן את הייצוג הווקטורי לפי מערך הנתונים האחרון שלך. בדוגמה שלנו, הקידוד צריך לשקף את הקטגוריה החדשה עבור country, שהוא India. אנו מתייחסים בדרך כלל לתהליך זה של ריענון קידוד כאל פעולת תיקון. לאחר ביצוע פעולת התיקון, תקבל את הקידוד החדש: Australia: [1, 0, 0], Singapore: [0, 1, 0], ו India: [0, 0, 1]. התאמה מחדש של הקידוד החם אחד ולאחר מכן אימון מחדש של המודל במערך הנתונים החדש מביא לחיזוי באיכות טובה יותר.

תכונת הפרמטר המאומן מחדש של Data Wrangler שימושית במקרים הבאים:

  • נתונים חדשים מתווספים למערך הנתונים - הכשרה מחדש של מודל ה-ML הכרחי כאשר מערך הנתונים מועשר בנתונים חדשים. כדי להשיג תוצאות מיטביות, עלינו להתאים מחדש את הפרמטרים המאומנים במערך הנתונים החדש.
  • הדרכה על מערך נתונים מלא לאחר ביצוע הנדסת תכונות על נתונים לדוגמה - עבור מערך נתונים גדול, מדגם של מערך הנתונים נחשב ללימוד פרמטרים מאומנים, אשר עשויים שלא לייצג את כל מערך הנתונים שלך. עלינו ללמוד מחדש את הפרמטרים המאומנים במערך הנתונים המלא.

להלן כמה מהטרנספורמציות הנפוצות ביותר של Data Wrangler המבוצעות על מערך הנתונים, הנהנות מאפשרות הפרמטר המאומן מחדש:

למידע נוסף על טרנספורמציות ב-Data Wrangler, עיין ב הפוך נתונים.

בפוסט זה, אנו מראים כיצד לעבד את הפרמטרים המאומנים הללו על מערכי נתונים באמצעות Data Wrangler. אתה יכול להשתמש בתזרימי Data Wrangler בעבודות ייצור כדי לעבד מחדש את הנתונים שלך כשהם גדלים ומשתנים.

סקירת פתרונות

עבור פוסט זה, אנו מדגימים כיצד להשתמש בתכונת הפרמטרים המאומנים מחדש של Data Wrangler עם מערך הנתונים הזמין לציבור ב- קגל: נתוני דיור בארה"ב מ-Zillow, נכסים למכירה בארצות הברית. יש לו את מחירי מכירת הבית על פני הפצות גיאוגרפיות שונות של בתים.

התרשים הבא ממחיש את הארכיטקטורה ברמה הגבוהה של Data Wrangler באמצעות תכונת הפרמטר המאומן מחדש. אנו גם מראים את ההשפעה על איכות הנתונים ללא הפרמטר המיומן מחדש ומנוגדים את התוצאות בסוף.

זרימת העבודה כוללת את השלבים הבאים:

  1. ביצוע ניתוח נתונים חקרני - צור זרימה חדשה ב-Data Wrangler כדי להתחיל את ניתוח הנתונים החקרניים (EDA). ייבא נתונים עסקיים כדי להבין, לנקות, לצבור, לשנות ולהכין את הנתונים שלך להדרכה. מתייחס חקור את יכולות Amazon SageMaker Data Wrangler עם מערכי נתונים לדוגמה לפרטים נוספים על ביצוע EDA עם Data Wrangler.
  2. צור עבודת עיבוד נתונים – שלב זה מייצא את כל השינויים שביצעת במערך הנתונים כקובץ זרימה המאוחסן בקובץ המוגדר שירות אחסון פשוט של אמזון (Amazon S3) מיקום. עבודת עיבוד הנתונים עם קובץ הזרימה שנוצר על ידי Data Wrangler מיישמת את ההמרה והפרמטרים המאומנים שנלמדו על מערך הנתונים שלך. כאשר עבודת עיבוד הנתונים הושלמה, קבצי הפלט מועלים למיקום Amazon S3 המוגדר בצומת היעד. שים לב כי אפשרות התיקון כבויה כברירת מחדל. כחלופה לביצוע מלאכת העיבוד באופן מיידי, אתה יכול גם לתזמן עבודת עיבוד בכמה קליקים באמצעות Data Wrangler - צור עבודה להפעלה בזמנים ספציפיים.
  3. צור עבודת עיבוד נתונים עם תכונת הפרמטר המיומן מחדש - בחר את התכונה החדשה של התאמה של פרמטרים מאומנים תוך כדי יצירת העבודה כדי לאכוף למידה מחדש של הפרמטרים המאומנים שלך על מערך הנתונים המלא או המחוזק שלך. בהתאם לתצורת המיקום של Amazon S3 לאחסון קובץ הזרימה, עבודת עיבוד הנתונים יוצרת או מעדכנת את קובץ הזרימה החדש. אם תגדיר את אותו מיקום של Amazon S3 כמו בשלב 2, עבודת עיבוד הנתונים תעדכן את קובץ הזרימה שנוצר בשלב 2, שניתן להשתמש בו כדי לשמור על הזרימה שלך רלוונטית לנתונים שלך. עם השלמת עבודת העיבוד, קבצי הפלט מועלים לדלי S3 המוגדר לצומת היעד. אתה יכול להשתמש בזרימה המעודכנת בכל מערך הנתונים שלך עבור זרימת עבודה של ייצור.

תנאים מוקדמים

לפני שתתחיל, העלה את מערך הנתונים לדלי S3, ולאחר מכן ייבא אותו אל Data Wrangler. להנחיות, עיין ב ייבוא ​​נתונים מאמזון S3.

כעת נעבור על השלבים המוזכרים בתרשים הארכיטקטורה.

בצע EDA ב-Data Wrangler

כדי לנסות את תכונת הפרמטר המאומן מחדש, הגדר את הניתוח והטרנספורמציה הבאים ב-Data Wrangler. בסוף הגדרת EDA, Data Wrangler יוצר קובץ זרימה שנלכד עם פרמטרים מאומנים ממערך הנתונים.

  1. צור זרימה חדשה באמזון SageMaker Data Wrangler לניתוח נתונים חקרני.
  2. ייבא את הנתונים העסקיים שהעלית לאמזון S3.
  3. ניתן לצפות בתצוגה מקדימה של הנתונים והאפשרויות לבחירת סוג הקובץ, המפריד, הדגימה וכן הלאה. עבור דוגמה זו, אנו משתמשים ב- הראשון ק אפשרות דגימה שסופקה על ידי Data Wrangler לייבא 50,000 רשומות ראשונות ממערך הנתונים.
  4. לבחור תבואו.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. לאחר שתבדוק את התאמת סוגי הנתונים שיושמה על ידי Data Wrangler, הוסף ניתוח חדש.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בעד סוג ניתוח, בחר דוח איכות נתונים ותובנות.
  2. לבחור צור.

עם דוח איכות הנתונים והתובנות, אתה מקבל סיכום קצר של מערך הנתונים עם מידע כללי כגון ערכים חסרים, ערכים לא חוקיים, סוגי תכונות, ספירת חריגים ועוד. אתה יכול לבחור תכונות property_type ו city להחלת טרנספורמציות על מערך הנתונים כדי להבין את תכונת הפרמטר המאומן מחדש.

בואו נתמקד בתכונה property_type מתוך מערך הנתונים. בדוח פרטי התכונה בקטע, אתה יכול לראות את property_type, שהיא תכונה קטגורית, ושישה ערכים ייחודיים שנגזרו מ-50,000 מערך הנתונים שנדגמו על ידי Data Wrangler. למערך הנתונים המלא עשויות להיות קטגוריות נוספות עבור התכונה property_type. עבור תכונה עם ערכים ייחודיים רבים, ייתכן שתעדיף קידוד סדיר. אם לתכונה יש כמה ערכים ייחודיים, ניתן להשתמש בגישת קידוד חד פעמית. עבור דוגמה זו, אנו בוחרים בקידוד חם אחד property_type.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

באופן דומה, עבור city תכונה, שהיא סוג נתוני טקסט עם מספר רב של ערכים ייחודיים, בואו נחיל קידוד סידורי על תכונה זו.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. נווט אל זרימת Data Wrangler, בחר את סימן הפלוס ובחר הוסף טרנספורמציה.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בחר את מקודד קטגורי אפשרות לשינוי תכונות קטגוריות.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מהדוח איכות נתונים ותובנות, תכונה property_type מציג שש קטגוריות ייחודיות: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY, ו TOWNHOUSE.

  1. בעד לשנות, בחר קידוד חם אחד.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לאחר החלת קידוד חם אחד על תכונה property_type, תוכל לצפות בתצוגה מקדימה של כל שש הקטגוריות כתכונות נפרדות שנוספו כעמודות חדשות. שים לב ש-50,000 רשומות נדגמו ממערך הנתונים שלך כדי ליצור תצוגה מקדימה זו. בזמן הפעלת משימת עיבוד Data Wrangler עם זרימה זו, השינויים הללו מוחלים על כל מערך הנתונים שלך.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. הוסף טרנספורמציה חדשה ובחר מקודד קטגורי כדי להחיל טרנספורמציה על התכונה city, בעל מספר גדול יותר של ערכי טקסט קטגוריים ייחודיים.
  2. כדי לקודד תכונה זו לייצוג מספרי, בחר קידוד רגיל ל לשנות.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בחר תצוגה מקדימה בטרנספורמציה זו.

אתה יכול לראות את התכונה הקטגורית city ממופה לערכים סידוריים בעמודת הפלט e_city.

  1. הוסף שלב זה על ידי בחירה עדכון.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. אתה יכול להגדיר את היעד ל-Amazon S3 כדי לאחסן את הטרנספורמציות שהוחלו במערך הנתונים כדי ליצור את הפלט כקובץ CSV.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

Data Wrangler מאחסן את זרימת העבודה שהגדרת בממשק המשתמש כקובץ זרימה ומעלה למיקום אמזון S3 של עבודת עיבוד הנתונים המוגדרת. קובץ זרימה זה משמש בעת יצירת משימות עיבוד Data Wrangler כדי להחיל את ההמרה על מערכי נתונים גדולים יותר, או כדי להפוך נתוני חיזוק חדשים כדי לאמן מחדש את המודל.

הפעל משימת עיבוד נתונים של Data Wrangler ללא אפשרות התאמה מחדש

כעת אתה יכול לראות כיצד אפשרות התיקון משתמשת בפרמטרים מאומנים על מערכי נתונים חדשים. להדגמה זו, אנו מגדירים שתי עבודות עיבוד Data Wrangler הפועלות על אותם נתונים. עבודת העיבוד הראשונה לא תאפשר התאמה מחדש; עבור עבודת העיבוד השנייה, אנו משתמשים ב-refit. אנחנו משווים את ההשפעות בסוף.

  1. לבחור צור עבודה ליזום עבודת עיבוד נתונים עם Data Wrangler.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בעד שם העבודה, הכנס שם.
  2. תַחַת פרמטרים מאומנים, אל תבחר לְשַׁפֵּץ.
  3. לבחור הגדר עבודה.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. הגדר את פרמטרי העבודה כמו סוגי מופעים, גודל נפח ומיקום Amazon S3 לאחסון קובץ זרימת הפלט.
  2. Data Wrangler יוצר קובץ זרימה במיקום קובץ הזרימה S3. הזרימה משתמשת בטרנספורמציות כדי לאמן פרמטרים, ובהמשך אנו משתמשים באפשרות ה-refit כדי לאמן מחדש את הפרמטרים הללו.
  3. לבחור צור.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

המתן לסיום עבודת עיבוד הנתונים כדי לראות את הנתונים שעברו טרנספורמציה בדלי S3 המוגדרים בצומת היעד.

הפעל משימת עיבוד נתונים של Data Wrangler עם הפעלה מחדש

הבה ניצור עבודת עיבוד נוספת מופעלת כאשר תכונת הפרמטר המאומן מחדש מופעלת. אפשרות זו אוכפת את הפרמטרים המאומנים שנלמדו מחדש על כל מערך הנתונים. כאשר עבודת עיבוד נתונים זו הושלמה, נוצר או מתעדכן קובץ זרימה למיקום המוגדר של Amazon S3.

  1. לבחור צור עבודה.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בעד שם העבודה, הכנס שם.
  2. בעד פרמטרים מאומנים, בחר לְשַׁפֵּץ.
  3. אם תבחר כל המוצרים, אתה יכול לסקור את כל הפרמטרים המיומנים.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. לבחור הגדר עבודה.
  2. הזן את מיקום קובץ הזרימה של Amazon S3.
  3. לבחור צור.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

המתן לסיום עבודת עיבוד הנתונים.

עיין בדלי S3 המוגדר בצומת היעד כדי להציג את הנתונים שנוצרו על ידי עבודת עיבוד הנתונים שמריצה את ההמרות המוגדרות.

ייצוא לקוד Python להפעלת משימות עיבוד Data Wrangler

כחלופה להתחלת משימות העיבוד באמצעות האפשרות Create job ב-Data Wrangler, תוכל להפעיל את משימות עיבוד הנתונים על-ידי ייצוא זרימת Data Wrangler למחברת Jupyter. Data Wrangler מייצר מחברת Jupyter עם כניסות, יציאות, עיבוד תצורות עבודה וקוד לבדיקת מצב עבודה. אתה יכול לשנות או לעדכן את הפרמטרים בהתאם לדרישות שינוי הנתונים שלך.

  1. בחר את סימן הפלוס ליד הגמר לשנות צוֹמֶת.
  2. לבחור יצוא post Amazon S3 (באמצעות מחברת Jupyter).

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אתה יכול לראות מחברת Jupyter נפתחה עם כניסות, יציאות, עיבוד תצורות עבודה וקוד לבדיקת מצב עבודה.

  1. כדי לאכוף את אפשרות ה-Refit פרמטרים מאומנים באמצעות קוד, הגדר את refit פרמטר True.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.השווה תוצאות עבודה בעיבוד נתונים

לאחר השלמת עבודות העיבוד של Data Wrangler, עליך ליצור שני זרימות Data Wrangler חדשות עם הפלט שנוצר על ידי משימות עיבוד הנתונים המאוחסנות ביעד Amazon S3 המוגדר.

אתה יכול לעיין במיקום המוגדר בתיקיית היעד של Amazon S3 כדי לסקור את הפלטים של עבודות עיבוד הנתונים.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כדי לבדוק את תוצאות עבודת העיבוד, צור שני זרימות Data Wrangler חדשות באמצעות דוח איכות הנתונים והתובנות כדי להשוות את תוצאות השינוי.

  1. צור זרימה חדשה באמזון SageMaker Data Wrangler.
  2. ייבא את עבודת עיבוד הנתונים ללא קובץ פלט מאופשר מחדש מאמזון S3.
  3. הוסף ניתוח חדש.
  4. בעד סוג ניתוח, בחר דוח איכות נתונים ותובנות.
  5. לבחור צור.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

חזור על השלבים שלעיל וצור זרימת רנגלר נתונים חדשה כדי לנתח את פלט עבודת עיבוד הנתונים עם הפעלה מחדש.

עכשיו בואו נסתכל על הפלטים של עבודות עיבוד עבור התכונה property_type באמצעות דוחות איכות נתונים ותובנות. גלול אל פרטי התכונה ברשימת דוחות נתונים ותובנות feature_type.

עבודת עיבוד הפרמטרים המאומנים מחדש הרכיבה מחדש את הפרמטרים המאומנים בכל מערך הנתונים וקודדה את הערך החדש APARTMENT עם שבעה ערכים ברורים במערך הנתונים המלא.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עבודת העיבוד הרגילה החילה את הפרמטרים המאומנים לדוגמה של מערך הנתונים, שיש להם רק שישה ערכים ברורים עבור property_type תכונה. לנתונים עם feature_type APARTMENT, ה אסטרטגיית טיפול לא חוקית דילוג מוחל ועבודת עיבוד הנתונים לא לומדת את הקטגוריה החדשה הזו. הקידוד החם האחד דילג על הקטגוריה החדשה הזו הקיימת בנתונים החדשים, והקידוד מדלג על הקטגוריה APARTMENT.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת נתמקד בתכונה אחרת, city. עבודת עיבוד הפרמטרים שעבר הכשרה מחדש למדה מחדש את כל הערכים הזמינים עבור city תכונה, בהתחשב בנתונים החדשים.

כפי שמוצג ב סיכום תכונות בדוח, עמודת התכונה המקודדת החדשה e_city יש 100% פרמטרים תקפים על ידי שימוש בתכונת הפרמטר המיומן מחדש.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לעומת זאת, בעבודת העיבוד הרגילה יש 82.4% מהערכים החסרים בעמודת התכונה המקודדת החדשה e_city. תופעה זו נובעת מכך שרק קבוצת הדוגמא של הפרמטרים המאומנים שנלמדו מוחלת על מערך הנתונים המלא ולא מיושם התאמה מחדש על ידי עבודת עיבוד הנתונים.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ההיסטוגרמות הבאות מתארות את התכונה המקודדת הסידורית e_city. ההיסטוגרמה הראשונה היא של התכונה שעברה טרנספורמציה עם אפשרות התיקון.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ההיסטוגרמה הבאה היא של התכונה שעברה טרנספורמציה ללא אפשרות התיקון. העמודה הכתומה מציגה ערכים חסרים (NaN) בדוח איכות הנתונים והתובנות. הערכים החדשים שאינם נלמדים ממערך הנתונים לדוגמה מוחלפים בתור Not a Number (NaN) כפי שהוגדר בממשק המשתמש של Data Wrangler אסטרטגיית טיפול לא חוקית.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עבודת עיבוד הנתונים עם הפרמטר המיומן מחדש למדה מחדש את property_type ו city תכונות בהתחשב בערכים החדשים מכל מערך הנתונים. ללא הפרמטר המאומן מחדש, עבודת עיבוד הנתונים משתמשת רק בפרמטרים המאומנים של מערך הנתונים שנדגמו מראש. לאחר מכן הוא מחיל אותם על הנתונים החדשים, אך הערכים החדשים אינם נחשבים לקידוד. יהיו לכך השלכות על דיוק המודל.

לנקות את

כאשר אינך משתמש ב-Data Wrangler, חשוב לסגור את המופע בו הוא פועל כדי להימנע מחיובים נוספים.

כדי למנוע אובדן עבודה, שמור את זרימת הנתונים שלך לפני כיבוי Data Wrangler.

  1. כדי לשמור את זרימת הנתונים שלך פנימה סטודיו SageMaker של אמזון, בחר שלח, ואז לבחור שמור את זרימת הנתונים של Wrangler. Data Wrangler שומר אוטומטית את זרימת הנתונים שלך כל 60 שניות.
  2. כדי לכבות את מופע Data Wrangler, ב-Studio, בחר מופעי ריצות וגרעינים.
  3. תַחַת הפעלת אפליקציות, בחר בסמל הכיבוי שליד האפליקציה Sagemaker-data-wrangler-1.0.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. לבחור סגור את כולם כדי לאשר.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

Data Wrangler פועל על מופע ml.m5.4xlarge. המקרה הזה נעלם מופעי ריצה כאשר אתה מכבה את אפליקציית Data Wrangler.

לאחר כיבוי אפליקציית Data Wrangler, עליה להפעיל מחדש בפעם הבאה שתפתח קובץ זרימה של Data Wrangler. זה יכול לקחת כמה דקות.

סיכום

בפוסט זה, סיפקנו סקירה כללית של תכונת הפרמטרים המאומנים מחדש ב-Data Wrangler. עם תכונה חדשה זו, אתה יכול לאחסן את הפרמטרים המאומנים בזרימת Data Wrangler, ועבודות עיבוד הנתונים משתמשות בפרמטרים המאומנים כדי להחיל את הטרנספורמציות הנלמדות על מערכי נתונים גדולים או מערכי נתונים חיזוק. אתה יכול להחיל אפשרות זו על תכונות טקסט וקטוריות, נתונים מספריים וטיפול בחריגים.

שמירה על פרמטרים מאומנים לאורך עיבוד הנתונים של מחזור החיים של ML מפשטת ומפחיתה את שלבי עיבוד הנתונים, תומכת בהנדסת תכונות חזקה ותומכת באימון מודלים ובאימוני חיזוק על נתונים חדשים.

אנו ממליצים לך לנסות תכונה חדשה זו עבור דרישות עיבוד הנתונים שלך.


על המחברים

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. הריהראן סורש הוא אדריכל פתרונות בכיר ב-AWS. הוא נלהב מבסיסי נתונים, למידת מכונה ועיצוב פתרונות חדשניים. לפני שהצטרף ל-AWS, הריהראן היה ארכיטקט מוצר, מומחה ליישום בנקאות ליבה ומפתח, ועבד עם ארגוני BFSI במשך יותר מ-11 שנים. מחוץ לטכנולוגיה, הוא נהנה מצנחי רחיפה ורכיבה על אופניים.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.סנטוש קולקרני הוא ארכיטקט פתרונות ארגוניים ב- Amazon Web Services שעובד עם לקוחות ספורט באוסטרליה. הוא נלהב לבנות יישומים מבוזרים בקנה מידה גדול כדי לפתור בעיות עסקיות תוך שימוש בידע שלו ב-AI/ML, ביג דאטה ופיתוח תוכנה.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.וישאל קאפור הוא מדען יישומי בכיר עם AWS AI. הוא נלהב לעזור ללקוחות להבין את הנתונים שלהם ב-Data Wrangler. בזמנו הפנוי הוא רוכב על אופני הרים, עושה סנובורד ומבלה עם משפחתו.

התאימו מחדש פרמטרים מאומנים על מערכי נתונים גדולים באמצעות Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אניקת מנג'ונת הוא מהנדס פיתוח תוכנה באמזון SageMaker. הוא עוזר לתמוך באמזון SageMaker Data Wrangler והוא נלהב ממערכות למידת מכונה מבוזרות. מחוץ לעבודה, הוא נהנה לטייל, לצפות בסרטים ולשחק קריקט.

בול זמן:

עוד מ למידת מכונות AWS