הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הכנת נתונים מאוחדת, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2

בהתאם לאיכות ולמורכבות של הנתונים, מדעני נתונים מבלים בין 45-80% מזמנם במשימות הכנת נתונים. זה מרמז שהכנת וניקוי נתונים לוקחים זמן יקר מעבודה אמיתית במדעי הנתונים. לאחר שמודל למידת מכונה (ML) מאומן עם נתונים מוכנים ומוכן לפריסה, מדעני נתונים חייבים לעתים קרובות לשכתב את טרנספורמציות הנתונים המשמשות להכנת נתונים להסקת ML. זה עשוי למתוח את הזמן שלוקח לפרוס מודל שימושי שיכול להסיק ולקלוע את הנתונים מהצורה והצורה הגולמית שלו.

בחלק 1 של סדרה זו, הדגמנו כיצד Data Wrangler מאפשר א הכנת נתונים מאוחדת והכשרת מודלים ניסיון עם טייס אוטומטי של אמזון בכמה קליקים בלבד. בחלק השני והאחרון של סדרה זו, אנו מתמקדים בתכונה הכוללת ושימוש חוזר רנגלר הנתונים של אמזון SageMaker טרנספורמציות, כגון מחזי ערך חסר, מקודדים סדינים או חדים, ועוד, יחד עם דגמי הטייס האוטומטי להסקת ML. תכונה זו מאפשרת עיבוד מקדים אוטומטי של הנתונים הגולמיים עם שימוש חוזר ב-Data Wrangler טרנספורמציה של תכונת ה-Data Wrangler בזמן ההסקה, ומצמצמת עוד יותר את הזמן הנדרש לפריסת מודל מאומן לייצור.

סקירת פתרונות

Data Wrangler מצמצם את זמן איסוף והכנת הנתונים עבור ML משבועות לדקות, והטייס האוטומטי בונה, מאמן ומכוון באופן אוטומטי את דגמי ה-ML הטובים ביותר על סמך הנתונים שלך. עם טייס אוטומטי, אתה עדיין שומר על שליטה מלאה ונראות של הנתונים והדגם שלך. שני השירותים נבנו ייעודיים כדי להפוך את העוסקים ב-ML ליותר פרודוקטיביים ולהאיץ את הזמן לערך.

התרשים הבא ממחיש את ארכיטקטורת הפתרונות שלנו.

תנאים מוקדמים

מכיוון שהפוסט הזה הוא השני בסדרה בת שני חלקים, ודאו שקראתם ויישמתם בהצלחה חלק 1 לפני שממשיכים.

ייצוא והכשרת הדגם

בחלק 1, לאחר הכנת הנתונים ל-ML, דנו כיצד ניתן להשתמש בחוויה המשולבת ב-Data Wrangler כדי לנתח מערכי נתונים ולבנות בקלות מודלים של ML באיכות גבוהה בטייס אוטומטי.

הפעם, אנו משתמשים בשילוב הטייס האוטומטי פעם נוספת כדי לאמן מודל מול אותו מערך אימון, אך במקום לבצע הסקה בכמות גדולה, אנו מבצעים הסקה בזמן אמת כנגד אמזון SageMaker נקודת קצה שנוצרת אוטומטית עבורנו.

בנוסף לנוחות שמספקת פריסה אוטומטית של נקודות קצה, אנו מדגימים כיצד ניתן לפרוס עם כל הטרנספורמציות של תכונת Data Wrangler כצינור מסקנות סדרתי של SageMaker. זה מאפשר עיבוד מקדים אוטומטי של הנתונים הגולמיים עם שימוש חוזר בתכונת Data Wrangler טרנספורמציה בזמן ההסקה.

שים לב שכרגע תכונה זו נתמכת רק עבור זרימות של Data Wrangler שאינן משתמשות בהצטרפות, קיבוץ לפי, שרשור ושינויי סדרות זמן.

אנו יכולים להשתמש באינטגרציה החדשה של Data Wrangler עם טייס אוטומטי כדי לאמן ישירות מודל מממשק המשתמש של זרימת הנתונים של Data Wrangler.

  1. בחר את סימן הפלוס שליד ערכי קנה מידה צומת, ובחר דגם רכבת.
  2. בעד מיקום אמזון S3, ציין את שירות אחסון פשוט של אמזון (Amazon S3) מיקום שבו SageMaker מייצאת את הנתונים שלך.
    אם מוצג עם נתיב דלי שורש כברירת מחדל, Data Wrangler יוצר תחתיו תת-ספריית ייצוא ייחודית - אינך צריך לשנות את נתיב השורש המוגדר כברירת מחדל אלא אם כן אתה רוצה. הטייס האוטומטי משתמש במיקום זה כדי לאמן מודל באופן אוטומטי, וחוסך אותך זמן מהצורך להגדיר את מיקום הפלט של זרימת Data Wrangler ולאחר מכן להגדיר את מיקום הקלט של נתוני האימון של הטייס האוטומטי. זה גורם לחוויה חלקה יותר.
  3. בחרו ייצוא והכשרת לייצא את הנתונים שעברו טרנספורמציה לאמזון S3.
    הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    כאשר הייצוא מצליח, אתה מופנה ל- צור ניסוי טייס אוטומטי עמוד, עם ה נתוני קלט מיקום S3 כבר מולא עבורך (הוא אוכלס מהתוצאות של העמוד הקודם).
  4. בעד שם הניסוי, הזן שם (או השאר את שם ברירת המחדל).
  5. בעד יעד, בחר תוֹצָאָה בתור העמודה שברצונך לחזות.
  6. בחרו הבא: שיטת אימון.
    הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כפי שמפורט בפוסט טייס אוטומטי של אמזון SageMaker מהיר עד פי שמונה עם מצב אימון אנסמבל חדש המופעל על ידי AutoGluon, אתה יכול לאפשר לטייס האוטומטי לבחור את מצב האימון באופן אוטומטי בהתבסס על גודל הנתונים, או לבחור את מצב האימון באופן ידני עבור שילוב או אופטימיזציה של היפרפרמטרים (HPO).

הפרטים של כל אפשרות הם כדלקמן:

  • אוטומטי - הטייס האוטומטי בוחר אוטומטית או מצב חיבור או HPO בהתבסס על גודל הנתונים שלך. אם מערך הנתונים שלך גדול מ-100 MB, טייס אוטומטי בוחר ב-HPO; אחרת הוא בוחר בהרכבה.
  • אנסמלינג – הטייס האוטומטי משתמש ב- AutoGluon יצירת טכניקה לאימון מספר מודלים בסיסיים ומשלבת את התחזיות שלהם באמצעות ערימת מודלים למודל חיזוי אופטימלי.
  • אופטימיזציה של היפר-פרמטרים - טייס אוטומטי מוצא את הגרסה הטובה ביותר של מודל על ידי כוונון היפרפרמטרים באמצעות טכניקת האופטימיזציה הבייסיאנית והרצת עבודות אימון במערך הנתונים שלך. HPO בוחר את האלגוריתמים הרלוונטיים ביותר למערך הנתונים שלך ובוחר את טווח הפרמטרים הטוב ביותר כדי לכוונן את המודלים. לדוגמא שלנו, אנו משאירים את בחירת ברירת המחדל של אוטומטי.
  1. בחרו הבא: פריסה והגדרות מתקדמות כדי להמשיך.
    הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. על פריסה והגדרות מתקדמות עמוד, בחר אפשרות פריסה.
    חשוב להבין את אפשרויות הפריסה ביתר פירוט; מה שנבחר ישפיע אם ההמרה שעשינו קודם לכן ב-Data Wrangler ייכללו בצנרת ההסקה או לא:
    • פריסה אוטומטית של הדגם הטוב ביותר עם טרנספורמציות מ-Data Wrangler - עם אפשרות פריסה זו, כאשר אתה מכין נתונים ב-Data Wrangler ומאמן מודל על-ידי הפעלת טייס אוטומטי, המודל המאומן נפרס לצד כל השינויים של תכונת Data Wrangler בתור צינור מסקנות סדרתי של SageMaker. זה מאפשר עיבוד מקדים אוטומטי של הנתונים הגולמיים עם שימוש חוזר בתכונת Data Wrangler טרנספורמציה בזמן ההסקה. שים לב שנקודת הסיום מצפה שהפורמט של הנתונים שלך יהיה באותו פורמט שבו הם מיובאים לזרימת Data Wrangler.
    • פרוס אוטומטית את הדגם הטוב ביותר ללא טרנספורמציות מ-Data Wrangler – אפשרות זו פורסת נקודת קצה בזמן אמת שאינה משתמשת בהמרות של Data Wrangler. במקרה זה, עליך להחיל את ההמרה המוגדרת בזרימת Data Wrangler שלך על הנתונים שלך לפני ההסקה.
    • אל תפרוס אוטומטית את הדגם הטוב ביותר – עליך להשתמש באפשרות זו כאשר אינך רוצה ליצור נקודת קצה כלל. זה שימושי אם ברצונך ליצור את המודל הטוב ביותר לשימוש מאוחר יותר, כגון הסקת מסקנות בכמות גדולה. (זוהי אפשרות הפריסה שבחרנו בחלק 1 של הסדרה.) שים לב שכאשר אתה בוחר באפשרות זו, המודל שנוצר (מהמועמד הטוב ביותר של טייס אוטומטי דרך ה-SDK של SageMaker) כולל את תכונת ה-Data Wrangler המתחלפת כצינור מסקנות סדרתי של SageMaker.

    לפוסט זה אנו משתמשים ב- פריסה אוטומטית של הדגם הטוב ביותר עם טרנספורמציות מ-Data Wrangler אוֹפְּצִיָה.

  3. בעד אפשרות פריסה, בחר פריסה אוטומטית של הדגם הטוב ביותר עם טרנספורמציות מ-Data Wrangler.
  4. השאר את ההגדרות האחרות כברירת מחדל.
  5. בחרו הבא: סקור וצור כדי להמשיך.
    על סקור וצור בדף, אנו רואים סיכום של ההגדרות שנבחרו עבור ניסוי הטייס האוטומטי שלנו.
  6. בחרו צור ניסוי כדי להתחיל את תהליך יצירת המודל.
    הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אתה מופנה לדף תיאור התפקיד של הטייס האוטומטי. הדגמים מוצגים על מודלים כרטיסיית כפי שהם נוצרים. כדי לאשר שהתהליך הושלם, עבור אל פרופיל עבודה לשונית וחפש א Completed ערך עבור מצב שדה.

אתה יכול לחזור לדף תיאור התפקיד של טייס אוטומטי זה בכל עת מ סטודיו SageMaker של אמזון:

  1. בחרו ניסויים וניסויים על משאבי SageMaker בתפריט הנפתח.
  2. בחר את שם עבודת הטייס האוטומטי שיצרת.
  3. בחר (לחץ לחיצה ימנית) על הניסוי ובחר תאר את עבודת AutoML.

הצג את ההדרכה והפריסה

כאשר הטייס האוטומטי ישלים את הניסוי, נוכל לראות את תוצאות האימון ולחקור את הדגם הטוב ביותר מדף תיאור התפקיד של הטייס האוטומטי.

בחר (לחץ לחיצה ימנית) בדגם המסומן הדגם הטוב ביותר, ולבחור פתח בפרטי הדגם.

הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

השמיים ביצוע הכרטיסייה מציגה מספר בדיקות מדידה של מודל, כולל מטריצת בלבול, השטח מתחת לעקומת הדיוק/הזכירה (AUCPR), והאזור מתחת לעקומת המאפיין ההפעלה של המקלט (ROC). אלה ממחישים את ביצועי האימות הכוללים של המודל, אבל הם לא אומרים לנו אם המודל יכלל היטב. אנחנו עדיין צריכים להריץ הערכות על נתוני בדיקה בלתי נראים כדי לראות באיזו מידה המודל מבצע תחזיות (לדוגמה זו, אנו צופים אם לאדם יהיה סוכרת).

בצע הסקה כנגד נקודת הקצה בזמן אמת

צור מחברת SageMaker חדשה כדי לבצע הסקה בזמן אמת כדי להעריך את ביצועי המודל. הזן את הקוד הבא למחברת כדי להפעיל הסקה בזמן אמת לצורך אימות:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

לאחר שתגדיר את הקוד לרוץ במחברת שלך, עליך להגדיר שני משתנים:

  • endpoint_name
  • payload_str

קבע את התצורה של endpoint_name

endpoint_name מייצג את השם של נקודת הקצה בזמן אמת שהפריסה יצרה עבורנו אוטומטית. לפני שאנו מגדירים אותו, עלינו למצוא את שמו.

  1. בחרו נקודות קצה על משאבי SageMaker בתפריט הנפתח.
  2. אתר את השם של נקודת הקצה שיש לה את השם של עבודת הטייס האוטומטי שיצרת עם מחרוזת אקראית שצורפה אליה.
  3. בחר (לחץ לחיצה ימנית) על הניסוי ובחר תאר את נקודת הקצה.
    הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    השמיים פרטי נקודת קצה הדף מופיע.
  4. סמן את השם המלא של נקודת הקצה ולחץ על Ctrl + C כדי להעתיק אותו ללוח.
    הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  5. הזן ערך זה (ודא שהוא מצוטט) עבור endpoint_name במחברת ההסקות.
    הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הגדר payload_str

המחברת מגיעה עם מחרוזת עומס ברירת מחדל payload_str שאתה יכול להשתמש בהם כדי לבדוק את נקודת הקצה שלך, אבל אל תהסס להתנסות עם ערכים שונים, כגון אלה ממערך הנתונים של הבדיקה שלך.

כדי למשוך ערכים ממערך הנתונים של הבדיקה, בצע את ההוראות ב- חלק 1 לייצא את מערך הנתונים של הבדיקה לאמזון S3. לאחר מכן, בקונסולת Amazon S3, אתה יכול להוריד אותו ולבחור את השורות כדי להשתמש בקובץ מאמזון S3.

לכל שורה במערך הנתונים של הבדיקה שלך יש תשע עמודות, כאשר העמודה האחרונה היא outcome ערך. עבור קוד מחברת זה, ודא שאתה משתמש רק בשורת נתונים בודדת (לעולם לא כותרת CSV) עבור payload_str. כמו כן ודא שאתה שולח רק א payload_str עם שמונה עמודות, שבהן הסרת את ערך התוצאה.

לדוגמה, אם קבצי מערך הבדיקה שלך נראים כמו הקוד הבא, ואנו רוצים לבצע הסקה בזמן אמת של השורה הראשונה:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

קבענו payload_str ל 10,115,0,0,0,35.3,0.134,29. שימו לב איך השמטנו את ה outcome ערך של 0 בסופו של דבר.

אם במקרה ערך היעד של מערך הנתונים שלך אינו הערך הראשון או האחרון, פשוט הסר את הערך עם מבנה הפסיק ללא פגע. לדוגמה, נניח שאנו מנבאים סרגל, ומערך הנתונים שלנו נראה כמו הקוד הבא:

foo,bar,foobar
85,17,20

במקרה זה, קבענו payload_str ל 85,,20.

כאשר המחברת מופעלת עם התצורה המוגדרת כהלכה payload_str ו endpoint_name ערכים, אתה מקבל תגובת CSV בחזרה בפורמט של outcome (0 או 1), confidence (0-1).

ניקיון

כדי לוודא שאינך כרוך בחיובים הקשורים להדרכה לאחר השלמת הדרכה זו, הקפד לכבות את אפליקציית Data Wrangler (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), כמו גם כל מופעי המחברת המשמשים לביצוע משימות מסקנות. יש למחוק את נקודות הקצה שנוצרו באמצעות פריסת הטייס האוטומטי כדי למנוע חיובים נוספים.

סיכום

בפוסט זה, הדגמנו כיצד לשלב את עיבוד הנתונים שלך, תכונות הנדסה ובניית מודלים באמצעות Data Wrangler וטייס אוטומטי. בהתבסס על חלק 1 בסדרה, הדגשנו כיצד אתה יכול בקלות לאמן, לכוון ולפרוס מודל לנקודת קצה בזמן אמת עם טייס אוטומטי ישירות מממשק המשתמש של Data Wrangler. בנוסף לנוחות שמספקת פריסה אוטומטית של נקודות קצה, הדגמנו כיצד ניתן לפרוס עם כל טרנספורמצי ה-Data Wrangler כצינור מסקנות סדרתי של SageMaker, המספק עיבוד מקדים אוטומטי של הנתונים הגולמיים, עם שימוש חוזר בהמרות תכונות של Data Wrangler ב- זמן ההסקה.

פתרונות קוד נמוך ו-AutoML כמו Data Wrangler ו-Autopilot מסירים את הצורך בידע מעמיק בקידוד כדי לבנות מודלים חזקים של ML. התחל להשתמש ב-Data Wrangler היום כדי לחוות כמה קל לבנות דגמי ML באמצעות טייס אוטומטי.


על המחברים

הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'רמי כהן הוא אדריכל פתרונות עם AWS, שם הוא עוזר ללקוחות לבנות פתרונות חדשניים מבוססי ענן. בזמנו הפנוי הוא נהנה מטיולים קצרים על החוף, לחקור את אזור המפרץ עם משפחתו, לתקן דברים מסביב לבית, לשבור דברים מסביב לבית ולברביקיו.

הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.פראדיפ רדי הוא מנהל מוצר בכיר בצוות SageMaker Low/No Code ML, הכולל את SageMaker Autopilot, SageMaker Automatic Model Tuner. מחוץ לעבודה, Pradeep נהנית לקרוא, לרוץ ולחנון עם מחשבים בגודל כף היד כמו Raspberry Pi וטכנולוגיות אחרות לאוטומציה ביתית.

הכנת נתונים מאוחדים, אימון מודלים ופריסה עם Amazon SageMaker Data Wrangler ו-Amazon SageMaker Autopilot - חלק 2 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ד"ר ג'ון הוא הוא מהנדס פיתוח תוכנה בכיר עם אמזון AI, שם הוא מתמקד בלמידת מכונה ומחשוב מבוזר. הוא בעל תואר דוקטור מ-CMU.

בול זמן:

עוד מ למידת מכונות AWS