בנייה, שיתוף, פריסה: כיצד אנליסטים עסקיים ומדעני נתונים משיגים זמן מהיר יותר לשוק באמצעות ML ללא קוד ו-Amazon SageMaker Canvas

הועלה מחדש על ידי אפלטון

עוקב: 0

למידת מכונה (ML) עוזרת לארגונים להגדיל הכנסות, להניע צמיחה עסקית ולהפחית עלויות על ידי אופטימיזציה של פונקציות הליבה העסקיות במגוון ענפים, כגון חיזוי ביקוש, ניקוד אשראי, תמחור, חיזוי נטישת לקוחות, זיהוי ההצעות הטובות ביותר, חיזוי משלוחים מאוחרים, ו שיפור איכות הייצור. מחזורי פיתוח מסורתיים של ML נמשכים חודשים ודורשים מעט מיומנויות של מדעי נתונים וכישורי הנדסת ML. הרעיונות של אנליסטים למודלים של ML נמצאים לרוב בצבר ארוך ומחכים לרוחב הפס של צוות מדעי הנתונים, בעוד שמדעני נתונים מתמקדים בפרויקטים מורכבים יותר של ML הדורשים את מערך הכישורים המלא שלהם.

כדי לעזור לשבור את הקיפאון הזה, עשינו הציג את Amazon SageMaker Canvas, פתרון ML ללא קוד שיכול לעזור לחברות להאיץ את אספקת פתרונות ML עד לשעות או ימים. SageMaker Canvas מאפשר לאנליסטים להשתמש בקלות בנתונים זמינים באגמי נתונים, מחסני נתונים ומאגרי נתונים תפעוליים; לבנות דגמי ML; ולהשתמש בהם כדי ליצור חיזויים באופן אינטראקטיבי ולניקוד אצווה על מערכי נתונים בכמות גדולה - הכל מבלי לכתוב שורת קוד אחת.

בפוסט זה, אנו מראים כיצד SageMaker Canvas מאפשר שיתוף פעולה בין מדעני נתונים ואנליסטים עסקיים, משיג זמן מהיר יותר לשוק ומאיץ את הפיתוח של פתרונות ML. אנליסטים מקבלים סביבת עבודה ML ללא קוד משלהם ב- SageMaker Canvas, ללא צורך להפוך למומחה ML. לאחר מכן, אנליסטים יכולים לשתף את המודלים שלהם מ-Canvas בכמה קליקים, שאיתם מדעני נתונים יוכלו לעבוד איתם סטודיו SageMaker של אמזון, סביבת פיתוח משולבת ML (IDE) מקצה לקצה. על ידי עבודה משותפת, אנליסטים עסקיים יכולים להביא את הידע שלהם בתחום ואת תוצאות הניסוי, בעוד שמדעני נתונים יכולים ליצור ביעילות צינורות ולייעל את התהליך.

בואו נצלול לעומק כיצד תיראה זרימת העבודה.

אנליסטים עסקיים בונים מודל ואז משתפים אותו

כדי להבין כיצד SageMaker Canvas מפשט את שיתוף הפעולה בין אנליסטים עסקיים ומדעני נתונים (או מהנדסי ML), תחילה אנו ניגשים לתהליך כאנליסט עסקי. לפני שתתחיל, עיין ב הכריזה על אמזון SageMaker Canvas - יכולת למידת מכונה חזותית ללא קוד עבור אנליסטים עסקיים להנחיות לבניית ובדיקת הדגם עם SageMaker Canvas.

עבור פוסט זה, אנו משתמשים בגרסה שונה של מערך נתונים לזיהוי הונאה בכרטיס אשראי מ-Kaggle, מערך נתונים ידוע לבעיית סיווג בינארי. מערך הנתונים הוא במקור מאוד לא מאוזן - יש בו מעט מאוד ערכים המסווגים כמחלקה שלילית (עסקאות חריגות). ללא קשר להפצת תכונות היעד, אנו עדיין יכולים להשתמש במערך הנתונים הזה, מכיוון ש- SageMaker Canvas מטפל בחוסר האיזון הזה בזמן שהוא מאמן ומכוון מודל באופן אוטומטי. מערך נתונים זה מורכב מכ-9 מיליון תאים. אתה יכול גם להוריד את א גרסה מופחתת של מערך נתונים זה. גודל מערך הנתונים קטן בהרבה, בסביבות 500,000 תאים, מכיוון שהוא נלקח באופן אקראי תת-דגימה ולאחר מכן דגימת יתר בטכניקת SMOTE כדי להבטיח שכמה שפחות מידע יאבד במהלך תהליך זה. הפעלת ניסוי שלם עם מערך הנתונים המופחת הזה עולה לך 0$ תחת ה- SageMaker Canvas Free Tier.

לאחר בניית המודל, אנליסטים יכולים להשתמש בו כדי לבצע תחזיות ישירות ב-Canvas עבור בקשות בודדות או עבור מערך נתונים שלם בכמות גדולה.

מודלים שנבנו עם Canvas Standard Build ניתן גם לשתף בקלות בלחיצת כפתור עם מדעני נתונים ומהנדסי ML המשתמשים ב-SageMaker Studio. זה מאפשר למדען נתונים לאמת את הביצועים של המודל שבנית ולספק משוב. מהנדסי ML יכולים לאסוף את המודל שלך ולשלב אותו עם זרימות עבודה ומוצרים קיימים הזמינים לחברה שלך וללקוחות שלך. שימו לב שבזמן כתיבת שורות אלו, לא ניתן לשתף מודל שנבנה עם Canvas Quick Build, או מודל חיזוי של סדרות זמן.

שיתוף דגם דרך ממשק המשתמש של Canvas הוא פשוט:

בעמוד המציג את הדגמים שיצרת, בחר דגם.
לבחור שיתוף.
בחר גרסה אחת או יותר של הדגם שברצונך לשתף.
לחלופין, כלול הערה המספקת יותר הקשר לגבי הדגם או העזרה שאתה מחפש.
לבחור צור קישור לסטודיו של SageMaker.
העתק את הקישור שנוצר.

וזה הכל! כעת תוכל לשתף את הקישור עם עמיתיך באמצעות Slack, דוא"ל או כל שיטה אחרת לפי העדפתך. מדען הנתונים צריך להיות באותו דומיין של SageMaker Studio כדי לגשת למודל שלך, אז ודא שזה המקרה עם מנהל הארגון שלך.

מדעני נתונים ניגשים למידע המודל מ-SageMaker Studio

כעת, בואו נשחק את התפקיד של מדען נתונים או מהנדס ML, ונראה דברים מנקודת המבט שלהם באמצעות SageMaker Studio.

הקישור המשותף על ידי האנליסט לוקח אותנו אל SageMaker Studio, ה-IDE הראשון מבוסס ענן עבור זרימת העבודה ML מקצה לקצה.

הכרטיסייה נפתחת אוטומטית, ומציגה סקירה כללית של המודל שנוצר על ידי האנליסט ב- SageMaker Canvas. אתה יכול לראות במהירות את שם הדגם, סוג הבעיה ב-ML, גרסת הדגם ואיזה משתמש יצר את הדגם (תחת השדה Canvas user ID). יש לך גם גישה לפרטים על מערך הקלט והדגם הטוב ביותר ש- SageMaker הצליחה לייצר. נצלול לזה בהמשך הפוסט.

על ערכת נתונים קלט בכרטיסייה, תוכל גם לראות את זרימת הנתונים מהמקור למערך הקלט. במקרה זה, נעשה שימוש במקור נתונים אחד בלבד ולא הוחלו פעולות הצטרפות, כך שמקור יחיד מוצג. תוכל לנתח נתונים סטטיסטיים ופרטים על מערך הנתונים על ידי בחירה פתח מחברת חקר נתונים. מחברת זו מאפשרת לך לחקור את הנתונים שהיו זמינים לפני אימון המודל, ומכילה ניתוח של משתנה היעד, מדגם של נתוני הקלט, סטטיסטיקות ותיאורים של עמודות ושורות, כמו גם מידע שימושי אחר עבור מדען הנתונים. לדעת יותר על מערך הנתונים. למידע נוסף על דוח זה, עיין ב דוח חיפוש נתונים.

לאחר ניתוח מערך הנתונים של הקלט, הבה נעבור ללשונית השנייה של סקירת המודל, משימת AutoML. כרטיסייה זו מכילה תיאור של עבודת AutoML כאשר בחרת באפשרות Standard Build ב- SageMaker Canvas.

טכנולוגיית AutoML מתחת ל- SageMaker Canvas מבטלת את ההרמה הכבדה של בניית דגמי ML. הוא בונה, מאמן ומכוון באופן אוטומטי את מודל ה-ML הטוב ביותר על סמך הנתונים שלך על ידי שימוש בגישה אוטומטית, תוך שהוא מאפשר לך לשמור על שליטה מלאה ונראות. הנראות הזו על המודלים המועמדים שנוצרו, כמו גם הפרמטרים ההיפר-פרמטרים המשמשים במהלך תהליך AutoML כלולה ב- מחברת דור מועמדים, אשר זמין בכרטיסייה זו.

אל האני משימת AutoML הכרטיסייה מכילה גם רשימה של כל דגם שנבנה כחלק מתהליך AutoML, ממוינת לפי מדד המטרה F1. כדי להדגיש את הדגם הטוב ביותר מבין עבודות ההדרכה שהושקו, נעשה שימוש בתגית עם עיגול ירוק ב- הדוגמנית הטובה ביותר טור. אתה יכול גם לדמיין בקלות מדדים אחרים שבהם נעשה שימוש בשלב האימון וההערכה, כגון ציון הדיוק והשטח מתחת לעקומה (AUC). למידע נוסף על המודלים שתוכל לאמן במהלך עבודת AutoML ועל המדדים המשמשים להערכת הביצועים של המודל המאומן, עיין ב- תמיכה במודלים, מדדים ואימות.

כדי ללמוד עוד על הדגם, כעת תוכל ללחוץ לחיצה ימנית על הדגם הטוב ביותר ולבחור פתח בפרטי הדגם. לחלופין, אתה יכול לבחור את הדגם הטוב ביותר קישור בחלק העליון של סקירת מודל החלק שבו ביקרת לראשונה.

דף פרטי הדגם מכיל שפע של מידע שימושי לגבי המודל שהצליח עם נתוני הקלט הללו. תחילה נתמקד בסיכום בראש העמוד. צילום המסך של הדוגמה הקודמת מראה שמתוך מאות ריצות אימון של מודל, מודל XGBoost הציג את הביצועים הטובים ביותר במערך הקלט. בזמן כתיבת שורות אלה, SageMaker Canvas יכולה לאמן שלושה סוגים של אלגוריתמי ML: לומד לינארי, XGBoost ותפיסת רב שכבתית (MLP), כל אחד עם מגוון רחב של צינורות עיבוד מקדים והיפר-פרמטרים. למידע נוסף על כל אלגוריתם, עיין ב דף אלגוריתמים נתמכים.

SageMaker כולל גם פונקציונליות מסבירה הודות להטמעה מדרגית ויעילה של KernelSHAP, המבוסס על הרעיון של ערך Shapley מתחום תורת המשחקים השיתופיים המייחס לכל תכונה ערך חשיבות לתחזית מסוימת. זה מאפשר שקיפות לגבי האופן שבו המודל הגיע לתחזיות שלו, וזה מאוד שימושי להגדיר חשיבות תכונה. דוח הסבר מלא כולל חשיבות התכונות ניתן להורדה בפורמט PDF, מחברת או נתונים גולמיים. בדוח זה, קבוצה רחבה יותר של מדדים מוצגת כמו גם רשימה מלאה של פרמטרים היפר המשמשים במהלך עבודת AutoML. למידע נוסף על האופן שבו SageMaker מספקת כלי הסבר משולבים עבור פתרונות AutoML ואלגוריתמי ML סטנדרטיים, ראה השתמש בכלי הסבר משולבים ושפר את איכות הדגם באמצעות טייס אוטומטי של Amazon SageMaker.

לבסוף, הלשוניות האחרות בתצוגה זו מציגות מידע על פרטי ביצועים (מטריצת בלבול, עקומת זכירה מדויקת, עקומת ROC), חפצים המשמשים לקלט ומופקים במהלך עבודת ה-AutoML ופרטי רשת.

בשלב זה, למדען הנתונים יש שתי אפשרויות: לפרוס ישירות את המודל, או ליצור צינור אימון שניתן לתזמן או להפעיל באופן ידני או אוטומטי. הסעיפים הבאים מספקים כמה תובנות לגבי שתי האפשרויות.

פרוס את המודל ישירות

אם מדען הנתונים מרוצה מהתוצאות שהושגו בעבודת AutoML, הם יכולים לפרוס את המודל ישירות מה- פרטי הדגם עמוד. זה פשוט כמו בחירה מודל פריסה ליד שם הדגם.

SageMaker מראה לך שתי אפשרויות לפריסה: נקודת קצה בזמן אמת, מופעל על ידי נקודות הקצה של אמזון SageMaker, והסקת אצווה, מופעל על ידי טרנספורמציית אצווה של אמזון SageMaker.

SageMaker מספקת גם אופני הסקה אחרים. למידע נוסף, ראה פרוס מודלים להסקת מסקנות.

כדי להפעיל את מצב החיזוי בזמן אמת, אתה פשוט נותן לנקודת הקצה שם, סוג מופע וספירת מופעים. מכיוון שמודל זה אינו דורש משאבי מחשוב כבדים, אתה יכול להשתמש במופע מבוסס מעבד עם ספירה ראשונית של 1. תוכל ללמוד עוד על סוג המופעים השונים הזמינים והמפרטים שלהם ב- עמוד התמחור של אמזון SageMaker (בתוך ה תמחור לפי דרישה בחר בסעיף מסקנות בזמן אמת לשונית). אם אינך יודע באיזה מופע עליך לבחור עבור הפריסה שלך, תוכל גם לבקש מ-SageMaker למצוא את המופע הטוב ביותר עבורך לפי מדדי ה-KPI שלך באמצעות SageMaker Inference Recommend. אתה יכול גם לספק פרמטרים אופציונליים נוספים, בנוגע לשאלה אם ברצונך ללכוד נתוני בקשות ותגובה אל נקודת הקצה או ממנה. זה יכול להיות שימושי אם אתה מתכנן מעקב אחר הדגם שלך. אתה יכול גם לבחור איזה תוכן אתה רוצה לספק כחלק מהתגובה שלך - אם זה רק החיזוי או הסתברות החיזוי, ההסתברות של כל המחלקות ותוויות היעד.

כדי להפעיל משימת ניקוד אצווה כדי לקבל תחזיות עבור קבוצה שלמה של תשומות בו-זמנית, אתה יכול להפעיל את משימת המרת האצווה מה- קונסולת הניהול של AWS או דרך SageMaker Python SDK. למידע נוסף על שינוי אצווה, עיין ב השתמש ב-Bach Transform והמחברות לדוגמה.

הגדר צינור הדרכה

לעתים רחוקות מאוד, אם בכלל, דגמי ML יכולים להיחשב סטטיים ובלתי משתנים, מכיוון שהם נסחפים מהקו הבסיסי עליו אומנו. נתונים מהעולם האמיתי מתפתחים עם הזמן, ומתוכם צומחים עוד דפוסים ותובנות, שאולי נלכדו או לא על ידי המודל המקורי שהוכשר על נתונים היסטוריים. כדי לפתור בעיה זו, אתה יכול להגדיר צינור הדרכה שמכשיר אוטומטית את הדגמים שלך עם הנתונים העדכניים ביותר הזמינים.

בהגדרת צינור זה, אחת האפשרויות של מדען הנתונים היא להשתמש שוב ב-AutoML עבור צינור ההדרכה. אתה יכול להפעיל משימת AutoML באופן תכנותי על ידי הפעלת ה- API create_auto_ml_job() מה- AWS Boto3 SDK. אתה יכול לקרוא לפעולה זו מ- an AWS למבדה לתפקד בתוך פונקציות שלב AWS זרימת עבודה, או מ- LambdaStep in צינורות SageMaker של אמזון.

לחלופין, מדען הנתונים יכול להשתמש בידע, בחפצים ובפרמטרים המתקבלים מעבודת AutoML כדי להגדיר צינור הדרכה שלם. אתה צריך את המשאבים הבאים:

האלגוריתם שעבד הכי טוב עבור מקרה השימוש – כבר השגת מידע זה מסיכום המודל שנוצר על ידי קנבס. במקרה השימוש הזה, זה האלגוריתם המובנה של XGBoost. להוראות כיצד להשתמש ב- SageMaker Python SDK כדי לאמן את אלגוריתם XGBoost עם SageMaker, עיין ב- השתמש ב-XGBoost עם SageMaker Python SDK.

ההיפרפרמטרים שנגזרו מעבודת AutoML - אלה זמינים ב- הסבר סָעִיף. אתה יכול להשתמש בהם כקלט בעת הגדרת עבודת ההדרכה עם SageMaker Python SDK.

הקוד ההנדסי של תכונה מסופק בסעיף Artifacts – אתה יכול להשתמש בקוד זה הן לעיבוד מקדים של הנתונים לפני האימון (לדוגמה, דרך Amazon SageMaker Processing), או לפני ההסקה (לדוגמה, כחלק מצינור מסקנות של SageMaker).

אתה יכול לשלב משאבים אלה כחלק מצינור של SageMaker. אנו משמיטים את פרטי ההטמעה בפוסט זה - הישאר מעודכן לתוכן נוסף שיגיע בנושא זה.

סיכום

SageMaker Canvas מאפשר לך להשתמש ב-ML כדי ליצור תחזיות ללא צורך בכתיבת קוד כלשהו. אנליסט עסקי יכול להתחיל להשתמש בו באופן אוטונומי עם מערכי נתונים מקומיים, כמו גם נתונים שכבר מאוחסנים בהם שירות אחסון פשוט של אמזון (אמזון S3), האדום של אמזון, או פתית שלג. בכמה לחיצות בלבד, הם יכולים להכין ולהצטרף למערכי הנתונים שלהם, לנתח דיוק משוער, לאמת אילו עמודות משפיעות, לאמן את המודל בעל הביצועים הטובים ביותר, וליצור תחזיות חדשות בודדות או אצווה, והכל ללא צורך בגיוס של מדען נתונים מומחה. לאחר מכן, לפי הצורך, הם יכולים לשתף את המודל עם צוות של מדעני נתונים או מהנדסי MLOps, אשר מייבאים את המודלים לתוך SageMaker Studio, ולעבוד לצד האנליסט כדי לספק פתרון ייצור.

אנליסטים עסקיים יכולים לקבל תובנות מהנתונים שלהם באופן עצמאי מבלי להיות בעלי תואר ב-ML, וללא צורך לכתוב שורת קוד אחת. מדעני נתונים יכולים כעת לקבל זמן נוסף לעבוד על פרויקטים מאתגרים יותר שיכולים להשתמש טוב יותר בידע הנרחב שלהם ב-AI ו-ML.

אנו מאמינים ששיתוף הפעולה החדש הזה פותח את הדלת לבניית פתרונות ML חזקים רבים יותר עבור העסק שלך. כעת יש לך אנליסטים שמייצרים תובנות עסקיות חשובות, תוך מתן אפשרות למדעני נתונים ומהנדסי ML לעזור לחדד, לכוונן ולהרחיב לפי הצורך.

משאבים נוספים

למידע נוסף על האופן שבו SageMaker יכול לעזור עוד יותר לאנליסטים עסקיים, עיין ב אמזון SageMaker עבור אנליסטים עסקיים.
למידע נוסף על האופן שבו SageMaker מאפשר למדעני נתונים לפתח, לאמן ולפרוס את מודל ה-ML שלהם, בדוק אמזון SageMaker עבור מדעני נתונים.
למידע נוסף על האופן שבו SageMaker יכולה לסייע למהנדסי MLOps לייעל את מחזור החיים של ML באמצעות MLOps, עיין ב Amazon SageMaker עבור מהנדסי MLOps.

על הכותבים

דויד גליטלי הוא אדריכל פתרונות מומחה עבור AI/ML באזור EMEA. הוא מבוסס בבריסל ועובד בשיתוף פעולה הדוק עם לקוחות ברחבי בנלוקס. הוא מפתח מאז שהיה צעיר מאוד, התחיל לקוד בגיל 7. הוא התחיל ללמוד AI/ML באוניברסיטה, ומאז התאהב בזה.

מארק רוי הוא אדריכל למידה ממוחשבת של AWS, המסייע ללקוחות לתכנן ולבנות פתרונות AI / ML. עבודתו של מארק מכסה מגוון רחב של מקרים לשימוש ב- ML, תוך התעניינות ראשונית בראייה ממוחשבת, למידה עמוקה והיקף ML ברחבי הארגון. הוא סייע לחברות בענפים רבים, כולל ביטוח, שירותים פיננסיים, מדיה ובידור, שירותי בריאות, שירותים וייצור. מארק מחזיק בשש אישורי AWS, כולל הסמכת ML Speciality. לפני שהצטרף ל- AWS, היה מארק אדריכל, מפתח ומוביל טכנולוגיה במשך 25 שנה, כולל 19 שנים בשירותים פיננסיים.

בול זמן: במרץ 10, 2022

בול זמן: נובמבר 22, 2023

הועלה מחדש על ידי אפלטון

המסע של עוזר ה-AI הווירטואלי הגנרטיבי של PGA TOUR, מהרעיון ועד הפיתוח לאב-טיפוס | שירותי האינטרנט של אמזון

האץ את הקריירה שלך עם כישורי ML באמצעות מלגת מהנדס למידת מכונה של AWS

אמן, כוונן ופריסה ביעילות הרכבים מותאמים אישית באמצעות Amazon SageMaker | שירותי האינטרנט של אמזון

פרוס פתרון לכידת נתונים של למידת מכונה ב-AWS Lambda

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן