בנה זרימת עבודה של למידת מכונה לניהול סיכונים באמזון SageMaker ללא קוד

הועלה מחדש על ידי אפלטון

עוקב: 0

מאז המשבר הפיננסי העולמי, ניהול סיכונים נטל תפקיד מרכזי בעיצוב קבלת ההחלטות עבור הבנקים, כולל חיזוי מצב הלוואות ללקוחות פוטנציאליים. לרוב מדובר בתרגיל עתיר נתונים הדורש למידת מכונה (ML). עם זאת, לא לכל הארגונים יש את המשאבים והמומחיות במדעי הנתונים כדי לבנות זרימת עבודה של ניהול סיכונים ML.

אמזון SageMaker היא פלטפורמת ML מנוהלת במלואה המאפשרת למהנדסי נתונים ואנליסטים עסקיים לבנות, לאמן ולפרוס מודלים של ML במהירות ובקלות. מהנדסי נתונים ואנליסטים עסקיים יכולים לשתף פעולה תוך שימוש ביכולות ללא קוד/קוד נמוך של SageMaker. מהנדסי נתונים יכולים להשתמש רנגלר הנתונים של אמזון SageMaker לצבור במהירות ולהכין נתונים לבניית מודל מבלי לכתוב קוד. אז אנליסטים עסקיים יכולים להשתמש בממשק החזותי של הצבע-וקליק של אמזון SageMaker Canvas ליצור תחזיות ML מדויקות בעצמם.

בפוסט זה, אנו מראים כמה פשוט למהנדסי נתונים ואנליסטים עסקיים לשתף פעולה כדי לבנות זרימת עבודה של ML הכוללת הכנת נתונים, בניית מודלים והסקת מסקנות מבלי לכתוב קוד.

סקירת פתרונות

למרות שפיתוח ML הוא תהליך מורכב ואיטרטיבי, אתה יכול להכליל זרימת עבודה של ML לשלבי הכנת הנתונים, פיתוח המודל והפריסה של המודל.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

Data Wrangler ו-Canvas מפשטים את המורכבות של הכנת נתונים ופיתוח מודלים, כך שתוכל להתמקד במתן ערך לעסק שלך על ידי הפקת תובנות מהנתונים שלך מבלי להיות מומחה בפיתוח קוד. דיאגרמת הארכיטקטורה הבאה מדגישה את הרכיבים בפתרון ללא קוד/קוד נמוך.

שירות אחסון פשוט של אמזון (Amazon S3) משמש כמאגר הנתונים שלנו עבור נתונים גולמיים, נתונים מהונדסים וחפצי מודל. אתה יכול גם לבחור לייבא נתונים האדום של אמזון, אמזונה אתנה, Databricks ו- Snowflake.

בתור מדעני נתונים, אנו משתמשים ב-Data Wrangler לניתוח נתונים חקרני והנדסת תכונות. למרות ש-Canvas יכול להריץ משימות הנדסת תכונה, הנדסת תכונה דורשת בדרך כלל קצת ידע סטטיסטי ותחום כדי להעשיר מערך נתונים בצורה הנכונה לפיתוח מודל. לכן, אנו מעניקים אחריות זו למהנדסי נתונים כדי שיוכלו להפוך נתונים מבלי לכתוב קוד עם Data Wrangler.

לאחר הכנת הנתונים, אנו מעבירים את האחריות לבניית מודלים למנתחי נתונים, שיכולים להשתמש ב-Canvas כדי להכשיר מודל ללא צורך בכתיבת קוד.

לבסוף, אנו מבצעים תחזיות בודדות ואצווה ישירות בתוך Canvas מהמודל המתקבל מבלי שנצטרך לפרוס נקודות קצה של מודל בעצמנו.

סקירת מערך נתונים

אנו משתמשים בתכונות של SageMaker כדי לחזות את מצב ההלוואה באמצעות גרסה שונה של Lending Club מערך נתונים של ניתוח הלוואות זמין לציבור. מערך הנתונים מכיל נתוני הלוואות עבור הלוואות שהונפקו במהלך השנים 2007–2011. העמודות המתארות את ההלוואה ואת הלווה הן התכונות שלנו. העמודה loan_status היא משתנה היעד, וזה מה שאנחנו מנסים לחזות.

כדי להדגים ב-Data Wrangler, חילקנו את מערך הנתונים לשני קובצי CSV: חלק ראשון ו חלק שני. הסרנו כמה עמודות מהמערך המקורי של Lending Club כדי לפשט את ההדגמה. מערך הנתונים שלנו מכיל למעלה מ-37,000 שורות ו-21 עמודות תכונה, כמתואר בטבלה הבאה.

שם העמודה	תיאור
`loan_status`	מצב ההלוואה הנוכחי (משתנה יעד).
`loan_amount`	הסכום הרשום של ההלוואה שביקש הלווה. אם מחלקת האשראי מפחיתה את סכום ההלוואה, זה בא לידי ביטוי בערך זה.
`funded_amount_by_investors`	הסכום הכולל שהתחייבו על ידי המשקיעים לאותה הלוואה באותו זמן.
`term`	מספר התשלומים על ההלוואה. הערכים הם בחודשים ויכולים להיות 36 או 60.
`interest_rate`	ריבית על ההלוואה.
`installment`	התשלום החודשי שחייב הלווה אם מקור ההלוואה.
`grade`	LC הוקצה דרגת הלוואה.
`sub_grade`	LC הוקצתה תת דרגת הלוואה.
`employment_length`	משך העסקה בשנים. ערכים אפשריים הם בין 0-10, כאשר 0 פירושו פחות משנה ו-10 פירושו עשר שנים או יותר.
`home_ownership`	סטטוס הבעלות על הבית שסופק על ידי הלווה במהלך הרישום. הערכים שלנו הם שכר דירה, OWN, משכנתא ואחרים.
`annual_income`	ההכנסה השנתית המדווחת על ידי הלווה במהלך הרישום.
`verification_status`	מציין אם ההכנסה אומתה או לא על ידי ה-LC.
`issued_amount`	החודש שבו מומנה ההלוואה.
`purpose`	קטגוריה שסופק על ידי הלווה עבור בקשת ההלוואה.
`dti`	יחס המחושב באמצעות סך תשלומי החוב החודשיים של הלווה על סך התחייבויות החוב, ללא משכנתא והלוואת LC המבוקשת, חלקי ההכנסה החודשית המדווחת של הלווה.
`earliest_credit_line`	החודש נפתחה מסגרת האשראי המדווחת המוקדמת ביותר של הלווה.
`inquiries_last_6_months`	מספר הפניות ב-6 החודשים האחרונים (לא כולל פניות רכב ומשכנתא).
`open_credit_lines`	מספר קווי האשראי הפתוחים בקובץ האשראי של הלווה.
`derogatory_public_records`	מספר הרישומים הציבוריים המקטינים.
`revolving_line_utilization_rate`	שיעור ניצול קו מסתובב, או כמות האשראי שהלווה משתמש בה ביחס לכל האשראי המתגלגל הזמין.
`total_credit_lines`	המספר הכולל של קווי האשראי שנמצאים כעת בקובץ האשראי של הלווה.

אנו משתמשים במערך נתונים זה להכנת הנתונים והכשרת המודלים שלנו.

תנאים מוקדמים

השלם את השלבים המוקדמים הבאים:

העלה את שני קבצי ההלוואה לדלי S3 לבחירתך.
ודא שיש לך את ההרשאות הנדרשות. למידע נוסף, עיין ב התחל לעבוד עם Data Wrangler.
הגדר תחום SageMaker המוגדר לשימוש ב-Data Wrangler. להנחיות, עיין ב נכלל ב-Amazon SageMaker Domain.

ייבא את הנתונים

צור זרימת נתונים חדשה של Data Wrangler מ ממשק המשתמש של אמזון SageMaker Studio.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ייבא נתונים מאמזון S3 על ידי בחירת קבצי ה-CSV מדלי S3 שבו מיקמת את מערך הנתונים שלך. לאחר ייבוא שני הקבצים, תוכל לראות שני זרימות עבודה נפרדות ב- זרימת נתונים נוף.

אתה יכול לבחור מספר אפשרויות דגימה בעת ייבוא הנתונים שלך בזרימת Data Wrangler. דגימה יכולה לעזור כאשר יש לך מערך נתונים גדול מכדי להכין אותו באופן אינטראקטיבי, או כאשר אתה רוצה לשמר את שיעור האירועים הנדירים במערך הנתונים הנדגמים שלך. מכיוון שמערך הנתונים שלנו קטן, אנחנו לא משתמשים בדגימה.

הכינו את הנתונים

במקרה השימוש שלנו, יש לנו שני מערכי נתונים עם עמודה משותפת: id. כצעד ראשון בהכנת הנתונים, אנו רוצים לשלב את הקבצים הללו על ידי הצטרפותם. להנחיות, עיין ב הפוך נתונים.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אנו משתמשים לְהִצְטַרֵף שלב שינוי הנתונים והשתמש ב- פנימי הצטרף הקלד על id עמודה.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כתוצאה משינוי ההצטרפות שלנו, Data Wrangler יוצר שתי עמודות נוספות: id_0 ו id_1. עם זאת, עמודות אלו מיותרות למטרות בניית המודל שלנו. אנו מורידים את העמודות המיותרות באמצעות ה- נהל עמודות שלב להפוך.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ייבאנו את מערכי הנתונים שלנו, הצטרפנו אליהם והסרנו עמודות מיותרות. כעת אנו מוכנים להעשיר את הנתונים שלנו באמצעות הנדסת תכונות ולהתכונן לבניית מודלים.

בצע הנדסת תכונות

השתמשנו ב-Data Wrangler להכנת נתונים. אתה יכול גם להשתמש ב תכונת דוח איכות נתונים ותובנות בתוך Data Wrangler כדי לאמת את איכות הנתונים שלך ולזהות חריגות בנתונים שלך. מדעני נתונים צריכים לעתים קרובות להשתמש בתובנות הנתונים הללו כדי ליישם ביעילות את הידע הנכון בתחום על תכונות הנדסיות. עבור פוסט זה, אנו מניחים שהשלמנו את הערכות האיכות הללו ונוכל לעבור להנדסת תכונות.

בשלב זה, אנו מיישמים כמה טרנספורמציות על עמודות מספריות, קטגוריות וטקסט.

ראשית, אנו מנרמלים את שיעור הריבית כדי לשנות את קנה המידה בין 0-1. אנו עושים זאת באמצעות ה תהליך מספרי להפוך לקנה מידה של interest_rate עמודה באמצעות קנה מידה מינימום. המטרה של נורמליזציה (או סטנדרטיזציה) היא לבטל הטיה מהמודל שלנו. משתנים שנמדדים בסולמות שונים לא יתרמו במידה שווה לתהליך הלמידה של המודל. לכן, פונקציית טרנספורמציה כמו טרנספורמציה של קנה מידה של min-max מסייעת לנרמל תכונות.

כדי להמיר משתנה קטגורי לערך מספרי, אנו משתמשים בקידוד חד-חם. אנחנו בוחרים את מקודד קטגורי להפוך, ולאחר מכן לבחור קידוד חם אחד. קידוד חם אחד משפר את יכולת הניבוי של מודל ML. תהליך זה ממיר ערך קטגורי לתכונה חדשה על ידי הקצאת ערך בינארי של 1 או 0 לתכונה. כדוגמה פשוטה, אם הייתה לך עמודה אחת שהכילה ערך של yes or no, קידוד חם אחד ימיר את העמודה הזו לשתי עמודות: א Yes טור ו No טור. לערך כן יהיה 1 ב- Yes עמודה ו-0 ב- No טור. קידוד חם אחד הופך את הנתונים שלנו לשימושיים יותר מכיוון שערכים מספריים יכולים לקבוע בקלות רבה יותר הסתברות לתחזיות שלנו.

לבסוף, אנו מציגים את employer_title עמודה כדי להפוך את ערכי המחרוזת שלו לווקטור מספרי. אנו מיישמים את Count Vectorizer וטוקניר סטנדרטי בתוך וקטור שינוי צורה. טוקניזציה מפרקת משפט או סדרת טקסט למילים, ואילו וקטורייזר ממיר נתוני טקסט לצורה הניתנת לקריאה במכונה. מילים אלו מיוצגות כווקטורים.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עם השלמת כל שלבי הנדסת התכונות, נוכל לייצא את הנתונים ולהוציא את התוצאות לתוך דלי S3 שלנו. לחלופין, אתה יכול לייצא את הזרימה שלך כקוד Python, או מחברת Jupyter כדי ליצור צינור עם התצוגה שלך באמצעות צינורות SageMaker של אמזון. שקול זאת כאשר אתה רוצה להפעיל את שלבי הנדסת התכונות שלך בקנה מידה או כחלק מצינור ML.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת אנו יכולים להשתמש בקובץ הפלט של Data Wrangler כקלט שלנו עבור Canvas. אנו מתייחסים לזה כאל מערך נתונים ב-Canvas לבניית מודל ה-ML שלנו.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

במקרה שלנו, ייצאנו את מערך הנתונים המוכן שלנו לדלי ברירת המחדל של Studio עם output קידומת. אנו מתייחסים למיקום מערך הנתונים הזה בעת טעינת הנתונים ל-Canvas לבניית מודל בשלב הבא.

בנה ואמן את דגם ה-ML שלך עם Canvas

במסוף SageMaker, הפעל את אפליקציית Canvas. כדי לבנות מודל ML מהנתונים שהוכנו בסעיף הקודם, אנו מבצעים את השלבים הבאים:

ייבא את מערך הנתונים המוכן ל-Canvas מ-S3.

אנו מתייחסים לאותו נתיב S3 שבו ייצאנו את תוצאות Data Wrangler מהסעיף הקודם.

צור דגם חדש בקנבס ותן לו שם loan_prediction_model.
בחר את מערך הנתונים המיובא והוסף אותו לאובייקט המודל.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כדי ש-Canvas יבנה מודל, עלינו לבחור את עמודת היעד.

מכיוון שהמטרה שלנו היא לחזות את ההסתברות ליכולת של המלווה להחזיר הלוואה, אנו בוחרים את loan_status עמודה.

Canvas מזהה אוטומטית את סוג הצהרת הבעיה של ML. בזמן הכתיבה, Canvas תומך בבעיות רגרסיה, סיווג וחיזוי סדרות זמן. אתה יכול לציין את סוג הבעיה או ש-Canvas יסיק אוטומטית את הבעיה מהנתונים שלך.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בחר באפשרות שלך להתחיל בתהליך בניית המודל: בנייה מהירה or מבנה סטנדרטי.

אל האני בנייה מהירה option משתמשת במערך הנתונים שלך כדי לאמן מודל בתוך 2-15 דקות. זה שימושי כאשר אתה מתנסה עם מערך נתונים חדש כדי לקבוע אם מערך הנתונים שברשותך יספיק לביצוע תחזיות. אנו משתמשים באפשרות זו עבור פוסט זה.

אל האני מבנה סטנדרטי האופציה בוחרת דיוק על פני מהירות ומשתמשת בכ-250 מועמדים למודל כדי לאמן את המודל. התהליך אורך בדרך כלל 1-2 שעות.

לאחר בניית המודל, ניתן לעיין בתוצאות המודל. Canvas מעריך שהמודל שלך מסוגל לחזות את התוצאה הנכונה ב-82.9% מהמקרים. התוצאות שלך עשויות להשתנות עקב השונות במודלים של אימון.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בנוסף, אתה יכול לצלול עמוק לתוך ניתוח פרטים של המודל כדי ללמוד עוד על המודל.

חשיבות תכונה מייצגת את החשיבות המשוערת של כל תכונה בחיזוי עמודת היעד. במקרה זה, לעמודת מסגרת האשראי יש את ההשפעה המשמעותית ביותר בחיזוי אם לקוח יחזיר את סכום ההלוואה, ולאחר מכן ריבית והכנסה שנתית.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מטריצת הבלבול ב- מדדים מתקדמים החלק מכיל מידע עבור משתמשים שרוצים הבנה מעמיקה יותר של ביצועי המודל שלהם.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לפני שתוכל לפרוס את המודל שלך לעומסי עבודה של ייצור, השתמש ב-Canvas כדי לבדוק את המודל. Canvas מנהל את נקודת הקצה של המודל שלנו ומאפשר לנו לבצע תחזיות ישירות בממשק המשתמש של Canvas.

לבחור לחזות וסקור את הממצאים באחד מהשניים חיזוי אצווה or חיזוי בודד TAB.

בדוגמה הבאה, אנו מבצעים חיזוי בודד על ידי שינוי ערכים כדי לחזות את משתנה היעד שלנו loan_status בזמן אמת

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אנחנו יכולים גם לבחור מערך נתונים גדול יותר ולגרום ל-Canvas ליצור תחזיות אצווה בשמנו.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

למידת מכונה מקצה לקצה היא מורכבת ואיטרטיבית, ולעתים קרובות כוללת פרסונות, טכנולוגיות ותהליכים מרובים. Data Wrangler ו-Canvas מאפשרים שיתוף פעולה בין צוותים מבלי לדרוש מהצוותים הללו לכתוב קוד כלשהו.

מהנדס נתונים יכול להכין נתונים בקלות באמצעות Data Wrangler מבלי לכתוב שום קוד ולהעביר את מערך הנתונים המוכן לאנליסט עסקי. אנליסט עסקי יכול בקלות לבנות מודלים מדויקים של ML בכמה קליקים בלבד באמצעות Canvas ולקבל תחזיות מדויקות בזמן אמת או באצווה.

התחל עם Data Wrangler באמצעות כלים אלה ללא צורך בניהול תשתית כלשהי. אתה יכול הגדר את Canvas התחל במהירות ומיד ליצור מודלים של ML כדי לתמוך בצרכים העסקיים שלך.

על הכותבים

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. פיטר צ'ונג הוא אדריכל פתרונות עבור AWS, ונלהב לעזור ללקוחות לחשוף תובנות מהנתונים שלהם. הוא בנה פתרונות שיעזרו לארגונים לקבל החלטות מונעות נתונים הן במגזר הציבורי והן במגזר הפרטי. הוא מחזיק בכל אישורי AWS וכן בשתי אישורי GCP.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. Meenakshisundaram Thandavarayan הוא מומחה בכיר בינה מלאכותית/ML עם AWS. הוא עוזר לחשבונות אסטרטגיים היי-טק במסע ה-AI וה-ML שלהם. הוא מאוד נלהב מבינה מלאכותית מונעת נתונים.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. דן פרגוסון הוא אדריכל פתרונות ב-AWS, שבסיסו בניו יורק, ארה"ב. כמומחה לשירותי למידת מכונה, דן פועלת כדי לתמוך בלקוחות במסעם לשילוב זרימות עבודה של ML בצורה יעילה, יעילה ובת קיימא.

בול זמן: מאי 19, 2022

בול זמן: נובמבר 30, 2023

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד

הועלה מחדש על ידי אפלטון

סקירת פתרונות

סקירת מערך נתונים

תנאים מוקדמים

ייבא את הנתונים

הכינו את הנתונים

בצע הנדסת תכונות

בנה ואמן את דגם ה-ML שלך עם Canvas

סיכום

על הכותבים

עוד מ למידת מכונות AWS

חלק 3: כיצד קבוצת NatWest בנתה דגמי ML הניתנים לביקורת, ניתנים לשחזור והסבר עם Amazon SageMaker

הגדר גישת Amazon S3 חוצת חשבונות עבור מחברות Amazon SageMaker במצב VPC בלבד באמצעות נקודות גישה של Amazon S3 | שירותי האינטרנט של אמזון

שפר את דיוק התמלול של שיחות לקוח-סוכן עם אוצר מילים מותאם אישית ב- Amazon Transcribe

זהה גורם שורש פוטנציאלי בחריגות עסקיות קריטיות באמצעות Amazon Lookout for Metrics

להעריך מודלים שפה גדולים לאיכות ואחריות | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן