בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד

מאז המשבר הפיננסי העולמי, ניהול סיכונים נטל תפקיד מרכזי בעיצוב קבלת ההחלטות עבור הבנקים, כולל חיזוי מצב הלוואות ללקוחות פוטנציאליים. לרוב מדובר בתרגיל עתיר נתונים הדורש למידת מכונה (ML). עם זאת, לא לכל הארגונים יש את המשאבים והמומחיות במדעי הנתונים כדי לבנות זרימת עבודה של ניהול סיכונים ML.

אמזון SageMaker היא פלטפורמת ML מנוהלת במלואה המאפשרת למהנדסי נתונים ואנליסטים עסקיים לבנות, לאמן ולפרוס מודלים של ML במהירות ובקלות. מהנדסי נתונים ואנליסטים עסקיים יכולים לשתף פעולה תוך שימוש ביכולות ללא קוד/קוד נמוך של SageMaker. מהנדסי נתונים יכולים להשתמש רנגלר הנתונים של אמזון SageMaker לצבור במהירות ולהכין נתונים לבניית מודל מבלי לכתוב קוד. אז אנליסטים עסקיים יכולים להשתמש בממשק החזותי של הצבע-וקליק של אמזון SageMaker Canvas ליצור תחזיות ML מדויקות בעצמם.

בפוסט זה, אנו מראים כמה פשוט למהנדסי נתונים ואנליסטים עסקיים לשתף פעולה כדי לבנות זרימת עבודה של ML הכוללת הכנת נתונים, בניית מודלים והסקת מסקנות מבלי לכתוב קוד.

סקירת פתרונות

למרות שפיתוח ML הוא תהליך מורכב ואיטרטיבי, אתה יכול להכליל זרימת עבודה של ML לשלבי הכנת הנתונים, פיתוח המודל והפריסה של המודל.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

Data Wrangler ו-Canvas מפשטים את המורכבות של הכנת נתונים ופיתוח מודלים, כך שתוכל להתמקד במתן ערך לעסק שלך על ידי הפקת תובנות מהנתונים שלך מבלי להיות מומחה בפיתוח קוד. דיאגרמת הארכיטקטורה הבאה מדגישה את הרכיבים בפתרון ללא קוד/קוד נמוך.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

שירות אחסון פשוט של אמזון (Amazon S3) משמש כמאגר הנתונים שלנו עבור נתונים גולמיים, נתונים מהונדסים וחפצי מודל. אתה יכול גם לבחור לייבא נתונים האדום של אמזון, אמזונה אתנה, Databricks ו- Snowflake.

בתור מדעני נתונים, אנו משתמשים ב-Data Wrangler לניתוח נתונים חקרני והנדסת תכונות. למרות ש-Canvas יכול להריץ משימות הנדסת תכונה, הנדסת תכונה דורשת בדרך כלל קצת ידע סטטיסטי ותחום כדי להעשיר מערך נתונים בצורה הנכונה לפיתוח מודל. לכן, אנו מעניקים אחריות זו למהנדסי נתונים כדי שיוכלו להפוך נתונים מבלי לכתוב קוד עם Data Wrangler.

לאחר הכנת הנתונים, אנו מעבירים את האחריות לבניית מודלים למנתחי נתונים, שיכולים להשתמש ב-Canvas כדי להכשיר מודל ללא צורך בכתיבת קוד.

לבסוף, אנו מבצעים תחזיות בודדות ואצווה ישירות בתוך Canvas מהמודל המתקבל מבלי שנצטרך לפרוס נקודות קצה של מודל בעצמנו.

סקירת מערך נתונים

אנו משתמשים בתכונות של SageMaker כדי לחזות את מצב ההלוואה באמצעות גרסה שונה של Lending Club מערך נתונים של ניתוח הלוואות זמין לציבור. מערך הנתונים מכיל נתוני הלוואות עבור הלוואות שהונפקו במהלך השנים 2007–2011. העמודות המתארות את ההלוואה ואת הלווה הן התכונות שלנו. העמודה loan_status היא משתנה היעד, וזה מה שאנחנו מנסים לחזות.

כדי להדגים ב-Data Wrangler, חילקנו את מערך הנתונים לשני קובצי CSV: חלק ראשון ו חלק שני. הסרנו כמה עמודות מהמערך המקורי של Lending Club כדי לפשט את ההדגמה. מערך הנתונים שלנו מכיל למעלה מ-37,000 שורות ו-21 עמודות תכונה, כמתואר בטבלה הבאה.

שם העמודה תיאור
loan_status מצב ההלוואה הנוכחי (משתנה יעד).
loan_amount הסכום הרשום של ההלוואה שביקש הלווה. אם מחלקת האשראי מפחיתה את סכום ההלוואה, זה בא לידי ביטוי בערך זה.
funded_amount_by_investors הסכום הכולל שהתחייבו על ידי המשקיעים לאותה הלוואה באותו זמן.
term מספר התשלומים על ההלוואה. הערכים הם בחודשים ויכולים להיות 36 או 60.
interest_rate ריבית על ההלוואה.
installment התשלום החודשי שחייב הלווה אם מקור ההלוואה.
grade LC הוקצה דרגת הלוואה.
sub_grade LC הוקצתה תת דרגת הלוואה.
employment_length משך העסקה בשנים. ערכים אפשריים הם בין 0-10, כאשר 0 פירושו פחות משנה ו-10 פירושו עשר שנים או יותר.
home_ownership סטטוס הבעלות על הבית שסופק על ידי הלווה במהלך הרישום. הערכים שלנו הם שכר דירה, OWN, משכנתא ואחרים.
annual_income ההכנסה השנתית המדווחת על ידי הלווה במהלך הרישום.
verification_status מציין אם ההכנסה אומתה או לא על ידי ה-LC.
issued_amount החודש שבו מומנה ההלוואה.
purpose קטגוריה שסופק על ידי הלווה עבור בקשת ההלוואה.
dti יחס המחושב באמצעות סך תשלומי החוב החודשיים של הלווה על סך התחייבויות החוב, ללא משכנתא והלוואת LC המבוקשת, חלקי ההכנסה החודשית המדווחת של הלווה.
earliest_credit_line החודש נפתחה מסגרת האשראי המדווחת המוקדמת ביותר של הלווה.
inquiries_last_6_months מספר הפניות ב-6 החודשים האחרונים (לא כולל פניות רכב ומשכנתא).
open_credit_lines מספר קווי האשראי הפתוחים בקובץ האשראי של הלווה.
derogatory_public_records מספר הרישומים הציבוריים המקטינים.
revolving_line_utilization_rate שיעור ניצול קו מסתובב, או כמות האשראי שהלווה משתמש בה ביחס לכל האשראי המתגלגל הזמין.
total_credit_lines המספר הכולל של קווי האשראי שנמצאים כעת בקובץ האשראי של הלווה.

אנו משתמשים במערך נתונים זה להכנת הנתונים והכשרת המודלים שלנו.

תנאים מוקדמים

השלם את השלבים המוקדמים הבאים:

  1. העלה את שני קבצי ההלוואה לדלי S3 לבחירתך.
  2. ודא שיש לך את ההרשאות הנדרשות. למידע נוסף, עיין ב התחל לעבוד עם Data Wrangler.
  3. הגדר תחום SageMaker המוגדר לשימוש ב-Data Wrangler. להנחיות, עיין ב נכלל ב-Amazon SageMaker Domain.

ייבא את הנתונים

צור זרימת נתונים חדשה של Data Wrangler מ ממשק המשתמש של אמזון SageMaker Studio.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ייבא נתונים מאמזון S3 על ידי בחירת קבצי ה-CSV מדלי S3 שבו מיקמת את מערך הנתונים שלך. לאחר ייבוא ​​שני הקבצים, תוכל לראות שני זרימות עבודה נפרדות ב- זרימת נתונים נוף.

אתה יכול לבחור מספר אפשרויות דגימה בעת ייבוא ​​הנתונים שלך בזרימת Data Wrangler. דגימה יכולה לעזור כאשר יש לך מערך נתונים גדול מכדי להכין אותו באופן אינטראקטיבי, או כאשר אתה רוצה לשמר את שיעור האירועים הנדירים במערך הנתונים הנדגמים שלך. מכיוון שמערך הנתונים שלנו קטן, אנחנו לא משתמשים בדגימה.

הכינו את הנתונים

במקרה השימוש שלנו, יש לנו שני מערכי נתונים עם עמודה משותפת: id. כצעד ראשון בהכנת הנתונים, אנו רוצים לשלב את הקבצים הללו על ידי הצטרפותם. להנחיות, עיין ב הפוך נתונים.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אנו משתמשים לְהִצְטַרֵף שלב שינוי הנתונים והשתמש ב- פנימי הצטרף הקלד על id עמודה.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כתוצאה משינוי ההצטרפות שלנו, Data Wrangler יוצר שתי עמודות נוספות: id_0 ו id_1. עם זאת, עמודות אלו מיותרות למטרות בניית המודל שלנו. אנו מורידים את העמודות המיותרות באמצעות ה- נהל עמודות שלב להפוך.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ייבאנו את מערכי הנתונים שלנו, הצטרפנו אליהם והסרנו עמודות מיותרות. כעת אנו מוכנים להעשיר את הנתונים שלנו באמצעות הנדסת תכונות ולהתכונן לבניית מודלים.

בצע הנדסת תכונות

השתמשנו ב-Data Wrangler להכנת נתונים. אתה יכול גם להשתמש ב תכונת דוח איכות נתונים ותובנות בתוך Data Wrangler כדי לאמת את איכות הנתונים שלך ולזהות חריגות בנתונים שלך. מדעני נתונים צריכים לעתים קרובות להשתמש בתובנות הנתונים הללו כדי ליישם ביעילות את הידע הנכון בתחום על תכונות הנדסיות. עבור פוסט זה, אנו מניחים שהשלמנו את הערכות האיכות הללו ונוכל לעבור להנדסת תכונות.

בשלב זה, אנו מיישמים כמה טרנספורמציות על עמודות מספריות, קטגוריות וטקסט.

ראשית, אנו מנרמלים את שיעור הריבית כדי לשנות את קנה המידה בין 0-1. אנו עושים זאת באמצעות ה תהליך מספרי להפוך לקנה מידה של interest_rate עמודה באמצעות קנה מידה מינימום. המטרה של נורמליזציה (או סטנדרטיזציה) היא לבטל הטיה מהמודל שלנו. משתנים שנמדדים בסולמות שונים לא יתרמו במידה שווה לתהליך הלמידה של המודל. לכן, פונקציית טרנספורמציה כמו טרנספורמציה של קנה מידה של min-max מסייעת לנרמל תכונות.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כדי להמיר משתנה קטגורי לערך מספרי, אנו משתמשים בקידוד חד-חם. אנחנו בוחרים את מקודד קטגורי להפוך, ולאחר מכן לבחור קידוד חם אחד. קידוד חם אחד משפר את יכולת הניבוי של מודל ML. תהליך זה ממיר ערך קטגורי לתכונה חדשה על ידי הקצאת ערך בינארי של 1 או 0 לתכונה. כדוגמה פשוטה, אם הייתה לך עמודה אחת שהכילה ערך של yes or no, קידוד חם אחד ימיר את העמודה הזו לשתי עמודות: א Yes טור ו No טור. לערך כן יהיה 1 ב- Yes עמודה ו-0 ב- No טור. קידוד חם אחד הופך את הנתונים שלנו לשימושיים יותר מכיוון שערכים מספריים יכולים לקבוע בקלות רבה יותר הסתברות לתחזיות שלנו.

לבסוף, אנו מציגים את employer_title עמודה כדי להפוך את ערכי המחרוזת שלו לווקטור מספרי. אנו מיישמים את Count Vectorizer וטוקניר סטנדרטי בתוך וקטור שינוי צורה. טוקניזציה מפרקת משפט או סדרת טקסט למילים, ואילו וקטורייזר ממיר נתוני טקסט לצורה הניתנת לקריאה במכונה. מילים אלו מיוצגות כווקטורים.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עם השלמת כל שלבי הנדסת התכונות, נוכל לייצא את הנתונים ולהוציא את התוצאות לתוך דלי S3 שלנו. לחלופין, אתה יכול לייצא את הזרימה שלך כקוד Python, או מחברת Jupyter כדי ליצור צינור עם התצוגה שלך באמצעות צינורות SageMaker של אמזון. שקול זאת כאשר אתה רוצה להפעיל את שלבי הנדסת התכונות שלך בקנה מידה או כחלק מצינור ML.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת אנו יכולים להשתמש בקובץ הפלט של Data Wrangler כקלט שלנו עבור Canvas. אנו מתייחסים לזה כאל מערך נתונים ב-Canvas לבניית מודל ה-ML שלנו.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

במקרה שלנו, ייצאנו את מערך הנתונים המוכן שלנו לדלי ברירת המחדל של Studio עם output קידומת. אנו מתייחסים למיקום מערך הנתונים הזה בעת טעינת הנתונים ל-Canvas לבניית מודל בשלב הבא.

בנה ואמן את דגם ה-ML שלך עם Canvas

במסוף SageMaker, הפעל את אפליקציית Canvas. כדי לבנות מודל ML מהנתונים שהוכנו בסעיף הקודם, אנו מבצעים את השלבים הבאים:

  1. ייבא את מערך הנתונים המוכן ל-Canvas מ-S3.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אנו מתייחסים לאותו נתיב S3 שבו ייצאנו את תוצאות Data Wrangler מהסעיף הקודם.

  1. צור דגם חדש בקנבס ותן לו שם loan_prediction_model.
  2. בחר את מערך הנתונים המיובא והוסף אותו לאובייקט המודל.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כדי ש-Canvas יבנה מודל, עלינו לבחור את עמודת היעד.

  1. מכיוון שהמטרה שלנו היא לחזות את ההסתברות ליכולת של המלווה להחזיר הלוואה, אנו בוחרים את loan_status עמודה.

Canvas מזהה אוטומטית את סוג הצהרת הבעיה של ML. בזמן הכתיבה, Canvas תומך בבעיות רגרסיה, סיווג וחיזוי סדרות זמן. אתה יכול לציין את סוג הבעיה או ש-Canvas יסיק אוטומטית את הבעיה מהנתונים שלך.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בחר באפשרות שלך להתחיל בתהליך בניית המודל: בנייה מהירה or מבנה סטנדרטי.

אל האני בנייה מהירה option משתמשת במערך הנתונים שלך כדי לאמן מודל בתוך 2-15 דקות. זה שימושי כאשר אתה מתנסה עם מערך נתונים חדש כדי לקבוע אם מערך הנתונים שברשותך יספיק לביצוע תחזיות. אנו משתמשים באפשרות זו עבור פוסט זה.

אל האני מבנה סטנדרטי האופציה בוחרת דיוק על פני מהירות ומשתמשת בכ-250 מועמדים למודל כדי לאמן את המודל. התהליך אורך בדרך כלל 1-2 שעות.

לאחר בניית המודל, ניתן לעיין בתוצאות המודל. Canvas מעריך שהמודל שלך מסוגל לחזות את התוצאה הנכונה ב-82.9% מהמקרים. התוצאות שלך עשויות להשתנות עקב השונות במודלים של אימון.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בנוסף, אתה יכול לצלול עמוק לתוך ניתוח פרטים של המודל כדי ללמוד עוד על המודל.

חשיבות תכונה מייצגת את החשיבות המשוערת של כל תכונה בחיזוי עמודת היעד. במקרה זה, לעמודת מסגרת האשראי יש את ההשפעה המשמעותית ביותר בחיזוי אם לקוח יחזיר את סכום ההלוואה, ולאחר מכן ריבית והכנסה שנתית.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מטריצת הבלבול ב- מדדים מתקדמים החלק מכיל מידע עבור משתמשים שרוצים הבנה מעמיקה יותר של ביצועי המודל שלהם.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לפני שתוכל לפרוס את המודל שלך לעומסי עבודה של ייצור, השתמש ב-Canvas כדי לבדוק את המודל. Canvas מנהל את נקודת הקצה של המודל שלנו ומאפשר לנו לבצע תחזיות ישירות בממשק המשתמש של Canvas.

  1. לבחור לחזות וסקור את הממצאים באחד מהשניים חיזוי אצווה or חיזוי בודד TAB.

בדוגמה הבאה, אנו מבצעים חיזוי בודד על ידי שינוי ערכים כדי לחזות את משתנה היעד שלנו loan_status בזמן אמת

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אנחנו יכולים גם לבחור מערך נתונים גדול יותר ולגרום ל-Canvas ליצור תחזיות אצווה בשמנו.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

למידת מכונה מקצה לקצה היא מורכבת ואיטרטיבית, ולעתים קרובות כוללת פרסונות, טכנולוגיות ותהליכים מרובים. Data Wrangler ו-Canvas מאפשרים שיתוף פעולה בין צוותים מבלי לדרוש מהצוותים הללו לכתוב קוד כלשהו.

מהנדס נתונים יכול להכין נתונים בקלות באמצעות Data Wrangler מבלי לכתוב שום קוד ולהעביר את מערך הנתונים המוכן לאנליסט עסקי. אנליסט עסקי יכול בקלות לבנות מודלים מדויקים של ML בכמה קליקים בלבד באמצעות Canvas ולקבל תחזיות מדויקות בזמן אמת או באצווה.

התחל עם Data Wrangler באמצעות כלים אלה ללא צורך בניהול תשתית כלשהי. אתה יכול הגדר את Canvas התחל במהירות ומיד ליצור מודלים של ML כדי לתמוך בצרכים העסקיים שלך.


על הכותבים

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.פיטר צ'ונג הוא אדריכל פתרונות עבור AWS, ונלהב לעזור ללקוחות לחשוף תובנות מהנתונים שלהם. הוא בנה פתרונות שיעזרו לארגונים לקבל החלטות מונעות נתונים הן במגזר הציבורי והן במגזר הפרטי. הוא מחזיק בכל אישורי AWS וכן בשתי אישורי GCP.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. Meenakshisundaram Thandavarayan הוא מומחה בכיר בינה מלאכותית/ML עם AWS. הוא עוזר לחשבונות אסטרטגיים היי-טק במסע ה-AI וה-ML שלהם. הוא מאוד נלהב מבינה מלאכותית מונעת נתונים.

בנה זרימת עבודה של למידת מכונה לניהול סיכונים ב-Amazon SageMaker ללא קוד PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.דן פרגוסון הוא אדריכל פתרונות ב-AWS, שבסיסו בניו יורק, ארה"ב. כמומחה לשירותי למידת מכונה, דן פועלת כדי לתמוך בלקוחות במסעם לשילוב זרימות עבודה של ML בצורה יעילה, יעילה ובת קיימא.

בול זמן:

עוד מ למידת מכונות AWS