מאז המשבר הפיננסי העולמי, ניהול סיכונים נטל תפקיד מרכזי בעיצוב קבלת ההחלטות עבור הבנקים, כולל חיזוי מצב הלוואות ללקוחות פוטנציאליים. לרוב מדובר בתרגיל עתיר נתונים הדורש למידת מכונה (ML). עם זאת, לא לכל הארגונים יש את המשאבים והמומחיות במדעי הנתונים כדי לבנות זרימת עבודה של ניהול סיכונים ML.
אמזון SageMaker היא פלטפורמת ML מנוהלת במלואה המאפשרת למהנדסי נתונים ואנליסטים עסקיים לבנות, לאמן ולפרוס מודלים של ML במהירות ובקלות. מהנדסי נתונים ואנליסטים עסקיים יכולים לשתף פעולה תוך שימוש ביכולות ללא קוד/קוד נמוך של SageMaker. מהנדסי נתונים יכולים להשתמש רנגלר הנתונים של אמזון SageMaker לצבור במהירות ולהכין נתונים לבניית מודל מבלי לכתוב קוד. אז אנליסטים עסקיים יכולים להשתמש בממשק החזותי של הצבע-וקליק של אמזון SageMaker Canvas ליצור תחזיות ML מדויקות בעצמם.
בפוסט זה, אנו מראים כמה פשוט למהנדסי נתונים ואנליסטים עסקיים לשתף פעולה כדי לבנות זרימת עבודה של ML הכוללת הכנת נתונים, בניית מודלים והסקת מסקנות מבלי לכתוב קוד.
סקירת פתרונות
למרות שפיתוח ML הוא תהליך מורכב ואיטרטיבי, אתה יכול להכליל זרימת עבודה של ML לשלבי הכנת הנתונים, פיתוח המודל והפריסה של המודל.
Data Wrangler ו-Canvas מפשטים את המורכבות של הכנת נתונים ופיתוח מודלים, כך שתוכל להתמקד במתן ערך לעסק שלך על ידי הפקת תובנות מהנתונים שלך מבלי להיות מומחה בפיתוח קוד. דיאגרמת הארכיטקטורה הבאה מדגישה את הרכיבים בפתרון ללא קוד/קוד נמוך.
שירות אחסון פשוט של אמזון (Amazon S3) משמש כמאגר הנתונים שלנו עבור נתונים גולמיים, נתונים מהונדסים וחפצי מודל. אתה יכול גם לבחור לייבא נתונים האדום של אמזון, אמזונה אתנה, Databricks ו- Snowflake.
בתור מדעני נתונים, אנו משתמשים ב-Data Wrangler לניתוח נתונים חקרני והנדסת תכונות. למרות ש-Canvas יכול להריץ משימות הנדסת תכונה, הנדסת תכונה דורשת בדרך כלל קצת ידע סטטיסטי ותחום כדי להעשיר מערך נתונים בצורה הנכונה לפיתוח מודל. לכן, אנו מעניקים אחריות זו למהנדסי נתונים כדי שיוכלו להפוך נתונים מבלי לכתוב קוד עם Data Wrangler.
לאחר הכנת הנתונים, אנו מעבירים את האחריות לבניית מודלים למנתחי נתונים, שיכולים להשתמש ב-Canvas כדי להכשיר מודל ללא צורך בכתיבת קוד.
לבסוף, אנו מבצעים תחזיות בודדות ואצווה ישירות בתוך Canvas מהמודל המתקבל מבלי שנצטרך לפרוס נקודות קצה של מודל בעצמנו.
סקירת מערך נתונים
אנו משתמשים בתכונות של SageMaker כדי לחזות את מצב ההלוואה באמצעות גרסה שונה של Lending Club מערך נתונים של ניתוח הלוואות זמין לציבור. מערך הנתונים מכיל נתוני הלוואות עבור הלוואות שהונפקו במהלך השנים 2007–2011. העמודות המתארות את ההלוואה ואת הלווה הן התכונות שלנו. העמודה loan_status היא משתנה היעד, וזה מה שאנחנו מנסים לחזות.
כדי להדגים ב-Data Wrangler, חילקנו את מערך הנתונים לשני קובצי CSV: חלק ראשון ו חלק שני. הסרנו כמה עמודות מהמערך המקורי של Lending Club כדי לפשט את ההדגמה. מערך הנתונים שלנו מכיל למעלה מ-37,000 שורות ו-21 עמודות תכונה, כמתואר בטבלה הבאה.
שם העמודה | תיאור |
loan_status |
מצב ההלוואה הנוכחי (משתנה יעד). |
loan_amount |
הסכום הרשום של ההלוואה שביקש הלווה. אם מחלקת האשראי מפחיתה את סכום ההלוואה, זה בא לידי ביטוי בערך זה. |
funded_amount_by_investors |
הסכום הכולל שהתחייבו על ידי המשקיעים לאותה הלוואה באותו זמן. |
term |
מספר התשלומים על ההלוואה. הערכים הם בחודשים ויכולים להיות 36 או 60. |
interest_rate |
ריבית על ההלוואה. |
installment |
התשלום החודשי שחייב הלווה אם מקור ההלוואה. |
grade |
LC הוקצה דרגת הלוואה. |
sub_grade |
LC הוקצתה תת דרגת הלוואה. |
employment_length |
משך העסקה בשנים. ערכים אפשריים הם בין 0-10, כאשר 0 פירושו פחות משנה ו-10 פירושו עשר שנים או יותר. |
home_ownership |
סטטוס הבעלות על הבית שסופק על ידי הלווה במהלך הרישום. הערכים שלנו הם שכר דירה, OWN, משכנתא ואחרים. |
annual_income |
ההכנסה השנתית המדווחת על ידי הלווה במהלך הרישום. |
verification_status |
מציין אם ההכנסה אומתה או לא על ידי ה-LC. |
issued_amount |
החודש שבו מומנה ההלוואה. |
purpose |
קטגוריה שסופק על ידי הלווה עבור בקשת ההלוואה. |
dti |
יחס המחושב באמצעות סך תשלומי החוב החודשיים של הלווה על סך התחייבויות החוב, ללא משכנתא והלוואת LC המבוקשת, חלקי ההכנסה החודשית המדווחת של הלווה. |
earliest_credit_line |
החודש נפתחה מסגרת האשראי המדווחת המוקדמת ביותר של הלווה. |
inquiries_last_6_months |
מספר הפניות ב-6 החודשים האחרונים (לא כולל פניות רכב ומשכנתא). |
open_credit_lines |
מספר קווי האשראי הפתוחים בקובץ האשראי של הלווה. |
derogatory_public_records |
מספר הרישומים הציבוריים המקטינים. |
revolving_line_utilization_rate |
שיעור ניצול קו מסתובב, או כמות האשראי שהלווה משתמש בה ביחס לכל האשראי המתגלגל הזמין. |
total_credit_lines |
המספר הכולל של קווי האשראי שנמצאים כעת בקובץ האשראי של הלווה. |
אנו משתמשים במערך נתונים זה להכנת הנתונים והכשרת המודלים שלנו.
תנאים מוקדמים
השלם את השלבים המוקדמים הבאים:
- העלה את שני קבצי ההלוואה לדלי S3 לבחירתך.
- ודא שיש לך את ההרשאות הנדרשות. למידע נוסף, עיין ב התחל לעבוד עם Data Wrangler.
- הגדר תחום SageMaker המוגדר לשימוש ב-Data Wrangler. להנחיות, עיין ב נכלל ב-Amazon SageMaker Domain.
ייבא את הנתונים
צור זרימת נתונים חדשה של Data Wrangler מ ממשק המשתמש של אמזון SageMaker Studio.
ייבא נתונים מאמזון S3 על ידי בחירת קבצי ה-CSV מדלי S3 שבו מיקמת את מערך הנתונים שלך. לאחר ייבוא שני הקבצים, תוכל לראות שני זרימות עבודה נפרדות ב- זרימת נתונים נוף.
אתה יכול לבחור מספר אפשרויות דגימה בעת ייבוא הנתונים שלך בזרימת Data Wrangler. דגימה יכולה לעזור כאשר יש לך מערך נתונים גדול מכדי להכין אותו באופן אינטראקטיבי, או כאשר אתה רוצה לשמר את שיעור האירועים הנדירים במערך הנתונים הנדגמים שלך. מכיוון שמערך הנתונים שלנו קטן, אנחנו לא משתמשים בדגימה.
הכינו את הנתונים
במקרה השימוש שלנו, יש לנו שני מערכי נתונים עם עמודה משותפת: id
. כצעד ראשון בהכנת הנתונים, אנו רוצים לשלב את הקבצים הללו על ידי הצטרפותם. להנחיות, עיין ב הפוך נתונים.
אנו משתמשים לְהִצְטַרֵף שלב שינוי הנתונים והשתמש ב- פנימי הצטרף הקלד על id
עמודה.
כתוצאה משינוי ההצטרפות שלנו, Data Wrangler יוצר שתי עמודות נוספות: id_0
ו id_1
. עם זאת, עמודות אלו מיותרות למטרות בניית המודל שלנו. אנו מורידים את העמודות המיותרות באמצעות ה- נהל עמודות שלב להפוך.
ייבאנו את מערכי הנתונים שלנו, הצטרפנו אליהם והסרנו עמודות מיותרות. כעת אנו מוכנים להעשיר את הנתונים שלנו באמצעות הנדסת תכונות ולהתכונן לבניית מודלים.
בצע הנדסת תכונות
השתמשנו ב-Data Wrangler להכנת נתונים. אתה יכול גם להשתמש ב תכונת דוח איכות נתונים ותובנות בתוך Data Wrangler כדי לאמת את איכות הנתונים שלך ולזהות חריגות בנתונים שלך. מדעני נתונים צריכים לעתים קרובות להשתמש בתובנות הנתונים הללו כדי ליישם ביעילות את הידע הנכון בתחום על תכונות הנדסיות. עבור פוסט זה, אנו מניחים שהשלמנו את הערכות האיכות הללו ונוכל לעבור להנדסת תכונות.
בשלב זה, אנו מיישמים כמה טרנספורמציות על עמודות מספריות, קטגוריות וטקסט.
ראשית, אנו מנרמלים את שיעור הריבית כדי לשנות את קנה המידה בין 0-1. אנו עושים זאת באמצעות ה תהליך מספרי להפוך לקנה מידה של interest_rate
עמודה באמצעות קנה מידה מינימום. המטרה של נורמליזציה (או סטנדרטיזציה) היא לבטל הטיה מהמודל שלנו. משתנים שנמדדים בסולמות שונים לא יתרמו במידה שווה לתהליך הלמידה של המודל. לכן, פונקציית טרנספורמציה כמו טרנספורמציה של קנה מידה של min-max מסייעת לנרמל תכונות.
כדי להמיר משתנה קטגורי לערך מספרי, אנו משתמשים בקידוד חד-חם. אנחנו בוחרים את מקודד קטגורי להפוך, ולאחר מכן לבחור קידוד חם אחד. קידוד חם אחד משפר את יכולת הניבוי של מודל ML. תהליך זה ממיר ערך קטגורי לתכונה חדשה על ידי הקצאת ערך בינארי של 1 או 0 לתכונה. כדוגמה פשוטה, אם הייתה לך עמודה אחת שהכילה ערך של yes
or no
, קידוד חם אחד ימיר את העמודה הזו לשתי עמודות: א Yes
טור ו No
טור. לערך כן יהיה 1 ב- Yes
עמודה ו-0 ב- No
טור. קידוד חם אחד הופך את הנתונים שלנו לשימושיים יותר מכיוון שערכים מספריים יכולים לקבוע בקלות רבה יותר הסתברות לתחזיות שלנו.
לבסוף, אנו מציגים את employer_title
עמודה כדי להפוך את ערכי המחרוזת שלו לווקטור מספרי. אנו מיישמים את Count Vectorizer וטוקניר סטנדרטי בתוך וקטור שינוי צורה. טוקניזציה מפרקת משפט או סדרת טקסט למילים, ואילו וקטורייזר ממיר נתוני טקסט לצורה הניתנת לקריאה במכונה. מילים אלו מיוצגות כווקטורים.
עם השלמת כל שלבי הנדסת התכונות, נוכל לייצא את הנתונים ולהוציא את התוצאות לתוך דלי S3 שלנו. לחלופין, אתה יכול לייצא את הזרימה שלך כקוד Python, או מחברת Jupyter כדי ליצור צינור עם התצוגה שלך באמצעות צינורות SageMaker של אמזון. שקול זאת כאשר אתה רוצה להפעיל את שלבי הנדסת התכונות שלך בקנה מידה או כחלק מצינור ML.
כעת אנו יכולים להשתמש בקובץ הפלט של Data Wrangler כקלט שלנו עבור Canvas. אנו מתייחסים לזה כאל מערך נתונים ב-Canvas לבניית מודל ה-ML שלנו.
במקרה שלנו, ייצאנו את מערך הנתונים המוכן שלנו לדלי ברירת המחדל של Studio עם output
קידומת. אנו מתייחסים למיקום מערך הנתונים הזה בעת טעינת הנתונים ל-Canvas לבניית מודל בשלב הבא.
בנה ואמן את דגם ה-ML שלך עם Canvas
במסוף SageMaker, הפעל את אפליקציית Canvas. כדי לבנות מודל ML מהנתונים שהוכנו בסעיף הקודם, אנו מבצעים את השלבים הבאים:
- ייבא את מערך הנתונים המוכן ל-Canvas מ-S3.
אנו מתייחסים לאותו נתיב S3 שבו ייצאנו את תוצאות Data Wrangler מהסעיף הקודם.
- צור דגם חדש בקנבס ותן לו שם
loan_prediction_model
. - בחר את מערך הנתונים המיובא והוסף אותו לאובייקט המודל.
כדי ש-Canvas יבנה מודל, עלינו לבחור את עמודת היעד.
- מכיוון שהמטרה שלנו היא לחזות את ההסתברות ליכולת של המלווה להחזיר הלוואה, אנו בוחרים את
loan_status
עמודה.
Canvas מזהה אוטומטית את סוג הצהרת הבעיה של ML. בזמן הכתיבה, Canvas תומך בבעיות רגרסיה, סיווג וחיזוי סדרות זמן. אתה יכול לציין את סוג הבעיה או ש-Canvas יסיק אוטומטית את הבעיה מהנתונים שלך.
- בחר באפשרות שלך להתחיל בתהליך בניית המודל: בנייה מהירה or מבנה סטנדרטי.
אל האני בנייה מהירה option משתמשת במערך הנתונים שלך כדי לאמן מודל בתוך 2-15 דקות. זה שימושי כאשר אתה מתנסה עם מערך נתונים חדש כדי לקבוע אם מערך הנתונים שברשותך יספיק לביצוע תחזיות. אנו משתמשים באפשרות זו עבור פוסט זה.
אל האני מבנה סטנדרטי האופציה בוחרת דיוק על פני מהירות ומשתמשת בכ-250 מועמדים למודל כדי לאמן את המודל. התהליך אורך בדרך כלל 1-2 שעות.
לאחר בניית המודל, ניתן לעיין בתוצאות המודל. Canvas מעריך שהמודל שלך מסוגל לחזות את התוצאה הנכונה ב-82.9% מהמקרים. התוצאות שלך עשויות להשתנות עקב השונות במודלים של אימון.
בנוסף, אתה יכול לצלול עמוק לתוך ניתוח פרטים של המודל כדי ללמוד עוד על המודל.
חשיבות תכונה מייצגת את החשיבות המשוערת של כל תכונה בחיזוי עמודת היעד. במקרה זה, לעמודת מסגרת האשראי יש את ההשפעה המשמעותית ביותר בחיזוי אם לקוח יחזיר את סכום ההלוואה, ולאחר מכן ריבית והכנסה שנתית.
מטריצת הבלבול ב- מדדים מתקדמים החלק מכיל מידע עבור משתמשים שרוצים הבנה מעמיקה יותר של ביצועי המודל שלהם.
לפני שתוכל לפרוס את המודל שלך לעומסי עבודה של ייצור, השתמש ב-Canvas כדי לבדוק את המודל. Canvas מנהל את נקודת הקצה של המודל שלנו ומאפשר לנו לבצע תחזיות ישירות בממשק המשתמש של Canvas.
- לבחור לחזות וסקור את הממצאים באחד מהשניים חיזוי אצווה or חיזוי בודד TAB.
בדוגמה הבאה, אנו מבצעים חיזוי בודד על ידי שינוי ערכים כדי לחזות את משתנה היעד שלנו loan_status
בזמן אמת
אנחנו יכולים גם לבחור מערך נתונים גדול יותר ולגרום ל-Canvas ליצור תחזיות אצווה בשמנו.
סיכום
למידת מכונה מקצה לקצה היא מורכבת ואיטרטיבית, ולעתים קרובות כוללת פרסונות, טכנולוגיות ותהליכים מרובים. Data Wrangler ו-Canvas מאפשרים שיתוף פעולה בין צוותים מבלי לדרוש מהצוותים הללו לכתוב קוד כלשהו.
מהנדס נתונים יכול להכין נתונים בקלות באמצעות Data Wrangler מבלי לכתוב שום קוד ולהעביר את מערך הנתונים המוכן לאנליסט עסקי. אנליסט עסקי יכול בקלות לבנות מודלים מדויקים של ML בכמה קליקים בלבד באמצעות Canvas ולקבל תחזיות מדויקות בזמן אמת או באצווה.
התחל עם Data Wrangler באמצעות כלים אלה ללא צורך בניהול תשתית כלשהי. אתה יכול הגדר את Canvas התחל במהירות ומיד ליצור מודלים של ML כדי לתמוך בצרכים העסקיים שלך.
על הכותבים
פיטר צ'ונג הוא אדריכל פתרונות עבור AWS, ונלהב לעזור ללקוחות לחשוף תובנות מהנתונים שלהם. הוא בנה פתרונות שיעזרו לארגונים לקבל החלטות מונעות נתונים הן במגזר הציבורי והן במגזר הפרטי. הוא מחזיק בכל אישורי AWS וכן בשתי אישורי GCP.
Meenakshisundaram Thandavarayan הוא מומחה בכיר בינה מלאכותית/ML עם AWS. הוא עוזר לחשבונות אסטרטגיים היי-טק במסע ה-AI וה-ML שלהם. הוא מאוד נלהב מבינה מלאכותית מונעת נתונים.
דן פרגוסון הוא אדריכל פתרונות ב-AWS, שבסיסו בניו יורק, ארה"ב. כמומחה לשירותי למידת מכונה, דן פועלת כדי לתמוך בלקוחות במסעם לשילוב זרימות עבודה של ML בצורה יעילה, יעילה ובת קיימא.
- "
- 000
- 10
- 100
- אודות
- תקציר
- מדויק
- תוספת
- נוסף
- AI
- תעשיות
- למרות
- אמזון בעברית
- כמות
- אנליזה
- מנתח
- שנתי
- בקשה
- החל
- בערך
- ארכיטקטורה
- שהוקצה
- המכונית
- זמין
- AWS
- בנקים
- להיות
- גבול
- הפסקות
- לִבנוֹת
- בִּניָן
- עסקים
- מועמדים
- בד
- יכולות
- קטגוריה
- בחירה
- לבחור
- מיון
- קוד
- לשתף פעולה
- שיתוף פעולה
- טור
- מְחוּיָב
- Common
- מורכב
- מורכבות
- בלבול
- קונסול
- מכיל
- לתרום
- לִיצוֹר
- יוצר
- יוצרים
- אשראי
- משבר
- כיום
- לקוח
- לקוחות
- נתונים
- ניתוח נתונים
- מדע נתונים
- חוב
- החלטות
- עמוק יותר
- אספקה
- להפגין
- לפרוס
- פריסה
- מְתוּאָר
- פרטים
- לקבוע
- צעצועי התפתחות
- אחר
- ישירות
- תחום
- מטה
- ציור
- ירידה
- בְּמַהֲלָך
- בקלות
- יעילות
- בוטל
- לאפשר
- נקודת קצה
- מהנדס
- הנדסה
- מהנדסים
- מוערך
- הערכות
- אירועים
- דוגמה
- תרגיל
- מומחה
- מומחיות
- מאפיין
- תכונות
- כספי
- משבר כלכלי
- ראשון
- תזרים
- להתמקד
- הבא
- טופס
- פונקציה
- במימון
- ליצור
- גלוֹבָּלִי
- מטרה
- יש
- גובה
- לעזור
- עזרה
- עוזר
- מחזיק
- עמוד הבית
- איך
- אולם
- HTTPS
- פְּגִיעָה
- חשיבות
- יבוא
- כולל
- הַכנָסָה
- מידע
- תשתית
- קלט
- תובנות
- אינטרס
- מִמְשָׁק
- משקיעים
- IT
- להצטרף
- הצטרף
- מסע
- ידע
- גָדוֹל
- גדול יותר
- לשגר
- לִלמוֹד
- למידה
- הַשׁאָלָה
- קו
- ברשימה
- טוען
- הלוואות
- מיקום
- מכונה
- למידת מכונה
- גדול
- עושה
- לנהל
- הצליח
- ניהול
- מַטרִיצָה
- אומר
- ML
- מודל
- מודלים
- חוֹדֶשׁ
- חודשים
- יותר
- רוב
- המהלך
- מספר
- הכרחי
- צרכי
- ניו יורק
- מחברה
- מספר
- חובות
- לפתוח
- אפשרות
- אפשרויות
- ארגונים
- אחר
- שֶׁלוֹ
- בעלות
- חלק
- לוהט
- תשלום
- תשלום
- תשלומים
- ביצועים
- פלטפורמה
- אפשרי
- פוטנציאל
- לחזות
- נבואה
- התחזיות
- להכין
- קודם
- פְּרָטִי
- בעיה
- בעיות
- תהליך
- תהליכים
- הפקה
- ציבורי
- מטרה
- למטרות
- איכות
- מָהִיר
- מהירות
- חי
- רשום
- הַרשָׁמָה
- לשכור
- לדווח
- מאגר
- מיוצג
- מייצג
- לבקש
- דורש
- משאבים
- אחריות
- אחריות
- תוצאות
- סקירה
- הסיכון
- ניהול סיכונים
- הפעלה
- סולם
- מדע
- מדענים
- מגזרים
- סדרה
- שירותים
- כמה
- משמעותי
- פָּשׁוּט
- קטן
- So
- מוצק
- פִּתָרוֹן
- פתרונות
- כמה
- מומחה
- מְהִירוּת
- לפצל
- שלבים
- תֶקֶן
- התחלה
- החל
- הצהרה
- סטטיסטי
- מצב
- אחסון
- אסטרטגי
- סטודיו
- תמיכה
- תומך
- יעד
- משימות
- טכנולוגיות
- מבחן
- לכן
- דרך
- זמן
- טוקניזציה
- כלים
- הדרכה
- לשנות
- טרנספורמציה
- הבנה
- us
- ארה"ב
- להשתמש
- משתמשים
- בְּדֶרֶך כְּלַל
- ערך
- לאמת
- גרסה
- לצפיה
- מה
- מי
- בתוך
- לְלֹא
- מילים
- עובד
- היה
- כתיבה
- שנה
- שנים