היום, אנו משחררים פתרון חדש ללמידת מכונה של גרפים פיננסיים (ML) ב אמזון SageMaker JumpStart. JumpStart עוזר לך להתחיל במהירות עם ML ומספק אוסף של פתרונות למקרי השימוש הנפוצים ביותר שניתן לאמן ולפרוס בכמה לחיצות.
הפתרון החדש של JumpStart (ניקוד אשראי מבוסס גרף) מדגים כיצד לבנות רשת ארגונית ממסמכי SEC (נתוני טקסט ארוכי צורה), לשלב זאת עם יחסים פיננסיים (נתונים טבלאיים), ולהשתמש ברשתות עצביות גרפיות (GNNs) לבניית אשראי מודלים של חיזוי דירוג. בפוסט זה, אנו מסבירים כיצד תוכל להשתמש בפתרון הניתן להתאמה אישית מלא זה לניקוד אשראי, כך שתוכל להאיץ את מסע ה-ML שלך בגרפים. Graph ML הופך לתחום פורה עבור ML פיננסי מכיוון שהוא מאפשר שימוש בנתוני רשת בשילוב עם מערכי נתונים טבלאיים מסורתיים. למידע נוסף, ראה אמזון ב-WSDM: העתיד של רשתות עצביות גרפיות.
סקירת פתרונות
אתה יכול לשפר את ניקוד האשראי על ידי ניצול נתונים על קישורים עסקיים, עבורם אתה יכול לבנות גרף, המסומן כ-CorpNet (קיצור של רשת ארגונית) בפתרון זה. לאחר מכן תוכל להחיל סיווג ML של גרף באמצעות GNNs על גרף זה וערכת תכונות טבלה עבור הצמתים, כדי לראות אם אתה יכול לבנות מודל ML טוב יותר על ידי ניצול נוסף של המידע בקשרי רשת. לכן, פתרון זה מציע תבנית למודלים עסקיים המנצלים נתוני רשת, כגון שימוש בגרפים של קשרי שרשרת אספקה, גרפים של רשתות חברתיות ועוד.
הפתרון מפתח מספר חפצים חדשים על ידי בניית רשת ארגונית ויצירת נתונים פיננסיים סינתטיים, ומשלב את שתי צורות הנתונים ליצירת מודלים באמצעות גרף ML.
הפתרון מראה כיצד לבנות רשת של חברות מחוברות באמצעות סעיף MD&A מתוך הגשות SEC 10-K/Q. חברות עם הצהרות צופות פני עתיד דומות עשויות להיות קשורות לאירועי אשראי. קשרים אלו מיוצגים בגרף. עבור תכונות של צומת גרף, הפתרון משתמש במשתנים במודל Altman Z-score ובקטגוריית התעשייה של כל חברה. אלה מסופקים במערך נתונים סינתטי הזמין למטרות הדגמה. נתוני הגרפים ונתוני הטבלה משמשים כדי להתאים למסווג דירוג באמצעות GNNs. למטרות המחשה, אנו משווים את הביצועים של מודלים עם ובלי מידע הגרף.
השתמש בפתרון ניקוד האשראי המבוסס על גרפים
כדי להתחיל להשתמש ב-JumpStart, ראה תחילת העבודה עם Amazon SageMaker. כרטיס JumpStart עבור פתרון ניקוד האשראי המבוסס על גרפים זמין דרך סטודיו SageMaker של אמזון.
הפתרון מייצר מודל להסקת מסקנות ונקודת קצה לשימוש עם מחברת.
- המתן עד שהם יהיו מוכנים והסטטוס יראה כ
Complete
. - בחרו פתח מחברת כדי לפתוח את המחברת הראשונה, המיועדת לאימון ולפריסת נקודות קצה.
אתה יכול לעבוד דרך מחברת זו כדי ללמוד כיצד להשתמש בפתרון זה ולאחר מכן לשנות אותו עבור יישומים אחרים על הנתונים שלך. הפתרון מגיע עם נתונים סינתטיים ומשתמש בתת-קבוצה שלהם כדי להמחיש את השלבים הדרושים לאימון המודל, לפרוס אותו לנקודת קצה, ולאחר מכן להפעיל את נקודת הקצה להסקת מסקנות. המחברת מכילה גם קוד לפריסת נקודת קצה משלך.
- כדי לפתוח את המחברת השנייה (המשמשת להסקת מסקנות), בחר השתמש בנקודת קצה במחברת ליד חפץ נקודת הקצה.
במחברת זו, אתה יכול לראות כיצד להכין את הנתונים כדי להפעיל את נקודת הקצה לדוגמה כדי לבצע הסקה על אצווה של דוגמאות.
נקודת הקצה מחזירה דירוגים חזויים, המשמשים להערכת ביצועי המודל, כפי שמוצג בצילום המסך הבא של בלוק הקוד האחרון של מחברת ההסקות.
אתה יכול להשתמש בפתרון זה כתבנית למודל דירוג אשראי משופר גרף. אינך מוגבל לקבוצת התכונות בדוגמה זו - אתה יכול לשנות הן את נתוני הגרפים והן את הנתונים הטבלאיים למקרה השימוש שלך. היקף השינויים הנדרשים בקוד הוא מינימלי. אנו ממליצים לעבוד על דוגמה של התבנית שלנו כדי להבין את מבנה הפתרון, ולאחר מכן לשנות אותו לפי הצורך.
פתרון זה מיועד למטרות הדגמה בלבד. זה לא ייעוץ פיננסי ואין להסתמך עליו כייעוץ פיננסי או השקעות. המחברות המשויכות, כולל הדגם המיומן, משתמשות בנתונים סינתטיים, ואינן מיועדות לשימוש בייצור. למרות שנעשה שימוש בטקסט מהגשת SEC, הנתונים הפיננסיים נוצרים באופן סינתטי ואקראי ואין להם שום קשר לנתונים הפיננסיים האמיתיים של אף חברה. לכן, גם לדירוגים שנוצרו באופן סינתטי אין שום קשר לדירוג האמיתי של אף חברה אמיתית.
הנתונים המשמשים בפתרון
למערך הנתונים יש נתונים טבלאיים סינתטיים כגון יחסים חשבונאיים שונים (מספריים) וקודים תעשייתיים (קטגוריים). למערך הנתונים יש 𝑁=3286 שורות. מתווספות גם תוויות דירוג. אלו הן תכונות הצומת שיש להשתמש בהן עם גרף ML.
מערך הנתונים מכיל גם גרף ארגוני, שאינו מכוון ואינו משוקלל. פתרון זה מאפשר להתאים את מבנה הגרף על ידי שינוי האופן שבו נכללים קישורים. כל חברה במערך הנתונים הטבלאי מיוצגת על ידי צומת בגרף הארגוני. הפונקציה construct_network_data()
עוזר לבנות את הגרף, הכולל רשימות של צמתי מקור וצמתי יעד.
תוויות דירוג משמשות לסיווג באמצעות GNNs, שיכולים להיות ריבוי קטגוריות עבור כל הדירוגים או בינאריים, מחולקים בין דרגת השקעה (AAA, AA, A, BBB) לדרגת השקעה שאינה (BB, B, CCC, CC, C, ד). D כאן מייצג ברירת מחדל.
הקוד המלא לקריאת הנתונים והפעלת הפתרון מסופק במחברת הפתרון. צילום המסך הבא מציג את המבנה של הנתונים הטבלאיים הסינתטיים.
מידע הגרף מועבר ל- ספריית גרפים עמוקה ובשילוב עם הנתונים הטבלאיים לבצע גרף ML. אם אתה מביא גרף משלך, פשוט ספק אותו כקבוצה של צמתי מקור וצמתי יעד.
אימון מודל
לשם השוואה, ראשית אנו מאמנים מודל רק על נתונים טבלאיים באמצעות AutoGluon, המחקה את הגישה המסורתית לדירוג אשראי של חברות. לאחר מכן אנו מוסיפים את נתוני הגרף ומשתמשים ב-GNN לאימון. פרטים מלאים מסופקים במחברת, וסקירה קצרה מוצעת בפוסט זה. המחברת מציעה גם סקירה מהירה של גרף ML עם הפניות נבחרות.
הכשרת ה-GNN מתבצעת באופן הבא. אנו משתמשים בהתאמה של ה דגם GraphSAGE מיושם בספריית הגרפים העמוקים.
- קרא בנתוני גרף מ שירות אחסון פשוט של אמזון (Amazon S3) וצור את רשימות צמתי המקור והיעד עבור CorpNet.
- קרא את קבוצות התכונות של צומת הגרף (הרכבה ובדיקה). נרמל את הנתונים כנדרש.
- הגדר היפרפרמטרים ניתנים לשינוי. קרא למיכל הגרף המיוחד ML המריץ את PyTorch כדי להתאים ל-GNN ללא אופטימיזציה של היפרפרמטרים (HPO).
- חזור על גרף ML עם HPO.
כדי להפוך את היישום לפשוט ויציב, אנו מפעילים אימון מודלים במיכל באמצעות הקוד הבא (קוד ההגדרה לפני קוד הדרכה זה נמצא במחברת הפתרון):
תהליך ההכשרה הנוכחי מתבצע בהגדרה מתמרה, שבה נעשה שימוש בתכונות של מערך הבדיקה (לא כולל עמודת היעד) לבניית הגרף ולכן צמתי הבדיקה נכללים בתהליך האימון. בסיום האימון, התחזיות במערך הנתונים של הבדיקה נוצרות ונשמרות בתוכן output_location
בדלי S3.
למרות שהאימון הוא טרנסדוקטיבי, התוויות של מערך הנתונים של הבדיקה אינן משמשות לאימון, והתרגיל שלנו נועד לחזות את התוויות הללו באמצעות הטבעת צמתים עבור צמתי מערך הבדיקה. תכונה חשובה של GraphSAGE היא שלמידה אינדוקטיבית על תצפיות חדשות שאינן חלק מהגרף אפשרית גם היא, אם כי לא מנוצלת בפתרון זה.
אופטימיזציה של היפר-פרמטרים
פתרון זה מורחב עוד יותר על ידי ביצוע HPO ב-GNN. זה נעשה בתוך SageMaker. ראה את הקוד הבא:
לאחר מכן הגדרנו את יעד האימון, כדי למקסם את ציון F1 במקרה זה:
קבע את הסביבה הנבחרת ומשאבי ההדרכה ב- SageMaker:
לבסוף, הפעל את עבודת ההדרכה עם אופטימיזציה של היפרפרמטרים:
תוצאות
הכללת נתוני רשת ואופטימיזציה של היפרפרמטרים מניבה תוצאות משופרות. מדדי הביצועים בטבלה הבאה מדגימים את היתרון בהוספת ב-CorpNet למערכים טבלאיים סטנדרטיים המשמשים לניקוד אשראי.
התוצאות עבור AutoGluon אינן משתמשות בגרף, אלא רק בנתונים הטבלאיים. כאשר אנו מוסיפים את נתוני הגרף ומשתמשים ב-HPO, אנו מקבלים רווח מהותי בביצועים.
ציון F1 | ROC AUC | דיוק | MCC | דיוק מאוזן | דיוק | להיזכר | |
AutoGluon | 0.72 | 0.74323 | 0.68037 | 0.35233 | 0.67323 | 0.68528 | 0.75843 |
GCN ללא HPO | 0.64 | 0.84498 | 0.69406 | 0.45619 | 0.71154 | 0.88177 | 0.50281 |
GCN עם HPO | 0.81 | 0.87116 | 0.78082 | 0.563 | 0.77081 | 0.75119 | 0.89045 |
(הערה: MCC הוא מקדם המתאם של Matthews; https://en.wikipedia.org/wiki/Phi_coefficient.)
לנקות את
לאחר שתסיים להשתמש במחברת זו, מחק את חפצי הדגם ומשאבים אחרים כדי להימנע מחיובים נוספים. עליך למחוק ידנית משאבים שייתכן שיצרת בזמן הפעלת המחברת, כגון דלי S3 עבור חפצי מודל, מערכי נתונים של אימון, עיבוד חפצים, ו אמזון CloudWatch יומן קבוצות.
<br> סיכום
בפוסט זה, הצגנו ב-JumpStart פתרון מבוסס גרפים של ניקוד אשראי כדי לעזור לך להאיץ את מסע ה-ML שלך בגרף. המחברת מספקת צינור שניתן לשנות ולנצל גרפים עם מודלים טבלאיים קיימים כדי להשיג ביצועים טובים יותר.
כדי להתחיל, תוכל למצוא את פתרון ניקוד האשראי המבוסס על גרפים ב-JumpStart ב סטודיו SageMaker.
על הכותבים
ד"ר סנג'יב דאס הוא מלומד באמזון והפרופסור טרי למימון ומדעי הנתונים באוניברסיטת סנטה קלרה. הוא בעל תארים לתואר שני בפיננסים (M.Phil ודוקטורט מאוניברסיטת ניו יורק) ומדעי המחשב (MS מאוניברסיטת ברקלי), ותואר שני במנהל עסקים מהמכון ההודי לניהול, אחמדאבאד. לפני שהיה אקדמאי, הוא עבד בעסקי הנגזרים באזור אסיה-פסיפיק כסגן נשיא בסיטיבנק. הוא עובד על למידת מכונה מולטי-מודאלית בתחום יישומים פיננסיים.
ד"ר שין הואנג הוא מדען יישומי עבור אמזון SageMaker JumpStart ו אלגוריתמים מובנים של Amazon SageMaker. הוא מתמקד בפיתוח אלגוריתמים של למידת מכונה ניתנים להרחבה. תחומי העניין שלו במחקר הם בתחומים של עיבוד שפה טבעית, למידה עמוקה על נתונים טבלאיים וניתוח חזק של צבירת מרחב-זמן לא פרמטרית.
סוג'י אדשינה הוא מדען יישומי ב-AWS, שם הוא מפתח מודלים מבוססי רשת עצבית גרפים ללמידת מכונה במשימות גרפים עם יישומים להונאה וניצול לרעה, גרפי ידע, מערכות ממליצים ומדעי החיים. בזמנו הפנוי הוא נהנה לקרוא ולבשל.
פטריק יאנג הוא מהנדס פיתוח תוכנה באמזון SageMaker. הוא מתמקד בבניית כלים ומוצרים של למידת מכונה עבור לקוחות.
- Coinsmart. בורסת הביטקוין והקריפטו הטובה באירופה.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה חופשית.
- CryptoHawk. רדאר אלטקוין. ניסיון חינם.
- מקור: https://aws.amazon.com/blogs/machine-learning/build-a-corporate-credit-ratings-classifier-using-graph-machine-learning-in-amazon-sagemaker-jumpstart/
- "
- 100
- 70
- 9
- להאיץ
- חשבונאות
- עצה
- אלגוריתמים
- תעשיות
- למרות
- אמזון בעברית
- אנליזה
- יישומים
- גישה
- ארכיטקטורה
- AREA
- סביב
- זמין
- AWS
- התהוות
- להיות
- תועלת
- ברקלי
- לחסום
- גבול
- לִבנוֹת
- בִּניָן
- מובנה
- עסקים
- שיחה
- מקרים
- קטגוריה
- שרשרת
- שינוי
- חיובים
- בחרו
- מיון
- קוד
- טור
- משולב
- Common
- חברות
- חברה
- של החברה
- המחשב
- מדעי מחשב
- מחובר
- חיבורי
- מכולה
- מכיל
- משותף
- לִיצוֹר
- נוצר
- אשראי
- נוֹכְחִי
- לקוחות
- להתאמה אישית
- נתונים
- מדע נתונים
- להפגין
- לפרוס
- פרס
- פריסה
- נגזרים
- פרטים
- מתפתח
- צעצועי התפתחות
- דינמי
- נקודת קצה
- מהנדס
- סביבה
- אירועים
- דוגמה
- תרגיל
- קיימים
- לנצל
- מאפיין
- תכונות
- לממן
- כספי
- מידע פיננסי
- פיננסי
- פירמה
- ראשון
- מתאים
- מתמקד
- הבא
- צורות
- צופה פני עתיד
- הונאה
- מלא
- פונקציה
- נוסף
- עתיד
- יצירת
- קבוצה
- גובה
- לעזור
- עוזר
- כאן
- מחזיק
- איך
- איך
- HTTPS
- הפעלה
- יושם
- חשוב
- לשפר
- משופר
- כלול
- כולל
- הַכלָלָה
- תעשייה
- מידע
- אינטרסים
- השקעה
- IT
- עבודה
- מקומות תעסוקה
- ידע
- תוויות
- שפה
- לִלמוֹד
- למידה
- סִפְרִיָה
- מדעי חיים
- סביר
- קישורים
- רשימות
- מכונה
- למידת מכונה
- עשוי
- ניהול
- באופן ידני
- חוֹמֶר
- מדדים
- ML
- מודל
- מודלים
- צג
- יותר
- רוב
- טבעי
- רשת
- נתוני רשת
- מבוסס רשת
- רשתות
- ניו יורק
- צמתים
- מחברה
- מוצע
- המיוחדות שלנו
- לפתוח
- אופטימיזציה
- אחר
- שֶׁלוֹ
- ביצועים
- בריכה
- אפשרי
- נבואה
- התחזיות
- להכין
- נשיא
- קודם
- תהליך
- תהליך
- הפקה
- מוצרים
- מספק
- מטרה
- למטרות
- מָהִיר
- מהירות
- דירוג
- דירוגים
- קריאה
- להמליץ
- קשר
- מערכות יחסים
- נדרש
- מחקר
- משאבים
- תוצאות
- החזרות
- הפעלה
- ריצה
- סנטה
- להרחבה
- מדע
- מדעים
- מַדְעָן
- חיפוש
- ה-SEC
- נבחר
- סט
- הצבה
- התקנה
- קצר
- דומה
- פָּשׁוּט
- So
- חֶברָתִי
- רשת חברתית
- תוכנה
- פיתוח תוכנה
- מוצק
- פִּתָרוֹן
- פתרונות
- מיוחד
- תֶקֶן
- עומד
- התחלה
- החל
- הצהרות
- מצב
- אחסון
- בהצלחה
- לספק
- שרשרת אספקה
- מערכות
- יעד
- משימות
- מבחן
- המקור
- לכן
- דרך
- זמן
- כלים
- מסורתי
- הדרכה
- להבין
- אוניברסיטה
- להשתמש
- אימות
- שונים
- סגן הנשיא
- בזמן
- ויקיפדיה
- בתוך
- לְלֹא
- תיק עבודות
- עבד
- עובד
- עובד