בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1

ארגונים בתעשיות שונות משתמשים בבינה מלאכותית (AI) ולמידת מכונה (ML) כדי לפתור אתגרים עסקיים ספציפיים לתעשייה שלהם. לדוגמה, בתעשיית השירותים הפיננסיים, אתה יכול להשתמש ב-AI ו-ML כדי לפתור אתגרים סביב גילוי הונאה, חיזוי סיכוני אשראי, שיווק ישיר ועוד רבים אחרים.

ארגונים גדולים מקימים לפעמים מרכז מצוינות (CoE) כדי להתמודד עם הצרכים של קווי עסקים שונים (LoBs) עם אנליטיקה חדשנית ופרויקטי ML.

כדי ליצור דגמי ML איכותיים ובעלי ביצועים בקנה מידה, הם צריכים לעשות את הפעולות הבאות:

  • ספק דרך קלה לגשת לנתונים רלוונטיים לניתוח ול-ML CoE שלהם
  • צור דין וחשבון על ספקי נתונים מ-LoBs בודדים כדי לשתף נכסי נתונים שנאספו ניתנים לגילוי, מובנים, ניתנים להפעלה הדדית ואמינים

זה יכול להפחית את זמן המחזור הארוך להמרת מקרי שימוש ב-ML מניסוי לייצור ולייצר ערך עסקי ברחבי הארגון.

ארכיטקטורת רשת נתונים שואפת לפתור אתגרים טכניים וארגוניים אלה על ידי הצגת גישה סוציו-טכנית מבוזרת לשיתוף, גישה וניהול נתונים בסביבות מורכבות ובקנה מידה גדול - בתוך או בין ארגונים. דפוס עיצוב רשת הנתונים יוצר מודל אחראי לשיתוף נתונים המיישר קו עם הצמיחה הארגונית כדי להשיג את המטרה הסופית של הגדלת ההחזר של ההשקעות העסקיות בצוותי הנתונים, בתהליך ובטכנולוגיה.

בסדרה זו בת שני חלקים, אנו מספקים הנחיות כיצד ארגונים יכולים לבנות ארכיטקטורת נתונים מודרנית באמצעות דפוס תכנון רשת נתונים ב-AWS ולאפשר ל-Analytics ו-ML CoE לבנות ולאמן מודלים של ML עם נתונים על פני LoBs מרובים. אנו משתמשים בדוגמה של ארגון שירות פיננסי כדי לקבוע את ההקשר ואת מקרה השימוש עבור סדרה זו.

בפוסט הראשון הזה, אנו מראים את ההליכים של הגדרת ארכיטקטורת רשת נתונים עם מספר חשבונות של יצרני נתונים וצרכנים של AWS. לאחר מכן אנו מתמקדים במוצר נתונים אחד, שנמצא בבעלות LoB אחד בתוך הארגון הפיננסי, וכיצד ניתן לחלוק אותו לתוך סביבת רשת נתונים כדי לאפשר ל-LoBs אחרים לצרוך ולהשתמש במוצר נתונים זה. הכוונה היא בעיקר לפרסונת מנהלת הנתונים, האחראית על ייעול וסטנדרטיזציה של תהליך שיתוף הנתונים בין יצרני הנתונים והצרכנים והבטחת עמידה בכללי ממשל הנתונים.

בפוסט השני, אנו מראים דוגמה אחת לאופן שבו אנליטיקס ו-ML CoE יכולים לצרוך את מוצר הנתונים למקרה שימוש בחיזוי סיכונים. הכוונה היא בעיקר לאישיות מדעני הנתונים, האחראית על ניצול נכסי נתונים ארגוניים וצד שלישי כאחד כדי לבנות ולהכשיר מודלים של ML המחלצים תובנות עסקיות כדי לשפר את החוויה של לקוחות שירותים פיננסיים.

סקירת רשת נתונים

מייסד תבנית רשת הנתונים, ז'מק דהגני בספרה רשת נתונים המספקת ערך מונחה נתונים בקנה מידה, הגדיר ארבעה עקרונות לקראת מטרת רשת הנתונים:

  • בעלות על דומיין מבוזרת - להמשיך במעבר ארגוני מבעלות ריכוזית על נתונים על ידי מומחים המפעילים את טכנולוגיות פלטפורמת הנתונים למודל בעלות על נתונים מבוזר, לדחוף את הבעלות והאחריות של הנתונים בחזרה ל-LoBs שבהם הנתונים מיוצרים (דומיינים מיושרים למקור) או נצרך ( דומיינים מותאמים לצריכה).
  • נתונים כמוצר - לדחוף במעלה הזרם את האחריות של שיתוף נכסי נתונים מאוצרים, באיכות גבוהה, ניתנים להפעלה הדדית ומאובטחת. לכן, יצרני נתונים מ-LoBs שונים אחראים להכנת נתונים בצורה מתכלה ממש במקור.
  • ניתוח בשירות עצמי - לייעל את החוויה של משתמשי נתונים באנליטיקס ו-ML כדי שיוכלו לגלות, לגשת ולהשתמש במוצרי נתונים עם הכלים המועדפים עליהם. בנוסף, לייעל את החוויה של ספקי נתונים LoB לבנות, לפרוס ולתחזק מוצרי נתונים באמצעות מתכונים ורכיבים ותבניות לשימוש חוזר.
  • ממשל חישובי פדרצי - לאגד ולמכן את קבלת ההחלטות הכרוכה בניהול ובקרה של גישה לנתונים כך שיהיו ברמה של בעלי נתונים מה-LoBs השונות, מה שעדיין עולה בקנה אחד עם מדיניות החוק, הציות והאבטחה של הארגון הרחב יותר שבסופו של דבר נאכפת באמצעות הרשת.

AWS הציגה את החזון שלה לבניית רשת נתונים על גבי AWS בפוסטים שונים:

  • ראשית, התמקדנו בחלק הארגוני הקשור לבעלות על תחום מבוזר ולנתונים כעקרונות מוצר. המחברים תיארו את החזון של יישור LOBs מרובים ברחבי הארגון לקראת אסטרטגיית מוצרי נתונים המספקת לתחומים המיושרים לצריכה כלים למצוא ולהשיג את הנתונים הדרושים להם, תוך הבטחת השליטה הדרושה סביב השימוש בנתונים אלה על ידי הצגת אחריות עבור הדומיינים מיושרים למקור כדי לספק מוצרי נתונים מוכנים לשימוש ממש במקור. למידע נוסף, עיין ב איך JPMorgan Chase בנה ארכיטקטורת רשת נתונים כדי להניב ערך משמעותי לשיפור פלטפורמת הנתונים הארגונית שלהם.
  • לאחר מכן התמקדנו בחלק הטכני הקשור לבניית מוצרי נתונים, ניתוחי שירות עצמי ועקרונות ממשל חישובי מאוחדים. המחברים תיארו את שירותי הליבה של AWS המעצימים את הדומיינים המיושרים למקור לבנות ולשתף מוצרי נתונים, מגוון רחב של שירותים שיכולים לאפשר לדומיינים המותאמים לצרכן לצרוך מוצרי נתונים בדרכים שונות בהתבסס על הכלים המועדפים עליהם ומקרי השימוש בהם. פועלים לקראת, ולבסוף, שירותי AWS השולטים בהליך שיתוף הנתונים על ידי אכיפת מדיניות גישה לנתונים. למידע נוסף, עיין ב עצב ארכיטקטורת רשת נתונים באמצעות AWS Lake Formation ו-AWS Glue.
  • הראינו גם פתרון לאוטומטי של גילוי נתונים ובקרת גישה באמצעות ממשק משתמש מרכזי של רשת נתונים. לפרטים נוספים, עיין ב בנה זרימת עבודה לשיתוף נתונים עם AWS Lake Formation עבור רשת הנתונים שלך.

מקרה שימוש בשירותים פיננסיים

בדרך כלל, לארגוני שירותים פיננסיים גדולים יש מספר LoBs, כגון בנקאות צרכנית, בנקאות השקעות וניהול נכסים, וגם צוות אנליטיקס ו-ML CoE אחד או יותר. כל LoB מספק שירותים שונים:

  • הלו"ב הבנקאי הצרכני מספק מגוון שירותים לצרכנים ועסקים, לרבות אשראי ומשכנתא, ניהול מזומנים, פתרונות תשלום, מוצרי פיקדונות והשקעה ועוד.
  • LoB לבנקאות מסחרית או להשקעות מציעה פתרונות פיננסיים מקיפים, כגון הלוואות, סיכון פשיטת רגל ותשלומים סיטונאיים ללקוחות, כולל עסקים קטנים, חברות בינוניות ותאגידים גדולים.
  • LoB לניהול נכסים מספק מוצרי פרישה ושירותי השקעה בכל סוגי הנכסים

כל LoB מגדיר את מוצרי הנתונים שלו, אשר נאצרים על ידי אנשים שמבינים את הנתונים והמתאימים ביותר לציין מי מורשה להשתמש בהם, וכיצד ניתן להשתמש בהם. לעומת זאת, LoBs ותחומי יישומים אחרים כמו האנליטיקס ו-ML CoE מעוניינים לגלות ולצרוך מוצרי נתונים מוסמכים, למזג אותם יחד כדי ליצור תובנות ולקבל החלטות מונחות נתונים.

האיור הבא מתאר כמה LoBs ודוגמאות של מוצרי נתונים שהם יכולים לשתף. זה גם מראה את הצרכנים של מוצרי נתונים כגון אנליטיקס ו-ML CoE, אשר בונים מודלים של ML שניתן לפרוס ליישומים מול לקוחות כדי לשפר עוד יותר את חוויית הלקוח הקצה.

בעקבות התפיסה הסוציו-טכנית של רשת הנתונים, אנו מתחילים בהיבט החברתי עם סט של שלבים ארגוניים, כגון:

  • שימוש במומחי תחום כדי להגדיר גבולות לכל תחום, כך שניתן למפות כל מוצר נתונים לתחום ספציפי
  • זיהוי בעלים של מוצרי נתונים המסופקים מכל דומיין, כך שלכל מוצר נתונים יש אסטרטגיה שהוגדרה על ידי הבעלים שלו
  • זיהוי מדיניות ממשל מתמריצים גלובליים ומקומיים או מאוחדים, כך שכאשר צרכני נתונים ניגשים למוצר נתונים ספציפי, ניתן לאכוף אוטומטית את מדיניות הגישה הקשורה למוצר באמצעות שכבת ממשל נתונים מרכזית

לאחר מכן נעבור להיבט הטכני, הכולל את התרחיש הבא מקצה לקצה שהוגדר בתרשים הקודם:

  1. העצים את LoB הבנקאות הצרכנית עם כלים לבניית מוצר נתוני פרופיל אשראי צרכני מוכן לשימוש.
  2. אפשרו ל-LoB הבנקאי הצרכני לשתף מוצרי נתונים בשכבת הממשל המרכזית.
  3. הטמע הגדרות גלובליות ומאוחדות של מדיניות גישה לנתונים שיש לאכוף תוך גישה למוצר נתוני פרופיל האשראי הצרכני דרך ממשל הנתונים המרכזי.
  4. אפשר ל-Analytics ול-ML CoE לגלות ולגשת למוצר הנתונים דרך שכבת הממשל המרכזית.
  5. העצים את האנליטיקה ו-ML CoE עם כלים לניצול תוצר הנתונים לבניית והדרכה של מודל חיזוי סיכוני אשראי. איננו מכסים את השלבים האחרונים (6 ו-7 בתרשים הקודם) בסדרה זו. עם זאת, כדי להראות את הערך העסקי שמודל ML כזה יכול להביא לארגון בתרחיש מקצה לקצה, אנו מדגים את הדברים הבאים:
  6. מאוחר יותר ניתן לפרוס מודל זה בחזרה למערכות מול לקוחות כגון פורטל אינטרנט בנקאי צרכני או אפליקציה לנייד.
  7. ניתן להשתמש בו באופן ספציפי במסגרת בקשת ההלוואה כדי להעריך את פרופיל הסיכון של בקשות אשראי ומשכנתא.

לאחר מכן, נתאר את הצרכים הטכניים של כל אחד מהרכיבים.

צלול עמוק לתוך הצרכים הטכניים

כדי להפוך מוצרי נתונים לזמינים עבור כולם, ארגונים צריכים להקל על שיתוף נתונים בין גופים שונים ברחבי הארגון תוך שמירה על שליטה מתאימה עליו, או במילים אחרות, לאזן בין זריזות לבין ניהול נכון.

צרכן נתונים: Analytics ו-ML CoE

צרכני הנתונים כגון מדעני נתונים מהאנליטיקס ו-ML CoE צריכים להיות מסוגלים לעשות את הפעולות הבאות:

  • גלה וגישה למערכי נתונים רלוונטיים עבור מקרה שימוש נתון
  • היו בטוחים שמערכי נתונים שהם רוצים לגשת אליהם כבר אוצרו, מעודכנים ויש להם תיאורים חזקים
  • בקש גישה למערכי נתונים המעניינים את המקרים העסקיים שלהם
  • השתמש בכלים המועדפים עליהם כדי לבצע שאילתות ולעבד מערכי נתונים כאלה בתוך הסביבה שלהם עבור ML ללא צורך בשכפול נתונים מהמיקום המרוחק המקורי או לדאגה לגבי מורכבויות הנדסיות או תשתית הקשורות לעיבוד נתונים המאוחסנים פיזית באתר מרוחק
  • קבל הודעה על כל עדכוני נתונים שנעשו על ידי בעלי הנתונים

מפיק נתונים: בעלות על דומיין

יצרני הנתונים, כגון צוותי דומיינים מ-LoBs שונים בארגון השירותים הפיננסיים, צריכים לרשום ולשתף מערכי נתונים מאוצרים המכילים את הדברים הבאים:

  • מטא נתונים טכניים ותפעוליים, כגון שמות וגדלים של מסדי נתונים וטבלאות, סכימות עמודות ומפתחות
  • מטא נתונים עסקיים כגון תיאור נתונים, סיווג ורגישות
  • מעקב אחר מטא נתונים כגון התפתחות סכימה מהמקור לטופס היעד וכל צורות ביניים
  • מטא נתונים של איכות נתונים כגון יחסי נכונות ושלמות והטיית נתונים
  • גישה למדיניות ונהלים

אלה נחוצים כדי לאפשר לצרכני נתונים לגלות ולגשת לנתונים מבלי להסתמך על נהלים ידניים או צורך ליצור קשר עם מומחי התחום של מוצר הנתונים כדי לקבל ידע נוסף על המשמעות של הנתונים וכיצד ניתן לגשת אליהם.

ממשל נתונים: יכולת גילוי, נגישות וביקורת

ארגונים צריכים לאזן את הזריזות שהוצגו קודם לכן עם הפחתה נכונה של הסיכונים הכרוכים בדליפות נתונים. במיוחד בתעשיות מוסדרות כמו שירותים פיננסיים, יש צורך לשמור על ניהול נתונים מרכזי כדי לספק גישה כוללת לנתונים ובקרת ביקורת תוך צמצום טביעת הרגל של האחסון על ידי הימנעות ממספר עותקים של אותם נתונים במקומות שונים.

בארכיטקטורות מסורתיות של אגם נתונים מרכזי, יצרני הנתונים מפרסמים לעתים קרובות נתונים גולמיים ומעבירים את האחריות לאיסוף הנתונים, ניהול איכות הנתונים ובקרת הגישה למהנדסי נתונים ותשתית בצוות פלטפורמת נתונים מרכזי. עם זאת, צוותי פלטפורמת נתונים אלה עשויים להיות פחות מכירים את תחומי הנתונים השונים, ועדיין להסתמך על תמיכה ממפיקי הנתונים כדי להיות מסוגלים לאצור ולנהל גישה לנתונים כראוי בהתאם למדיניות שנאכפת בכל תחום נתונים. לעומת זאת, יצרני הנתונים עצמם נמצאים במיקום הטוב ביותר לספק נכסי נתונים מאוצרים ומוסמכים והם מודעים למדיניות הגישה הספציפית לתחום שיש לאכוף בעת גישה לנכסי נתונים.

סקירת פתרונות

התרשים הבא מציג את הארכיטקטורה ברמה הגבוהה של הפתרון המוצע.

בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אנו מתייחסים לצריכת נתונים על ידי אנליטיקס ו-ML CoE עם אמזונה אתנה ו אמזון SageMaker in חלק 2 בסדרה זו.

בפוסט זה, אנו מתמקדים בתהליך הכנסת הנתונים לרשת הנתונים ומתארים כיצד LoB אינדיבידואלי כגון צוות הנתונים בתחום הבנקאות הצרכנית יכול להשתמש בכלי AWS כגון דבק AWS ו AWS דבק DataBrew להכין, לאצור ולשפר את האיכות של מוצרי הנתונים שלהם, ולאחר מכן לרשום את מוצרי הנתונים האלה בחשבון ממשל הנתונים המרכזי באמצעות תצורת אגם AWS.

בנקאות צרכנית LoB (מפיק נתונים)

אחד מעקרונות הליבה של רשת נתונים הוא הרעיון של נתונים כמוצר. חשוב מאוד שצוות הנתונים בתחום הבנקאות הצרכנית יעבוד על הכנת מוצרי נתונים שמוכנים לשימוש על ידי צרכני נתונים. ניתן לעשות זאת על ידי שימוש בכלים לחילוץ, שינוי וטעינה של AWS (ETL) כמו AWS Glue לעיבוד נתונים גולמיים שנאספו על שירות אחסון פשוט של אמזון (Amazon S3), או לחילופין להתחבר למאגרי הנתונים התפעוליים שבהם מופק הנתונים. אתה יכול גם להשתמש DataBrew, שהוא כלי להכנת נתונים חזותיים ללא קוד שמקל על ניקוי ונרמל נתונים.

לדוגמה, בזמן הכנת מוצר נתוני פרופיל האשראי הצרכני, צוות הנתונים של דומיין בנקאות צרכני יכול לבצע איסוף פשוט כדי לתרגם מגרמנית לאנגלית את שמות המאפיינים של הנתונים הגולמיים שאוחזרו ממערך הנתונים בקוד פתוח נתוני האשראי הגרמניים של Statlog, המורכב מ-20 תכונות ו-1,000 שורות.

בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ממשל נתונים

שירות הליבה של AWS לאפשר ניהול רשת נתונים הוא Lake Formation. Lake Formation מציעה את היכולת לאכוף ניהול נתונים בתוך כל תחום נתונים ולרוחב תחומים כדי להבטיח שהנתונים ניתנים לגילוי ומאובטח בקלות. הוא מספק מודל אבטחה מאוחד הניתן לניהול מרכזי, עם שיטות עבודה מומלצות לגילוי נתונים, אבטחה ותאימות, תוך מתן זריזות גבוהה בכל תחום.

Lake Formation מציע API כדי לפשט את האופן שבו נתונים נקלטים, מאוחסנים ומנוהלים, יחד עם אבטחה ברמת השורה כדי להגן על הנתונים שלך. זה גם מספק פונקציונליות כמו בקרת גישה פרטנית, טבלאות מנוהלות ואופטימיזציה של אחסון.

בנוסף, Lake Formations מציעה א API לשיתוף נתונים שבו אתה יכול להשתמש כדי לשתף נתונים בין חשבונות שונים. זה מאפשר לצרכן ה-Analytics ו-ML CoE להריץ שאילתות Athena שמבצעות שאילתות ומצרפות טבלאות על פני מספר חשבונות. למידע נוסף, עיין ב מדריך למפתחים של AWS Lake Formation.

מנהל גישה למשאבי AWS (AWS RAM) מספק דרך מאובטחת לשיתוף משאבים באמצעות מנהל זהויות וגישה של AWS (IAM) תפקידים ומשתמשים בכל חשבונות AWS בתוך ארגון או יחידות ארגוניות (OUs) ב ארגוני AWS.

Lake Formation יחד עם AWS RAM מספקים דרך אחת לנהל שיתוף נתונים וגישה בין חשבונות AWS. אנו מתייחסים לגישה זו כאל בקרת גישה מבוססת RAM. לפרטים נוספים על גישה זו, עיין ב בנה זרימת עבודה לשיתוף נתונים עם AWS Lake Formation עבור רשת הנתונים שלך.

Lake Formation מציעה גם דרך נוספת לנהל שיתוף נתונים וגישה באמצעות תגיות אגם Formation. אנו מתייחסים לגישה זו כאל בקרת גישה מבוססת תגים. לפרטים נוספים, עיין ב בניית ארכיטקטורת נתונים מודרנית ודפוס רשת נתונים בקנה מידה באמצעות בקרת גישה מבוססת תג AWS Lake Formation.

לאורך הפוסט הזה, אנו משתמשים בגישת בקרת גישה מבוססת תגים מכיוון שהיא מפשטת את יצירת מדיניות על מספר קטן יותר של תגים לוגיים שנמצאים בדרך כלל ב-LoBs שונים במקום לציין מדיניות על משאבים בעלי שם ברמת התשתית.

תנאים מוקדמים

כדי להגדיר ארכיטקטורת רשת נתונים, אתה צריך לפחות שלושה חשבונות AWS: חשבון מפיק, חשבון מרכזי וחשבון צרכן.

פרוס את סביבת רשת הנתונים

כדי לפרוס סביבת רשת נתונים, תוכל להשתמש בדברים הבאים מאגר GitHub. מאגר זה מכיל שלושה AWS CloudFormation תבניות שפורסות סביבת רשת נתונים הכוללת כל אחד מהחשבונות (מפיק, מרכזי וצרכן). בתוך כל חשבון, אתה יכול להפעיל את תבנית CloudFormation המתאימה לו.

חשבון מרכזי

בחשבון המרכזי, בצע את השלבים הבאים:

  1. הפעל את מחסנית CloudFormation:
    בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. צור שני משתמשי IAM:
    1. DataMeshOwner
    2. ProducerSteward
  3. להעניק DataMeshOwner בתור המנהל של Lake Formation.
  4. צור תפקיד IAM אחד:
    1. LFRegisterLocationServiceRole
  5. צור שני מדיניות IAM:
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. צור את כרטיס האשראי של מסד הנתונים עבור ProducerSteward בחשבון המפיק.
  7. שתף את הרשאת מיקום הנתונים לחשבון המפיק.

חשבון מפיק

בחשבון המפיק, בצע את השלבים הבאים:

  1. הפעל את מחסנית CloudFormation:
    בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. צור את דלי S3 credit-card, שמחזיק את השולחן credit_card.
  3. אפשר גישה לדלי S3 עבור תפקיד שירות Lake Formation בחשבון המרכזי.
  4. צור את הסורק AWS Glue creditCrawler-<ProducerAccountID>.
  5. צור תפקיד שירות סורק AWS Glue.
  6. הענק הרשאות במיקום דלי S3 credit-card-<ProducerAccountID>-<aws-region> לתפקיד הסורק של AWS Glue.
  7. צור משתמש IAM מנהל מפיק.

חשבון צרכן

בחשבון הצרכן, בצע את השלבים הבאים:

  1. הפעל את מחסנית CloudFormation:
    בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  2. צור את דלי S3 <AWS Account ID>-<aws-region>-athena-logs.
  3. צור את קבוצת העבודה של אתנה consumer-workgroup.
  4. צור את משתמש IAM ConsumerAdmin.

הוסף מסד נתונים והירשם לחשבון הצרכן אליו

לאחר שתפעיל את התבניות, תוכל לעבור על צעד אחר צעד מדריך להוסיף מוצר לקטלוג הנתונים ולצרכן להירשם אליו. המדריך מתחיל בהקמת מסד נתונים שבו היצרן יכול למקם את מוצריו ולאחר מכן מסביר כיצד הצרכן יכול להירשם למאגר זה ולגשת לנתונים. כל זה מתבצע תוך כדי שימוש תגי LF, שהוא בקרת גישה מבוססת תגים עבור Lake Formation.

רישום מוצר נתונים

הארכיטקטורה הבאה מתארת ​​את השלבים המפורטים של האופן שבו צוות LoB הבנקאות הצרכניות הפועל כיצרני נתונים יכול לרשום את מוצרי הנתונים שלהם בחשבון ממשל הנתונים המרכזי (מוצרי נתונים משולבים לרשת הנתונים של הארגון).

בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

השלבים הכלליים לרישום מוצר נתונים הם כדלקמן:

  1. צור מסד נתונים יעד למוצר הנתונים בחשבון הממשל המרכזי. כדוגמה, תבנית CloudFormation מהחשבון המרכזי כבר יוצרת את מסד הנתונים היעד credit-card.
  2. שתף את מסד הנתונים היעד שנוצר עם המקור בחשבון המפיק.
  3. צור קישור משאב של מסד הנתונים המשותף בחשבון המפיק. בצילום המסך הבא, אנו רואים בקונסולת Lake Formation בחשבון המפיק את זה rl_credit-card הוא קישור המשאבים של credit-card מאגר מידע.
    בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  4. אוכלוס טבלאות (עם הנתונים שנאספו בחשבון המפיק) בתוך מסד הנתונים של קישורי המשאבים (rl_credit-card) באמצעות סורק AWS Glue בחשבון המפיק.
    בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הטבלה שנוצרה מופיעה אוטומטית בחשבון הממשל המרכזי. צילום המסך הבא מציג דוגמה לטבלה ב-Lake Formation בחשבון המרכזי. זאת לאחר ביצוע השלבים המוקדמים יותר לאכלוס מסד הנתונים של קישורי המשאבים rl_credit-card בחשבון המפיק.

בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

בחלק 1 של סדרה זו, דנו ביעדים של ארגוני שירותים פיננסיים להשיג יותר זריזות עבור צוותי הניתוח וה-ML שלהם ולצמצם את הזמן מהנתונים לתובנות. התמקדנו גם בבניית ארכיטקטורת רשת נתונים ב-AWS, שם הצגנו שירותי AWS קלים לשימוש, ניתנים להרחבה וחסכוניים כמו AWS Glue, DataBrew ו-Lake Formation. צוותי ייצור נתונים יכולים להשתמש בשירותים אלה כדי לבנות ולשתף מוצרי נתונים מאוצרים, איכותיים, ניתנים להפעלה הדדית ומאובטחת, שמוכנים לשימוש על ידי צרכני נתונים שונים למטרות אנליטיות.

In חלק 2, אנו מתמקדים בצוותי אנליטיקה ו-ML CoE שצורכים מוצרי נתונים המשותפים ל-LoB הבנקאי הצרכני כדי לבנות מודל חיזוי סיכוני אשראי באמצעות שירותי AWS כגון Athena ו- SageMaker.


על המחברים

בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.קארים חמודה הוא אדריכל פתרונות מומחה לניתוח ב- AWS עם תשוקה לשילוב נתונים, ניתוח נתונים ו- BI. הוא עובד עם לקוחות AWS כדי לתכנן ולבנות פתרונות ניתוח התורמים לצמיחת העסק שלהם. בזמנו הפנוי הוא אוהב לצפות בסרטים דוקומנטריים ולשחק משחקי וידאו עם בנו.

בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.חסן פונוואלה הוא ארכיטקט פתרונות מומחה AI/ML בכיר ב-AWS, Hasan עוזר ללקוחות לתכנן ולפרוס יישומי למידת מכונה בייצור ב-AWS. יש לו למעלה מ-12 שנות ניסיון בעבודה כמדען נתונים, מתרגל למידת מכונה ומפתח תוכנה. בזמנו הפנוי, חסן אוהב לחקור את הטבע ולבלות עם חברים ובני משפחה.

בנה ואימון מודלים של ML באמצעות ארכיטקטורת רשת נתונים ב-AWS: חלק 1 PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.בנואה דה פאטול הוא אדריכל פתרונות AI/ML מומחה ב-AWS. הוא עוזר ללקוחות על ידי מתן הדרכה וסיוע טכני לבניית פתרונות הקשורים ל-AI/ML באמצעות AWS. בזמנו הפנוי הוא אוהב לנגן בפסנתר ולבלות עם חברים.

בול זמן:

עוד מ למידת מכונות AWS