قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1

تستخدم المؤسسات في مختلف الصناعات الذكاء الاصطناعي (AI) والتعلم الآلي (ML) لحل تحديات الأعمال الخاصة بصناعتها. على سبيل المثال ، في صناعة الخدمات المالية ، يمكنك استخدام الذكاء الاصطناعي والتعلم الآلي لحل التحديات المتعلقة باكتشاف الاحتيال والتنبؤ بمخاطر الائتمان والتسويق المباشر والعديد من الأمور الأخرى.

تنشئ الشركات الكبيرة أحيانًا مركزًا للتميز (CoE) لتلبية احتياجات خطوط الأعمال المختلفة (LoBs) من خلال التحليلات المبتكرة ومشاريع ML.

لإنشاء نماذج ML عالية الجودة والأداء على نطاق واسع ، يتعين عليهم القيام بما يلي:

  • توفير طريقة سهلة للوصول إلى البيانات ذات الصلة بتحليلاتهم و ML CoE
  • إنشاء المساءلة على مزودي البيانات من LoBs الفردية لمشاركة أصول البيانات المنسقة القابلة للاكتشاف والفهم والتشغيل المتبادل والجديرة بالثقة

يمكن أن يؤدي ذلك إلى تقليل وقت الدورة الطويل لتحويل حالات استخدام ML من التجربة إلى الإنتاج وإنشاء قيمة تجارية عبر المؤسسة.

تسعى بنية شبكة البيانات جاهدة لحل هذه التحديات التقنية والتنظيمية من خلال تقديم نهج اجتماعي تقني لامركزي لمشاركة البيانات والوصول إليها وإدارتها في بيئات معقدة وواسعة النطاق - داخل أو عبر المنظمات. يُنشئ نمط تصميم شبكة البيانات نموذجًا مسؤولاً لمشاركة البيانات يتماشى مع النمو التنظيمي لتحقيق الهدف النهائي المتمثل في زيادة عائد استثمارات الأعمال في فرق البيانات والعملية والتكنولوجيا.

في هذه السلسلة المكونة من جزأين ، نقدم إرشادات حول كيفية قيام المؤسسات ببناء بنية بيانات حديثة باستخدام نمط تصميم شبكة بيانات على AWS وتمكين التحليلات و ML CoE لبناء نماذج ML وتدريبها باستخدام البيانات عبر LoBs المتعددة. نستخدم مثالًا لمؤسسة خدمات مالية لتعيين السياق وحالة الاستخدام لهذه السلسلة.

في هذا المنشور الأول ، نعرض إجراءات إعداد بنية شبكة بيانات مع العديد من منتجي بيانات AWS وحسابات المستهلكين. ثم نركز على منتج بيانات واحد ، مملوك من قبل LoB واحد داخل المؤسسة المالية ، وكيف يمكن مشاركته في بيئة شبكة بيانات للسماح لـ LoBs الأخرى باستهلاك واستخدام منتج البيانات هذا. يستهدف هذا بشكل أساسي شخصية مضيف البيانات ، وهو المسؤول عن تبسيط وتوحيد عملية مشاركة البيانات بين منتجي البيانات والمستهلكين وضمان الامتثال لقواعد حوكمة البيانات.

في المنشور الثاني ، نعرض مثالاً واحدًا لكيفية استخدام التحليلات و ML CoE لمنتج البيانات في حالة استخدام التنبؤ بالمخاطر. يستهدف هذا بشكل أساسي شخصية عالم البيانات ، المسؤول عن استخدام أصول البيانات على مستوى المؤسسة والجهات الخارجية لبناء وتدريب نماذج ML التي تستخلص رؤى الأعمال لتعزيز تجربة عملاء الخدمات المالية.

نظرة عامة على شبكة البيانات

مؤسسة نمط شبكة البيانات ، زماك دهقاني في كتابها شبكة البيانات تقدم قيمة مدفوعة بالبيانات على نطاق واسع، حددت أربعة مبادئ لتحقيق هدف شبكة البيانات:

  • توزيع ملكية المجال - لمتابعة تحول تنظيمي من الملكية المركزية للبيانات من قبل المتخصصين الذين يديرون تقنيات منصة البيانات إلى نموذج ملكية البيانات اللامركزية ، ودفع ملكية البيانات والمساءلة عنها إلى LoBs حيث يتم إنتاج البيانات (المجالات المتوافقة مع المصدر) أو استهلاكها ( المجالات المتوافقة مع الاستهلاك).
  • البيانات كمنتج - لدفع المساءلة عن مشاركة أصول البيانات المنسقة وعالية الجودة والقابلة للتشغيل البيني والآمنة. لذلك ، فإن منتجي البيانات من LoBs المختلفة مسؤولون عن إنشاء البيانات في شكل قابل للاستهلاك مباشرة من المصدر.
  • تحليلات الخدمة الذاتية - لتبسيط تجربة مستخدمي البيانات في التحليلات والتعلم الآلي حتى يتمكنوا من اكتشاف منتجات البيانات والوصول إليها واستخدامها مع أدواتهم المفضلة. بالإضافة إلى ذلك ، لتبسيط تجربة موفري بيانات LoB لإنشاء منتجات البيانات ونشرها وصيانتها عبر الوصفات والمكونات والقوالب القابلة لإعادة الاستخدام.
  • الحوكمة الحاسوبية الموحدة - لتوحيد وأتمتة عملية صنع القرار المتضمنة في إدارة الوصول إلى البيانات والتحكم فيه لتكون على مستوى مالكي البيانات من LoBs المختلفة ، والتي لا تزال متوافقة مع السياسات القانونية والامتثالية والأمنية للمؤسسة التي يتم إنفاذها في النهاية من خلال شبكة.

قدمت AWS رؤيتها لبناء شبكة بيانات فوق AWS في منشورات مختلفة:

  • أولاً ، ركزنا على الجزء التنظيمي المرتبط بملكية المجال الموزعة والبيانات كمبادئ منتج. وصف المؤلفون رؤية محاذاة العديد من LOBs عبر المؤسسة نحو استراتيجية منتج البيانات التي تزود المجالات المتوافقة مع الاستهلاك بأدوات للعثور على البيانات التي يحتاجونها والحصول عليها ، مع ضمان التحكم الضروري حول استخدام تلك البيانات من خلال تقديم المساءلة عن المجالات المتوافقة مع المصدر لتوفير منتجات بيانات جاهزة للاستخدام في المصدر مباشرةً. لمزيد من المعلومات ، يرجى الرجوع إلى كيف قامت JPMorgan Chase ببناء بنية شبكة بيانات لتحقيق قيمة كبيرة لتحسين منصة بيانات المؤسسة الخاصة بهم.
  • ثم ركزنا على الجزء الفني المرتبط ببناء منتجات البيانات ، وتحليلات الخدمة الذاتية ، ومبادئ الحوكمة الحاسوبية الموحدة. وصف المؤلفون خدمات AWS الأساسية التي تمكّن المجالات المتوافقة مع المصدر من إنشاء منتجات البيانات ومشاركتها ، ومجموعة متنوعة من الخدمات التي يمكن أن تمكّن المجالات المتوافقة مع المستهلك من استهلاك منتجات البيانات بطرق مختلفة بناءً على أدواتهم المفضلة وحالات الاستخدام الخاصة بهم تعمل نحو ، وأخيرًا خدمات AWS التي تحكم إجراء مشاركة البيانات من خلال فرض سياسات الوصول إلى البيانات. لمزيد من المعلومات ، يرجى الرجوع إلى صمم بنية شبكة بيانات باستخدام AWS Lake Formation و AWS Glue.
  • أظهرنا أيضًا حلاً لأتمتة اكتشاف البيانات والتحكم في الوصول من خلال واجهة مستخدم شبكة بيانات مركزية. لمزيد من التفاصيل ، يرجى الرجوع إلى أنشئ سير عمل لمشاركة البيانات باستخدام AWS Lake Formation لشبكة البيانات الخاصة بك.

حالة استخدام الخدمات المالية

عادةً ما يكون لدى مؤسسات الخدمات المالية الكبيرة العديد من LoBs ، مثل الخدمات المصرفية للأفراد ، والخدمات المصرفية الاستثمارية ، وإدارة الأصول ، وأيضًا فريق واحد أو أكثر من التحليلات وفرق ML CoE. يقدم كل LoB خدمات مختلفة:

  • يوفر LoB المصرفية للأفراد مجموعة متنوعة من الخدمات للعملاء والشركات ، بما في ذلك الائتمان والرهن العقاري ، وإدارة النقد ، وحلول الدفع ، ومنتجات الودائع والاستثمار ، والمزيد
  • يقدم LoB المصرفية التجارية أو الاستثمارية حلولاً مالية شاملة ، مثل الإقراض ومخاطر الإفلاس ومدفوعات الجملة للعملاء ، بما في ذلك الشركات الصغيرة والشركات متوسطة الحجم والشركات الكبيرة
  • يوفر LoB لإدارة الأصول منتجات التقاعد وخدمات الاستثمار عبر جميع فئات الأصول

تحدد كل LoB منتجات البيانات الخاصة بها ، والتي يتم تنسيقها بواسطة أشخاص يفهمون البيانات وتكون الأنسب لتحديد من هو المصرح له باستخدامها ، وكيف يمكن استخدامها. في المقابل ، تهتم LoBs ومجالات التطبيق الأخرى مثل التحليلات و ML CoE باكتشاف واستهلاك منتجات البيانات المؤهلة ، ومزجها معًا لتكوين رؤى ، واتخاذ قرارات تعتمد على البيانات.

يوضح الرسم التوضيحي التالي بعض LoBs وأمثلة على منتجات البيانات التي يمكنهم مشاركتها. كما يُظهر مستهلكي منتجات البيانات مثل التحليلات و ML CoE ، الذين يبنون نماذج ML التي يمكن نشرها في التطبيقات التي تواجه العملاء لزيادة تعزيز تجربة العميل النهائي.

باتباع المفهوم الاجتماعي والتقني لشبكة البيانات ، نبدأ بالجانب الاجتماعي بمجموعة من الخطوات التنظيمية ، مثل ما يلي:

  • الاستفادة من خبراء المجال لتحديد حدود كل مجال ، بحيث يمكن تعيين كل منتج بيانات إلى مجال معين
  • تحديد مالكي منتجات البيانات المقدمة من كل نطاق ، بحيث يكون لكل منتج بيانات إستراتيجية يحددها مالكه
  • تحديد سياسات الحوكمة من الحوافز العالمية والمحلية أو الفيدرالية ، لذلك عندما يصل مستهلكو البيانات إلى منتج بيانات معين ، يمكن فرض سياسة الوصول المرتبطة بالمنتج تلقائيًا من خلال طبقة حوكمة البيانات المركزية

ثم ننتقل إلى الجانب الفني ، والذي يتضمن السيناريو الشامل التالي المحدد في الرسم البياني السابق:

  1. قم بتمكين LoB المصرفية الاستهلاكية بأدوات لبناء منتج جاهز للاستخدام لبيانات ملف تعريف ائتمان المستهلك.
  2. السماح للبنك المصرفي الاستهلاكي بمشاركة منتجات البيانات في طبقة الحوكمة المركزية.
  3. قم بتضمين تعريفات عالمية وموحدة لسياسات الوصول إلى البيانات التي يجب إنفاذها أثناء الوصول إلى منتج بيانات ملف تعريف ائتمان المستهلك من خلال حوكمة البيانات المركزية.
  4. اسمح للتحليلات و ML CoE باكتشاف منتج البيانات والوصول إليه من خلال طبقة الحوكمة المركزية.
  5. تمكين التحليلات و ML CoE بأدوات لاستخدام منتج البيانات لبناء وتدريب نموذج التنبؤ بمخاطر الائتمان. نحن لا نغطي الخطوتين النهائيتين (6 و 7 في الرسم البياني السابق) في هذه السلسلة. ومع ذلك ، لإظهار القيمة التجارية التي يمكن أن يجلبها نموذج ML للمؤسسة في سيناريو شامل ، نوضح ما يلي:
  6. يمكن نشر هذا النموذج لاحقًا على الأنظمة التي تواجه العملاء مثل بوابة الويب المصرفية للمستهلكين أو تطبيق الهاتف المحمول.
  7. يمكن استخدامه على وجه التحديد في طلب القرض لتقييم ملف مخاطر طلبات الائتمان والرهن العقاري.

بعد ذلك ، نصف الاحتياجات الفنية لكل مكون.

الغوص العميق في الاحتياجات الفنية

لإتاحة منتجات البيانات للجميع ، تحتاج المؤسسات إلى تسهيل مشاركة البيانات بين الكيانات المختلفة عبر المؤسسة مع الحفاظ على السيطرة المناسبة عليها ، أو بعبارة أخرى ، لتحقيق التوازن بين المرونة والحوكمة المناسبة.

مستهلك البيانات: التحليلات و ML CoE

يحتاج مستهلكو البيانات مثل علماء البيانات من التحليلات و ML CoE إلى أن يكونوا قادرين على القيام بما يلي:

  • اكتشاف والوصول إلى مجموعات البيانات ذات الصلة لحالة استخدام معينة
  • كن واثقًا من أن مجموعات البيانات التي يرغبون في الوصول إليها منظمة ومُحدَّثة ولديها أوصاف قوية
  • طلب الوصول إلى مجموعات البيانات التي تهم قضايا الأعمال الخاصة بهم
  • استخدم أدواتهم المفضلة للاستعلام عن مجموعات البيانات هذه ومعالجتها داخل بيئتهم من أجل ML دون الحاجة إلى نسخ البيانات من الموقع البعيد الأصلي أو للقلق بشأن تعقيدات الهندسة أو البنية التحتية المرتبطة بمعالجة البيانات المخزنة فعليًا في موقع بعيد
  • احصل على إخطارات بأي تحديثات بيانات تم إجراؤها بواسطة مالكي البيانات

منتج البيانات: ملكية المجال

يحتاج منتجو البيانات ، مثل فرق المجال من LoBs المختلفة في مؤسسة الخدمات المالية ، إلى التسجيل ومشاركة مجموعات البيانات المنسقة التي تحتوي على ما يلي:

  • البيانات الوصفية التقنية والتشغيلية ، مثل أسماء وأحجام قواعد البيانات والجداول ، ومخططات الأعمدة ، والمفاتيح
  • البيانات الوصفية للأعمال مثل وصف البيانات وتصنيفها وحساسيتها
  • تتبع البيانات الوصفية مثل تطور المخطط من المصدر إلى النموذج المستهدف وأي أشكال وسيطة
  • البيانات الوصفية لجودة البيانات مثل نسب الدقة والاكتمال وتحيز البيانات
  • سياسات وإجراءات الوصول

هذه مطلوبة للسماح لمستهلكي البيانات باكتشاف البيانات والوصول إليها دون الاعتماد على الإجراءات اليدوية أو الاضطرار إلى الاتصال بخبراء مجال منتج البيانات لاكتساب المزيد من المعرفة حول معنى البيانات وكيف يمكن الوصول إليها.

حوكمة البيانات: قابلية الاكتشاف وإمكانية الوصول وقابلية التدقيق

تحتاج المنظمات إلى تحقيق التوازن بين المرونة الموضحة سابقًا والتخفيف المناسب من المخاطر المرتبطة بتسرب البيانات. لا سيما في الصناعات الخاضعة للتنظيم مثل الخدمات المالية ، هناك حاجة للحفاظ على حوكمة البيانات المركزية لتوفير الوصول الشامل إلى البيانات والتحكم في التدقيق مع تقليل بصمة التخزين عن طريق تجنب نسخ متعددة من نفس البيانات عبر مواقع مختلفة.

في هياكل بحيرة البيانات المركزية التقليدية ، غالبًا ما ينشر منتجو البيانات البيانات الأولية وينقلون مسؤولية معالجة البيانات وإدارة جودة البيانات والتحكم في الوصول إلى مهندسي البيانات والبنية التحتية في فريق منصة بيانات مركزية. ومع ذلك ، قد تكون فرق منصة البيانات هذه أقل دراية بمجالات البيانات المختلفة ، ولا تزال تعتمد على الدعم من منتجي البيانات لتكون قادرة على تنظيم الوصول إلى البيانات والتحكم فيه بشكل صحيح وفقًا للسياسات المطبقة في كل مجال بيانات. في المقابل ، يكون منتجو البيانات أنفسهم في وضع أفضل لتوفير أصول بيانات منظمة ومؤهلة وهم على دراية بسياسات الوصول الخاصة بالمجال التي يجب إنفاذها أثناء الوصول إلى أصول البيانات.

حل نظرة عامة

يوضح الرسم البياني التالي البنية عالية المستوى للحل المقترح.

قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

نعالج استهلاك البيانات من خلال التحليلات و ML CoE مع أمازون أثينا و الأمازون SageMaker in جزء 2 من هذه السلسلة.

في هذا المنشور ، نركز على عملية إدخال البيانات في شبكة البيانات ووصف كيف يمكن لفريق LoB فردي مثل فريق بيانات مجال الخدمات المصرفية الاستهلاكية استخدام أدوات AWS مثل غراء AWS و AWS Glue Data Brew لإعداد وتنظيم وتحسين جودة منتجات البيانات الخاصة بهم ، ثم تسجيل منتجات البيانات هذه في حساب إدارة البيانات المركزي من خلال تكوين بحيرة AWS.

المستهلك المصرفي LoB (منتج البيانات)

أحد المبادئ الأساسية لشبكة البيانات هو مفهوم البيانات كمنتج. من المهم جدًا أن يعمل فريق بيانات مجال الخدمات المصرفية الاستهلاكية على إعداد منتجات البيانات الجاهزة للاستخدام من قبل مستهلكي البيانات. يمكن القيام بذلك باستخدام أدوات استخراج AWS وتحويلها وتحميلها (ETL) مثل AWS Glue لمعالجة البيانات الأولية التي تم جمعها على خدمة تخزين أمازون البسيطة (Amazon S3) ، أو بدلاً من ذلك الاتصال بمخازن البيانات التشغيلية حيث يتم إنتاج البيانات. تستطيع ايضا استخذام داتابرو، وهي أداة إعداد بيانات مرئية لا تحتوي على تعليمات برمجية تجعل من السهل تنظيف البيانات وتطبيعها.

على سبيل المثال ، أثناء إعداد منتج بيانات ملف تعريف ائتمان المستهلك ، يمكن لفريق بيانات نطاق الخدمات المصرفية الاستهلاكية إجراء عملية تنظيم بسيطة لترجمة أسماء سمات البيانات الأولية المسترجعة من مجموعة البيانات مفتوحة المصدر من الألمانية إلى الإنجليزية بيانات الائتمان الألمانية Statlog، والتي تتكون من 20 سمة و 1,000 صف.

قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

مراقبة البيانات

خدمة AWS الأساسية لتمكين إدارة شبكة البيانات هي Lake Formation. يوفر Lake Formation القدرة على فرض إدارة البيانات داخل كل مجال بيانات وعبر المجالات لضمان سهولة اكتشاف البيانات وتأمينها. يوفر نموذج أمان متحدًا يمكن إدارته مركزيًا ، مع أفضل الممارسات لاكتشاف البيانات والأمان والامتثال ، مع السماح بمرونة عالية داخل كل مجال.

يوفر Lake Formation واجهة برمجة تطبيقات لتبسيط كيفية استيعاب البيانات وتخزينها وإدارتها ، جنبًا إلى جنب مع أمان على مستوى الصف لحماية بياناتك. كما أنه يوفر وظائف مثل التحكم في الوصول الدقيق والجداول الخاضعة للتحكم وتحسين التخزين.

بالإضافة إلى ذلك ، تقدم Lake Formations أ واجهة برمجة تطبيقات مشاركة البيانات التي يمكنك استخدامها لمشاركة البيانات عبر حسابات مختلفة. يسمح ذلك لمستهلك التحليلات و ML CoE بتشغيل استعلامات Athena التي تقوم بالاستعلام عن الجداول والانضمام إليها عبر حسابات متعددة. لمزيد من المعلومات ، راجع دليل مطور AWS Lake Formation.

مدير الوصول إلى موارد AWS (AWS RAM) توفر طريقة آمنة لمشاركة الموارد عبر إدارة الهوية والوصول AWS (IAM) والمستخدمين عبر حسابات AWS داخل مؤسسة أو وحدات تنظيمية (OUs) في مؤسسات AWS.

يوفر Lake Formation جنبًا إلى جنب مع AWS RAM طريقة واحدة لإدارة مشاركة البيانات والوصول إليها عبر حسابات AWS. نشير إلى هذا النهج باسم التحكم في الوصول المستند إلى ذاكرة الوصول العشوائي. لمزيد من التفاصيل حول هذا النهج ، يرجى الرجوع إلى أنشئ سير عمل لمشاركة البيانات باستخدام AWS Lake Formation لشبكة البيانات الخاصة بك.

يوفر Lake Formation أيضًا طريقة أخرى لإدارة مشاركة البيانات والوصول إليها باستخدام علامات تشكيل البحيرة. نشير إلى هذا النهج باسم التحكم في الوصول المستند إلى العلامات. لمزيد من التفاصيل ، يرجى الرجوع إلى أنشئ بنية بيانات حديثة ونمط شبكة بيانات على نطاق واسع باستخدام التحكم في الوصول المستند إلى علامة AWS Lake Formation.

خلال هذا المنشور ، نستخدم نهج التحكم في الوصول المستند إلى العلامات لأنه يبسط إنشاء السياسات على عدد أقل من العلامات المنطقية التي توجد عادة في LoBs مختلفة بدلاً من تحديد السياسات على الموارد المسماة على مستوى البنية التحتية.

المتطلبات الأساسية المسبقة

لإعداد بنية شبكة بيانات ، تحتاج إلى ثلاثة حسابات AWS على الأقل: حساب منتج ، وحساب مركزي ، وحساب مستهلك.

انشر بيئة شبكة البيانات

لنشر بيئة شبكة بيانات ، يمكنك استخدام ما يلي مستودع جيثب. يحتوي هذا المستودع على ثلاثة تكوين سحابة AWS القوالب التي تنشر بيئة شبكة بيانات تتضمن كل حساب (منتج ، مركزي ، ومستهلك). داخل كل حساب ، يمكنك تشغيل قالب CloudFormation المقابل له.

الحساب المركزي

في الحساب المركزي ، أكمل الخطوات التالية:

  1. قم بتشغيل حزمة CloudFormation:
    قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  2. إنشاء اثنين من مستخدمي IAM:
    1. DataMeshOwner
    2. ProducerSteward
  3. منحة DataMeshOwner كمسؤول بحيرة تشكيل.
  4. إنشاء دور IAM واحد:
    1. LFRegisterLocationServiceRole
  5. إنشاء سياستين IAM:
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. أنشئ بطاقة ائتمان قاعدة البيانات لـ ProducerSteward في حساب المنتج.
  7. شارك إذن موقع البيانات مع حساب المنتج.

حساب المنتج

في حساب المنتج ، أكمل الخطوات التالية:

  1. قم بتشغيل حزمة CloudFormation:
    قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  2. قم بإنشاء حاوية S3 credit-cardالذي يحمل الطاولة credit_card.
  3. السماح بالوصول إلى حاوية S3 لدور خدمة تشكيل بحيرة الحساب المركزي.
  4. أنشئ برنامج الزاحف AWS Glue creditCrawler-<ProducerAccountID>.
  5. أنشئ دور خدمة زاحف AWS Glue.
  6. منح أذونات لموقع حاوية S3 credit-card-<ProducerAccountID>-<aws-region> لدور الزاحف AWS Glue.
  7. إنشاء مستخدم IAM ستيوارد منتج.

حساب المستهلك

في حساب المستهلك ، أكمل الخطوات التالية:

  1. قم بتشغيل حزمة CloudFormation:
    قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  2. قم بإنشاء حاوية S3 <AWS Account ID>-<aws-region>-athena-logs.
  3. قم بإنشاء مجموعة عمل أثينا consumer-workgroup.
  4. قم بإنشاء مستخدم IAM ConsumerAdmin.

أضف قاعدة بيانات واشترك في حساب المستهلك بها

بعد تشغيل القوالب ، يمكنك تصفح ملف دليل خطوة بخطوة لإضافة منتج في كتالوج البيانات واشتراك المستهلك فيه. يبدأ الدليل بإعداد قاعدة بيانات حيث يمكن للمنتج وضع منتجاته ثم يشرح كيف يمكن للمستهلك الاشتراك في قاعدة البيانات هذه والوصول إلى البيانات. يتم تنفيذ كل هذا أثناء استخدام علامات LF، وهو التحكم في الوصول المستند إلى العلامات لتكوين البحيرة.

تسجيل منتج البيانات

يصف الهيكل التالي الخطوات التفصيلية لكيفية قيام فريق LoB المصرفي للمستهلك الذي يعمل كمنتجي البيانات بتسجيل منتجات البيانات الخاصة بهم في حساب إدارة البيانات المركزي (منتجات البيانات على متن الطائرة إلى شبكة بيانات المؤسسة).

قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الخطوات العامة لتسجيل منتج البيانات هي كما يلي:

  1. تكوين قاعدة بيانات مستهدفة لمنتج البيانات في حساب الحكم المركزي. كمثال ، يقوم قالب CloudFormation من الحساب المركزي بالفعل بإنشاء قاعدة البيانات الهدف credit-card.
  2. مشاركة قاعدة البيانات الهدف المنشأة مع الأصل في حساب المنتج.
  3. قم بإنشاء ارتباط مورد لقاعدة البيانات المشتركة في حساب المنتج. في لقطة الشاشة التالية ، نرى على وحدة تحكم Lake Formation في حساب المنتج ذلك rl_credit-card هو رابط الموارد الخاص بـ credit-card قاعدة البيانات.
    قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  4. تعبئة الجداول (مع البيانات المنسقة في حساب المنتج) داخل قاعدة بيانات رابط الموارد (rl_credit-card) باستخدام برنامج تتبع الارتباطات AWS Glue في حساب المنتج.
    قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يظهر الجدول الذي تم إنشاؤه تلقائيًا في حساب الإدارة المركزية. تُظهر لقطة الشاشة التالية مثالاً للجدول في Lake Formation في الحساب المركزي. هذا بعد تنفيذ الخطوات السابقة لملء قاعدة بيانات ارتباط الموارد rl_credit-card في حساب المنتج.

قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

وفي الختام

في الجزء الأول من هذه السلسلة ، ناقشنا أهداف مؤسسات الخدمات المالية لتحقيق المزيد من المرونة في التحليلات وفرق التعلم الآلي وتقليل الوقت المستغرق من البيانات إلى الرؤى. ركزنا أيضًا على بناء بنية شبكة بيانات على AWS ، حيث قدمنا ​​خدمات AWS سهلة الاستخدام وقابلة للتطوير وفعالة من حيث التكلفة مثل AWS Glue و DataBrew و Lake Formation. يمكن لفرق إنتاج البيانات استخدام هذه الخدمات لبناء ومشاركة منتجات بيانات منظمة وعالية الجودة وقابلة للتشغيل المتبادل وآمنة وجاهزة للاستخدام من قبل مستهلكي البيانات المختلفين لأغراض تحليلية.

In جزء 2، نحن نركز على التحليلات وفرق ML CoE التي تستهلك منتجات البيانات التي يشاركها LoB المصرفية للأفراد لبناء نموذج التنبؤ بمخاطر الائتمان باستخدام خدمات AWS مثل Athena و SageMaker.


عن المؤلفين

قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.كريم حمودة هو مهندس حلول متخصص للتحليلات في AWS ولديه شغف بتكامل البيانات وتحليل البيانات وذكاء الأعمال. يعمل مع عملاء AWS لتصميم وبناء حلول تحليلية تساهم في نمو أعمالهم. في أوقات فراغه ، يحب مشاهدة الأفلام الوثائقية التلفزيونية ولعب ألعاب الفيديو مع ابنه.

قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.حسن بونوالا هو مهندس حلول متخصص في الذكاء الاصطناعي / التعلم الآلي في AWS ، يساعد حسن العملاء في تصميم ونشر تطبيقات التعلم الآلي في الإنتاج على AWS. يتمتع بخبرة عملية تزيد عن 12 عامًا كعالم بيانات وممارس للتعلم الآلي ومطور برامج. في أوقات فراغه ، يحب حسن استكشاف الطبيعة وقضاء الوقت مع الأصدقاء والعائلة.

قم ببناء وتدريب نماذج ML باستخدام بنية شبكة البيانات على AWS: الجزء 1 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.بينوا دي باتول هو مهندس حلول متخصص في الذكاء الاصطناعي / التعلم الآلي في AWS. يساعد العملاء من خلال توفير التوجيه والمساعدة الفنية لبناء الحلول المتعلقة بالذكاء الاصطناعي / تعلم الآلة باستخدام AWS. في أوقات فراغه ، يحب العزف على البيانو وقضاء الوقت مع الأصدقاء.

الطابع الزمني:

اكثر من التعلم الآلي من AWS