قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

أنشئ سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون رمز

منذ الأزمة المالية العالمية ، لعبت إدارة المخاطر دورًا رئيسيًا في تشكيل عملية صنع القرار للبنوك ، بما في ذلك التنبؤ بحالة القروض للعملاء المحتملين. غالبًا ما يكون هذا تمرينًا كثيف البيانات يتطلب التعلم الآلي (ML). ومع ذلك ، لا تمتلك جميع المنظمات موارد علوم البيانات والخبرة لبناء سير عمل إدارة المخاطر ML.

الأمازون SageMaker هي عبارة عن منصة ML مُدارة بالكامل تسمح لمهندسي البيانات ومحللي الأعمال ببناء نماذج ML وتدريبها ونشرها بسرعة وسهولة. يمكن لمهندسي البيانات ومحللي الأعمال التعاون باستخدام إمكانيات عدم وجود كود / كود منخفض لـ SageMaker. يمكن لمهندسي البيانات استخدامها أمازون سيج ميكر داتا رانجلر لتجميع البيانات وإعدادها بسرعة لبناء النموذج دون كتابة تعليمات برمجية. ثم يمكن لمحللي الأعمال استخدام واجهة التأشير والنقر المرئية الخاصة بـ قماش أمازون سيج ميكر لتوليد تنبؤات ML دقيقة من تلقاء نفسها.

في هذا المنشور ، نوضح مدى سهولة تعاون مهندسي البيانات ومحللي الأعمال لبناء سير عمل ML يتضمن إعداد البيانات وبناء النماذج والاستدلال دون كتابة تعليمات برمجية.

حل نظرة عامة

على الرغم من أن تطوير ML هو عملية معقدة ومتكررة ، يمكنك تعميم سير عمل ML في إعداد البيانات ، وتطوير النموذج ، ومراحل نشر النموذج.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تلخص Data Wrangler and Canvas تعقيدات إعداد البيانات وتطوير النماذج ، بحيث يمكنك التركيز على تقديم قيمة لعملك من خلال استخلاص رؤى من بياناتك دون أن تكون خبيرًا في تطوير الكود. يبرز مخطط البنية التالي المكونات في حل بدون رمز / رمز منخفض.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

خدمة تخزين أمازون البسيطة يعمل (Amazon S3) كمستودع بيانات خاص بنا للبيانات الأولية والبيانات المهندسة وعناصر النماذج. يمكنك أيضًا اختيار استيراد البيانات من الأمازون الأحمر, أمازون أثيناو Databricks و Snowflake.

بصفتنا علماء بيانات ، نستخدم بعد ذلك Data Wrangler لتحليل البيانات الاستكشافية وهندسة الميزات. على الرغم من أن Canvas يمكنها تشغيل مهام هندسية مميزة ، إلا أن هندسة الميزات تتطلب عادةً بعض المعرفة الإحصائية والمعرفة بالمجال لإثراء مجموعة البيانات بالشكل الصحيح لتطوير النموذج. لذلك ، فإننا نعطي هذه المسؤولية لمهندسي البيانات حتى يتمكنوا من تحويل البيانات دون كتابة تعليمات برمجية باستخدام Data Wrangler.

بعد إعداد البيانات ، نقوم بتمرير مسؤوليات بناء النموذج إلى محللي البيانات ، الذين يمكنهم استخدام Canvas لتدريب نموذج دون الحاجة إلى كتابة أي رمز.

أخيرًا ، نقوم بعمل تنبؤات فردية ودُفعية مباشرةً داخل Canvas من النموذج الناتج دون الحاجة إلى نشر نقاط نهاية النموذج بأنفسنا.

نظرة عامة على مجموعة البيانات

نحن نستخدم ميزات SageMaker للتنبؤ بحالة القرض باستخدام نسخة معدلة من Lending Club's مجموعة بيانات تحليل القروض المتاحة للجمهور. تحتوي مجموعة البيانات على بيانات القروض للقروض الصادرة خلال الفترة 2007-2011. الأعمدة التي تصف القرض والمقترض هي ميزاتنا. يمثل العمود قرض_الحالة المتغير الهدف ، وهو ما نحاول التنبؤ به.

للتوضيح في Data Wrangler ، قمنا بتقسيم مجموعة البيانات إلى ملفين CSV: الجزء الأول و الجزء الثاني. لقد أزلنا بعض الأعمدة من مجموعة البيانات الأصلية لـ Lending Club لتبسيط العرض التوضيحي. تحتوي مجموعة البيانات الخاصة بنا على أكثر من 37,000 صف و 21 عمود ميزة ، كما هو موضح في الجدول التالي.

اسم العمود الوصف
loan_status الوضع الحالي للقرض (المتغير المستهدف).
loan_amount المبلغ المدرج للقرض الذي طلبه المقترض. إذا خفضت إدارة الائتمان مبلغ القرض ، فإن ذلك ينعكس في هذه القيمة.
funded_amount_by_investors المبلغ الإجمالي الذي يلتزم به المستثمرون لهذا القرض في ذلك الوقت.
term عدد مدفوعات القرض. القيم بالأشهر ويمكن أن تكون إما 36 أو 60.
interest_rate سعر الفائدة على القرض.
installment الدفعة الشهرية المستحقة على المقترض إذا نشأ القرض.
grade تم تعيين درجة القرض LC.
sub_grade LC منح القرض الفرعي.
employment_length طول العمل بالسنوات. القيم الممكنة بين 0-10 ، حيث 0 تعني أقل من سنة و 10 تعني عشر سنوات أو أكثر.
home_ownership حالة ملكية المنزل التي يقدمها المقترض أثناء التسجيل. قيمنا هي الإيجار ، والتملك ، والرهن العقاري ، وغيرها.
annual_income الدخل السنوي المبلغ عنه ذاتيًا والذي يقدمه المقترض أثناء التسجيل.
verification_status يشير إلى ما إذا تم التحقق من الدخل أم لا بواسطة LC.
issued_amount الشهر الذي تم فيه تمويل القرض.
purpose فئة يقدمها المقترض لطلب القرض.
dti نسبة محسوبة باستخدام إجمالي مدفوعات الديون الشهرية للمقترض على إجمالي التزامات الدين ، باستثناء الرهن العقاري وقرض خطاب الاعتماد المطلوب ، مقسومًا على الدخل الشهري المبلغ عنه ذاتيًا للمقترض.
earliest_credit_line الشهر الذي تم فيه فتح أول حد ائتماني تم الإبلاغ عنه للمقترض.
inquiries_last_6_months عدد الاستفسارات خلال الأشهر الستة الماضية (باستثناء استفسارات السيارات والرهن).
open_credit_lines عدد خطوط الائتمان المفتوحة في ملف ائتمان المقترض.
derogatory_public_records عدد السجلات العامة المهينة.
revolving_line_utilization_rate معدل استخدام الخط المتجدد ، أو مبلغ الائتمان الذي يستخدمه المقترض بالنسبة لجميع الائتمان المتجدد المتاح.
total_credit_lines العدد الإجمالي لخطوط الائتمان الموجودة حاليًا في ملف ائتمان المقترض.

نستخدم مجموعة البيانات هذه لإعداد البيانات وتدريب النموذج.

المتطلبات الأساسية المسبقة

أكمل الخطوات الأساسية التالية:

  1. تحميل كلا ملفات القرض إلى دلو S3 من اختيارك.
  2. تأكد من أن لديك الأذونات اللازمة. لمزيد من المعلومات ، يرجى الرجوع إلى ابدأ مع داتا رانجلر.
  3. قم بإعداد مجال SageMaker تم تكوينه لاستخدام Data Wrangler. للحصول على تعليمات ، راجع على متن الطائرة إلى Amazon SageMaker Domain.

استيراد البيانات

إنشاء تدفق بيانات رانجلر جديد من واجهة مستخدم Amazon SageMaker Studio UI.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قم باستيراد البيانات من Amazon S3 عن طريق تحديد ملفات CSV من حاوية S3 حيث وضعت مجموعة البيانات الخاصة بك. بعد استيراد كلا الملفين ، يمكنك رؤية مسارين منفصلين لسير العمل في ملف تدفق البيانات رأي.

يمكنك اختيار عدة خيارات لأخذ العينات عند استيراد بياناتك في تدفق بيانات Wrangler. يمكن أن يساعدك أخذ العينات عندما يكون لديك مجموعة بيانات كبيرة جدًا بحيث لا يمكن تحضيرها بشكل تفاعلي ، أو عندما تريد الاحتفاظ بنسبة الأحداث النادرة في مجموعة البيانات التي تم أخذ عينات منها. نظرًا لأن مجموعة البيانات الخاصة بنا صغيرة ، فإننا لا نستخدم أخذ العينات.

تحضير البيانات

بالنسبة لحالة الاستخدام لدينا ، لدينا مجموعتي بيانات بعمود مشترك: id. كخطوة أولى في إعداد البيانات ، نريد دمج هذه الملفات من خلال ضمها. للحصول على تعليمات ، راجع تحويل البيانات.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

نستخدم انضم خطوة تحويل البيانات واستخدام داخلي نوع الانضمام على id العمود.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

كنتيجة لتحويل الانضمام ، أنشأ Data Wrangler عمودين إضافيين: id_0 و id_1. ومع ذلك ، فإن هذه الأعمدة غير ضرورية لأغراض بناء النماذج الخاصة بنا. نسقط هذه الأعمدة الزائدة عن الحاجة باستخدام إدارة الأعمدة خطوة التحويل.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

لقد قمنا باستيراد مجموعات البيانات الخاصة بنا وضمناها وأزلنا الأعمدة غير الضرورية. نحن الآن جاهزون لإثراء بياناتنا من خلال هندسة الميزات والاستعداد لبناء النموذج.

أداء هندسة الميزات

استخدمنا Data Wrangler لإعداد البيانات. يمكنك أيضًا استخدام ملف ميزة تقرير جودة البيانات والرؤى داخل Data Wrangler للتحقق من جودة بياناتك واكتشاف التشوهات في بياناتك. غالبًا ما يحتاج علماء البيانات إلى استخدام رؤى البيانات هذه لتطبيق معرفة المجال الصحيحة بكفاءة على الميزات الهندسية. بالنسبة إلى هذا المنشور ، نفترض أننا أكملنا تقييمات الجودة هذه ويمكننا الانتقال إلى هندسة الميزات.

في هذه الخطوة ، نقوم بتطبيق بعض التحولات على الأعمدة الرقمية والفئوية والنصية.

نقوم أولاً بتطبيع سعر الفائدة لقياس القيم بين 0-1. نفعل هذا باستخدام عملية رقمية تحويل لتوسيع نطاق interest_rate العمود باستخدام قشارة min-max. الغرض من التطبيع (أو التوحيد القياسي) هو إزالة التحيز من نموذجنا. لن تساهم المتغيرات التي يتم قياسها بمقاييس مختلفة بالتساوي في عملية تعلم النموذج. لذلك ، فإن وظيفة التحويل مثل تحويل مقياس min-max يساعد في تطبيع الميزات.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

لتحويل متغير فئوي إلى قيمة رقمية ، نستخدم ترميزًا واحدًا ساخنًا. نختار تشفير قاطع تحويل ، ثم اختر تشفير واحد ساخن. يُحسِّن التشفير الأحادي الساخن القدرة التنبؤية لنموذج ML. تقوم هذه العملية بتحويل القيمة الفئوية إلى ميزة جديدة عن طريق تعيين قيمة ثنائية 1 أو 0 للميزة. كمثال بسيط ، إذا كان لديك عمود واحد يحتوي على قيمة yes or no، سيحول الترميز الساخن واحد هذا العمود إلى عمودين: أ Yes العمود وأ No عمود. سيكون للقيمة نعم 1 في Yes العمود و 0 في No عمود. يجعل التشفير الأحادي الساخن بياناتنا أكثر فائدة لأن القيم الرقمية يمكن أن تحدد بسهولة احتمالية توقعاتنا.

أخيرًا ، نقوم بتمييز ملف employer_title العمود لتحويل قيم السلسلة إلى متجه رقمي. نحن نطبق عد Vectorizer و tokenizer قياسي داخل فيكتور تحول. يقسم الترميز (Tokenization) جملة أو سلسلة من النصوص إلى كلمات ، بينما يقوم ناقل الحركة بتحويل البيانات النصية إلى نموذج يمكن قراءته آليًا. يتم تمثيل هذه الكلمات كناقلات.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد اكتمال جميع خطوات هندسة الميزات ، يمكننا تصدير البيانات وإخراج النتائج في حاوية S3 الخاصة بنا. بدلاً من ذلك ، يمكنك تصدير التدفق الخاص بك كرمز Python ، أو دفتر ملاحظات Jupyter لإنشاء خط أنابيب باستخدام طريقة العرض الخاصة بك خطوط أنابيب Amazon SageMaker. ضع في اعتبارك هذا عندما تريد تشغيل خطوات هندسة الميزات الخاصة بك على نطاق واسع أو كجزء من خط أنابيب ML.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمكننا الآن استخدام ملف إخراج Data Wrangler كمدخلات لدينا لـ Canvas. نشير إلى هذا كمجموعة بيانات في Canvas لبناء نموذج ML الخاص بنا.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

في حالتنا ، قمنا بتصدير مجموعة البيانات المعدة لدينا إلى دلو الاستوديو الافتراضي بامتداد output اختصار. نشير إلى موقع مجموعة البيانات هذا عند تحميل البيانات في Canvas لبناء النموذج بعد ذلك.

بناء وتدريب نموذج ML الخاص بك مع Canvas

في وحدة تحكم SageMaker ، قم بتشغيل تطبيق Canvas. لبناء نموذج ML من البيانات المعدة في القسم السابق ، نقوم بتنفيذ الخطوات التالية:

  1. قم باستيراد مجموعة البيانات المعدة إلى Canvas من دلو S3.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

نشير إلى نفس مسار S3 حيث قمنا بتصدير نتائج Data Wrangler من القسم السابق.

  1. قم بإنشاء نموذج جديد في Canvas وقم بتسميته loan_prediction_model.
  2. حدد مجموعة البيانات المستوردة وأضفها إلى كائن النموذج.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

لجعل Canvas تبني نموذجًا ، يجب علينا تحديد العمود الهدف.

  1. نظرًا لأن هدفنا هو التنبؤ باحتمالية قدرة المُقرض على سداد القرض ، فإننا نختار loan_status العمود.

يحدد Canvas تلقائيًا نوع بيان مشكلة ML. في وقت كتابة هذا التقرير ، كان Canvas يدعم مشاكل الانحدار والتصنيف وتنبؤ السلاسل الزمنية. يمكنك تحديد نوع المشكلة أو جعل Canvas تستنتج المشكلة تلقائيًا من بياناتك.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. اختر خيارك لبدء عملية بناء النموذج: بناء سريع or بناء قياسي.

بناء سريع يستخدم الخيار مجموعة البيانات الخاصة بك لتدريب نموذج في غضون 2-15 دقيقة. يكون هذا مفيدًا عندما تقوم بتجربة مجموعة بيانات جديدة لتحديد ما إذا كانت مجموعة البيانات التي لديك ستكون كافية لعمل تنبؤات. نحن نستخدم هذا الخيار لهذا المنشور.

بناء قياسي يختار الخيار الدقة على السرعة ويستخدم ما يقرب من 250 نموذجًا مرشحًا لتدريب النموذج. تستغرق العملية عادة من ساعة إلى ساعتين.

بعد بناء النموذج ، يمكنك مراجعة نتائج النموذج. تقدر Canvas أن نموذجك قادر على توقع النتيجة الصحيحة بنسبة 82.9٪ من الوقت. قد تختلف النتائج الخاصة بك بسبب التباين في نماذج التدريب.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بالإضافة إلى ذلك ، يمكنك التعمق في تحليل تفاصيل النموذج لمعرفة المزيد عن النموذج.

تمثل أهمية الميزة الأهمية المقدرة لكل ميزة في توقع العمود الهدف. في هذه الحالة ، يكون لعمود حد الائتمان التأثير الأكثر أهمية في توقع ما إذا كان العميل سيدفع مبلغ القرض ، متبوعًا بمعدل الفائدة والدخل السنوي.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

مصفوفة الارتباك في المقاييس المتقدمة يحتوي القسم على معلومات للمستخدمين الذين يريدون فهمًا أعمق لأداء نموذجهم.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قبل أن تتمكن من نشر النموذج الخاص بك لأحمال عمل الإنتاج ، استخدم Canvas لاختبار النموذج. يدير Canvas نقطة نهاية نموذجنا ويسمح لنا بعمل تنبؤات مباشرة في واجهة مستخدم Canvas.

  1. اختار تنبؤ ومراجعة النتائج على أي منهما توقع الدفعة or توقع واحد علامة التبويب.

في المثال التالي ، نقوم بعمل تنبؤ واحد عن طريق تعديل القيم للتنبؤ بالمتغير المستهدف loan_status في الوقت الحقيقي

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمكننا أيضًا تحديد مجموعة بيانات أكبر والحصول على تنبؤات Canvas للدُفعات نيابةً عنا.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

وفي الختام

يعد التعلم الآلي الشامل معقدًا ومتكررًا ، وغالبًا ما يتضمن العديد من الشخصيات والتقنيات والعمليات. تتيح Data Wrangler and Canvas التعاون بين الفرق دون مطالبة هذه الفرق بكتابة أي تعليمات برمجية.

يمكن لمهندس البيانات تحضير البيانات بسهولة باستخدام Data Wrangler دون كتابة أي رمز وتمرير مجموعة البيانات المعدة إلى محلل أعمال. يمكن لمحلل الأعمال بعد ذلك إنشاء نماذج ML دقيقة بسهولة بنقرات قليلة باستخدام Canvas والحصول على تنبؤات دقيقة في الوقت الفعلي أو دفعة واحدة.

ابدأ مع داتا رانجلر باستخدام هذه الأدوات دون الحاجة إلى إدارة أي بنية أساسية. تستطيع إعداد قماش ابدأ بسرعة وعلى الفور في إنشاء نماذج ML لدعم احتياجات عملك.


حول المؤلف

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.بيتر تشونج هو مهندس حلول لـ AWS ، ومتحمس لمساعدة العملاء في الكشف عن الرؤى من بياناتهم. لقد عمل على بناء حلول لمساعدة المؤسسات على اتخاذ قرارات تعتمد على البيانات في كل من القطاعين العام والخاص. وهو حاصل على جميع شهادات AWS بالإضافة إلى شهادتي GCP.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي. ميناكشيسوندارام ثاندافارايان هو متخصص أول في الذكاء الاصطناعي / تعلم الآلة مع AWS. إنه يساعد الحسابات الإستراتيجية عالية التقنية في رحلة الذكاء الاصطناعي والتعلم الآلي. إنه متحمس للغاية بشأن الذكاء الاصطناعي المستند إلى البيانات.

قم ببناء سير عمل تعلم الآلة لإدارة المخاطر على Amazon SageMaker بدون كود PlatoBlockchain Data Intelligence. البحث العمودي. عاي.دان فيرجسون مهندس حلول في AWS ، ومقرها في نيويورك ، الولايات المتحدة الأمريكية. بصفته خبيرًا في خدمات التعلم الآلي ، يعمل دان على دعم العملاء في رحلتهم نحو دمج تدفقات عمل تعلم الآلة بكفاءة وفعالية واستدامة.

الطابع الزمني:

اكثر من التعلم الآلي من AWS