منذ الأزمة المالية العالمية ، لعبت إدارة المخاطر دورًا رئيسيًا في تشكيل عملية صنع القرار للبنوك ، بما في ذلك التنبؤ بحالة القروض للعملاء المحتملين. غالبًا ما يكون هذا تمرينًا كثيف البيانات يتطلب التعلم الآلي (ML). ومع ذلك ، لا تمتلك جميع المنظمات موارد علوم البيانات والخبرة لبناء سير عمل إدارة المخاطر ML.
الأمازون SageMaker هي عبارة عن منصة ML مُدارة بالكامل تسمح لمهندسي البيانات ومحللي الأعمال ببناء نماذج ML وتدريبها ونشرها بسرعة وسهولة. يمكن لمهندسي البيانات ومحللي الأعمال التعاون باستخدام إمكانيات عدم وجود كود / كود منخفض لـ SageMaker. يمكن لمهندسي البيانات استخدامها أمازون سيج ميكر داتا رانجلر لتجميع البيانات وإعدادها بسرعة لبناء النموذج دون كتابة تعليمات برمجية. ثم يمكن لمحللي الأعمال استخدام واجهة التأشير والنقر المرئية الخاصة بـ قماش أمازون سيج ميكر لتوليد تنبؤات ML دقيقة من تلقاء نفسها.
في هذا المنشور ، نوضح مدى سهولة تعاون مهندسي البيانات ومحللي الأعمال لبناء سير عمل ML يتضمن إعداد البيانات وبناء النماذج والاستدلال دون كتابة تعليمات برمجية.
حل نظرة عامة
على الرغم من أن تطوير ML هو عملية معقدة ومتكررة ، يمكنك تعميم سير عمل ML في إعداد البيانات ، وتطوير النموذج ، ومراحل نشر النموذج.
تلخص Data Wrangler and Canvas تعقيدات إعداد البيانات وتطوير النماذج ، بحيث يمكنك التركيز على تقديم قيمة لعملك من خلال استخلاص رؤى من بياناتك دون أن تكون خبيرًا في تطوير الكود. يبرز مخطط البنية التالي المكونات في حل بدون رمز / رمز منخفض.
خدمة تخزين أمازون البسيطة يعمل (Amazon S3) كمستودع بيانات خاص بنا للبيانات الأولية والبيانات المهندسة وعناصر النماذج. يمكنك أيضًا اختيار استيراد البيانات من الأمازون الأحمر, أمازون أثيناو Databricks و Snowflake.
بصفتنا علماء بيانات ، نستخدم بعد ذلك Data Wrangler لتحليل البيانات الاستكشافية وهندسة الميزات. على الرغم من أن Canvas يمكنها تشغيل مهام هندسية مميزة ، إلا أن هندسة الميزات تتطلب عادةً بعض المعرفة الإحصائية والمعرفة بالمجال لإثراء مجموعة البيانات بالشكل الصحيح لتطوير النموذج. لذلك ، فإننا نعطي هذه المسؤولية لمهندسي البيانات حتى يتمكنوا من تحويل البيانات دون كتابة تعليمات برمجية باستخدام Data Wrangler.
بعد إعداد البيانات ، نقوم بتمرير مسؤوليات بناء النموذج إلى محللي البيانات ، الذين يمكنهم استخدام Canvas لتدريب نموذج دون الحاجة إلى كتابة أي رمز.
أخيرًا ، نقوم بعمل تنبؤات فردية ودُفعية مباشرةً داخل Canvas من النموذج الناتج دون الحاجة إلى نشر نقاط نهاية النموذج بأنفسنا.
نظرة عامة على مجموعة البيانات
نحن نستخدم ميزات SageMaker للتنبؤ بحالة القرض باستخدام نسخة معدلة من Lending Club's مجموعة بيانات تحليل القروض المتاحة للجمهور. تحتوي مجموعة البيانات على بيانات القروض للقروض الصادرة خلال الفترة 2007-2011. الأعمدة التي تصف القرض والمقترض هي ميزاتنا. يمثل العمود قرض_الحالة المتغير الهدف ، وهو ما نحاول التنبؤ به.
للتوضيح في Data Wrangler ، قمنا بتقسيم مجموعة البيانات إلى ملفين CSV: الجزء الأول و الجزء الثاني. لقد أزلنا بعض الأعمدة من مجموعة البيانات الأصلية لـ Lending Club لتبسيط العرض التوضيحي. تحتوي مجموعة البيانات الخاصة بنا على أكثر من 37,000 صف و 21 عمود ميزة ، كما هو موضح في الجدول التالي.
اسم العمود | الوصف |
loan_status |
الوضع الحالي للقرض (المتغير المستهدف). |
loan_amount |
المبلغ المدرج للقرض الذي طلبه المقترض. إذا خفضت إدارة الائتمان مبلغ القرض ، فإن ذلك ينعكس في هذه القيمة. |
funded_amount_by_investors |
المبلغ الإجمالي الذي يلتزم به المستثمرون لهذا القرض في ذلك الوقت. |
term |
عدد مدفوعات القرض. القيم بالأشهر ويمكن أن تكون إما 36 أو 60. |
interest_rate |
سعر الفائدة على القرض. |
installment |
الدفعة الشهرية المستحقة على المقترض إذا نشأ القرض. |
grade |
تم تعيين درجة القرض LC. |
sub_grade |
LC منح القرض الفرعي. |
employment_length |
طول العمل بالسنوات. القيم الممكنة بين 0-10 ، حيث 0 تعني أقل من سنة و 10 تعني عشر سنوات أو أكثر. |
home_ownership |
حالة ملكية المنزل التي يقدمها المقترض أثناء التسجيل. قيمنا هي الإيجار ، والتملك ، والرهن العقاري ، وغيرها. |
annual_income |
الدخل السنوي المبلغ عنه ذاتيًا والذي يقدمه المقترض أثناء التسجيل. |
verification_status |
يشير إلى ما إذا تم التحقق من الدخل أم لا بواسطة LC. |
issued_amount |
الشهر الذي تم فيه تمويل القرض. |
purpose |
فئة يقدمها المقترض لطلب القرض. |
dti |
نسبة محسوبة باستخدام إجمالي مدفوعات الديون الشهرية للمقترض على إجمالي التزامات الدين ، باستثناء الرهن العقاري وقرض خطاب الاعتماد المطلوب ، مقسومًا على الدخل الشهري المبلغ عنه ذاتيًا للمقترض. |
earliest_credit_line |
الشهر الذي تم فيه فتح أول حد ائتماني تم الإبلاغ عنه للمقترض. |
inquiries_last_6_months |
عدد الاستفسارات خلال الأشهر الستة الماضية (باستثناء استفسارات السيارات والرهن). |
open_credit_lines |
عدد خطوط الائتمان المفتوحة في ملف ائتمان المقترض. |
derogatory_public_records |
عدد السجلات العامة المهينة. |
revolving_line_utilization_rate |
معدل استخدام الخط المتجدد ، أو مبلغ الائتمان الذي يستخدمه المقترض بالنسبة لجميع الائتمان المتجدد المتاح. |
total_credit_lines |
العدد الإجمالي لخطوط الائتمان الموجودة حاليًا في ملف ائتمان المقترض. |
نستخدم مجموعة البيانات هذه لإعداد البيانات وتدريب النموذج.
المتطلبات الأساسية المسبقة
أكمل الخطوات الأساسية التالية:
- تحميل كلا ملفات القرض إلى دلو S3 من اختيارك.
- تأكد من أن لديك الأذونات اللازمة. لمزيد من المعلومات ، يرجى الرجوع إلى ابدأ مع داتا رانجلر.
- قم بإعداد مجال SageMaker تم تكوينه لاستخدام Data Wrangler. للحصول على تعليمات ، راجع على متن الطائرة إلى Amazon SageMaker Domain.
استيراد البيانات
إنشاء تدفق بيانات رانجلر جديد من واجهة مستخدم Amazon SageMaker Studio UI.
قم باستيراد البيانات من Amazon S3 عن طريق تحديد ملفات CSV من حاوية S3 حيث وضعت مجموعة البيانات الخاصة بك. بعد استيراد كلا الملفين ، يمكنك رؤية مسارين منفصلين لسير العمل في ملف تدفق البيانات رأي.
يمكنك اختيار عدة خيارات لأخذ العينات عند استيراد بياناتك في تدفق بيانات Wrangler. يمكن أن يساعدك أخذ العينات عندما يكون لديك مجموعة بيانات كبيرة جدًا بحيث لا يمكن تحضيرها بشكل تفاعلي ، أو عندما تريد الاحتفاظ بنسبة الأحداث النادرة في مجموعة البيانات التي تم أخذ عينات منها. نظرًا لأن مجموعة البيانات الخاصة بنا صغيرة ، فإننا لا نستخدم أخذ العينات.
تحضير البيانات
بالنسبة لحالة الاستخدام لدينا ، لدينا مجموعتي بيانات بعمود مشترك: id
. كخطوة أولى في إعداد البيانات ، نريد دمج هذه الملفات من خلال ضمها. للحصول على تعليمات ، راجع تحويل البيانات.
نستخدم انضم خطوة تحويل البيانات واستخدام داخلي نوع الانضمام على id
العمود.
كنتيجة لتحويل الانضمام ، أنشأ Data Wrangler عمودين إضافيين: id_0
و id_1
. ومع ذلك ، فإن هذه الأعمدة غير ضرورية لأغراض بناء النماذج الخاصة بنا. نسقط هذه الأعمدة الزائدة عن الحاجة باستخدام إدارة الأعمدة خطوة التحويل.
لقد قمنا باستيراد مجموعات البيانات الخاصة بنا وضمناها وأزلنا الأعمدة غير الضرورية. نحن الآن جاهزون لإثراء بياناتنا من خلال هندسة الميزات والاستعداد لبناء النموذج.
أداء هندسة الميزات
استخدمنا Data Wrangler لإعداد البيانات. يمكنك أيضًا استخدام ملف ميزة تقرير جودة البيانات والرؤى داخل Data Wrangler للتحقق من جودة بياناتك واكتشاف التشوهات في بياناتك. غالبًا ما يحتاج علماء البيانات إلى استخدام رؤى البيانات هذه لتطبيق معرفة المجال الصحيحة بكفاءة على الميزات الهندسية. بالنسبة إلى هذا المنشور ، نفترض أننا أكملنا تقييمات الجودة هذه ويمكننا الانتقال إلى هندسة الميزات.
في هذه الخطوة ، نقوم بتطبيق بعض التحولات على الأعمدة الرقمية والفئوية والنصية.
نقوم أولاً بتطبيع سعر الفائدة لقياس القيم بين 0-1. نفعل هذا باستخدام عملية رقمية تحويل لتوسيع نطاق interest_rate
العمود باستخدام قشارة min-max. الغرض من التطبيع (أو التوحيد القياسي) هو إزالة التحيز من نموذجنا. لن تساهم المتغيرات التي يتم قياسها بمقاييس مختلفة بالتساوي في عملية تعلم النموذج. لذلك ، فإن وظيفة التحويل مثل تحويل مقياس min-max يساعد في تطبيع الميزات.
لتحويل متغير فئوي إلى قيمة رقمية ، نستخدم ترميزًا واحدًا ساخنًا. نختار تشفير قاطع تحويل ، ثم اختر تشفير واحد ساخن. يُحسِّن التشفير الأحادي الساخن القدرة التنبؤية لنموذج ML. تقوم هذه العملية بتحويل القيمة الفئوية إلى ميزة جديدة عن طريق تعيين قيمة ثنائية 1 أو 0 للميزة. كمثال بسيط ، إذا كان لديك عمود واحد يحتوي على قيمة yes
or no
، سيحول الترميز الساخن واحد هذا العمود إلى عمودين: أ Yes
العمود وأ No
عمود. سيكون للقيمة نعم 1 في Yes
العمود و 0 في No
عمود. يجعل التشفير الأحادي الساخن بياناتنا أكثر فائدة لأن القيم الرقمية يمكن أن تحدد بسهولة احتمالية توقعاتنا.
أخيرًا ، نقوم بتمييز ملف employer_title
العمود لتحويل قيم السلسلة إلى متجه رقمي. نحن نطبق عد Vectorizer و tokenizer قياسي داخل فيكتور تحول. يقسم الترميز (Tokenization) جملة أو سلسلة من النصوص إلى كلمات ، بينما يقوم ناقل الحركة بتحويل البيانات النصية إلى نموذج يمكن قراءته آليًا. يتم تمثيل هذه الكلمات كناقلات.
بعد اكتمال جميع خطوات هندسة الميزات ، يمكننا تصدير البيانات وإخراج النتائج في حاوية S3 الخاصة بنا. بدلاً من ذلك ، يمكنك تصدير التدفق الخاص بك كرمز Python ، أو دفتر ملاحظات Jupyter لإنشاء خط أنابيب باستخدام طريقة العرض الخاصة بك خطوط أنابيب Amazon SageMaker. ضع في اعتبارك هذا عندما تريد تشغيل خطوات هندسة الميزات الخاصة بك على نطاق واسع أو كجزء من خط أنابيب ML.
يمكننا الآن استخدام ملف إخراج Data Wrangler كمدخلات لدينا لـ Canvas. نشير إلى هذا كمجموعة بيانات في Canvas لبناء نموذج ML الخاص بنا.
في حالتنا ، قمنا بتصدير مجموعة البيانات المعدة لدينا إلى دلو الاستوديو الافتراضي بامتداد output
اختصار. نشير إلى موقع مجموعة البيانات هذا عند تحميل البيانات في Canvas لبناء النموذج بعد ذلك.
بناء وتدريب نموذج ML الخاص بك مع Canvas
في وحدة تحكم SageMaker ، قم بتشغيل تطبيق Canvas. لبناء نموذج ML من البيانات المعدة في القسم السابق ، نقوم بتنفيذ الخطوات التالية:
- قم باستيراد مجموعة البيانات المعدة إلى Canvas من دلو S3.
نشير إلى نفس مسار S3 حيث قمنا بتصدير نتائج Data Wrangler من القسم السابق.
- قم بإنشاء نموذج جديد في Canvas وقم بتسميته
loan_prediction_model
. - حدد مجموعة البيانات المستوردة وأضفها إلى كائن النموذج.
لجعل Canvas تبني نموذجًا ، يجب علينا تحديد العمود الهدف.
- نظرًا لأن هدفنا هو التنبؤ باحتمالية قدرة المُقرض على سداد القرض ، فإننا نختار
loan_status
العمود.
يحدد Canvas تلقائيًا نوع بيان مشكلة ML. في وقت كتابة هذا التقرير ، كان Canvas يدعم مشاكل الانحدار والتصنيف وتنبؤ السلاسل الزمنية. يمكنك تحديد نوع المشكلة أو جعل Canvas تستنتج المشكلة تلقائيًا من بياناتك.
- اختر خيارك لبدء عملية بناء النموذج: بناء سريع or بناء قياسي.
• بناء سريع يستخدم الخيار مجموعة البيانات الخاصة بك لتدريب نموذج في غضون 2-15 دقيقة. يكون هذا مفيدًا عندما تقوم بتجربة مجموعة بيانات جديدة لتحديد ما إذا كانت مجموعة البيانات التي لديك ستكون كافية لعمل تنبؤات. نحن نستخدم هذا الخيار لهذا المنشور.
• بناء قياسي يختار الخيار الدقة على السرعة ويستخدم ما يقرب من 250 نموذجًا مرشحًا لتدريب النموذج. تستغرق العملية عادة من ساعة إلى ساعتين.
بعد بناء النموذج ، يمكنك مراجعة نتائج النموذج. تقدر Canvas أن نموذجك قادر على توقع النتيجة الصحيحة بنسبة 82.9٪ من الوقت. قد تختلف النتائج الخاصة بك بسبب التباين في نماذج التدريب.
بالإضافة إلى ذلك ، يمكنك التعمق في تحليل تفاصيل النموذج لمعرفة المزيد عن النموذج.
تمثل أهمية الميزة الأهمية المقدرة لكل ميزة في توقع العمود الهدف. في هذه الحالة ، يكون لعمود حد الائتمان التأثير الأكثر أهمية في توقع ما إذا كان العميل سيدفع مبلغ القرض ، متبوعًا بمعدل الفائدة والدخل السنوي.
مصفوفة الارتباك في المقاييس المتقدمة يحتوي القسم على معلومات للمستخدمين الذين يريدون فهمًا أعمق لأداء نموذجهم.
قبل أن تتمكن من نشر النموذج الخاص بك لأحمال عمل الإنتاج ، استخدم Canvas لاختبار النموذج. يدير Canvas نقطة نهاية نموذجنا ويسمح لنا بعمل تنبؤات مباشرة في واجهة مستخدم Canvas.
- اختار تنبؤ ومراجعة النتائج على أي منهما توقع الدفعة or توقع واحد علامة التبويب.
في المثال التالي ، نقوم بعمل تنبؤ واحد عن طريق تعديل القيم للتنبؤ بالمتغير المستهدف loan_status
في الوقت الحقيقي
يمكننا أيضًا تحديد مجموعة بيانات أكبر والحصول على تنبؤات Canvas للدُفعات نيابةً عنا.
وفي الختام
يعد التعلم الآلي الشامل معقدًا ومتكررًا ، وغالبًا ما يتضمن العديد من الشخصيات والتقنيات والعمليات. تتيح Data Wrangler and Canvas التعاون بين الفرق دون مطالبة هذه الفرق بكتابة أي تعليمات برمجية.
يمكن لمهندس البيانات تحضير البيانات بسهولة باستخدام Data Wrangler دون كتابة أي رمز وتمرير مجموعة البيانات المعدة إلى محلل أعمال. يمكن لمحلل الأعمال بعد ذلك إنشاء نماذج ML دقيقة بسهولة بنقرات قليلة باستخدام Canvas والحصول على تنبؤات دقيقة في الوقت الفعلي أو دفعة واحدة.
ابدأ مع داتا رانجلر باستخدام هذه الأدوات دون الحاجة إلى إدارة أي بنية أساسية. تستطيع إعداد قماش ابدأ بسرعة وعلى الفور في إنشاء نماذج ML لدعم احتياجات عملك.
حول المؤلف
بيتر تشونج هو مهندس حلول لـ AWS ، ومتحمس لمساعدة العملاء في الكشف عن الرؤى من بياناتهم. لقد عمل على بناء حلول لمساعدة المؤسسات على اتخاذ قرارات تعتمد على البيانات في كل من القطاعين العام والخاص. وهو حاصل على جميع شهادات AWS بالإضافة إلى شهادتي GCP.
ميناكشيسوندارام ثاندافارايان هو متخصص أول في الذكاء الاصطناعي / تعلم الآلة مع AWS. إنه يساعد الحسابات الإستراتيجية عالية التقنية في رحلة الذكاء الاصطناعي والتعلم الآلي. إنه متحمس للغاية بشأن الذكاء الاصطناعي المستند إلى البيانات.
دان فيرجسون مهندس حلول في AWS ، ومقرها في نيويورك ، الولايات المتحدة الأمريكية. بصفته خبيرًا في خدمات التعلم الآلي ، يعمل دان على دعم العملاء في رحلتهم نحو دمج تدفقات عمل تعلم الآلة بكفاءة وفعالية واستدامة.
- كوينسمارت. أفضل بورصة للبيتكوين والعملات المشفرة في أوروبا.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. دخول مجاني.
- كريبتوهوك. الرادار. تجربة مجانية.
- المصدر: https://aws.amazon.com/blogs/machine-learning/build-a-risk-management-machine-learning-workflow-on-amazon-sagemaker-with-no-code/
- "
- 000
- 10
- 100
- من نحن
- الملخص
- دقيق
- إضافة
- إضافي
- AI
- الكل
- بالرغم ان
- أمازون
- كمية
- تحليل
- المحلل
- سنوي
- تطبيق
- التقديم
- ما يقرب من
- هندسة معمارية
- تعيين
- السيارات
- متاح
- AWS
- البنوك
- يجري
- الحدود
- فواصل
- نساعدك في بناء
- ابني
- الأعمال
- المرشحين
- قماش
- قدرات
- الفئة
- خيار
- اختار
- تصنيف
- الكود
- تعاون
- للاتعاون
- عمود
- ملتزم
- مشترك
- مجمع
- التعقيدات
- ارتباك
- كنسولات
- يحتوي
- المساهمة
- خلق
- يخلق
- خلق
- ائتمان
- أزمة
- حاليا
- زبون
- العملاء
- البيانات
- تحليل البيانات
- علم البيانات
- دين
- القرارات
- أعمق
- تقديم
- شرح
- نشر
- نشر
- وصف
- تفاصيل
- حدد
- التطوير التجاري
- مختلف
- مباشرة
- نطاق
- إلى أسفل
- رسم
- قطرة
- أثناء
- بسهولة
- بكفاءة
- القضاء
- تمكين
- نقطة النهاية
- مهندس
- الهندسة
- المهندسين
- مقدر
- تقديرات
- أحداث
- مثال
- ممارسة
- خبير
- خبرة
- الميزات
- المميزات
- مالي
- أزمة مالية
- الاسم الأول
- تدفق
- تركز
- متابعيك
- النموذج المرفق
- وظيفة
- الممولة
- توليد
- العالمية
- هدف
- وجود
- ارتفاع
- مساعدة
- مساعدة
- يساعد
- يحمل
- الصفحة الرئيسية
- كيفية
- لكن
- HTTPS
- التأثير
- أهمية
- استيراد
- بما فيه
- دخل
- معلومات
- البنية التحتية
- إدخال
- رؤى
- مصلحة
- السطح البيني
- المستثمرين
- IT
- الانضمام
- انضم
- رحلة
- المعرفة
- كبير
- أكبر
- إطلاق
- تعلم
- تعلم
- الإقراض
- خط
- المدرج
- جار التحميل
- القروض
- موقع
- آلة
- آلة التعلم
- رائد
- يصنع
- إدارة
- تمكن
- إدارة
- مصفوفة
- يعني
- ML
- نموذج
- عارضات ازياء
- شهر
- المقبلة.
- الأكثر من ذلك
- أكثر
- خطوة
- متعدد
- ضروري
- إحتياجات
- نيويورك
- مفكرة
- عدد
- الالتزامات
- جاكيت
- خيار
- مزيد من الخيارات
- المنظمات
- أخرى
- الخاصة
- ملكية
- جزء
- عاطفي
- وسائل الدفع
- المدفوعات
- أداء
- المنصة
- ممكن
- محتمل
- تنبأ
- تنبؤ
- تنبؤات
- إعداد
- سابق
- خاص
- المشكلة
- مشاكل
- عملية المعالجة
- العمليات
- الإنتــاج
- جمهور
- غرض
- أغراض
- جودة
- سريع
- بسرعة
- الخام
- تسجيل
- التسجيل
- الاجار
- تقرير
- مستودع
- ممثلة
- يمثل
- طلب
- يتطلب
- الموارد
- المسؤوليات
- مسؤولية
- النتائج
- مراجعة
- المخاطرة
- نماذج إدارة المخاطر
- يجري
- حجم
- علوم
- العلماء
- قطاعات
- مسلسلات
- خدمات
- عدة
- هام
- الاشارات
- صغير
- So
- الصلبة
- حل
- الحلول
- بعض
- متخصص
- سرعة
- انقسم
- مراحل
- معيار
- بداية
- بدأت
- ملخص الحساب
- إحصائي
- الحالة
- تخزين
- إستراتيجي
- ستوديو
- الدعم
- الدعم
- الهدف
- المهام
- التكنولوجيا
- تجربه بالعربي
- وبالتالي
- عبر
- الوقت
- Tokenization
- أدوات
- قادة الإيمان
- تحول
- تحول
- فهم
- us
- الولايات المتحدة الأميركية
- تستخدم
- المستخدمين
- عادة
- قيمنا
- تحقق من
- الإصدار
- المزيد
- ابحث عن
- من الذى
- في غضون
- بدون
- كلمات
- أعمال
- سوف
- جاري الكتابة
- عام
- سنوات