اليوم ، نطلق حلاً جديدًا للتعلم الآلي للرسم البياني المالي (ML) في أمازون سيج ميكر جومب ستارت. تساعدك JumpStart على البدء بسرعة مع ML وتوفر مجموعة من الحلول لحالات الاستخدام الأكثر شيوعًا التي يمكن تدريبها ونشرها ببضع نقرات فقط.
يوضح حل JumpStart الجديد (التقييم الائتماني المستند إلى الرسم البياني) كيفية إنشاء شبكة شركة من ملفات SEC (بيانات نصية طويلة الشكل) ، ودمجها مع النسب المالية (البيانات الجدولية) ، واستخدام الشبكات العصبية للرسم البياني (GNNs) لبناء الائتمان نماذج التنبؤ التصنيف. في هذا المنشور ، نشرح كيف يمكنك استخدام هذا الحل القابل للتخصيص بالكامل لتسجيل الائتمان ، حتى تتمكن من تسريع رحلة تعلم الرسم البياني. أصبح Graph ML مجالًا مثمرًا للتعلم المالي لأنه يتيح استخدام بيانات الشبكة جنبًا إلى جنب مع مجموعات البيانات المجدولة التقليدية. لمزيد من المعلومات، راجع أمازون في WSDM: مستقبل الشبكات العصبية للرسم البياني.
حل نظرة عامة
يمكنك تحسين درجة الائتمان من خلال استغلال البيانات الموجودة على الروابط التجارية ، والتي يمكنك إنشاء رسم بياني لها ، يُشار إليه باسم CorpNet (اختصار لشبكة الشركة) في هذا الحل. يمكنك بعد ذلك تطبيق تصنيف ML للرسم البياني باستخدام GNNs في هذا الرسم البياني ومجموعة ميزات جدولة للعقد ، لمعرفة ما إذا كان يمكنك بناء نموذج ML أفضل من خلال زيادة استغلال المعلومات في علاقات الشبكة. لذلك ، يقدم هذا الحل نموذجًا لنماذج الأعمال التي تستغل بيانات الشبكة ، مثل استخدام الرسوم البيانية لعلاقة سلسلة التوريد والرسوم البيانية للشبكات الاجتماعية والمزيد.
يطور الحل العديد من القطع الأثرية الجديدة من خلال إنشاء شبكة شركة وإنشاء بيانات مالية تركيبية ، ويجمع كلا شكلي البيانات لإنشاء نماذج باستخدام الرسم البياني ML.
يوضح الحل كيفية إنشاء شبكة من الشركات المتصلة باستخدام قسم MD&A من ملفات SEC 10-K / Q. من المرجح أن تكون الشركات التي لديها بيانات تطلعية مماثلة مرتبطة بأحداث ائتمانية. يتم تمثيل هذه الاتصالات في رسم بياني. بالنسبة لميزات عقدة الرسم البياني ، يستخدم الحل المتغيرات في نموذج Altman Z-Score وفئة الصناعة لكل شركة. يتم توفيرها في مجموعة بيانات تركيبية متاحة لأغراض العرض التوضيحي. تُستخدم بيانات الرسم البياني والبيانات المجدولة لتلائم مصنف التصنيف باستخدام شبكات GNN. لأغراض التوضيح ، نقوم بمقارنة أداء النماذج بمعلومات الرسم البياني وبدونها.
استخدم حل التصنيف الائتماني المستند إلى الرسم البياني
لبدء استخدام JumpStart ، راجع الشروع في العمل مع Amazon SageMaker. تتوفر بطاقة JumpStart الخاصة بحل التصنيف الائتماني المستند إلى الرسم البياني من خلال أمازون ساجميكر ستوديو.
يولد الحل نموذجًا للاستدلال ونقطة نهاية لاستخدامها مع جهاز كمبيوتر محمول.
- انتظر حتى يكونوا جاهزين وستظهر الحالة كـ
Complete
. - اختار افتح المفكرة لفتح دفتر الملاحظات الأول المخصص للتدريب ونشر نقطة النهاية.
يمكنك العمل من خلال هذا الكمبيوتر الدفتري لمعرفة كيفية استخدام هذا الحل ثم تعديله لتطبيقات أخرى على بياناتك الخاصة. يأتي الحل مع بيانات تركيبية ويستخدم مجموعة فرعية منها لتوضيح الخطوات اللازمة لتدريب النموذج ، ونشره في نقطة نهاية ، ثم استدعاء نقطة النهاية للاستدلال. يحتوي الكمبيوتر الدفتري أيضًا على رمز لنشر نقطة نهاية خاصة بك.
- لفتح دفتر الملاحظات الثاني (المستخدم للاستدلال) ، اختر استخدم نقطة النهاية في دفتر الملاحظات بجانب عنصر نقطة النهاية.
في دفتر الملاحظات هذا ، يمكنك معرفة كيفية تحضير البيانات لاستدعاء مثال نقطة النهاية لإجراء الاستدلال على مجموعة من الأمثلة.
تقوم نقطة النهاية بإرجاع التصنيفات المتوقعة ، والتي تُستخدم لتقييم أداء النموذج ، كما هو موضح في لقطة الشاشة التالية لمجموعة التعليمات البرمجية الأخيرة في دفتر الاستدلال.
يمكنك استخدام هذا الحل كقالب لنموذج التصنيف الائتماني المحسن بالرسوم البيانية. لست مقيدًا بالميزة المعينة في هذا المثال - يمكنك تغيير بيانات الرسم البياني والبيانات الجدولية لحالة الاستخدام الخاصة بك. مدى تغييرات التعليمات البرمجية المطلوبة هو الحد الأدنى. نوصي بالعمل من خلال مثال النموذج الخاص بنا لفهم بنية الحل ، ثم تعديله حسب الحاجة.
هذا الحل لأغراض توضيحية فقط. إنها ليست نصيحة مالية ولا ينبغي الاعتماد عليها كمشورة مالية أو استثمارية. تستخدم دفاتر الملاحظات المرتبطة ، بما في ذلك النموذج المدرب ، بيانات تركيبية وليست مخصصة للاستخدام الإنتاجي. على الرغم من استخدام النص من إيداعات SEC ، إلا أن البيانات المالية يتم إنشاؤها بشكل عشوائي وعشوائي وليس لها علاقة بالبيانات المالية الحقيقية لأي شركة. لذلك ، فإن التصنيفات التي تم إنشاؤها صناعياً ليس لها أي علاقة بالتقييم الحقيقي لأي شركة حقيقية.
البيانات المستخدمة في الحل
تحتوي مجموعة البيانات على بيانات جدولية تركيبية مثل نسب المحاسبة المختلفة (العددية) ورموز الصناعة (الفئوية). مجموعة البيانات لديها 𝑁= 3286 صفًا. يتم إضافة تسميات التصنيف أيضا. هذه هي ميزات العقدة التي سيتم استخدامها مع الرسم البياني ML.
تحتوي مجموعة البيانات أيضًا على رسم بياني للشركة ، وهو غير موجه وغير مرجح. يتيح لك هذا الحل ضبط بنية الرسم البياني عن طريق تغيير طريقة تضمين الروابط. يتم تمثيل كل شركة في مجموعة البيانات الجدولية بواسطة عقدة في الرسم البياني للشركة. الوظيفة construct_network_data()
يساعد في إنشاء الرسم البياني ، الذي يتألف من قوائم العقد المصدر وعقد الوجهة.
تُستخدم ملصقات التصنيف للتصنيف باستخدام GNNs ، والتي يمكن أن تكون متعددة الفئات لجميع التصنيفات أو ثنائية ، مقسمة بين الدرجة الاستثمارية (AAA ، AA ، A ، BBB) والدرجة غير الاستثمارية (BB ، B ، CCC ، CC ، C ، د). D هنا تعني المتعثرين.
يتم توفير الكود الكامل لقراءة البيانات وتشغيل الحل في دفتر ملاحظات الحل. تُظهر لقطة الشاشة التالية بنية البيانات الجدولية التركيبية.
يتم تمرير معلومات الرسم البياني إلى مكتبة الرسم البياني العميق ودمجت مع البيانات المجدولة لإجراء ML الرسم البياني. إذا قمت بإحضار الرسم البياني الخاص بك ، فما عليك سوى توفيره كمجموعة من العقد المصدر وعقد الوجهة.
تدريب نموذجي
للمقارنة ، نقوم أولاً بتدريب نموذج فقط على البيانات الجدولية باستخدام AutoGluon، بمحاكاة النهج التقليدي للتصنيف الائتماني للشركات. ثم نضيف بيانات الرسم البياني ونستخدم شبكات GNN للتدريب. يتم توفير التفاصيل الكاملة في دفتر الملاحظات ، ويتم تقديم نظرة عامة موجزة في هذا المنشور. يوفر الكمبيوتر المحمول أيضًا نظرة عامة سريعة على الرسم البياني ML مع المراجع المختارة.
يتم تدريب GNN على النحو التالي. نحن نستخدم تكييف نموذج GraphSAGE تم تنفيذها في مكتبة الرسم البياني العميق.
- قراءة في بيانات الرسم البياني من خدمة تخزين أمازون البسيطة (Amazon S3) وأنشئ قوائم عقدة المصدر والوجهة لـ CorpNet.
- اقرأ في مجموعات ميزات عقدة الرسم البياني (تدريب واختبار). تطبيع البيانات كما هو مطلوب.
- اضبط معلمات تشعبية قابلة للضبط. قم باستدعاء حاوية الرسم البياني المتخصصة ML التي تشغل PyTorch لتلائم GNN بدون تحسين المعلمة الفائقة (HPO).
- كرر الرسم البياني ML مع HPO.
لجعل التنفيذ مباشرًا ومستقرًا ، نقوم بتشغيل تدريب نموذجي في حاوية باستخدام الكود التالي (رمز الإعداد السابق لرمز التدريب موجود في دفتر الحل):
يتم تنفيذ عملية التدريب الحالية في إعداد تحويلية ، حيث يتم استخدام ميزات مجموعة بيانات الاختبار (لا تشمل العمود الهدف) لإنشاء الرسم البياني وبالتالي يتم تضمين عقد الاختبار في عملية التدريب. في نهاية التدريب ، يتم إنشاء التنبؤات على مجموعة بيانات الاختبار وحفظها output_location
في دلو S3.
على الرغم من أن التدريب تحويلي ، إلا أن تسميات مجموعة بيانات الاختبار لا تُستخدم للتدريب ، ويهدف تمريننا إلى التنبؤ بهذه التسميات باستخدام عمليات دمج العقد لعقد مجموعة بيانات الاختبار. ميزة مهمة في GraphSAGE هي أن التعلم الاستقرائي على الملاحظات الجديدة التي ليست جزءًا من الرسم البياني ممكن أيضًا ، على الرغم من عدم استغلاله في هذا الحل.
تحسين Hyperparameter
يتم تمديد هذا الحل عن طريق إجراء HPO على GNN. يتم ذلك داخل SageMaker. انظر الكود التالي:
ثم قمنا بإعداد هدف التدريب ، لتعظيم درجة F1 في هذه الحالة:
إنشاء البيئة المختارة وموارد التدريب على SageMaker:
أخيرًا ، قم بتشغيل وظيفة التدريب باستخدام تحسين المعلمة الفائقة:
النتائج
يؤدي تضمين بيانات الشبكة وتحسين المعلمة الفائقة إلى نتائج محسّنة. توضح مقاييس الأداء في الجدول التالي فائدة إضافة CorpNet إلى مجموعات البيانات الجدولية القياسية المستخدمة لتسجيل الائتمان.
نتائج AutoGluon لا تستخدم الرسم البياني ، فقط البيانات الجدولية. عندما نضيف بيانات الرسم البياني ونستخدم HPO ، نحصل على مكاسب مادية في الأداء.
نقاط F1 | روك الجامعة الأمريكية | دقة | MCC | دقة متوازنة | دقة | تذكر | |
AutoGluon | 0.72 | 0.74323 | 0.68037 | 0.35233 | 0.67323 | 0.68528 | 0.75843 |
GCN بدون HPO | 0.64 | 0.84498 | 0.69406 | 0.45619 | 0.71154 | 0.88177 | 0.50281 |
GCN مع HPO | 0.81 | 0.87116 | 0.78082 | 0.563 | 0.77081 | 0.75119 | 0.89045 |
(ملاحظة: MCC هو معامل ارتباط ماثيوز ؛ https://en.wikipedia.org/wiki/Phi_coefficient.)
تنظيف
بعد أن تنتهي من استخدام هذا الكمبيوتر الدفتري ، احذف عيوب النموذج والموارد الأخرى لتجنب تكبد المزيد من الرسوم. تحتاج إلى حذف الموارد التي قد تكون أنشأتها يدويًا أثناء تشغيل الكمبيوتر الدفتري ، مثل حاويات S3 للقطع الأثرية للنماذج ومجموعات بيانات التدريب ومعالجة العناصر الأثرية و الأمازون CloudWatch مجموعات السجل.
نبذة عامة
في هذا المنشور ، قدمنا حلاً لتسجيل الائتمان قائم على الرسم البياني في JumpStart لمساعدتك على تسريع رحلة تعلم الرسم البياني الخاصة بك. يوفر الكمبيوتر الدفتري خط أنابيب يمكنك تعديله واستغلال الرسوم البيانية باستخدام النماذج المجدولة الحالية للحصول على أداء أفضل.
للبدء ، يمكنك العثور على حل تسجيل الائتمان المستند إلى الرسم البياني في JumpStart في استوديو SageMaker.
حول المؤلف
د. سانجيف داس هو باحث في أمازون وأستاذ تيري للتمويل وعلوم البيانات في جامعة سانتا كلارا. وهو حاصل على درجات دراسات عليا في العلوم المالية (ماجستير ودكتوراه من جامعة نيويورك) وعلوم الكمبيوتر (ماجستير من جامعة كاليفورنيا في بيركلي) ، وماجستير في إدارة الأعمال من المعهد الهندي للإدارة ، أحمد آباد. قبل أن يصبح أكاديميًا ، عمل في مجال المشتقات في منطقة آسيا والمحيط الهادئ كنائب رئيس في Citibank. يعمل على التعلم الآلي متعدد الوسائط في مجال التطبيقات المالية.
الدكتور شين هوانغ هو عالم تطبيقي ل أمازون سيج ميكر جومب ستارت و خوارزميات Amazon SageMaker المضمنة. إنه يركز على تطوير خوارزميات التعلم الآلي القابلة للتطوير. تتركز اهتماماته البحثية في مجالات معالجة اللغة الطبيعية ، والتعلم العميق على البيانات المجدولة ، والتحليل القوي لتجميع الزمكان غير المعياري.
سوجي أديشينا هو عالم تطبيقي في AWS ، حيث طور نماذج قائمة على الشبكة العصبية للرسم البياني للتعلم الآلي في مهام الرسوم البيانية مع تطبيقات الاحتيال وإساءة الاستخدام والرسوم البيانية المعرفية وأنظمة التوصية وعلوم الحياة. في أوقات فراغه ، يستمتع بالقراءة والطبخ.
باتريك يانغ هو مهندس تطوير برمجيات في Amazon SageMaker. يركز على بناء أدوات ومنتجات التعلم الآلي للعملاء.
- كوينسمارت. أفضل بورصة للبيتكوين والعملات المشفرة في أوروبا.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. دخول مجاني.
- كريبتوهوك. الرادار. تجربة مجانية.
- المصدر: https://aws.amazon.com/blogs/machine-learning/build-a-corporate-credit-ratings-classifier-using-graph-machine-learning-in-amazon-sagemaker-jumpstart/
- "
- 100
- 70
- 9
- تسريع
- المحاسبة
- نصيحة
- خوارزميات
- الكل
- بالرغم ان
- أمازون
- تحليل
- التطبيقات
- نهج
- هندسة معمارية
- المنطقة
- حول
- متاح
- AWS
- أن تصبح
- يجري
- تستفيد
- بيركلي
- حظر
- الحدود
- نساعدك في بناء
- ابني
- مدمج
- الأعمال
- دعوة
- الحالات
- الفئة
- سلسلة
- تغيير
- اسعارنا محددة من قبل وزارة العمل
- اختار
- تصنيف
- الكود
- عمود
- الجمع بين
- مشترك
- الشركات
- حول الشركة
- الشركة
- الكمبيوتر
- علوم الكمبيوتر
- متصل
- التواصل
- وعاء
- يحتوي
- منظمة
- خلق
- خلق
- ائتمان
- حالياًّ
- العملاء
- للتخصيص
- البيانات
- علم البيانات
- شرح
- نشر
- نشر
- نشر
- المشتقات
- تفاصيل
- تطوير
- التطوير التجاري
- ديناميكي
- نقطة النهاية
- مهندس
- البيئة
- أحداث
- مثال
- ممارسة
- القائمة
- استغلال
- الميزات
- المميزات
- تمويل
- مالي
- البيانات المالية
- المالية
- شركة
- الاسم الأول
- تناسب
- ويركز
- متابعيك
- أشكال
- تطلعي
- احتيال
- بالإضافة إلى
- وظيفة
- إضافي
- مستقبل
- توليد
- مجموعات
- ارتفاع
- مساعدة
- يساعد
- هنا
- يحمل
- كيفية
- كيفية
- HTTPS
- التنفيذ
- نفذت
- أهمية
- تحسن
- تحسن
- شامل
- بما فيه
- إدراجه
- العالمية
- معلومات
- السريرية
- استثمار
- IT
- وظيفة
- المشــاريــع
- المعرفة
- ملصقات
- لغة
- تعلم
- تعلم
- المكتبة
- علوم الحياة
- على الأرجح
- وصلات
- قوائم
- آلة
- آلة التعلم
- صنع
- إدارة
- يدويا
- مادة
- المقاييس
- ML
- نموذج
- عارضات ازياء
- مراقبة
- الأكثر من ذلك
- أكثر
- طبيعي
- شبكة
- بيانات الشبكة
- القائم على الشبكة
- الشبكات
- نيويورك
- العقد
- مفكرة
- عرضت
- عروض
- جاكيت
- التحسين
- أخرى
- الخاصة
- أداء
- تجمع
- ممكن
- تنبؤ
- تنبؤات
- إعداد
- رئيس
- سابق
- عملية المعالجة
- معالجة
- الإنتــاج
- المنتجات
- ويوفر
- غرض
- أغراض
- سريع
- بسرعة
- تصنيف
- تقييمات
- نادي القراءة
- نوصي
- صلة
- العلاقات
- مطلوب
- بحث
- الموارد
- النتائج
- عائدات
- يجري
- تشغيل
- سانتا
- تحجيم
- علوم
- علوم
- عالم
- بحث
- ثانية
- مختار
- طقم
- ضبط
- الإعداد
- قصير
- مماثل
- الاشارات
- So
- العدالة
- الشبكة الاجتماعية
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- الصلبة
- حل
- الحلول
- متخصص
- معيار
- المدرجات
- بداية
- بدأت
- البيانات
- الحالة
- تخزين
- بنجاح
- تزويد
- سلسلة التوريد
- أنظمة
- الهدف
- المهام
- تجربه بالعربي
- المصدر
- وبالتالي
- عبر
- الوقت
- أدوات
- تقليدي
- قادة الإيمان
- فهم
- جامعة
- تستخدم
- التحقق من صحة
- مختلف
- Vice President
- في حين
- ويكيبيديا
- في غضون
- بدون
- للعمل
- عمل
- عامل
- أعمال