امروز، ما یک راه حل جدید برای یادگیری ماشین گراف مالی (ML) را منتشر می کنیم Amazon SageMaker JumpStart. JumpStart به شما کمک میکند تا به سرعت با ML شروع کنید و مجموعهای از راهحلها را برای رایجترین موارد استفاده ارائه میدهد که فقط با چند کلیک میتوان آنها را آموزش و اجرا کرد.
راه حل جدید JumpStart (امتیاز اعتبار مبتنی بر نمودار) نشان می دهد که چگونه می توان یک شبکه شرکتی از پرونده های SEC (داده های متنی بلند فرم) ایجاد کرد، این را با نسبت های مالی (داده های جدولی) ترکیب کرد و از شبکه های عصبی نموداری (GNN) برای ایجاد اعتبار استفاده کرد. مدل های پیش بینی رتبه در این پست توضیح می دهیم که چگونه می توانید از این راه حل کاملاً قابل تنظیم برای امتیازدهی اعتبار استفاده کنید تا بتوانید سفر ML نمودار خود را تسریع کنید. Graph ML در حال تبدیل شدن به یک منطقه پربار برای ML مالی است زیرا استفاده از داده های شبکه را در ارتباط با مجموعه داده های جدولی سنتی امکان پذیر می کند. برای اطلاعات بیشتر ببین آمازون در WSDM: آینده شبکه های عصبی گراف.
بررسی اجمالی راه حل
میتوانید امتیاز اعتباری را با بهرهبرداری از دادههای پیوندهای تجاری بهبود ببخشید، که میتوانید برای آن نموداری بسازید که در این راهحل با CorpNet (مخفف شبکه شرکتی) مشخص میشود. سپس میتوانید طبقهبندی گراف ML را با استفاده از GNN در این نمودار و مجموعه ویژگیهای جدولی برای گرهها اعمال کنید تا ببینید آیا میتوانید با بهرهبرداری بیشتر از اطلاعات در روابط شبکه، مدل ML بهتری بسازید. بنابراین، این راهحل الگویی برای مدلهای کسبوکار ارائه میدهد که از دادههای شبکه بهرهبرداری میکنند، مانند استفاده از نمودارهای ارتباط زنجیره تأمین، نمودارهای شبکههای اجتماعی و موارد دیگر.
این راه حل چندین مصنوع جدید را با ساخت شبکه شرکتی و تولید داده های مالی مصنوعی ایجاد می کند و هر دو شکل داده را برای ایجاد مدل هایی با استفاده از گراف ML ترکیب می کند.
راه حل نشان می دهد که چگونه می توان شبکه ای از شرکت های متصل را با استفاده از بخش MD&A از فایل های SEC 10-K/Q ساخت. شرکتهایی با اظهارات آیندهنگر مشابه احتمالاً برای رویدادهای اعتباری مرتبط هستند. این ارتباطات در یک نمودار نشان داده شده است. برای ویژگیهای گره گراف، راهحل از متغیرهای مدل Altman Z-score و دسته صنعت هر شرکت استفاده میکند. اینها در یک مجموعه داده مصنوعی ارائه شده است که برای اهداف نمایشی در دسترس است. دادههای نمودار و دادههای جدولی برای برازش طبقهبندیکننده رتبهبندی با استفاده از GNN استفاده میشوند. برای اهداف توضیحی، ما عملکرد مدلها را با و بدون اطلاعات نمودار مقایسه میکنیم.
از راه حل امتیازدهی اعتباری مبتنی بر نمودار استفاده کنید
برای شروع استفاده از JumpStart، نگاه کنید شروع کار با Amazon SageMaker. کارت JumpStart برای راه حل امتیازدهی مبتنی بر نمودار از طریق در دسترس است Amazon SageMaker Studio.
راه حل یک مدل برای استنتاج و یک نقطه پایانی برای استفاده در یک دفترچه ایجاد می کند.
- منتظر بمانید تا آماده شوند و وضعیت به صورت نمایش داده شود
Complete
. - را انتخاب کنید نوت بوک را باز کنید برای باز کردن اولین نوت بوک که برای آموزش و استقرار نقطه پایانی است.
می توانید از طریق این نوت بوک کار کنید تا نحوه استفاده از این راه حل را بیاموزید و سپس آن را برای سایر برنامه های کاربردی در داده های خود تغییر دهید. راهحل با دادههای مصنوعی ارائه میشود و از زیرمجموعهای از آن برای نمونهسازی مراحل مورد نیاز برای آموزش مدل، استقرار آن در نقطه پایانی و سپس فراخوانی نقطه پایانی برای استنتاج استفاده میکند. این نوت بوک همچنین حاوی کدی برای استقرار یک نقطه پایانی است.
- برای باز کردن نوت بوک دوم (که برای استنتاج استفاده می شود)، را انتخاب کنید از Endpoint در Notebook استفاده کنید در کنار مصنوع نقطه پایانی
در این دفترچه یادداشت، میتوانید نحوه آمادهسازی دادهها را برای فراخوانی نقطه پایانی مثال برای انجام استنتاج روی دستهای از مثالها ببینید.
نقطه پایانی رتبهبندیهای پیشبینیشده را برمیگرداند، که برای ارزیابی عملکرد مدل استفاده میشود، همانطور که در تصویر زیر از آخرین بلوک کد دفتر استنتاج نشان داده شده است.
شما می توانید از این راه حل به عنوان الگویی برای مدل رتبه بندی اعتباری ارتقا یافته با نمودار استفاده کنید. شما محدود به مجموعه ویژگی در این مثال نیستید—شما میتوانید دادههای نمودار و دادههای جدولی را برای مورد استفاده خود تغییر دهید. میزان تغییرات کد مورد نیاز حداقل است. توصیه می کنیم برای درک ساختار راه حل از طریق مثال الگو کار کنید و سپس در صورت نیاز آن را اصلاح کنید.
این راه حل فقط برای اهداف نمایشی است. این مشاوره مالی نیست و نباید به عنوان مشاوره مالی یا سرمایه گذاری به آن اعتماد کرد. نوت بوک های مرتبط، از جمله مدل آموزش دیده، از داده های مصنوعی استفاده می کنند و برای استفاده تولیدی در نظر گرفته نشده اند. اگرچه متن از پرونده های SEC استفاده می شود، داده های مالی به صورت مصنوعی و تصادفی تولید می شوند و هیچ ارتباطی با وضعیت مالی واقعی هیچ شرکتی ندارند. بنابراین، رتبهبندیهای مصنوعی ایجاد شده نیز هیچ ارتباطی با رتبهبندی واقعی هیچ شرکتی ندارند.
داده های مورد استفاده در راه حل
مجموعه داده دارای داده های جدولی مصنوعی مانند نسبت های حسابداری مختلف (عددی) و کدهای صنعت (مقوله ای) است. مجموعه داده دارد 𝑁= 3286 ردیف. برچسب های رتبه بندی نیز اضافه شده است. اینها ویژگی های گره ای هستند که با گراف ML استفاده می شوند.
مجموعه داده همچنین حاوی یک نمودار شرکتی است که بدون جهت و وزن ندارد. این راه حل به شما اجازه می دهد تا ساختار نمودار را با تغییر نحوه گنجاندن پیوندها تنظیم کنید. هر شرکت در مجموعه داده جدولی با یک گره در نمودار شرکتی نشان داده می شود. کارکرد construct_network_data()
به ساخت نمودار کمک می کند، که شامل لیستی از گره های مبدا و گره های مقصد است.
برچسبهای رتبهبندی برای طبقهبندی با استفاده از GNN استفاده میشوند، که میتواند چند طبقهای برای همه رتبهبندیها یا باینری باشد، که بین درجه سرمایهگذاری (AAA، AA، A، BBB) و درجه غیرسرمایهگذاری (BB، B، CCC، CC، C، د). D در اینجا مخفف defaulted است.
کد کامل برای خواندن در داده ها و اجرای راه حل در دفترچه راه حل ارائه شده است. تصویر زیر ساختار داده های جدولی مصنوعی را نشان می دهد.
اطلاعات نمودار به کتابخانه نمودار عمیق و برای انجام نمودار ML با داده های جدولی ترکیب شد. اگر گراف خود را می آورید، به سادگی آن را به عنوان مجموعه ای از گره های مبدا و گره های مقصد عرضه کنید.
آموزش مدل
برای مقایسه، ابتدا یک مدل را با استفاده از دادههای جدولی آموزش میدهیم AutoGluon، تقلید از رویکرد سنتی به رتبه بندی اعتباری شرکت ها. سپس داده های نمودار را اضافه می کنیم و از GNN برای آموزش استفاده می کنیم. جزئیات کامل در دفترچه یادداشت ارائه شده است و یک مرور مختصر در این پست ارائه شده است. این نوت بوک همچنین یک نمای کلی از نمودار ML با منابع انتخاب شده ارائه می دهد.
آموزش GNN به شرح زیر انجام می شود. ما از اقتباسی استفاده می کنیم مدل GraphSAGE در کتابخانه Deep Graph پیاده سازی شده است.
- خواندن داده های نمودار از سرویس ذخیره سازی ساده آمازون (Amazon S3) و لیست گره های مبدا و مقصد را برای CorpNet ایجاد کنید.
- در مجموعه ویژگی های گره گراف (آموزش و آزمایش) بخوانید. در صورت لزوم داده ها را عادی کنید.
- تنظیم فراپارامترهای قابل تنظیم کانتینر گراف تخصصی ML را که PyTorch را اجرا می کند، فراخوانی کنید تا GNN بدون بهینه سازی هایپرپارامتر (HPO) متناسب باشد.
- نمودار ML را با HPO تکرار کنید.
برای ساده و پایدار کردن پیاده سازی، آموزش مدل را با استفاده از کد زیر در یک ظرف اجرا می کنیم (کد راه اندازی قبل از این کد آموزشی در دفترچه راه حل موجود است):
فرآیند آموزش فعلی در یک محیط انتقالی انجام می شود، که در آن ویژگی های مجموعه داده آزمایشی (بدون احتساب ستون هدف) برای ساختن نمودار استفاده می شود و بنابراین گره های آزمایشی در فرآیند آموزش گنجانده می شوند. در پایان آموزش، پیشبینیهای مجموعه داده آزمایشی تولید و ذخیره میشوند output_location
در سطل S3.
حتی اگر آموزش انتقالی است، برچسبهای مجموعه داده آزمایشی برای آموزش استفاده نمیشوند، و هدف تمرین ما پیشبینی این برچسبها با استفاده از جاسازی گرهها برای گرههای مجموعه آزمایشی است. یکی از ویژگی های مهم GraphSAGE این است که یادگیری استقرایی روی مشاهدات جدید که بخشی از نمودار نیستند نیز امکان پذیر است، اگرچه در این راه حل مورد سوء استفاده قرار نمی گیرد.
بهینه سازی هایپرپارامتر
این راه حل با انجام HPO بر روی GNN گسترش می یابد. این کار در SageMaker انجام می شود. کد زیر را ببینید:
سپس هدف تمرینی را تنظیم می کنیم تا امتیاز F1 را در این مورد به حداکثر برسانیم:
محیط انتخابی و منابع آموزشی را در SageMaker ایجاد کنید:
در نهایت، کار آموزشی را با بهینه سازی هایپرپارامتر اجرا کنید:
نتایج
گنجاندن داده های شبکه و بهینه سازی هایپرپارامتر نتایج بهبود یافته ای را به همراه دارد. معیارهای عملکرد در جدول زیر مزایای افزودن CorpNet به مجموعه دادههای جدولی استاندارد مورد استفاده برای امتیازدهی اعتبار را نشان میدهد.
نتایج برای AutoGluon از نمودار استفاده نمی کند، فقط از داده های جدولی استفاده می کند. وقتی دادههای نمودار را اضافه میکنیم و از HPO استفاده میکنیم، یک سود مادی در عملکرد دریافت میکنیم.
امتیاز F1 | ROC AUC | دقت | MCC | دقت متعادل | دقت | به یاد بیاورید | |
AutoGluon | 0.72 | 0.74323 | 0.68037 | 0.35233 | 0.67323 | 0.68528 | 0.75843 |
GCN بدون HPO | 0.64 | 0.84498 | 0.69406 | 0.45619 | 0.71154 | 0.88177 | 0.50281 |
GCN با HPO | 0.81 | 0.87116 | 0.78082 | 0.563 | 0.77081 | 0.75119 | 0.89045 |
(توجه: MCC ضریب همبستگی متیوز است. https://en.wikipedia.org/wiki/Phi_coefficient.)
پاک کردن
پس از اتمام استفاده از این نوت بوک، مصنوعات مدل و سایر منابع را حذف کنید تا از پرداخت هزینه های بیشتر جلوگیری کنید. باید منابعی را که ممکن است در حین اجرای نوت بوک ایجاد کرده باشید، به صورت دستی حذف کنید، مانند سطل های S3 برای مصنوعات مدل، مجموعه داده های آموزشی، پردازش مصنوعات، و CloudWatch آمازون گروه های ورود به سیستم
خلاصه
در این پست، ما یک راه حل امتیازدهی اعتباری مبتنی بر نمودار در JumpStart را معرفی کردیم تا به شما کمک کند سفر ML خود را در گراف تسریع کنید. این نوت بوک خط لوله ای را ارائه می دهد که می توانید نمودارها را با مدل های جدولی موجود تغییر دهید و از آنها برای دستیابی به عملکرد بهتر استفاده کنید.
برای شروع، می توانید راه حل امتیازدهی اعتباری مبتنی بر نمودار را در JumpStart in پیدا کنید SageMaker Studio.
درباره نویسنده
دکتر سانجیو داس محقق آمازون و پروفسور تری در امور مالی و علوم داده در دانشگاه سانتا کلارا است. او دارای مدرک تحصیلات تکمیلی در رشته های مالی (M.Phil و Ph.D از دانشگاه نیویورک) و علوم کامپیوتر (MS از UC Berkeley) و MBA از موسسه مدیریت هند در احمدآباد است. او قبل از اینکه دانشگاهی شود، در تجارت مشتقات در منطقه آسیا و اقیانوسیه به عنوان معاون رئیس در سیتی بانک کار می کرد. او بر روی یادگیری ماشین چندوجهی در حوزه کاربردهای مالی کار می کند.
دکتر شین هوانگ یک دانشمند کاربردی برای Amazon SageMaker JumpStart و الگوریتم های داخلی آمازون SageMaker. او بر روی توسعه الگوریتم های یادگیری ماشینی مقیاس پذیر تمرکز می کند. علایق تحقیقاتی او در زمینههای پردازش زبان طبیعی، یادگیری عمیق بر روی دادههای جدولی، و تجزیه و تحلیل قوی خوشهبندی ناپارامتریک فضا-زمان است.
سوجی آدیشینا یک دانشمند کاربردی در AWS است، جایی که مدلهای مبتنی بر شبکه عصبی گراف را برای یادگیری ماشین در وظایف نمودارها با برنامههای کاربردی برای تقلب و سوء استفاده، نمودارهای دانش، سیستمهای توصیهکننده و علوم زیستی توسعه میدهد. در اوقات فراغت از مطالعه و آشپزی لذت می برد.
پاتریک یانگ مهندس توسعه نرم افزار در Amazon SageMaker است. او بر ساخت ابزارها و محصولات یادگیری ماشینی برای مشتریان تمرکز دارد.
- Coinsmart. بهترین صرافی بیت کوین و کریپتو اروپا.
- پلاتوبلاک چین. Web3 Metaverse Intelligence. دانش تقویت شده دسترسی رایگان.
- CryptoHawk. رادار آلت کوین امتحان رایگان.
- منبع: https://aws.amazon.com/blogs/machine-learning/build-a-corporate-credit-ratings-classifier-using-graph-machine-learning-in-amazon-sagemaker-jumpstart/
- "
- 100
- 70
- 9
- شتاب دادن
- حسابداری (Accounting)
- نصیحت
- الگوریتم
- معرفی
- هر چند
- آمازون
- تحلیل
- برنامه های کاربردی
- روش
- معماری
- محدوده
- دور و بر
- در دسترس
- AWS
- تبدیل شدن به
- بودن
- سود
- برکلی
- مسدود کردن
- مرز
- ساختن
- بنا
- ساخته شده در
- کسب و کار
- صدا
- موارد
- دسته بندی
- زنجیر
- تغییر دادن
- بار
- را انتخاب کنید
- طبقه بندی
- رمز
- ستون
- ترکیب شده
- مشترک
- شرکت
- شرکت
- شرکت
- کامپیوتر
- علم کامپیوتر
- متصل
- اتصالات
- ظرف
- شامل
- شرکت
- ایجاد
- ایجاد شده
- اعتبار
- جاری
- مشتریان
- سفارشی
- داده ها
- علم اطلاعات
- نشان دادن
- گسترش
- مستقر
- گسترش
- مشتقات
- جزئیات
- در حال توسعه
- پروژه
- پویا
- نقطه پایانی
- مهندس
- محیط
- حوادث
- مثال
- ورزش
- موجود
- بهره برداری
- ویژگی
- امکانات
- سرمایه گذاری
- مالی
- اطلاعات مالی
- مالی
- شرکت
- نام خانوادگی
- مناسب
- تمرکز
- پیروی
- اشکال
- آینده نگر
- تقلب
- کامل
- تابع
- بیشتر
- آینده
- مولد
- گروه ها
- ارتفاع
- کمک
- کمک می کند
- اینجا کلیک نمایید
- دارای
- چگونه
- چگونه
- HTTPS
- پیاده سازی
- اجرا
- مهم
- بهبود
- بهبود یافته
- مشمول
- از جمله
- گنجاندن
- صنعت
- اطلاعات
- منافع
- سرمایه گذاری
- IT
- کار
- شغل ها
- دانش
- برچسب ها
- زبان
- یاد گرفتن
- یادگیری
- کتابخانه
- علوم زندگی
- احتمالا
- لینک ها
- لیست
- دستگاه
- فراگیری ماشین
- ساخته
- مدیریت
- دستی
- ماده
- متریک
- ML
- مدل
- مدل
- مانیتور
- بیش
- اکثر
- طبیعی
- شبکه
- داده های شبکه
- مبتنی بر شبکه
- شبکه
- نیویورک
- گره
- دفتر یادداشت
- ارائه شده
- پیشنهادات
- باز کن
- بهینه سازی
- دیگر
- خود
- کارایی
- استخر
- ممکن
- پیش گویی
- پیش بینی
- آماده
- رئيس جمهور
- قبلی
- روند
- در حال پردازش
- تولید
- محصولات
- فراهم می کند
- هدف
- اهداف
- سریع
- به سرعت
- رتبه
- رتبه بندی
- مطالعه
- توصیه
- ارتباط
- روابط
- ضروری
- تحقیق
- منابع
- نتایج
- بازده
- دویدن
- در حال اجرا
- سانتا
- مقیاس پذیر
- علم
- علوم
- دانشمند
- جستجو
- SEC
- انتخاب شد
- تنظیم
- محیط
- برپایی
- کوتاه
- مشابه
- ساده
- So
- آگاهی
- شبکه های اجتماعی
- نرم افزار
- توسعه نرم افزار
- جامد
- راه حل
- مزایا
- تخصصی
- استاندارد
- می ایستد
- شروع
- آغاز شده
- اظهارات
- وضعیت
- ذخیره سازی
- موفقیت
- عرضه
- زنجیره تامین
- سیستم های
- هدف
- وظایف
- آزمون
- منبع
- از این رو
- از طریق
- زمان
- ابزار
- سنتی
- آموزش
- فهمیدن
- دانشگاه
- استفاده کنید
- اعتبار سنجی
- مختلف
- معاون رئیس جمهور
- در حین
- ویکیپدیا
- در داخل
- بدون
- مهاجرت کاری
- مشغول به کار
- کارگر
- با این نسخهها کار