Developing Advanced Machine Learning Systems At Trumid With The Deep Graph Library For Knowledge Embedding

بازنشر افلاطون

دنبال: 0

این یک پست مهمان است که با همکاری Mutisya Ndunda از Trumid نوشته شده است.

مانند بسیاری از صنایع، بازار اوراق قرضه شرکتی خود را به یک رویکرد یک اندازه مناسب برای همه وام نمی دهد. گسترده است، نقدینگی پراکنده است و مشتریان نهادی راه حل هایی را می خواهند که متناسب با نیازهای خاص آنها باشد. پیشرفت‌ها در هوش مصنوعی و یادگیری ماشینی (ML) می‌تواند برای بهبود تجربه مشتری، افزایش کارایی و دقت گردش‌های کاری عملیاتی و افزایش عملکرد با پشتیبانی از جنبه‌های مختلف فرآیند معاملاتی مورد استفاده قرار گیرد.

ترومید یک شرکت فناوری مالی است که شبکه معاملات اعتباری فردا را ایجاد می کند - بازاری برای تجارت کارآمد، انتشار اطلاعات و اجرای بین شرکت کنندگان در بازار اوراق قرضه شرکتی. Trumid تجربه معاملات اعتباری را با ترکیب اصول طراحی محصول پیشرو و فناوری با تخصص عمیق بازار بهینه می کند. نتیجه یک راه حل تجاری یکپارچه است که یک اکوسیستم کامل از پروتکل ها و ابزارهای اجرایی را در یک پلت فرم بصری ارائه می دهد.

بازار معاملات اوراق قرضه به طور سنتی شامل فرآیندهای تطبیق خریدار/فروشنده آفلاین با کمک فناوری مبتنی بر قوانین است. ترومید برای تغییر این تجربه دست به ابتکاری زده است. از طریق پلت فرم معاملات الکترونیکی، معامله گران می توانند به هزاران اوراق قرضه برای خرید یا فروش، جامعه ای از کاربران درگیر برای تعامل با آنها و انواع پروتکل های معاملاتی و راه حل های اجرایی دسترسی داشته باشند. با گسترش شبکه ای از کاربران، تیم استراتژی هوش مصنوعی و داده Trumid با این شرکت همکاری کرد آزمایشگاه راه حل های یادگیری ماشین AWS. هدف توسعه سیستم‌های ML بود که می‌توانست با مدل‌سازی علاقه و ترجیحات کاربران برای اوراق قرضه موجود در Trumid، یک تجربه تجاری شخصی‌تر ارائه دهد.

این مدل‌های ML می‌توانند برای سرعت بخشیدن به زمان بینش و عمل با شخصی‌سازی نحوه نمایش اطلاعات برای هر کاربر استفاده شوند تا اطمینان حاصل شود که مرتبط‌ترین و کاربردی‌ترین اطلاعاتی که ممکن است یک معامله‌گر به آن اهمیت می‌دهد اولویت‌بندی و در دسترس باشد.

برای حل این چالش، Trumid و ML Solutions Lab آماده‌سازی داده‌ها، آموزش مدل و فرآیند استنتاج سرتاسری را بر اساس یک مدل شبکه عصبی عمیق که با استفاده از Deep Graph Library برای جاسازی دانش ساخته شده است، توسعه دادند.DGL-KE). یک راه حل انتها به انتها با آمازون SageMaker نیز مستقر شد.

مزایای یادگیری ماشین گراف

داده های دنیای واقعی پیچیده و به هم پیوسته هستند و اغلب شامل ساختارهای شبکه هستند. به عنوان مثال می توان به مولکول های موجود در طبیعت، شبکه های اجتماعی، اینترنت، جاده ها و پلتفرم های تجاری مالی اشاره کرد.

نمودارها با استخراج اطلاعات مهم و غنی که در روابط بین موجودیت ها تعبیه شده است، راهی طبیعی برای مدل سازی این پیچیدگی ارائه می دهند.

الگوریتم‌های سنتی ML نیازمند سازماندهی داده‌ها به صورت جداول یا توالی هستند. این به طور کلی به خوبی کار می کند، اما برخی از دامنه ها به طور طبیعی و موثرتر توسط نمودارها نشان داده می شوند (مانند شبکه ای از اشیاء مرتبط با یکدیگر، همانطور که در ادامه این پست نشان داده شده است). به جای اجبار این مجموعه داده‌های گراف به جداول یا دنباله‌ها، می‌توانید از الگوریتم‌های گراف ML برای نمایش و یادگیری از داده‌های ارائه شده در شکل نمودار آن، از جمله اطلاعات مربوط به گره‌ها، یال‌ها و سایر ویژگی‌ها استفاده کنید.

با توجه به اینکه تجارت اوراق قرضه ذاتاً به عنوان شبکه ای از تعاملات بین خریداران و فروشندگان شامل انواع مختلف ابزارهای اوراق قرضه نشان داده می شود، یک راه حل موثر برای مهار اثرات شبکه ای جوامع معامله گرانی که در بازار مشارکت دارند نیاز دارد. بیایید ببینیم که چگونه از اثرات شبکه معاملاتی استفاده کردیم و این چشم انداز را در اینجا پیاده سازی کردیم.

راه حل

معاملات اوراق قرضه با عوامل متعددی از جمله اندازه معامله، مدت، صادرکننده، نرخ، ارزش کوپن، پیشنهاد پیشنهادی/فروشی و نوع پروتکل معاملاتی مشخص می‌شود. ترومید علاوه بر سفارش‌ها و معاملات، «نشانه‌های علاقه» (IOI) را نیز ثبت می‌کند. داده‌های تعامل تاریخی رفتار معاملاتی و شرایط بازار را که در طول زمان تغییر می‌کنند، نشان می‌دهد. ما از این داده ها برای ایجاد نموداری از تعاملات مهر زمانی بین معامله گران، اوراق قرضه و ناشران استفاده کردیم و از نمودار ML برای پیش بینی تعاملات آتی استفاده کردیم.

راه حل توصیه شامل چهار مرحله اصلی است:

آماده سازی داده های معاملاتی به عنوان یک مجموعه داده گراف
آموزش مدل تعبیه گراف دانش
پیش بینی معاملات جدید
بسته بندی راه حل به عنوان یک گردش کار مقیاس پذیر

در بخش های بعدی، هر مرحله را با جزئیات بیشتری مورد بحث قرار می دهیم.

آماده سازی داده های معاملاتی به عنوان یک مجموعه داده گراف

راه های زیادی برای نمایش داده های معاملاتی به صورت نمودار وجود دارد. یک گزینه این است که داده ها را به طور کامل با گره ها، لبه ها و ویژگی ها نشان دهیم: معامله گران به عنوان گره های دارای ویژگی (مانند کارفرما یا دوره تصدی)، اوراق قرضه به عنوان گره با ویژگی ها (ناشر، مبلغ معوق، سررسید، نرخ، ارزش کوپن) و معاملات. به عنوان لبه با ویژگی ها (تاریخ، نوع، اندازه). گزینه دیگر این است که داده ها را ساده کنید و فقط از گره ها و روابط استفاده کنید (روابط لبه های تایپ شده مانند معامله شده یا صادر شده توسط). این رویکرد اخیر در مورد ما بهتر عمل کرد و ما از نمودار نشان داده شده در شکل زیر استفاده کردیم.

نمودار روابط بین معامله گران، اوراق قرضه و ناشران اوراق قرضه

علاوه بر این، برخی از لبه‌های منسوخ شده را حذف کردیم: اگر معامله‌گری با بیش از 100 اوراق قرضه مختلف تعامل داشته باشد، ما فقط 100 اوراق قرضه آخر را نگه می‌داریم.

در نهایت، مجموعه داده گراف را به عنوان لیستی از لبه ها ذخیره کردیم TSV قالب:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

آموزش مدل تعبیه گراف دانش

برای نمودارهایی که فقط از گره ها و روابط تشکیل شده اند (اغلب به آنها نمودار دانش گفته می شود)، تیم DGL چارچوب تعبیه گراف دانش را توسعه داد. DGL-KE. KE مخفف تعبیه دانش است، ایده این است که گره‌ها و روابط (دانش) را با مختصات (جاسازی‌ها) نشان دهیم و مختصات را بهینه کنیم (تربیت کنیم تا ساختار اصلی نمودار را بتوان از مختصات بازیابی کرد. در لیست مدل‌های جاسازی موجود، TransE (جاسازی‌های ترجمه‌ای) را انتخاب کردیم. TransE تعبیه‌های قطار را با هدف تقریب برابری زیر انجام می‌دهد:

جاسازی گره منبع + تعبیه رابطه = جاسازی گره هدف (1)

ما مدل را با فراخوانی آموزش دادیم dglke_train فرمان خروجی آموزش یک پوشه مدل حاوی تعبیه های آموزش دیده است.

برای جزئیات بیشتر در مورد TransE، مراجعه کنید ترجمه جاسازی‌ها برای مدل‌سازی داده‌های چند رابطه‌ای.

پیش بینی معاملات جدید

برای پیش‌بینی معاملات جدید از یک معامله‌گر با مدل خود، از برابری (1) استفاده کردیم: تعبیه معامله‌گر را به تعبیه اخیر تجارت اضافه کنید و به دنبال اوراق قرضه نزدیک‌ترین به جاسازی منتج باشید.

ما این کار را در دو مرحله انجام دادیم:

محاسبه امتیازات برای همه روابط تجاری اخیر ممکن با dglke_predict.
100 امتیاز برتر برای هر معامله گر را محاسبه کنید.

برای دستورالعمل های دقیق در مورد نحوه استفاده از DGL-KE، مراجعه کنید آموزش تعبیه‌های نمودار دانش در مقیاس با کتابخانه Deep Graph و اسناد DGL-KE.

بسته بندی راه حل به عنوان یک گردش کار مقیاس پذیر

ما از نوت بوک های SageMaker برای توسعه و اشکال زدایی کدمان استفاده کردیم. برای تولید، می خواستیم مدل را به عنوان یک فراخوانی ساده API فراخوانی کنیم. متوجه شدیم که نیازی به جداسازی آماده سازی داده ها، آموزش مدل و پیش بینی نداریم، و راحت است که کل خط لوله را به صورت یک اسکریپت بسته بندی کنیم و از پردازش SageMaker استفاده کنیم. پردازش SageMaker به شما این امکان را می دهد که یک اسکریپت را از راه دور بر روی یک نوع نمونه انتخابی و تصویر Docker بدون نگرانی در مورد تخصیص منابع و انتقال داده اجرا کنید. این برای ما ساده و مقرون به صرفه بود، زیرا نمونه GPU فقط در طول 15 دقیقه مورد نیاز برای اجرای اسکریپت استفاده می شود و هزینه آن پرداخت می شود.

برای دستورالعمل های دقیق در مورد نحوه استفاده از پردازش SageMaker، نگاه کنید Amazon SageMaker Processing – پردازش داده های کاملاً مدیریت شده و ارزیابی مدل و پردازش.

نتایج

مدل نمودار سفارشی ما در مقایسه با روش‌های دیگر بسیار خوب عمل کرد: عملکرد تا 80% بهبود یافت، با نتایج پایدارتر در همه انواع معامله‌گران. ما عملکرد را با میانگین یادآوری اندازه‌گیری کردیم (درصد معاملات واقعی پیش‌بینی‌شده توسط توصیه‌کننده، میانگین کل معامله‌گران). با سایر معیارهای استاندارد، بهبود بین 50 تا 130 درصد متغیر بود.

این عملکرد ما را قادر ساخت تا با معامله‌گران و اوراق قرضه هماهنگی بهتری داشته باشیم، که نشان‌دهنده تجربه بهبودیافته معامله‌گر در داخل مدل است، با یادگیری ماشینی که گام بزرگی به جلو از قوانین سخت‌کد شده ارائه می‌کند، که مقیاس‌بندی آن می‌تواند دشوار باشد.

نتیجه

Trumid بر ارائه محصولات نوآورانه و کارایی گردش کار به جامعه کاربران خود متمرکز است. ایجاد شبکه معاملات اعتباری فردا مستلزم همکاری مستمر با همتایان و کارشناسان صنعتی مانند آزمایشگاه راه حل‌های AWS ML است که برای کمک به شما در نوآوری سریع‌تر طراحی شده است.

برای اطلاعات بیشتر به منابع زیر مراجعه کنید:

درباره نویسندگان

مارک ون اودهوسدن یک دانشمند ارشد داده با تیم آمازون ML Solutions Lab در خدمات وب آمازون است. او با مشتریان AWS برای حل مشکلات تجاری با هوش مصنوعی و یادگیری ماشین کار می کند. خارج از محل کار ممکن است او را در ساحل بیابید، با فرزندانش بازی می کند، موج سواری می کند یا بادبادک سواری می کند.

موتیسیا ندوندا رئیس استراتژی داده و هوش مصنوعی در Trumid است. او یک متخصص مالی باتجربه با بیش از 20 سال تجربه نهادی گسترده در بازارهای سرمایه، تجارت و فناوری مالی است. Mutisya دارای پیشینه کمی و تحلیلی قوی با بیش از یک دهه تجربه در هوش مصنوعی، یادگیری ماشین و تجزیه و تحلیل داده های بزرگ است. قبل از ترومید، او مدیرعامل آلفا ورتکس بود، یک شرکت فناوری مالی که راه‌حل‌های تحلیلی با الگوریتم‌های هوش مصنوعی اختصاصی را به موسسات مالی ارائه می‌کرد. Mutisya دارای مدرک لیسانس در مهندسی برق از دانشگاه کرنل و مدرک کارشناسی ارشد در مهندسی مالی از دانشگاه کرنل است.

توسعه سیستم‌های یادگیری ماشینی پیشرفته در Trumid با کتابخانه Deep Graph برای جاسازی دانش داده‌های PlatoBlockchain. جستجوی عمودی Ai. ایزاک پریویترا یک دانشمند ارشد داده در آزمایشگاه راه حل های یادگیری ماشین آمازون است، جایی که او راه حل های یادگیری ماشینی سفارشی و یادگیری عمیق را برای رسیدگی به مشکلات تجاری مشتریان توسعه می دهد. او عمدتاً در فضای بینایی کامپیوتری کار می کند و تمرکز خود را بر توانمندسازی مشتریان AWS با آموزش های توزیع شده و یادگیری فعال دارد.

تمبر زمان: ژوئیه 25، 2022ژوئیه 25، 2022

تمبر زمان: آوریل 12، 2023

توسعه سیستم‌های یادگیری ماشینی پیشرفته در Trumid با کتابخانه Deep Graph برای جاسازی دانش

بازنشر افلاطون

مزایای یادگیری ماشین گراف

راه حل

آماده سازی داده های معاملاتی به عنوان یک مجموعه داده گراف

آموزش مدل تعبیه گراف دانش

پیش بینی معاملات جدید

بسته بندی راه حل به عنوان یک گردش کار مقیاس پذیر

نتایج

نتیجه

درباره نویسندگان

بیشتر از آموزش ماشین AWS

با حالت محلی Amazon SageMaker Pipelines هزینه و زمان توسعه را کاهش دهید

بهینه سازی هزینه استقرار مدل های پایه آمازون SageMaker JumpStart با نقاط پایانی ناهمزمان Amazon SageMaker | خدمات وب آمازون

چگونه ارائه دهندگان خدمات می توانند از پردازش زبان طبیعی برای به دست آوردن بینش از بلیط های مشتری با آمازون Comprehend استفاده کنند

شناسایی جنگل های حرا با استفاده از ویژگی های تصویر ماهواره ای با استفاده از Amazon SageMaker Studio و Amazon SageMaker Autopilot - قسمت 1

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب