प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को एम्बेड करने के लिए डीप ग्राफ लाइब्रेरी के साथ ट्रूमिड में उन्नत मशीन लर्निंग सिस्टम विकसित करना। लंबवत खोज। ऐ.

ज्ञान एम्बेडिंग के लिए डीप ग्राफ लाइब्रेरी के साथ ट्रुमिड में उन्नत मशीन लर्निंग सिस्टम विकसित करना

यह एक अतिथि पोस्ट है जिसे ट्रूमिड के मुटिस्या एनडुंडा के साथ सह-लिखित किया गया है।

कई उद्योगों की तरह, कॉर्पोरेट बॉन्ड बाज़ार सभी के लिए एक आकार-फिट दृष्टिकोण को स्वीकार नहीं करता है। यह विशाल है, तरलता खंडित है, और संस्थागत ग्राहक अपनी विशिष्ट आवश्यकताओं के अनुरूप समाधान की मांग करते हैं। एआई और मशीन लर्निंग (एमएल) में प्रगति को ग्राहक अनुभव को बेहतर बनाने, परिचालन वर्कफ़्लो की दक्षता और सटीकता बढ़ाने और ट्रेडिंग प्रक्रिया के कई पहलुओं का समर्थन करके प्रदर्शन को बढ़ाने के लिए नियोजित किया जा सकता है।

ट्रमिड एक वित्तीय प्रौद्योगिकी कंपनी है जो कल के क्रेडिट ट्रेडिंग नेटवर्क का निर्माण कर रही है - कॉर्पोरेट बॉन्ड बाजार सहभागियों के बीच कुशल व्यापार, सूचना प्रसार और निष्पादन के लिए एक बाज़ार। ट्रुमिड अग्रणी उत्पाद डिजाइन और प्रौद्योगिकी सिद्धांतों को गहन बाजार विशेषज्ञता के साथ जोड़कर क्रेडिट ट्रेडिंग अनुभव को अनुकूलित कर रहा है। परिणाम एक एकीकृत ट्रेडिंग समाधान है जो एक सहज मंच के भीतर प्रोटोकॉल और निष्पादन उपकरणों का एक पूर्ण पारिस्थितिकी तंत्र प्रदान करता है।

बांड ट्रेडिंग बाजार में पारंपरिक रूप से नियम-आधारित प्रौद्योगिकी द्वारा सहायता प्राप्त ऑफ़लाइन खरीदार/विक्रेता मिलान प्रक्रियाएं शामिल हैं। ट्रुमिड ने इस अनुभव को बदलने की पहल शुरू की है। इसके इलेक्ट्रॉनिक ट्रेडिंग प्लेटफॉर्म के माध्यम से, व्यापारी खरीदने या बेचने के लिए हजारों बांड, बातचीत करने के लिए संलग्न उपयोगकर्ताओं के एक समुदाय और विभिन्न प्रकार के ट्रेडिंग प्रोटोकॉल और निष्पादन समाधानों तक पहुंच सकते हैं। उपयोगकर्ताओं के बढ़ते नेटवर्क के साथ, ट्रुमिड की एआई और डेटा रणनीति टीम ने साझेदारी की AWS मशीन लर्निंग सॉल्यूशंस लैब. इसका उद्देश्य एमएल सिस्टम विकसित करना था जो ट्रूमिड पर उपलब्ध बांड के लिए उपयोगकर्ताओं की रुचि और प्राथमिकताओं को मॉडल करके अधिक व्यक्तिगत ट्रेडिंग अनुभव प्रदान कर सके।

इन एमएल मॉडल का उपयोग प्रत्येक उपयोगकर्ता के लिए जानकारी प्रदर्शित करने के तरीके को वैयक्तिकृत करके अंतर्दृष्टि और कार्रवाई के लिए समय को तेज करने के लिए किया जा सकता है ताकि यह सुनिश्चित किया जा सके कि एक व्यापारी के लिए सबसे प्रासंगिक और कार्रवाई योग्य जानकारी प्राथमिकता और पहुंच योग्य हो।

इस चुनौती को हल करने के लिए, ट्रुमिड और एमएल सॉल्यूशंस लैब ने नॉलेज एंबेडिंग के लिए डीप ग्राफ लाइब्रेरी का उपयोग करके निर्मित एक गहरे तंत्रिका नेटवर्क मॉडल के आधार पर एक एंड-टू-एंड डेटा तैयारी, मॉडल प्रशिक्षण और अनुमान प्रक्रिया विकसित की।डीजीएल-केई). के साथ एक एंड-टू-एंड समाधान अमेज़न SageMaker भी तैनात किया गया था.

ग्राफ़ मशीन लर्निंग के लाभ

वास्तविक दुनिया का डेटा जटिल और परस्पर जुड़ा हुआ है, और इसमें अक्सर नेटवर्क संरचनाएं शामिल होती हैं। उदाहरणों में प्रकृति में अणु, सामाजिक नेटवर्क, इंटरनेट, सड़क मार्ग और वित्तीय व्यापार मंच शामिल हैं।

ग्राफ़ संस्थाओं के बीच संबंधों में अंतर्निहित महत्वपूर्ण और समृद्ध जानकारी निकालकर इस जटिलता को मॉडल करने का एक प्राकृतिक तरीका प्रदान करते हैं।

पारंपरिक एमएल एल्गोरिदम को डेटा को तालिकाओं या अनुक्रमों के रूप में व्यवस्थित करने की आवश्यकता होती है। यह आम तौर पर अच्छी तरह से काम करता है, लेकिन कुछ डोमेन ग्राफ़ द्वारा अधिक स्वाभाविक रूप से और प्रभावी ढंग से दर्शाए जाते हैं (जैसे कि एक दूसरे से संबंधित वस्तुओं का नेटवर्क, जैसा कि इस पोस्ट में बाद में दिखाया गया है)। इन ग्राफ़ डेटासेट को तालिकाओं या अनुक्रमों में ज़बरदस्ती करने के बजाय, आप ग्राफ़ एमएल एल्गोरिदम का उपयोग ग्राफ़ रूप में प्रस्तुत डेटा से सीखने और प्रस्तुत करने के लिए कर सकते हैं, जिसमें घटक नोड्स, किनारों और अन्य विशेषताओं के बारे में जानकारी शामिल है।

यह ध्यान में रखते हुए कि बॉन्ड ट्रेडिंग स्वाभाविक रूप से विभिन्न प्रकार के बॉन्ड उपकरणों को शामिल करने वाले खरीदारों और विक्रेताओं के बीच बातचीत के एक नेटवर्क के रूप में प्रस्तुत की जाती है, बाजार में भाग लेने वाले व्यापारियों के समुदायों के नेटवर्क प्रभावों का उपयोग करने के लिए एक प्रभावी समाधान की आवश्यकता होती है। आइए देखें कि हमने ट्रेडिंग नेटवर्क प्रभावों का लाभ कैसे उठाया और इस दृष्टिकोण को यहां कैसे लागू किया।

उपाय

बॉन्ड ट्रेडिंग की विशेषता कई कारकों से होती है, जिसमें व्यापार का आकार, अवधि, जारीकर्ता, दर, कूपन मूल्य, बोली/पूछने की पेशकश और शामिल ट्रेडिंग प्रोटोकॉल का प्रकार शामिल है। ऑर्डर और ट्रेडों के अलावा, ट्रुमिड "रुचि के संकेत" (आईओआई) भी कैप्चर करता है। ऐतिहासिक इंटरैक्शन डेटा समय के साथ विकसित होने वाले व्यापारिक व्यवहार और बाज़ार स्थितियों का प्रतीक है। हमने इस डेटा का उपयोग व्यापारियों, बांडों और जारीकर्ताओं के बीच टाइमस्टैम्प्ड इंटरैक्शन का ग्राफ बनाने के लिए किया, और भविष्य की इंटरैक्शन की भविष्यवाणी करने के लिए ग्राफ एमएल का उपयोग किया।

अनुशंसा समाधान में चार मुख्य चरण शामिल थे:

  • ट्रेडिंग डेटा को ग्राफ़ डेटासेट के रूप में तैयार करना
  • ज्ञान ग्राफ एम्बेडिंग मॉडल का प्रशिक्षण
  • नए ट्रेडों की भविष्यवाणी करना
  • समाधान को स्केलेबल वर्कफ़्लो के रूप में पैकेजिंग करना

निम्नलिखित अनुभागों में, हम प्रत्येक चरण पर अधिक विस्तार से चर्चा करते हैं।

ट्रेडिंग डेटा को ग्राफ़ डेटासेट के रूप में तैयार करना

ट्रेडिंग डेटा को ग्राफ़ के रूप में दर्शाने के कई तरीके हैं। एक विकल्प डेटा को नोड्स, किनारों और गुणों के साथ विस्तृत रूप से प्रस्तुत करना है: व्यापारियों को संपत्तियों के साथ नोड्स के रूप में (जैसे नियोक्ता या कार्यकाल), बांड को संपत्तियों के साथ नोड्स के रूप में (जारीकर्ता, बकाया राशि, परिपक्वता, दर, कूपन मूल्य), और ट्रेड गुणों के साथ किनारों के रूप में (दिनांक, प्रकार, आकार)। एक अन्य विकल्प डेटा को सरल बनाना और केवल नोड्स और संबंधों का उपयोग करना है (संबंध टाइप किए गए किनारे हैं जैसे व्यापार या जारी-द्वारा)। इस बाद वाले दृष्टिकोण ने हमारे मामले में बेहतर काम किया, और हमने निम्नलिखित चित्र में दर्शाए गए ग्राफ़ का उपयोग किया।

व्यापारियों, बांड और बांड जारीकर्ताओं के बीच संबंधों का ग्राफ़

इसके अतिरिक्त, हमने अप्रचलित समझे जाने वाले कुछ किनारों को हटा दिया: यदि कोई व्यापारी 100 से अधिक विभिन्न बांडों के साथ इंटरैक्ट करता है, तो हम केवल अंतिम 100 बांड रखते हैं।

अंत में, हमने ग्राफ़ डेटासेट को किनारों की सूची के रूप में सहेजा TSV प्रारूप:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

ज्ञान ग्राफ एम्बेडिंग मॉडल का प्रशिक्षण

केवल नोड्स और संबंधों (अक्सर ज्ञान ग्राफ़ कहा जाता है) से बने ग्राफ़ के लिए, डीजीएल टीम ने ज्ञान ग्राफ़ एम्बेडिंग ढांचा विकसित किया डीजीएल-केई. केई का मतलब ज्ञान एम्बेडिंग है, इसका विचार निर्देशांक (एंबेडिंग) द्वारा नोड्स और संबंधों (ज्ञान) का प्रतिनिधित्व करना और निर्देशांक को अनुकूलित (ट्रेन) करना है ताकि मूल ग्राफ संरचना को निर्देशांक से पुनर्प्राप्त किया जा सके। उपलब्ध एम्बेडिंग मॉडल की सूची में, हमने ट्रांसई (ट्रांसलेशनल एम्बेडिंग) का चयन किया। निम्नलिखित समानता का अनुमान लगाने के उद्देश्य से ट्रांसई ट्रेन एम्बेडिंग:

स्रोत नोड एम्बेडिंग + संबंध एम्बेडिंग = लक्ष्य नोड एम्बेडिंग (1)

हमने मॉडल का आह्वान करके उसे प्रशिक्षित किया dglke_train आज्ञा। प्रशिक्षण का आउटपुट एक मॉडल फ़ोल्डर है जिसमें प्रशिक्षित एम्बेडिंग शामिल है।

ट्रांसई के बारे में अधिक जानकारी के लिए देखें बहु-संबंधपरक डेटा मॉडलिंग के लिए एंबेडिंग का अनुवाद.

नए ट्रेडों की भविष्यवाणी करना

अपने मॉडल के साथ एक व्यापारी से नए ट्रेडों की भविष्यवाणी करने के लिए, हमने समानता (1) का उपयोग किया: ट्रेड-हालिया एम्बेडिंग में व्यापारी एम्बेडिंग को जोड़ें और परिणामी एम्बेडिंग के निकटतम बांड की तलाश की।

हमने इसे दो चरणों में किया:

  1. सभी संभावित व्यापार-हाल के संबंधों के लिए स्कोर की गणना करें dglke_predict.
  2. प्रत्येक व्यापारी के लिए शीर्ष 100 उच्चतम स्कोर की गणना करें।

डीजीएल-केई का उपयोग कैसे करें, इस पर विस्तृत निर्देशों के लिए देखें दीप ग्राफ लाइब्रेरी के साथ बड़े पैमाने पर प्रशिक्षण ज्ञान ग्राफ एम्बेडिंग और डीजीएल-केई दस्तावेज़ीकरण.

समाधान को स्केलेबल वर्कफ़्लो के रूप में पैकेजिंग करना

हमने अपना कोड विकसित करने और डीबग करने के लिए सेजमेकर नोटबुक का उपयोग किया। उत्पादन के लिए, हम मॉडल को एक साधारण एपीआई कॉल के रूप में लागू करना चाहते थे। हमने पाया कि हमें डेटा तैयारी, मॉडल प्रशिक्षण और भविष्यवाणी को अलग करने की आवश्यकता नहीं है, और पूरी पाइपलाइन को एक ही स्क्रिप्ट के रूप में पैकेज करना और सेजमेकर प्रोसेसिंग का उपयोग करना सुविधाजनक था। सेजमेकर प्रोसेसिंग आपको संसाधन आवंटन और डेटा ट्रांसफर के बारे में चिंता किए बिना चुने हुए इंस्टेंस प्रकार और डॉकर छवि पर दूरस्थ रूप से एक स्क्रिप्ट चलाने की अनुमति देता है। यह हमारे लिए सरल और लागत प्रभावी था, क्योंकि स्क्रिप्ट चलाने के लिए आवश्यक 15 मिनट के दौरान ही GPU इंस्टेंस का उपयोग और भुगतान किया जाता है।

सेजमेकर प्रोसेसिंग का उपयोग कैसे करें, इस पर विस्तृत निर्देशों के लिए देखें अमेज़ॅन सैजमेकर प्रोसेसिंग - पूरी तरह से प्रबंधित डेटा प्रोसेसिंग और मॉडल मूल्यांकन और प्रसंस्करण.

परिणाम

हमारे कस्टम ग्राफ़ मॉडल ने अन्य तरीकों की तुलना में बहुत अच्छा प्रदर्शन किया: सभी व्यापारी प्रकारों में अधिक स्थिर परिणामों के साथ प्रदर्शन में 80% सुधार हुआ। हमने औसत रिकॉल (अनुशंसाकर्ता द्वारा अनुमानित वास्तविक ट्रेडों का प्रतिशत, सभी व्यापारियों पर औसत) के आधार पर प्रदर्शन को मापा। अन्य मानक मेट्रिक्स के साथ, सुधार 50-130% के बीच था।

इस प्रदर्शन ने हमें व्यापारियों और बांडों का बेहतर मिलान करने में सक्षम बनाया, जो मॉडल के भीतर एक बेहतर व्यापारी अनुभव का संकेत देता है, मशीन लर्निंग हार्ड-कोडेड नियमों से एक बड़ा कदम आगे बढ़ाता है, जिसे स्केल करना मुश्किल हो सकता है।

निष्कर्ष

ट्रुमिड अपने उपयोगकर्ताओं के समुदाय को नवीन उत्पाद और वर्कफ़्लो दक्षता प्रदान करने पर केंद्रित है। कल के क्रेडिट ट्रेडिंग नेटवर्क के निर्माण के लिए AWS ML सॉल्यूशंस लैब जैसे साथियों और उद्योग विशेषज्ञों के साथ निरंतर सहयोग की आवश्यकता होती है, जो आपको तेजी से नवाचार करने में मदद करने के लिए डिज़ाइन किया गया है।

अधिक जानकारी के लिए, निम्न संसाधन देखें:


लेखक के बारे में

प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को एम्बेड करने के लिए डीप ग्राफ लाइब्रेरी के साथ ट्रूमिड में उन्नत मशीन लर्निंग सिस्टम विकसित करना। लंबवत खोज। ऐ.मार्क वैन ओउडियसडेन Amazon Web Services में Amazon ML Solutions Lab टीम के वरिष्ठ डेटा वैज्ञानिक हैं। वह आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग के साथ व्यावसायिक समस्याओं को हल करने के लिए AWS ग्राहकों के साथ काम करता है। काम के बाहर आप उसे समुद्र तट पर, अपने बच्चों के साथ खेलते, सर्फिंग या काइटसर्फिंग करते हुए पा सकते हैं।

प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को एम्बेड करने के लिए डीप ग्राफ लाइब्रेरी के साथ ट्रूमिड में उन्नत मशीन लर्निंग सिस्टम विकसित करना। लंबवत खोज। ऐ.मुतिस्या नदुंदा ट्रुमिड में डेटा रणनीति और एआई के प्रमुख हैं। वह पूंजी बाजार, व्यापार और वित्तीय प्रौद्योगिकी में 20 वर्षों से अधिक के व्यापक संस्थागत अनुभव के साथ एक अनुभवी वित्तीय पेशेवर हैं। कृत्रिम बुद्धिमत्ता, मशीन लर्निंग और बिग डेटा एनालिटिक्स में एक दशक से अधिक के अनुभव के साथ मुटिस्या के पास एक मजबूत मात्रात्मक और विश्लेषणात्मक पृष्ठभूमि है। ट्रुमिड से पहले, वह अल्फा वर्टेक्स के सीईओ थे, जो एक वित्तीय प्रौद्योगिकी कंपनी है जो वित्तीय संस्थानों को मालिकाना एआई एल्गोरिदम द्वारा संचालित विश्लेषणात्मक समाधान पेश करती है। मुतिस्या के पास कॉर्नेल विश्वविद्यालय से इलेक्ट्रिकल इंजीनियरिंग में स्नातक की डिग्री और कॉर्नेल विश्वविद्यालय से वित्तीय इंजीनियरिंग में मास्टर डिग्री है।

प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को एम्बेड करने के लिए डीप ग्राफ लाइब्रेरी के साथ ट्रूमिड में उन्नत मशीन लर्निंग सिस्टम विकसित करना। लंबवत खोज। ऐ.इसहाक प्रिविटेरा अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब में एक वरिष्ठ डेटा वैज्ञानिक हैं, जहां वह ग्राहकों की व्यावसायिक समस्याओं के समाधान के लिए विशेष मशीन लर्निंग और गहन शिक्षण समाधान विकसित करते हैं। वह मुख्य रूप से कंप्यूटर विज़न क्षेत्र में काम करता है, और वितरित प्रशिक्षण और सक्रिय शिक्षण के साथ AWS ग्राहकों को सक्षम करने पर ध्यान केंद्रित करता है।

समय टिकट:

से अधिक AWS मशीन लर्निंग