Developing Advanced Machine Learning Systems At Trumid With The Deep Graph Library For Knowledge Embedding

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

यह एक अतिथि पोस्ट है जिसे ट्रूमिड के मुटिस्या एनडुंडा के साथ सह-लिखित किया गया है।

कई उद्योगों की तरह, कॉर्पोरेट बॉन्ड बाज़ार सभी के लिए एक आकार-फिट दृष्टिकोण को स्वीकार नहीं करता है। यह विशाल है, तरलता खंडित है, और संस्थागत ग्राहक अपनी विशिष्ट आवश्यकताओं के अनुरूप समाधान की मांग करते हैं। एआई और मशीन लर्निंग (एमएल) में प्रगति को ग्राहक अनुभव को बेहतर बनाने, परिचालन वर्कफ़्लो की दक्षता और सटीकता बढ़ाने और ट्रेडिंग प्रक्रिया के कई पहलुओं का समर्थन करके प्रदर्शन को बढ़ाने के लिए नियोजित किया जा सकता है।

ट्रमिड एक वित्तीय प्रौद्योगिकी कंपनी है जो कल के क्रेडिट ट्रेडिंग नेटवर्क का निर्माण कर रही है - कॉर्पोरेट बॉन्ड बाजार सहभागियों के बीच कुशल व्यापार, सूचना प्रसार और निष्पादन के लिए एक बाज़ार। ट्रुमिड अग्रणी उत्पाद डिजाइन और प्रौद्योगिकी सिद्धांतों को गहन बाजार विशेषज्ञता के साथ जोड़कर क्रेडिट ट्रेडिंग अनुभव को अनुकूलित कर रहा है। परिणाम एक एकीकृत ट्रेडिंग समाधान है जो एक सहज मंच के भीतर प्रोटोकॉल और निष्पादन उपकरणों का एक पूर्ण पारिस्थितिकी तंत्र प्रदान करता है।

बांड ट्रेडिंग बाजार में पारंपरिक रूप से नियम-आधारित प्रौद्योगिकी द्वारा सहायता प्राप्त ऑफ़लाइन खरीदार/विक्रेता मिलान प्रक्रियाएं शामिल हैं। ट्रुमिड ने इस अनुभव को बदलने की पहल शुरू की है। इसके इलेक्ट्रॉनिक ट्रेडिंग प्लेटफॉर्म के माध्यम से, व्यापारी खरीदने या बेचने के लिए हजारों बांड, बातचीत करने के लिए संलग्न उपयोगकर्ताओं के एक समुदाय और विभिन्न प्रकार के ट्रेडिंग प्रोटोकॉल और निष्पादन समाधानों तक पहुंच सकते हैं। उपयोगकर्ताओं के बढ़ते नेटवर्क के साथ, ट्रुमिड की एआई और डेटा रणनीति टीम ने साझेदारी की AWS मशीन लर्निंग सॉल्यूशंस लैब. इसका उद्देश्य एमएल सिस्टम विकसित करना था जो ट्रूमिड पर उपलब्ध बांड के लिए उपयोगकर्ताओं की रुचि और प्राथमिकताओं को मॉडल करके अधिक व्यक्तिगत ट्रेडिंग अनुभव प्रदान कर सके।

इन एमएल मॉडल का उपयोग प्रत्येक उपयोगकर्ता के लिए जानकारी प्रदर्शित करने के तरीके को वैयक्तिकृत करके अंतर्दृष्टि और कार्रवाई के लिए समय को तेज करने के लिए किया जा सकता है ताकि यह सुनिश्चित किया जा सके कि एक व्यापारी के लिए सबसे प्रासंगिक और कार्रवाई योग्य जानकारी प्राथमिकता और पहुंच योग्य हो।

इस चुनौती को हल करने के लिए, ट्रुमिड और एमएल सॉल्यूशंस लैब ने नॉलेज एंबेडिंग के लिए डीप ग्राफ लाइब्रेरी का उपयोग करके निर्मित एक गहरे तंत्रिका नेटवर्क मॉडल के आधार पर एक एंड-टू-एंड डेटा तैयारी, मॉडल प्रशिक्षण और अनुमान प्रक्रिया विकसित की।डीजीएल-केई). के साथ एक एंड-टू-एंड समाधान अमेज़न SageMaker भी तैनात किया गया था.

ग्राफ़ मशीन लर्निंग के लाभ

वास्तविक दुनिया का डेटा जटिल और परस्पर जुड़ा हुआ है, और इसमें अक्सर नेटवर्क संरचनाएं शामिल होती हैं। उदाहरणों में प्रकृति में अणु, सामाजिक नेटवर्क, इंटरनेट, सड़क मार्ग और वित्तीय व्यापार मंच शामिल हैं।

ग्राफ़ संस्थाओं के बीच संबंधों में अंतर्निहित महत्वपूर्ण और समृद्ध जानकारी निकालकर इस जटिलता को मॉडल करने का एक प्राकृतिक तरीका प्रदान करते हैं।

पारंपरिक एमएल एल्गोरिदम को डेटा को तालिकाओं या अनुक्रमों के रूप में व्यवस्थित करने की आवश्यकता होती है। यह आम तौर पर अच्छी तरह से काम करता है, लेकिन कुछ डोमेन ग्राफ़ द्वारा अधिक स्वाभाविक रूप से और प्रभावी ढंग से दर्शाए जाते हैं (जैसे कि एक दूसरे से संबंधित वस्तुओं का नेटवर्क, जैसा कि इस पोस्ट में बाद में दिखाया गया है)। इन ग्राफ़ डेटासेट को तालिकाओं या अनुक्रमों में ज़बरदस्ती करने के बजाय, आप ग्राफ़ एमएल एल्गोरिदम का उपयोग ग्राफ़ रूप में प्रस्तुत डेटा से सीखने और प्रस्तुत करने के लिए कर सकते हैं, जिसमें घटक नोड्स, किनारों और अन्य विशेषताओं के बारे में जानकारी शामिल है।

यह ध्यान में रखते हुए कि बॉन्ड ट्रेडिंग स्वाभाविक रूप से विभिन्न प्रकार के बॉन्ड उपकरणों को शामिल करने वाले खरीदारों और विक्रेताओं के बीच बातचीत के एक नेटवर्क के रूप में प्रस्तुत की जाती है, बाजार में भाग लेने वाले व्यापारियों के समुदायों के नेटवर्क प्रभावों का उपयोग करने के लिए एक प्रभावी समाधान की आवश्यकता होती है। आइए देखें कि हमने ट्रेडिंग नेटवर्क प्रभावों का लाभ कैसे उठाया और इस दृष्टिकोण को यहां कैसे लागू किया।

उपाय

बॉन्ड ट्रेडिंग की विशेषता कई कारकों से होती है, जिसमें व्यापार का आकार, अवधि, जारीकर्ता, दर, कूपन मूल्य, बोली/पूछने की पेशकश और शामिल ट्रेडिंग प्रोटोकॉल का प्रकार शामिल है। ऑर्डर और ट्रेडों के अलावा, ट्रुमिड "रुचि के संकेत" (आईओआई) भी कैप्चर करता है। ऐतिहासिक इंटरैक्शन डेटा समय के साथ विकसित होने वाले व्यापारिक व्यवहार और बाज़ार स्थितियों का प्रतीक है। हमने इस डेटा का उपयोग व्यापारियों, बांडों और जारीकर्ताओं के बीच टाइमस्टैम्प्ड इंटरैक्शन का ग्राफ बनाने के लिए किया, और भविष्य की इंटरैक्शन की भविष्यवाणी करने के लिए ग्राफ एमएल का उपयोग किया।

अनुशंसा समाधान में चार मुख्य चरण शामिल थे:

ट्रेडिंग डेटा को ग्राफ़ डेटासेट के रूप में तैयार करना
ज्ञान ग्राफ एम्बेडिंग मॉडल का प्रशिक्षण
नए ट्रेडों की भविष्यवाणी करना
समाधान को स्केलेबल वर्कफ़्लो के रूप में पैकेजिंग करना

निम्नलिखित अनुभागों में, हम प्रत्येक चरण पर अधिक विस्तार से चर्चा करते हैं।

ट्रेडिंग डेटा को ग्राफ़ डेटासेट के रूप में तैयार करना

ट्रेडिंग डेटा को ग्राफ़ के रूप में दर्शाने के कई तरीके हैं। एक विकल्प डेटा को नोड्स, किनारों और गुणों के साथ विस्तृत रूप से प्रस्तुत करना है: व्यापारियों को संपत्तियों के साथ नोड्स के रूप में (जैसे नियोक्ता या कार्यकाल), बांड को संपत्तियों के साथ नोड्स के रूप में (जारीकर्ता, बकाया राशि, परिपक्वता, दर, कूपन मूल्य), और ट्रेड गुणों के साथ किनारों के रूप में (दिनांक, प्रकार, आकार)। एक अन्य विकल्प डेटा को सरल बनाना और केवल नोड्स और संबंधों का उपयोग करना है (संबंध टाइप किए गए किनारे हैं जैसे व्यापार या जारी-द्वारा)। इस बाद वाले दृष्टिकोण ने हमारे मामले में बेहतर काम किया, और हमने निम्नलिखित चित्र में दर्शाए गए ग्राफ़ का उपयोग किया।

व्यापारियों, बांड और बांड जारीकर्ताओं के बीच संबंधों का ग्राफ़

इसके अतिरिक्त, हमने अप्रचलित समझे जाने वाले कुछ किनारों को हटा दिया: यदि कोई व्यापारी 100 से अधिक विभिन्न बांडों के साथ इंटरैक्ट करता है, तो हम केवल अंतिम 100 बांड रखते हैं।

अंत में, हमने ग्राफ़ डेटासेट को किनारों की सूची के रूप में सहेजा TSV प्रारूप:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

ज्ञान ग्राफ एम्बेडिंग मॉडल का प्रशिक्षण

केवल नोड्स और संबंधों (अक्सर ज्ञान ग्राफ़ कहा जाता है) से बने ग्राफ़ के लिए, डीजीएल टीम ने ज्ञान ग्राफ़ एम्बेडिंग ढांचा विकसित किया डीजीएल-केई. केई का मतलब ज्ञान एम्बेडिंग है, इसका विचार निर्देशांक (एंबेडिंग) द्वारा नोड्स और संबंधों (ज्ञान) का प्रतिनिधित्व करना और निर्देशांक को अनुकूलित (ट्रेन) करना है ताकि मूल ग्राफ संरचना को निर्देशांक से पुनर्प्राप्त किया जा सके। उपलब्ध एम्बेडिंग मॉडल की सूची में, हमने ट्रांसई (ट्रांसलेशनल एम्बेडिंग) का चयन किया। निम्नलिखित समानता का अनुमान लगाने के उद्देश्य से ट्रांसई ट्रेन एम्बेडिंग:

स्रोत नोड एम्बेडिंग + संबंध एम्बेडिंग = लक्ष्य नोड एम्बेडिंग (1)

हमने मॉडल का आह्वान करके उसे प्रशिक्षित किया dglke_train आज्ञा। प्रशिक्षण का आउटपुट एक मॉडल फ़ोल्डर है जिसमें प्रशिक्षित एम्बेडिंग शामिल है।

ट्रांसई के बारे में अधिक जानकारी के लिए देखें बहु-संबंधपरक डेटा मॉडलिंग के लिए एंबेडिंग का अनुवाद.

नए ट्रेडों की भविष्यवाणी करना

अपने मॉडल के साथ एक व्यापारी से नए ट्रेडों की भविष्यवाणी करने के लिए, हमने समानता (1) का उपयोग किया: ट्रेड-हालिया एम्बेडिंग में व्यापारी एम्बेडिंग को जोड़ें और परिणामी एम्बेडिंग के निकटतम बांड की तलाश की।

हमने इसे दो चरणों में किया:

सभी संभावित व्यापार-हाल के संबंधों के लिए स्कोर की गणना करें dglke_predict.
प्रत्येक व्यापारी के लिए शीर्ष 100 उच्चतम स्कोर की गणना करें।

डीजीएल-केई का उपयोग कैसे करें, इस पर विस्तृत निर्देशों के लिए देखें दीप ग्राफ लाइब्रेरी के साथ बड़े पैमाने पर प्रशिक्षण ज्ञान ग्राफ एम्बेडिंग और डीजीएल-केई दस्तावेज़ीकरण.

समाधान को स्केलेबल वर्कफ़्लो के रूप में पैकेजिंग करना

हमने अपना कोड विकसित करने और डीबग करने के लिए सेजमेकर नोटबुक का उपयोग किया। उत्पादन के लिए, हम मॉडल को एक साधारण एपीआई कॉल के रूप में लागू करना चाहते थे। हमने पाया कि हमें डेटा तैयारी, मॉडल प्रशिक्षण और भविष्यवाणी को अलग करने की आवश्यकता नहीं है, और पूरी पाइपलाइन को एक ही स्क्रिप्ट के रूप में पैकेज करना और सेजमेकर प्रोसेसिंग का उपयोग करना सुविधाजनक था। सेजमेकर प्रोसेसिंग आपको संसाधन आवंटन और डेटा ट्रांसफर के बारे में चिंता किए बिना चुने हुए इंस्टेंस प्रकार और डॉकर छवि पर दूरस्थ रूप से एक स्क्रिप्ट चलाने की अनुमति देता है। यह हमारे लिए सरल और लागत प्रभावी था, क्योंकि स्क्रिप्ट चलाने के लिए आवश्यक 15 मिनट के दौरान ही GPU इंस्टेंस का उपयोग और भुगतान किया जाता है।

सेजमेकर प्रोसेसिंग का उपयोग कैसे करें, इस पर विस्तृत निर्देशों के लिए देखें अमेज़ॅन सैजमेकर प्रोसेसिंग - पूरी तरह से प्रबंधित डेटा प्रोसेसिंग और मॉडल मूल्यांकन और प्रसंस्करण.

परिणाम

हमारे कस्टम ग्राफ़ मॉडल ने अन्य तरीकों की तुलना में बहुत अच्छा प्रदर्शन किया: सभी व्यापारी प्रकारों में अधिक स्थिर परिणामों के साथ प्रदर्शन में 80% सुधार हुआ। हमने औसत रिकॉल (अनुशंसाकर्ता द्वारा अनुमानित वास्तविक ट्रेडों का प्रतिशत, सभी व्यापारियों पर औसत) के आधार पर प्रदर्शन को मापा। अन्य मानक मेट्रिक्स के साथ, सुधार 50-130% के बीच था।

इस प्रदर्शन ने हमें व्यापारियों और बांडों का बेहतर मिलान करने में सक्षम बनाया, जो मॉडल के भीतर एक बेहतर व्यापारी अनुभव का संकेत देता है, मशीन लर्निंग हार्ड-कोडेड नियमों से एक बड़ा कदम आगे बढ़ाता है, जिसे स्केल करना मुश्किल हो सकता है।

निष्कर्ष

ट्रुमिड अपने उपयोगकर्ताओं के समुदाय को नवीन उत्पाद और वर्कफ़्लो दक्षता प्रदान करने पर केंद्रित है। कल के क्रेडिट ट्रेडिंग नेटवर्क के निर्माण के लिए AWS ML सॉल्यूशंस लैब जैसे साथियों और उद्योग विशेषज्ञों के साथ निरंतर सहयोग की आवश्यकता होती है, जो आपको तेजी से नवाचार करने में मदद करने के लिए डिज़ाइन किया गया है।

अधिक जानकारी के लिए, निम्न संसाधन देखें:

लेखक के बारे में

मार्क वैन ओउडियसडेन Amazon Web Services में Amazon ML Solutions Lab टीम के वरिष्ठ डेटा वैज्ञानिक हैं। वह आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग के साथ व्यावसायिक समस्याओं को हल करने के लिए AWS ग्राहकों के साथ काम करता है। काम के बाहर आप उसे समुद्र तट पर, अपने बच्चों के साथ खेलते, सर्फिंग या काइटसर्फिंग करते हुए पा सकते हैं।

मुतिस्या नदुंदा ट्रुमिड में डेटा रणनीति और एआई के प्रमुख हैं। वह पूंजी बाजार, व्यापार और वित्तीय प्रौद्योगिकी में 20 वर्षों से अधिक के व्यापक संस्थागत अनुभव के साथ एक अनुभवी वित्तीय पेशेवर हैं। कृत्रिम बुद्धिमत्ता, मशीन लर्निंग और बिग डेटा एनालिटिक्स में एक दशक से अधिक के अनुभव के साथ मुटिस्या के पास एक मजबूत मात्रात्मक और विश्लेषणात्मक पृष्ठभूमि है। ट्रुमिड से पहले, वह अल्फा वर्टेक्स के सीईओ थे, जो एक वित्तीय प्रौद्योगिकी कंपनी है जो वित्तीय संस्थानों को मालिकाना एआई एल्गोरिदम द्वारा संचालित विश्लेषणात्मक समाधान पेश करती है। मुतिस्या के पास कॉर्नेल विश्वविद्यालय से इलेक्ट्रिकल इंजीनियरिंग में स्नातक की डिग्री और कॉर्नेल विश्वविद्यालय से वित्तीय इंजीनियरिंग में मास्टर डिग्री है।

प्लेटोब्लॉकचैन डेटा इंटेलिजेंस को एम्बेड करने के लिए डीप ग्राफ लाइब्रेरी के साथ ट्रूमिड में उन्नत मशीन लर्निंग सिस्टम विकसित करना। लंबवत खोज। ऐ. इसहाक प्रिविटेरा अमेज़ॅन मशीन लर्निंग सॉल्यूशंस लैब में एक वरिष्ठ डेटा वैज्ञानिक हैं, जहां वह ग्राहकों की व्यावसायिक समस्याओं के समाधान के लिए विशेष मशीन लर्निंग और गहन शिक्षण समाधान विकसित करते हैं। वह मुख्य रूप से कंप्यूटर विज़न क्षेत्र में काम करता है, और वितरित प्रशिक्षण और सक्रिय शिक्षण के साथ AWS ग्राहकों को सक्षम करने पर ध्यान केंद्रित करता है।

समय टिकट: जुलाई 25, 2022जुलाई 25, 2022

समय टिकट: अक्टूबर 17, 2023

ज्ञान एम्बेडिंग के लिए डीप ग्राफ लाइब्रेरी के साथ ट्रुमिड में उन्नत मशीन लर्निंग सिस्टम विकसित करना

प्लेटो द्वारा पुनर्प्रकाशित

ग्राफ़ मशीन लर्निंग के लाभ

उपाय

ट्रेडिंग डेटा को ग्राफ़ डेटासेट के रूप में तैयार करना

ज्ञान ग्राफ एम्बेडिंग मॉडल का प्रशिक्षण

नए ट्रेडों की भविष्यवाणी करना

समाधान को स्केलेबल वर्कफ़्लो के रूप में पैकेजिंग करना

परिणाम

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

कम विलंबता और लागत के साथ Patsnap ने Amazon SageMaker पर GPT-2 अनुमान का उपयोग कैसे किया | अमेज़न वेब सेवाएँ

अमेज़ॅन सेजमेकर एज मैनेजर और एडब्ल्यूएस आईओटी ग्रीनग्रास के साथ किनारे पर एमएलओप्स

Amazon CodeWhisperer के लिए एंटरप्राइज़ प्रशासनिक नियंत्रण, सरल साइन-अप और विस्तारित प्रोग्रामिंग भाषा समर्थन

Amazon Kendra के लिए Exchange कनेक्टर का उपयोग करके अपनी Microsoft Exchange सामग्री को अनुक्रमित करें

IMDb नॉलेज ग्राफ़ का उपयोग करके पावर अनुशंसाएँ और खोज - भाग 3

अमेज़ॅन सेजमेकर स्टूडियो में अमेज़ॅन सेजमेकर डेटा रैंगलर का उपयोग डिफ़ॉल्ट जीवनचक्र कॉन्फ़िगरेशन के साथ करें

अमेज़ॅन पॉली का उपयोग करके वेबपेज पढ़ें और सामग्री को हाइलाइट करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा