Utveckla avancerade maskininlärningssystem på Trumid med The Deep Graph Library for Knowledge Embedding

Återutgiven av Platon

anhängare: 0

Detta är ett gästinlägg skrivet tillsammans med Mutisya Ndunda från Trumid.

Liksom många branscher lämpar sig inte företagsobligationsmarknaden för en helhetssyn. Det är enormt, likviditeten är fragmenterad och institutionella kunder efterfrågar lösningar som är skräddarsydda för deras specifika behov. Framsteg inom AI och maskininlärning (ML) kan användas för att förbättra kundupplevelsen, öka effektiviteten och noggrannheten i operativa arbetsflöden och förbättra prestanda genom att stödja flera aspekter av handelsprocessen.

Fuktigt är ett finansiellt teknikföretag som bygger morgondagens kredithandelsnätverk – en marknadsplats för effektiv handel, informationsspridning och genomförande mellan företagsobligationsmarknadens aktörer. Trumid optimerar kredithandelsupplevelsen genom att kombinera ledande produktdesign- och teknologiprinciper med djup marknadsexpertis. Resultatet är en integrerad handelslösning som levererar ett komplett ekosystem av protokoll och exekveringsverktyg inom en intuitiv plattform.

Marknaden för obligationshandel har traditionellt involverat matchningsprocesser för köpare/säljare offline med hjälp av regelbaserad teknik. Trumid har tagit ett initiativ för att förändra denna erfarenhet. Genom sin elektroniska handelsplattform kan handlare få tillgång till tusentals obligationer att köpa eller sälja, en gemenskap av engagerade användare att interagera med och en mängd olika handelsprotokoll och exekveringslösningar. Med ett växande nätverk av användare samarbetade Trumids AI- och datastrategiteam med AWS Machine Learning Solutions Lab. Målet var att utveckla ML-system som kunde ge en mer personlig handelsupplevelse genom att modellera användarnas intressen och preferenser för obligationer tillgängliga på Trumid.

Dessa ML-modeller kan användas för att snabba upp tiden till insikt och handling genom att personalisera hur informationen visas för varje användare för att säkerställa att den mest relevanta och handlingsbara informationen som en handlare kan tänkas bry sig om prioriteras och är tillgänglig.

För att lösa denna utmaning utvecklade Trumid och ML Solutions Lab en dataförberedelse, modellträning och slutledningsprocess baserad på en djup neural nätverksmodell byggd med hjälp av Deep Graph Library for Knowledge Embedding (DGL-KE). En helhetslösning med Amazon SageMaker utplacerades också.

Fördelar med grafmaskininlärning

Verklig data är komplex och sammankopplad och innehåller ofta nätverksstrukturer. Exempel inkluderar molekyler i naturen, sociala nätverk, internet, vägar och finansiella handelsplattformar.

Grafer ger ett naturligt sätt att modellera denna komplexitet genom att extrahera viktig och rik information som är inbäddad i relationerna mellan enheter.

Traditionella ML-algoritmer kräver att data organiseras som tabeller eller sekvenser. Detta fungerar i allmänhet bra, men vissa domäner representeras mer naturligt och effektivt av grafer (som ett nätverk av objekt relaterade till varandra, som illustreras senare i det här inlägget). Istället för att tvinga dessa grafdatauppsättningar till tabeller eller sekvenser kan du använda graf-ML-algoritmer för att både representera och lära dig av data som presenteras i dess grafform, inklusive information om ingående noder, kanter och andra funktioner.

Med tanke på att obligationshandel i sig representeras som ett nätverk av interaktioner mellan köpare och säljare som involverar olika typer av obligationsinstrument, måste en effektiv lösning utnyttja nätverkseffekterna från de gemenskaper av handlare som deltar på marknaden. Låt oss titta på hur vi utnyttjade handelsnätverkseffekterna och implementerade denna vision här.

Lösning

Obligationshandel kännetecknas av flera faktorer, inklusive handelsstorlek, löptid, emittent, ränta, kupongvärden, köp-/försäljningserbjudande och typ av handelsprotokoll. Förutom beställningar och affärer fångar Trumid även "indikationer av intresse" (IOIs). De historiska interaktionsdata förkroppsligar handelsbeteendet och marknadsförhållandena som utvecklas över tiden. Vi använde dessa data för att bygga ett diagram över tidsstämplade interaktioner mellan handlare, obligationer och emittenter, och använde grafen ML för att förutsäga framtida interaktioner.

Rekommendationslösningen bestod av fyra huvudsteg:

Förbereder handelsdata som en grafdatauppsättning
Utbildning av en kunskapsgrafinbäddningsmodell
Förutsäga nya affärer
Förpacka lösningen som ett skalbart arbetsflöde

I de följande avsnitten diskuterar vi varje steg mer i detalj.

Förbereder handelsdata som en grafdatauppsättning

Det finns många sätt att representera handelsdata som en graf. Ett alternativ är att representera data uttömmande med noder, kanter och egenskaper: handlare som noder med egenskaper (som arbetsgivare eller besittningsrätt), obligationer som noder med egenskaper (emittent, utestående belopp, löptid, ränta, kupongvärde) och affärer som kanter med egenskaper (datum, typ, storlek). Ett annat alternativ är att förenkla data och endast använda noder och relationer (relationer är skrivna kanter som traded eller utfärdad av). Detta senare tillvägagångssätt fungerade bättre i vårt fall, och vi använde grafen som representeras i följande figur.

Diagram över relationer mellan handlare, obligationer och obligationsutgivare

Dessutom tog vi bort några av de kanter som ansågs föråldrade: om en handlare interagerade med mer än 100 olika obligationer behöll vi bara de sista 100 obligationerna.

Slutligen sparade vi grafdataset som en lista över kanter i TSV formatera:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Utbildning av en kunskapsgrafinbäddningsmodell

För grafer som endast består av noder och relationer (ofta kallade kunskapsgrafer), utvecklade DGL-teamet inbäddningsramverket för kunskapsgrafer DGL-KE. KE står för kunskapsinbäddning, tanken är att representera noder och relationer (kunskap) genom koordinater (inbäddningar) och optimera (träna) koordinaterna så att den ursprungliga grafstrukturen kan återställas från koordinaterna. I listan över tillgängliga inbäddningsmodeller valde vi TransE (translationella inbäddningar). TransE tränar inbäddningar med målet att approximera följande likhet:

Källnodsinbäddning + relationsinbäddning = målnodsinbäddning (1)

Vi tränade modellen genom att åberopa dglke_train kommando. Utgången av utbildningen är en modellmapp som innehåller de tränade inbäddningarna.

För mer information om TransE, se Översätta inbäddningar för modellering av multirelationella data.

Förutsäga nya affärer

För att förutsäga nya affärer från en handlare med vår modell använde vi likheten (1): lägg till handlarinbäddningen till den senaste inbäddningen och letade efter obligationer närmast den resulterande inbäddningen.

Vi gjorde detta i två steg:

Beräkna poäng för alla möjliga handelsrelationer nyligen med dglke_predict.
Beräkna de 100 högsta poängen för varje handlare.

För detaljerade instruktioner om hur du använder DGL-KE, se Träning av kunskapsgrafbeslag i skala med Deep Graph Library och DGL-KE dokumentation.

Förpacka lösningen som ett skalbart arbetsflöde

Vi använde SageMaker-anteckningsböcker för att utveckla och felsöka vår kod. För produktion ville vi anropa modellen som ett enkelt API-anrop. Vi upptäckte att vi inte behövde separera dataförberedelse, modellträning och förutsägelse, och det var bekvämt att paketera hela pipelinen som ett enda skript och använda SageMaker-bearbetning. SageMaker-bearbetning låter dig köra ett skript på distans på en vald instanstyp och Docker-bild utan att behöva oroa dig för resursallokering och dataöverföring. Detta var enkelt och kostnadseffektivt för oss, eftersom GPU-instansen endast används och betalas under de 15 minuter som behövs för att skriptet ska köras.

För detaljerade instruktioner om hur man använder SageMaker-bearbetning, se Amazon SageMaker Processing - Fullhanterad databehandling och modellutvärdering och Bearbetning.

Resultat

Vår anpassade grafmodell fungerade mycket bra jämfört med andra metoder: prestanda förbättrades med 80 %, med mer stabila resultat för alla handlare. Vi mätte prestandan med medelåterkallelse (procentandel av faktiska affärer som förutspåtts av rekommenderaren, i genomsnitt över alla handlare). Med andra standardmått varierade förbättringen från 50–130 %.

Denna prestanda gjorde det möjligt för oss att bättre matcha handlare och obligationer, vilket tyder på en förbättrad handlarupplevelse inom modellen, med maskininlärning som ger ett stort steg framåt från hårdkodade regler, som kan vara svåra att skala.

Slutsats

Trumid är fokuserat på att leverera innovativa produkter och arbetsflödeseffektivitet till deras användargemenskap. Att bygga morgondagens kredithandelsnätverk kräver kontinuerligt samarbete med kollegor och branschexperter som AWS ML Solutions Lab, designat för att hjälpa dig att förnya dig snabbare.

Mer information finns i följande resurser:

Om författarna

Marc van Oudheusden är Senior Data Scientist med Amazon ML Solutions Lab-teamet på Amazon Web Services. Han arbetar med AWS-kunder för att lösa affärsproblem med artificiell intelligens och maskininlärning. Utanför jobbet kan du hitta honom på stranden, leka med sina barn, surfa eller kitesurfa.

Mutisya Ndunda är chef för datastrategi och AI på Trumid. Han är en erfaren finansproffs med över 20 års bred institutionell erfarenhet av kapitalmarknader, handel och finansiell teknologi. Mutisya har en stark kvantitativ och analytisk bakgrund med över ett decenniums erfarenhet av artificiell intelligens, maskininlärning och big data-analys. Före Trumid var han VD för Alpha Vertex, ett finansiellt teknikföretag som erbjuder analytiska lösningar som drivs av egna AI-algoritmer till finansinstitutioner. Mutisya har en kandidatexamen i elektroteknik från Cornell University och en magisterexamen i finansteknik från Cornell University.

Utveckla avancerade maskininlärningssystem på Trumid med Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Isaac Privitera är Senior Data Scientist vid Amazon Machine Learning Solutions Lab, där han utvecklar skräddarsydda lösningar för maskininlärning och djupinlärning för att ta itu med kunders affärsproblem. Han arbetar främst inom datorseende, med fokus på att möjliggöra AWS-kunder med distribuerad utbildning och aktivt lärande.

Tidsstämpel: Juli 25, 2022Juli 25, 2022

Tidsstämpel: Oktober 17, 2023

Utveckla avancerade maskininlärningssystem på Trumid med Deep Graph Library for Knowledge Embedding

Återutgiven av Platon

Fördelar med grafmaskininlärning

Lösning

Förbereder handelsdata som en grafdatauppsättning

Utbildning av en kunskapsgrafinbäddningsmodell

Förutsäga nya affärer

Förpacka lösningen som ett skalbart arbetsflöde

Resultat

Slutsats

Om författarna

Mer från AWS maskininlärning

Hur Patsnap använde GPT-2-inferens på Amazon SageMaker med låg latens och kostnad | Amazon webbtjänster

MLOps i kanten med Amazon SageMaker Edge Manager och AWS IoT Greengrass

Företagsadministrativa kontroller, enkel registrering och utökat stöd för programmeringsspråk för Amazon CodeWhisperer

Indexera ditt Microsoft Exchange-innehåll med Exchange-anslutningen för Amazon Kendra

Effektrekommendationer och sökning med hjälp av en IMDb-kunskapsgraf – Del 3

Använd Amazon SageMaker Data Wrangler i Amazon SageMaker Studio med en standardlivscykelkonfiguration

Läs webbsidor och markera innehåll med Amazon Polly

Anpassa dina sökresultat med Amazon Personalize och Amazon OpenSearch Service integration | Amazon webbtjänster

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto