Udvikling af avancerede maskinlæringssystemer hos Trumid med Deep Graph Library til indlejring af viden

Genudgivet af Platon

Abonnenter: 0

Dette er et gæsteindlæg skrevet sammen med Mutisya Ndunda fra Trumid.

Ligesom mange brancher egner virksomhedsobligationsmarkedet sig ikke til en ensartet tilgang. Det er enormt, likviditeten er fragmenteret, og institutionelle kunder efterspørger løsninger, der er skræddersyet til deres specifikke behov. Fremskridt inden for AI og machine learning (ML) kan bruges til at forbedre kundeoplevelsen, øge effektiviteten og nøjagtigheden af operationelle arbejdsgange og forbedre ydeevnen ved at understøtte flere aspekter af handelsprocessen.

Lumsk er en finansiel teknologivirksomhed, der bygger morgendagens kredithandelsnetværk - en markedsplads for effektiv handel, informationsformidling og eksekvering mellem deltagere på virksomhedsobligationsmarkedet. Trumid optimerer kredithandelsoplevelsen ved at kombinere avancerede produktdesign- og teknologiprincipper med dyb markedsekspertise. Resultatet er en integreret handelsløsning, der leverer et komplet økosystem af protokoller og eksekveringsværktøjer inden for én intuitiv platform.

Obligationshandelsmarkedet har traditionelt involveret offline køber/sælger-matchningsprocesser hjulpet af regelbaseret teknologi. Trumid har taget et initiativ til at transformere denne oplevelse. Gennem sin elektroniske handelsplatform kan handlende få adgang til tusindvis af obligationer til at købe eller sælge, et fællesskab af engagerede brugere at interagere med og en række handelsprotokoller og eksekveringsløsninger. Med et ekspanderende netværk af brugere, samarbejdede Trumids AI og Data Strategy team med AWS Machine Learning Solutions Lab. Målet var at udvikle ML-systemer, der kunne levere en mere personlig handelsoplevelse ved at modellere brugernes interesser og præferencer for obligationer tilgængelige på Trumid.

Disse ML-modeller kan bruges til at fremskynde tiden til indsigt og handling ved at personalisere, hvordan information vises for hver bruger for at sikre, at de mest relevante og handlingsrettede oplysninger, som en erhvervsdrivende er interesseret i, prioriteres og er tilgængelige.

For at løse denne udfordring udviklede Trumid og ML Solutions Lab en end-to-end dataforberedelse, modeltræning og inferensproces baseret på en dyb neural netværksmodel bygget ved hjælp af Deep Graph Library for Knowledge Embedding (DGL-KE). En end-to-end løsning med Amazon SageMaker blev også indsat.

Fordele ved grafmaskinelæring

Data fra den virkelige verden er komplekse og indbyrdes forbundne og indeholder ofte netværksstrukturer. Eksempler omfatter molekyler i naturen, sociale netværk, internettet, veje og finansielle handelsplatforme.

Grafer giver en naturlig måde at modellere denne kompleksitet ved at udtrække vigtig og rig information, der er indlejret i relationerne mellem enheder.

Traditionelle ML-algoritmer kræver, at data organiseres som tabeller eller sekvenser. Dette fungerer generelt godt, men nogle domæner er mere naturligt og effektivt repræsenteret af grafer (såsom et netværk af objekter relateret til hinanden, som illustreret senere i dette indlæg). I stedet for at tvinge disse grafdatasæt til tabeller eller sekvenser, kan du bruge graf-ML-algoritmer til både at repræsentere og lære af dataene som præsenteret i dens grafform, herunder oplysninger om konstituerende noder, kanter og andre funktioner.

I betragtning af, at obligationshandel i sagens natur er repræsenteret som et netværk af interaktioner mellem købere og sælgere, der involverer forskellige typer af obligationsinstrumenter, er det nødvendigt med en effektiv løsning at udnytte netværkseffekterne fra de fællesskaber af handlende, der deltager på markedet. Lad os se på, hvordan vi udnyttede handelsnetværkseffekterne og implementerede denne vision her.

Løsning

Obligationshandel er kendetegnet ved flere faktorer, herunder handelsstørrelse, løbetid, udsteder, kurs, kuponværdier, købs-/udbudstilbud og den involverede type handelsprotokol. Udover ordrer og handler fanger Trumid også "indikationer af interesse" (IOI'er). De historiske interaktionsdata inkarnerer handelsadfærden og markedsforholdene, der udvikler sig over tid. Vi brugte disse data til at bygge en graf over tidsstemplede interaktioner mellem handlende, obligationer og udstedere og brugte graf ML til at forudsige fremtidige interaktioner.

Anbefalingsløsningen omfattede fire hovedtrin:

Forberedelse af handelsdata som et grafdatasæt
Træning af en vidensgrafindlejringsmodel
Forudsigelse af nye handler
Pakke løsningen som en skalerbar arbejdsgang

I de følgende afsnit diskuterer vi hvert trin mere detaljeret.

Forberedelse af handelsdata som et grafdatasæt

Der er mange måder at repræsentere handelsdata på som en graf. En mulighed er at repræsentere dataene udtømmende med noder, kanter og egenskaber: handlende som noder med egenskaber (såsom arbejdsgiver eller ansættelse), obligationer som noder med egenskaber (udsteder, udestående beløb, løbetid, rente, kuponværdi) og handler som kanter med egenskaber (dato, type, størrelse). En anden mulighed er at forenkle dataene og kun bruge noder og relationer (relationer er indtastede kanter som handlet eller udstedt af). Denne sidstnævnte tilgang fungerede bedre i vores tilfælde, og vi brugte grafen repræsenteret i følgende figur.

Graf over relationerne mellem handlende, obligationer og obligationsudstedere

Derudover fjernede vi nogle af de kanter, der blev betragtet som forældede: Hvis en erhvervsdrivende interagerede med mere end 100 forskellige obligationer, beholdt vi kun de sidste 100 obligationer.

Til sidst gemte vi grafdatasættet som en liste over kanter i TSV format:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Træning af en vidensgrafindlejringsmodel

For grafer, der kun er sammensat af noder og relationer (ofte kaldet vidensgrafer), udviklede DGL-teamet vidensgrafens indlejringsramme DGL-KE. KE står for videnindlejring, ideen er at repræsentere noder og relationer (viden) ved koordinater (indlejringer) og optimere (træne) koordinaterne, så den oprindelige grafstruktur kan gendannes fra koordinaterne. På listen over tilgængelige indlejringsmodeller valgte vi TransE (translationel indlejring). TransE træner indlejringer med det formål at tilnærme følgende lighed:

Kildeknudeindlejring + relationsindlejring = målknudeindlejring (1)

Vi trænede modellen ved at påberåbe os dglke_train kommando. Outputtet af træningen er en modelmappe indeholdende de trænede indlejringer.

For flere detaljer om TransE, se Oversættelse af indlejringer til modellering af multirelationelle data.

Forudsigelse af nye handler

For at forudsige nye handler fra en erhvervsdrivende med vores model, brugte vi ligheden (1): føj traderens indlejring til den seneste handelsindlejring og ledte efter obligationer tættest på den resulterende indlejring.

Vi gjorde dette i to trin:

Beregn score for alle mulige handels-seneste relationer med dglke_predict.
Beregn de 100 højeste scores for hver erhvervsdrivende.

For detaljerede instruktioner om, hvordan du bruger DGL-KE, se Træning af vidensgrafindlejringer i skala med Deep Graph Library , DGL-KE Dokumentation.

Pakke løsningen som en skalerbar arbejdsgang

Vi brugte SageMaker-notebooks til at udvikle og fejlfinde vores kode. Til produktion ønskede vi at påberåbe modellen som et simpelt API-kald. Vi fandt ud af, at vi ikke behøvede at adskille dataforberedelse, modeltræning og forudsigelse, og det var praktisk at pakke hele pipelinen som et enkelt script og bruge SageMaker-behandling. SageMaker-behandling giver dig mulighed for at køre et script eksternt på en valgt instanstype og Docker-billede uden at skulle bekymre dig om ressourceallokering og dataoverførsel. Dette var enkelt og omkostningseffektivt for os, fordi GPU-instansen kun bruges og betales i løbet af de 15 minutter, der skal til for at scriptet kan køre.

For detaljerede instruktioner om, hvordan du bruger SageMaker-behandling, se Amazon SageMaker Processing – Fuldt styret databehandling og modelevaluering , Behandles.

Resultater

Vores brugerdefinerede grafmodel klarede sig meget godt sammenlignet med andre metoder: ydeevnen blev forbedret med 80 %, med mere stabile resultater på tværs af alle tradertyper. Vi målte præstation ved gennemsnitlig tilbagekaldelse (procentdel af faktiske handler forudsagt af anbefaleren, i gennemsnit over alle handlende). Med andre standardmålinger varierede forbedringen fra 50-130 %.

Denne præstation gjorde os i stand til bedre at matche handlere og obligationer, hvilket indikerer en forbedret traderoplevelse i modellen, hvor maskinlæring leverede et stort skridt fremad fra hårdkodede regler, som kan være svære at skalere.

Konklusion

Trumid er fokuseret på at levere innovative produkter og workflow-effektiviteter til deres brugerfællesskab. Opbygning af morgendagens kredithandelsnetværk kræver kontinuerligt samarbejde med kolleger og brancheeksperter som AWS ML Solutions Lab, designet til at hjælpe dig med at innovere hurtigere.

For mere information, se følgende ressourcer:

Om forfatterne

Marc van Oudheusden er Senior Data Scientist hos Amazon ML Solutions Lab-teamet hos Amazon Web Services. Han arbejder med AWS-kunder for at løse forretningsproblemer med kunstig intelligens og maskinlæring. Uden for arbejdet kan du finde ham på stranden, lege med sine børn, surfe eller kitesurfe.

Mutisya Ndunda er Head of Data Strategy and AI hos Trumid. Han er en erfaren finansiel professionel med over 20 års bred institutionel erfaring inden for kapitalmarkeder, handel og finansiel teknologi. Mutisya har en stærk kvantitativ og analytisk baggrund med over ti års erfaring inden for kunstig intelligens, machine learning og big data-analyse. Før Trumid var han administrerende direktør for Alpha Vertex, en finansiel teknologivirksomhed, der tilbyder analytiske løsninger drevet af proprietære AI-algoritmer til finansielle institutioner. Mutisya har en bachelorgrad i Electrical Engineering fra Cornell University og en mastergrad i Financial Engineering fra Cornell University.

Udvikling af avancerede maskinlæringssystemer hos Trumid med Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Isaac Privitera er Senior Data Scientist ved Amazon Machine Learning Solutions Lab, hvor han udvikler skræddersyede maskinlærings- og deep learning-løsninger til at løse kundernes forretningsproblemer. Han arbejder primært i computervisionsområdet med fokus på at give AWS-kunder mulighed for distribueret træning og aktiv læring.

Tidsstempel: Juli 25, 2022Juli 25, 2022

Tidsstempel: August 25, 2022

Udvikling af avancerede maskinlæringssystemer hos Trumid med Deep Graph Library for Knowledge Embedding

Genudgivet af Platon

Fordele ved grafmaskinelæring

Løsning

Forberedelse af handelsdata som et grafdatasæt

Træning af en vidensgrafindlejringsmodel

Forudsigelse af nye handler

Pakke løsningen som en skalerbar arbejdsgang

Resultater

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Hvordan Amp på Amazon brugte data til at øge kundeengagementet, del 1: Opbygning af en dataanalyseplatform

ML inferencing på kanten med Amazon SageMaker Edge og Ambarella CV25

Byg proteinfoldningsarbejdsgange for at fremskynde opdagelse af lægemidler på Amazon SageMaker | Amazon Web Services

Opdag modstridende input ved hjælp af Amazon SageMaker Model Monitor og Amazon SageMaker Debugger

Vidensbaser i Amazon Bedrock forenkler nu at stille spørgsmål til et enkelt dokument | Amazon Web Services

Byg en flersproget dokumentoversættelsesarbejdsgang med domænespecifik og sprogspecifik tilpasning

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto