Utvikler avanserte maskinlæringssystemer hos Trumid med Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Utvikler avanserte maskinlæringssystemer hos Trumid med Deep Graph Library for Knowledge Embedding

Dette er et gjesteinnlegg skrevet sammen med Mutisya Ndunda fra Trumid.

Som mange bransjer, egner ikke selskapsobligasjonsmarkedet seg til en en-størrelse-passer-alle-tilnærming. Den er enorm, likviditeten er fragmentert, og institusjonelle kunder krever løsninger skreddersydd for deres spesifikke behov. Fremskritt innen AI og maskinlæring (ML) kan brukes til å forbedre kundeopplevelsen, øke effektiviteten og nøyaktigheten til operasjonelle arbeidsflyter og forbedre ytelsen ved å støtte flere aspekter av handelsprosessen.

Lumsk er et finansteknologiselskap som bygger morgendagens kreditthandelsnettverk – en markedsplass for effektiv handel, informasjonsspredning og utførelse mellom aktører i bedriftsobligasjonsmarkedet. Trumid optimaliserer kreditthandelsopplevelsen ved å kombinere ledende produktdesign og teknologiprinsipper med dyp markedsekspertise. Resultatet er en integrert handelsløsning som leverer et komplett økosystem av protokoller og utførelsesverktøy innenfor én intuitiv plattform.

Markedet for obligasjonshandel har tradisjonelt involvert offline-kjøper/selger-matchingsprosesser hjulpet av regelbasert teknologi. Trumid har tatt et initiativ for å transformere denne opplevelsen. Gjennom sin elektroniske handelsplattform kan tradere få tilgang til tusenvis av obligasjoner å kjøpe eller selge, et fellesskap av engasjerte brukere å samhandle med, og en rekke handelsprotokoller og utførelsesløsninger. Med et utvidet nettverk av brukere, samarbeidet Trumids AI og Data Strategy-team med AWS Machine Learning Solutions Lab. Målet var å utvikle ML-systemer som kunne levere en mer personlig handelsopplevelse ved å modellere brukernes interesser og preferanser for obligasjoner tilgjengelig på Trumid.

Disse ML-modellene kan brukes til å fremskynde tiden til innsikt og handling ved å tilpasse hvordan informasjon vises til hver bruker for å sikre at den mest relevante og handlingsvennlige informasjonen en næringsdrivende kan bry seg om, prioriteres og er tilgjengelig.

For å løse denne utfordringen utviklet Trumid og ML Solutions Lab en ende-til-ende dataforberedelse, modellopplæring og inferensprosess basert på en dyp nevrale nettverksmodell bygget ved hjelp av Deep Graph Library for Knowledge Embedding (DGL-KE). En ende-til-ende løsning med Amazon SageMaker ble også utplassert.

Fordeler med grafisk maskinlæring

Data fra den virkelige verden er komplekse og sammenkoblede, og inneholder ofte nettverksstrukturer. Eksempler inkluderer molekyler i naturen, sosiale nettverk, internett, veier og finansielle handelsplattformer.

Grafer gir en naturlig måte å modellere denne kompleksiteten ved å trekke ut viktig og rik informasjon som er innebygd i relasjonene mellom enheter.

Tradisjonelle ML-algoritmer krever at data organiseres som tabeller eller sekvenser. Dette fungerer generelt bra, men noen domener er mer naturlig og effektivt representert av grafer (for eksempel et nettverk av objekter relatert til hverandre, som illustrert senere i dette innlegget). I stedet for å tvinge disse grafdatasettene inn i tabeller eller sekvenser, kan du bruke grafiske ML-algoritmer til å både representere og lære av dataene som presenteres i grafformen, inkludert informasjon om konstituerende noder, kanter og andre funksjoner.

Tatt i betraktning at obligasjonshandel iboende er representert som et nettverk av interaksjoner mellom kjøpere og selgere som involverer ulike typer obligasjonsinstrumenter, må en effektiv løsning utnytte nettverkseffektene til fellesskapene av handelsmenn som deltar i markedet. La oss se på hvordan vi utnyttet handelsnettverkseffektene og implementerte denne visjonen her.

Oppløsning

Obligasjonshandel er preget av flere faktorer, inkludert handelsstørrelse, løpetid, utsteder, rente, kupongverdier, bud/salgstilbud og type handelsprotokoll som er involvert. I tillegg til bestillinger og handler, fanger Trumid også "indikasjoner på interesse" (IOIs). De historiske interaksjonsdataene legemliggjør handelsatferden og markedsforholdene som utvikler seg over tid. Vi brukte disse dataene til å bygge en graf over tidsstemplede interaksjoner mellom tradere, obligasjoner og utstedere, og brukte grafen ML for å forutsi fremtidige interaksjoner.

Anbefalingsløsningen besto av fire hovedtrinn:

  • Forberede handelsdata som et grafdatasett
  • Trening av en kunnskapsgrafinnbyggingsmodell
  • Forutsi nye handler
  • Pakke løsningen som en skalerbar arbeidsflyt

I de følgende avsnittene diskuterer vi hvert trinn mer detaljert.

Forberede handelsdata som et grafdatasett

Det er mange måter å representere handelsdata som en graf. Ett alternativ er å representere dataene uttømmende med noder, kanter og egenskaper: handelsmenn som noder med egenskaper (som arbeidsgiver eller ansettelsesforhold), obligasjoner som noder med egenskaper (utsteder, utestående beløp, forfall, rente, kupongverdi) og handler som kanter med egenskaper (dato, type, størrelse). Et annet alternativ er å forenkle dataene og kun bruke noder og relasjoner (relasjoner er skrevet kanter som handlet eller utstedt av). Denne sistnevnte tilnærmingen fungerte bedre i vårt tilfelle, og vi brukte grafen representert i følgende figur.

Graf over forholdet mellom handelsmenn, obligasjoner og obligasjonsutstedere

I tillegg fjernet vi noen av kantene som ble ansett som foreldet: hvis en trader interagerte med mer enn 100 forskjellige obligasjoner, beholdt vi bare de siste 100 obligasjonene.

Til slutt lagret vi grafdatasettet som en liste over kanter i TSV format:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Trening av en kunnskapsgrafinnbyggingsmodell

For grafer som kun består av noder og relasjoner (ofte kalt kunnskapsgrafer), utviklet DGL-teamet innbyggingsrammeverket for kunnskapsgrafer DGL-KE. KE står for kunnskapsinnbygging, ideen er å representere noder og relasjoner (kunnskap) ved koordinater (innleiringer) og optimalisere (trene) koordinatene slik at den opprinnelige grafstrukturen kan gjenvinnes fra koordinatene. I listen over tilgjengelige embedding-modeller valgte vi TransE (translational embeddings). TransE trener innbygginger med mål om å tilnærme følgende likhet:

Innbygging av kildenode + relasjonsinnbygging = innbygging av målnode (1)

Vi trente modellen ved å påkalle dglke_train kommando. Utdataene fra opplæringen er en modellmappe som inneholder de trente innebyggingene.

For mer informasjon om TransE, se Oversette innebygginger for modellering av multirelasjonelle data.

Forutsi nye handler

For å forutsi nye handler fra en trader med modellen vår, brukte vi likheten (1): legg til trader-innbyggingen til den nylige handelen og så etter obligasjoner som var nærmest den resulterende innebyggingen.

Vi gjorde dette i to trinn:

  1. Beregn poengsum for alle mulige handelsrelaterte relasjoner med dglke_predict.
  2. Beregn de 100 høyeste poengsummene for hver trader.

For detaljerte instruksjoner om hvordan du bruker DGL-KE, se Treningskunnskapsgrafinnbygginger i skala med Deep Graph Library og DGL-KE-dokumentasjon.

Pakke løsningen som en skalerbar arbeidsflyt

Vi brukte SageMaker notatbøker til å utvikle og feilsøke koden vår. For produksjon ønsket vi å påkalle modellen som et enkelt API-kall. Vi fant ut at vi ikke trengte å skille dataforberedelse, modelltrening og prediksjon, og det var praktisk å pakke hele pipelinen som et enkelt skript og bruke SageMaker-behandling. SageMaker-behandling lar deg kjøre et skript eksternt på en valgt forekomsttype og Docker-bilde uten å måtte bekymre deg for ressursallokering og dataoverføring. Dette var enkelt og kostnadseffektivt for oss, fordi GPU-forekomsten kun brukes og betales i løpet av de 15 minuttene som trengs for at skriptet skal kjøre.

For detaljerte instruksjoner om hvordan du bruker SageMaker-behandling, se Amazon SageMaker Processing – Fullt administrert databehandling og modellevaluering og i prosess.

Resultater

Vår egendefinerte grafmodell presterte veldig bra sammenlignet med andre metoder: ytelse forbedret med 80 %, med mer stabile resultater på tvers av alle tradertyper. Vi målte ytelse ved gjennomsnittlig tilbakekalling (prosentandel av faktiske handler spådd av anbefaleren, gjennomsnittlig over alle tradere). Med andre standardberegninger varierte forbedringen fra 50–130 %.

Denne ytelsen gjorde oss i stand til å matche tradere og obligasjoner bedre, noe som indikerer en forbedret traderopplevelse i modellen, med maskinlæring som gir et stort skritt videre fra hardkodede regler, som kan være vanskelig å skalere.

konklusjonen

Trumid er fokusert på å levere innovative produkter og arbeidsflyteffektivitet til brukerfellesskapet. Å bygge morgendagens kreditthandelsnettverk krever kontinuerlig samarbeid med kolleger og bransjeeksperter som AWS ML Solutions Lab, designet for å hjelpe deg med å innovere raskere.

For mer informasjon, se følgende ressurser:


Om forfatterne

Utvikler avanserte maskinlæringssystemer hos Trumid med Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Marc van Oudheusden er senior dataforsker med Amazon ML Solutions Lab-teamet hos Amazon Web Services. Han jobber med AWS-kunder for å løse forretningsproblemer med kunstig intelligens og maskinlæring. Utenom jobben kan du finne ham på stranden, leke med barna hans, surfe eller kitesurfe.

Utvikler avanserte maskinlæringssystemer hos Trumid med Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Mutisya Ndunda er leder for datastrategi og AI i Trumid. Han er en erfaren finanspersonell med over 20 års bred institusjonell erfaring innen kapitalmarkeder, handel og finansiell teknologi. Mutisya har en sterk kvantitativ og analytisk bakgrunn med over et tiår med erfaring innen kunstig intelligens, maskinlæring og big data-analyse. Før Trumid var han administrerende direktør i Alpha Vertex, et finansteknologiselskap som tilbyr analytiske løsninger drevet av proprietære AI-algoritmer til finansinstitusjoner. Mutisya har en bachelorgrad i elektroteknikk fra Cornell University og en mastergrad i finansteknikk fra Cornell University.

Utvikler avanserte maskinlæringssystemer hos Trumid med Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Isaac Privitera er senior dataforsker ved Amazon Machine Learning Solutions Lab, hvor han utvikler skreddersydde maskinlærings- og dyplæringsløsninger for å løse kundenes forretningsproblemer. Han jobber primært innen datasynsområdet, med fokus på å gi AWS-kunder distribuert opplæring og aktiv læring.

Tidstempel:

Mer fra AWS maskinlæring