Utvikle avanserte maskinlæringssystemer hos Trumid med Deep Graph Library for kunnskapsinnbygging

Publisert av Platon

Følgere: 0

Dette er et gjesteinnlegg skrevet sammen med Mutisya Ndunda fra Trumid.

Som mange bransjer, egner ikke selskapsobligasjonsmarkedet seg til en en-størrelse-passer-alle-tilnærming. Den er enorm, likviditeten er fragmentert, og institusjonelle kunder krever løsninger skreddersydd for deres spesifikke behov. Fremskritt innen AI og maskinlæring (ML) kan brukes til å forbedre kundeopplevelsen, øke effektiviteten og nøyaktigheten til operasjonelle arbeidsflyter og forbedre ytelsen ved å støtte flere aspekter av handelsprosessen.

Lumsk er et finansteknologiselskap som bygger morgendagens kreditthandelsnettverk – en markedsplass for effektiv handel, informasjonsspredning og utførelse mellom aktører i bedriftsobligasjonsmarkedet. Trumid optimaliserer kreditthandelsopplevelsen ved å kombinere ledende produktdesign og teknologiprinsipper med dyp markedsekspertise. Resultatet er en integrert handelsløsning som leverer et komplett økosystem av protokoller og utførelsesverktøy innenfor én intuitiv plattform.

Markedet for obligasjonshandel har tradisjonelt involvert offline-kjøper/selger-matchingsprosesser hjulpet av regelbasert teknologi. Trumid har tatt et initiativ for å transformere denne opplevelsen. Gjennom sin elektroniske handelsplattform kan tradere få tilgang til tusenvis av obligasjoner å kjøpe eller selge, et fellesskap av engasjerte brukere å samhandle med, og en rekke handelsprotokoller og utførelsesløsninger. Med et utvidet nettverk av brukere, samarbeidet Trumids AI og Data Strategy-team med AWS Machine Learning Solutions Lab. Målet var å utvikle ML-systemer som kunne levere en mer personlig handelsopplevelse ved å modellere brukernes interesser og preferanser for obligasjoner tilgjengelig på Trumid.

Disse ML-modellene kan brukes til å fremskynde tiden til innsikt og handling ved å tilpasse hvordan informasjon vises til hver bruker for å sikre at den mest relevante og handlingsvennlige informasjonen en næringsdrivende kan bry seg om, prioriteres og er tilgjengelig.

For å løse denne utfordringen utviklet Trumid og ML Solutions Lab en ende-til-ende dataforberedelse, modellopplæring og inferensprosess basert på en dyp nevrale nettverksmodell bygget ved hjelp av Deep Graph Library for Knowledge Embedding (DGL-KE). En ende-til-ende løsning med Amazon SageMaker ble også utplassert.

Fordeler med grafisk maskinlæring

Data fra den virkelige verden er komplekse og sammenkoblede, og inneholder ofte nettverksstrukturer. Eksempler inkluderer molekyler i naturen, sosiale nettverk, internett, veier og finansielle handelsplattformer.

Grafer gir en naturlig måte å modellere denne kompleksiteten ved å trekke ut viktig og rik informasjon som er innebygd i relasjonene mellom enheter.

Tradisjonelle ML-algoritmer krever at data organiseres som tabeller eller sekvenser. Dette fungerer generelt bra, men noen domener er mer naturlig og effektivt representert av grafer (for eksempel et nettverk av objekter relatert til hverandre, som illustrert senere i dette innlegget). I stedet for å tvinge disse grafdatasettene inn i tabeller eller sekvenser, kan du bruke grafiske ML-algoritmer til å både representere og lære av dataene som presenteres i grafformen, inkludert informasjon om konstituerende noder, kanter og andre funksjoner.

Tatt i betraktning at obligasjonshandel iboende er representert som et nettverk av interaksjoner mellom kjøpere og selgere som involverer ulike typer obligasjonsinstrumenter, må en effektiv løsning utnytte nettverkseffektene til fellesskapene av handelsmenn som deltar i markedet. La oss se på hvordan vi utnyttet handelsnettverkseffektene og implementerte denne visjonen her.

Oppløsning

Obligasjonshandel er preget av flere faktorer, inkludert handelsstørrelse, løpetid, utsteder, rente, kupongverdier, bud/salgstilbud og type handelsprotokoll som er involvert. I tillegg til bestillinger og handler, fanger Trumid også "indikasjoner på interesse" (IOIs). De historiske interaksjonsdataene legemliggjør handelsatferden og markedsforholdene som utvikler seg over tid. Vi brukte disse dataene til å bygge en graf over tidsstemplede interaksjoner mellom tradere, obligasjoner og utstedere, og brukte grafen ML for å forutsi fremtidige interaksjoner.

Anbefalingsløsningen besto av fire hovedtrinn:

Forberede handelsdata som et grafdatasett
Trening av en kunnskapsgrafinnbyggingsmodell
Forutsi nye handler
Pakke løsningen som en skalerbar arbeidsflyt

I de følgende avsnittene diskuterer vi hvert trinn mer detaljert.

Forberede handelsdata som et grafdatasett

Det er mange måter å representere handelsdata som en graf. Ett alternativ er å representere dataene uttømmende med noder, kanter og egenskaper: handelsmenn som noder med egenskaper (som arbeidsgiver eller ansettelsesforhold), obligasjoner som noder med egenskaper (utsteder, utestående beløp, forfall, rente, kupongverdi) og handler som kanter med egenskaper (dato, type, størrelse). Et annet alternativ er å forenkle dataene og kun bruke noder og relasjoner (relasjoner er skrevet kanter som handlet eller utstedt av). Denne sistnevnte tilnærmingen fungerte bedre i vårt tilfelle, og vi brukte grafen representert i følgende figur.

Graf over forholdet mellom handelsmenn, obligasjoner og obligasjonsutstedere

I tillegg fjernet vi noen av kantene som ble ansett som foreldet: hvis en trader interagerte med mer enn 100 forskjellige obligasjoner, beholdt vi bare de siste 100 obligasjonene.

Til slutt lagret vi grafdatasettet som en liste over kanter i TSV format:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Trening av en kunnskapsgrafinnbyggingsmodell

For grafer som kun består av noder og relasjoner (ofte kalt kunnskapsgrafer), utviklet DGL-teamet innbyggingsrammeverket for kunnskapsgrafer DGL-KE. KE står for kunnskapsinnbygging, ideen er å representere noder og relasjoner (kunnskap) ved koordinater (innleiringer) og optimalisere (trene) koordinatene slik at den opprinnelige grafstrukturen kan gjenvinnes fra koordinatene. I listen over tilgjengelige embedding-modeller valgte vi TransE (translational embeddings). TransE trener innbygginger med mål om å tilnærme følgende likhet:

Innbygging av kildenode + relasjonsinnbygging = innbygging av målnode (1)

Vi trente modellen ved å påkalle dglke_train kommando. Utdataene fra opplæringen er en modellmappe som inneholder de trente innebyggingene.

For mer informasjon om TransE, se Oversette innebygginger for modellering av multirelasjonelle data.

Forutsi nye handler

For å forutsi nye handler fra en trader med modellen vår, brukte vi likheten (1): legg til trader-innbyggingen til den nylige handelen og så etter obligasjoner som var nærmest den resulterende innebyggingen.

Vi gjorde dette i to trinn:

Beregn poengsum for alle mulige handelsrelaterte relasjoner med dglke_predict.
Beregn de 100 høyeste poengsummene for hver trader.

For detaljerte instruksjoner om hvordan du bruker DGL-KE, se Treningskunnskapsgrafinnbygginger i skala med Deep Graph Library og DGL-KE-dokumentasjon.

Pakke løsningen som en skalerbar arbeidsflyt

Vi brukte SageMaker notatbøker til å utvikle og feilsøke koden vår. For produksjon ønsket vi å påkalle modellen som et enkelt API-kall. Vi fant ut at vi ikke trengte å skille dataforberedelse, modelltrening og prediksjon, og det var praktisk å pakke hele pipelinen som et enkelt skript og bruke SageMaker-behandling. SageMaker-behandling lar deg kjøre et skript eksternt på en valgt forekomsttype og Docker-bilde uten å måtte bekymre deg for ressursallokering og dataoverføring. Dette var enkelt og kostnadseffektivt for oss, fordi GPU-forekomsten kun brukes og betales i løpet av de 15 minuttene som trengs for at skriptet skal kjøre.

For detaljerte instruksjoner om hvordan du bruker SageMaker-behandling, se Amazon SageMaker Processing – Fullt administrert databehandling og modellevaluering og i prosess.

Resultater

Vår egendefinerte grafmodell presterte veldig bra sammenlignet med andre metoder: ytelse forbedret med 80 %, med mer stabile resultater på tvers av alle tradertyper. Vi målte ytelse ved gjennomsnittlig tilbakekalling (prosentandel av faktiske handler spådd av anbefaleren, gjennomsnittlig over alle tradere). Med andre standardberegninger varierte forbedringen fra 50–130 %.

Denne ytelsen gjorde oss i stand til å matche tradere og obligasjoner bedre, noe som indikerer en forbedret traderopplevelse i modellen, med maskinlæring som gir et stort skritt videre fra hardkodede regler, som kan være vanskelig å skalere.

konklusjonen

Trumid er fokusert på å levere innovative produkter og arbeidsflyteffektivitet til brukerfellesskapet. Å bygge morgendagens kreditthandelsnettverk krever kontinuerlig samarbeid med kolleger og bransjeeksperter som AWS ML Solutions Lab, designet for å hjelpe deg med å innovere raskere.

For mer informasjon, se følgende ressurser:

Om forfatterne

Marc van Oudheusden er senior dataforsker med Amazon ML Solutions Lab-teamet hos Amazon Web Services. Han jobber med AWS-kunder for å løse forretningsproblemer med kunstig intelligens og maskinlæring. Utenom jobben kan du finne ham på stranden, leke med barna hans, surfe eller kitesurfe.

Mutisya Ndunda er leder for datastrategi og AI i Trumid. Han er en erfaren finanspersonell med over 20 års bred institusjonell erfaring innen kapitalmarkeder, handel og finansiell teknologi. Mutisya har en sterk kvantitativ og analytisk bakgrunn med over et tiår med erfaring innen kunstig intelligens, maskinlæring og big data-analyse. Før Trumid var han administrerende direktør i Alpha Vertex, et finansteknologiselskap som tilbyr analytiske løsninger drevet av proprietære AI-algoritmer til finansinstitusjoner. Mutisya har en bachelorgrad i elektroteknikk fra Cornell University og en mastergrad i finansteknikk fra Cornell University.

Utvikler avanserte maskinlæringssystemer hos Trumid med Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Isaac Privitera er senior dataforsker ved Amazon Machine Learning Solutions Lab, hvor han utvikler skreddersydde maskinlærings- og dyplæringsløsninger for å løse kundenes forretningsproblemer. Han jobber primært innen datasynsområdet, med fokus på å gi AWS-kunder distribuert opplæring og aktiv læring.

Tidstempel: Juli 25, 2022Juli 25, 2022

Tidstempel: Oktober 17, 2023

Utvikler avanserte maskinlæringssystemer hos Trumid med Deep Graph Library for Knowledge Embedding

Publisert av Platon

Fordeler med grafisk maskinlæring

Oppløsning

Forberede handelsdata som et grafdatasett

Trening av en kunnskapsgrafinnbyggingsmodell

Forutsi nye handler

Pakke løsningen som en skalerbar arbeidsflyt

Resultater

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Hvordan Patsnap brukte GPT-2-slutning på Amazon SageMaker med lav ventetid og kostnad | Amazon Web Services

MLOps på kanten med Amazon SageMaker Edge Manager og AWS IoT Greengrass

Enterprise administrative kontroller, enkel registrering og utvidet programmeringsspråkstøtte for Amazon CodeWhisperer

Indekser Microsoft Exchange-innholdet ditt ved å bruke Exchange-koblingen for Amazon Kendra

Kraftanbefalinger og søk ved hjelp av en IMDb-kunnskapsgraf – Del 3

Bruk Amazon SageMaker Data Wrangler i Amazon SageMaker Studio med en standard livssykluskonfigurasjon

Les nettsider og fremhev innhold ved hjelp av Amazon Polly

Tilpass søkeresultatene dine med Amazon Personalize og Amazon OpenSearch Service-integrasjon | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn