Geavanceerde machine learning-systemen ontwikkelen bij Trumid met de Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Geavanceerde machine learning-systemen ontwikkelen bij Trumid met de Deep Graph Library for Knowledge Embedding

Dit is een gastpost die samen met Mutisya Ndunda van Trumid is geschreven.

Net als veel andere sectoren leent de markt voor bedrijfsobligaties zich niet voor een one-size-fits-all-aanpak. Het is enorm, de liquiditeit is gefragmenteerd en institutionele klanten vragen om oplossingen die zijn afgestemd op hun specifieke behoeften. Vooruitgang in AI en machine learning (ML) kan worden gebruikt om de klantervaring te verbeteren, de efficiรซntie en nauwkeurigheid van operationele workflows te vergroten en de prestaties te verbeteren door meerdere aspecten van het handelsproces te ondersteunen.

Trumid is een financieel technologiebedrijf dat het krediethandelsnetwerk van morgen bouwt - een marktplaats voor efficiรซnte handel, informatieverspreiding en uitvoering tussen deelnemers aan de markt voor bedrijfsobligaties. Trumid optimaliseert de krediethandelervaring door toonaangevende productontwerp- en technologieprincipes te combineren met diepgaande marktexpertise. Het resultaat is een geรฏntegreerde handelsoplossing die een volledig ecosysteem van protocollen en uitvoeringstools levert binnen รฉรฉn intuรฏtief platform.

De obligatiehandelsmarkt omvatte traditioneel offline processen voor het matchen van kopers/verkopers, ondersteund door op regels gebaseerde technologie. Trumid is een initiatief gestart om deze ervaring te transformeren. Via het elektronische handelsplatform hebben handelaren toegang tot duizenden obligaties om te kopen of verkopen, een gemeenschap van betrokken gebruikers om mee te communiceren en een verscheidenheid aan handelsprotocollen en uitvoeringsoplossingen. Met een groeiend netwerk van gebruikers werkte Trumid's AI- en Data Strategy-team samen met de AWS Machine Learning Solutions-lab. Het doel was om ML-systemen te ontwikkelen die een meer gepersonaliseerde handelservaring konden bieden door de interesse en voorkeuren van gebruikers voor obligaties die beschikbaar zijn op Trumid te modelleren.

Deze ML-modellen kunnen worden gebruikt om de tijd tot inzicht en actie te versnellen door te personaliseren hoe informatie aan elke gebruiker wordt weergegeven om ervoor te zorgen dat de meest relevante en bruikbare informatie waar een handelaar om geeft, prioriteit krijgt en toegankelijk is.

Om deze uitdaging op te lossen, hebben Trumid en het ML Solutions Lab een end-to-end proces voor gegevensvoorbereiding, modeltraining en inferentie ontwikkeld op basis van een diep neuraal netwerkmodel dat is gebouwd met behulp van de Deep Graph Library for Knowledge Embedding (DGL-KE). Een end-to-end oplossing met Amazon Sage Maker werd ook ingezet.

Voordelen van machine learning voor grafieken

Gegevens uit de echte wereld zijn complex en onderling verbonden en bevatten vaak netwerkstructuren. Voorbeelden zijn moleculen in de natuur, sociale netwerken, internet, wegen en financiรซle handelsplatforms.

Grafieken bieden een natuurlijke manier om deze complexiteit te modelleren door belangrijke en rijke informatie te extraheren die is ingebed in de relaties tussen entiteiten.

Traditionele ML-algoritmen vereisen dat gegevens worden georganiseerd als tabellen of reeksen. Dit werkt over het algemeen goed, maar sommige domeinen worden natuurlijker en effectiever weergegeven door grafieken (zoals een netwerk van aan elkaar gerelateerde objecten, zoals later in dit bericht wordt geรฏllustreerd). In plaats van deze grafiekgegevenssets in tabellen of reeksen te dwingen, kunt u ML-algoritmen voor grafieken gebruiken om zowel de gegevens weer te geven als ervan te leren, zoals gepresenteerd in de grafiekvorm, inclusief informatie over samenstellende knooppunten, randen en andere kenmerken.

Aangezien de handel in obligaties inherent wordt weergegeven als een netwerk van interacties tussen kopers en verkopers waarbij verschillende soorten obligatie-instrumenten betrokken zijn, moet een effectieve oplossing de netwerkeffecten van de gemeenschappen van handelaren die aan de markt deelnemen, benutten. Laten we eens kijken hoe we de effecten van het handelsnetwerk hebben benut en deze visie hier hebben geรฏmplementeerd.

Oplossing

De handel in obligaties wordt gekenmerkt door verschillende factoren, waaronder handelsomvang, looptijd, uitgever, koers, couponwaarden, bied-/laataanbod en het betrokken handelsprotocol. Naast orders en transacties legt Trumid ook "indications of interest" (IOI's) vast. De historische interactiegegevens belichamen het handelsgedrag en de marktomstandigheden die zich in de loop van de tijd ontwikkelen. We gebruikten deze gegevens om een โ€‹โ€‹grafiek te maken van interacties met tijdstempels tussen handelaren, obligaties en emittenten, en gebruikten grafiek ML om toekomstige interacties te voorspellen.

De aanbevelingsoplossing omvatte vier hoofdstappen:

  • De handelsgegevens voorbereiden als een grafiekgegevensset
  • Een kennisgrafiek inbeddingsmodel trainen
  • Nieuwe transacties voorspellen
  • De oplossing verpakken als een schaalbare workflow

In de volgende paragrafen bespreken we elke stap in meer detail.

De handelsgegevens voorbereiden als een grafiekgegevensset

Er zijn veel manieren om handelsgegevens als een grafiek weer te geven. Een optie is om de gegevens uitputtend weer te geven met knooppunten, randen en eigenschappen: handelaren als knooppunten met eigenschappen (zoals werkgever of ambtstermijn), obligaties als knooppunten met eigenschappen (uitgever, uitstaand bedrag, looptijd, tarief, couponwaarde) en transacties als randen met eigenschappen (datum, type, maat). Een andere optie is om de gegevens te vereenvoudigen en alleen knooppunten en relaties te gebruiken (relaties zijn getypte randen zoals verhandeld of uitgegeven door). Deze laatste benadering werkte in ons geval beter en we gebruikten de grafiek in de volgende afbeelding.

Grafiek van relaties tussen handelaren, obligaties en emittenten van obligaties

Bovendien hebben we enkele van de als verouderd beschouwde randen verwijderd: als een handelaar interactie had met meer dan 100 verschillende obligaties, hielden we alleen de laatste 100 obligaties.

Ten slotte hebben we de grafiekgegevensset opgeslagen als een lijst met randen in TSV formaat:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
โ€ฆ
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Een kennisgrafiek inbeddingsmodel trainen

Voor grafieken die alleen uit knooppunten en relaties bestaan โ€‹โ€‹(vaak kennisgrafieken genoemd), heeft het DGL-team het kennisgrafiek inbeddingsraamwerk ontwikkeld DGL-KE. KE staat voor kennisinbedding, het idee is om knopen en relaties (kennis) weer te geven door middel van coรถrdinaten (inbeddingen) en de coรถrdinaten te optimaliseren (trainen) zodat de oorspronkelijke grafiekstructuur uit de coรถrdinaten kan worden hersteld. In de lijst met beschikbare inbeddingsmodellen hebben we TransE (translationele inbeddingen) geselecteerd. TransE traint inbeddingen met als doel de volgende gelijkheid te benaderen:

Inbedding van bronknooppunt + inbedding van relaties = insluiten van doelknooppunt (1)

We hebben het model getraind door de aan te roepen dglke_train opdracht. De output van de training is een modelmap met daarin de getrainde inbeddingen.

Voor meer details over TransE, zie: Inbeddingen vertalen voor het modelleren van multi-relationele gegevens.

Nieuwe transacties voorspellen

Om met ons model nieuwe transacties van een handelaar te voorspellen, gebruikten we de gelijkheid (1): voeg de inbedding van de handelaar toe aan de recente inbedding van de handel en zochten naar obligaties die het dichtst bij de resulterende inbedding lagen.

Dit hebben we in twee stappen gedaan:

  1. Bereken scores voor alle mogelijke handelsrecente relaties met dglke_predict.
  2. Bereken de top 100 hoogste scores voor elke handelaar.

Voor gedetailleerde instructies over het gebruik van de DGL-KE, zie: Op schaal inbedding van kennisgrafieken trainen met de Deep Graph Library en DGL-KE-documentatie.

De oplossing verpakken als een schaalbare workflow

We hebben SageMaker-notebooks gebruikt om onze code te ontwikkelen en te debuggen. Voor productie wilden we het model aanroepen als een eenvoudige API-aanroep. We ontdekten dat we gegevensvoorbereiding, modeltraining en voorspelling niet hoefden te scheiden, en het was handig om de hele pijplijn als een enkel script te verpakken en SageMaker-verwerking te gebruiken. Met SageMaker-verwerking kunt u op afstand een script uitvoeren op een gekozen instantietype en Docker-image zonder dat u zich zorgen hoeft te maken over resourcetoewijzing en gegevensoverdracht. Dit was voor ons eenvoudig en kosteneffectief, omdat de GPU-instantie alleen wordt gebruikt en betaald gedurende de 15 minuten die nodig zijn om het script uit te voeren.

Voor gedetailleerde instructies over het gebruik van SageMaker-verwerking, zie: Amazon SageMaker-verwerking - volledig beheerde gegevensverwerking en modelevaluatie en In behandeling.

Resultaten

Ons aangepaste grafiekmodel presteerde zeer goed in vergelijking met andere methoden: de prestaties verbeterden met 80%, met stabielere resultaten voor alle soorten handelaren. We hebben de prestaties gemeten door middel van gemiddelde terugroepactie (percentage van werkelijke transacties voorspeld door de aanbeveler, gemiddeld over alle handelaren). Met andere standaardmetrieken varieerde de verbetering van 50-130%.

Deze prestatie stelde ons in staat om handelaren en obligaties beter op elkaar af te stemmen, wat wijst op een verbeterde handelservaring binnen het model, waarbij machine learning een grote stap voorwaarts levert ten opzichte van hardgecodeerde regels, die moeilijk te schalen kunnen zijn.

Conclusie

Trumid is gericht op het leveren van innovatieve producten en workflow-efficiรซntie aan hun gebruikersgemeenschap. Het opbouwen van het krediethandelsnetwerk van morgen vereist voortdurende samenwerking met collega's en branche-experts zoals het AWS ML Solutions Lab, dat is ontworpen om u te helpen sneller te innoveren.

Raadpleeg de volgende bronnen voor meer informatie:


Over de auteurs

Geavanceerde machine learning-systemen ontwikkelen bij Trumid met de Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Marc van Oudheusden is een Senior Data Scientist bij het Amazon ML Solutions Lab-team bij Amazon Web Services. Hij werkt samen met AWS-klanten om zakelijke problemen op te lossen met kunstmatige intelligentie en machine learning. Buiten zijn werk vind je hem misschien op het strand, spelend met zijn kinderen, surfen of kitesurfen.

Geavanceerde machine learning-systemen ontwikkelen bij Trumid met de Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Mutisya Ndunda is hoofd datastrategie en AI bij Trumid. Hij is een doorgewinterde financiรซle professional met meer dan 20 jaar brede institutionele ervaring in kapitaalmarkten, handel en financiรซle technologie. Mutisya heeft een sterke kwantitatieve en analytische achtergrond met meer dan tien jaar ervaring in kunstmatige intelligentie, machine learning en big data-analyse. Voordat hij bij Trumid kwam, was hij de CEO van Alpha Vertex, een financieel technologiebedrijf dat financiรซle instellingen analytische oplossingen op basis van eigen AI-algoritmen aanbiedt. Mutisya heeft een bachelor in Electrical Engineering van Cornell University en een master in Financial Engineering van Cornell University.

Geavanceerde machine learning-systemen ontwikkelen bij Trumid met de Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.Isaak Privitera is Senior Data Scientist bij het Amazon Machine Learning Solutions Lab, waar hij op maat gemaakte machine learning- en deep learning-oplossingen ontwikkelt om de zakelijke problemen van klanten aan te pakken. Hij werkt voornamelijk op het gebied van computervisie en richt zich op het beschikbaar stellen van AWS-klanten met gedistribueerde training en actief leren.

Tijdstempel:

Meer van AWS-machine learning