Développer des systèmes d'apprentissage automatique avancés chez Trumid avec la bibliothèque Deep Graph pour l'intégration des connaissances PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Développer des systèmes avancés d'apprentissage automatique chez Trumid avec la bibliothèque de graphes profonds pour l'intégration des connaissances

Ceci est un article invité co-écrit avec Mutisya Ndunda de Trumid.

Comme de nombreux secteurs, le marché des obligations de sociétés ne se prête pas à une approche unique. Il est vaste, la liquidité est fragmentée et les clients institutionnels exigent des solutions adaptées à leurs besoins spécifiques. Les progrès de l'IA et de l'apprentissage automatique (ML) peuvent être utilisés pour améliorer l'expérience client, accroître l'efficacité et la précision des flux de travail opérationnels et améliorer les performances en prenant en charge plusieurs aspects du processus de négociation.

Trumid est une société de technologie financière qui construit le réseau de trading de crédit de demain, un marché pour un trading efficace, la diffusion d'informations et l'exécution entre les acteurs du marché des obligations d'entreprise. Trumid optimise l'expérience de trading de crédit en combinant des principes de conception et de technologie de pointe avec une expertise approfondie du marché. Le résultat est une solution de trading intégrée offrant un écosystème complet de protocoles et d'outils d'exécution au sein d'une plateforme intuitive.

Le marché de la négociation d'obligations impliquait traditionnellement des processus de mise en relation acheteur/vendeur hors ligne assistés par une technologie basée sur des règles. Trumid s'est lancé dans une initiative pour transformer cette expérience. Grâce à sa plate-forme de négociation électronique, les traders peuvent accéder à des milliers d'obligations à acheter ou à vendre, à une communauté d'utilisateurs engagés avec lesquels interagir et à une variété de protocoles de négociation et de solutions d'exécution. Avec un réseau d'utilisateurs en expansion, l'équipe d'intelligence artificielle et de stratégie de données de Trumid s'est associée au Laboratoire de solutions d'apprentissage automatique AWS. L'objectif était de développer des systèmes ML qui pourraient offrir une expérience de trading plus personnalisée en modélisant l'intérêt et les préférences des utilisateurs pour les obligations disponibles sur Trumid.

Ces modèles ML peuvent être utilisés pour accélérer le délai d'analyse et d'action en personnalisant la manière dont les informations sont affichées pour chaque utilisateur afin de garantir que les informations les plus pertinentes et exploitables dont un trader peut se soucier sont prioritaires et accessibles.

Pour résoudre ce défi, Trumid et le ML Solutions Lab ont développé un processus de préparation de données, de formation de modèle et d'inférence de bout en bout basé sur un modèle de réseau neuronal profond construit à l'aide de la bibliothèque de graphes profonds pour l'intégration des connaissances (DGL-KE). Une solution de bout en bout avec Amazon Sage Maker a également été déployé.

Avantages de l'apprentissage automatique des graphes

Les données du monde réel sont complexes et interconnectées, et contiennent souvent des structures de réseau. Les exemples incluent les molécules dans la nature, les réseaux sociaux, Internet, les routes et les plates-formes de négociation financière.

Les graphes offrent un moyen naturel de modéliser cette complexité en extrayant des informations importantes et riches qui sont intégrées dans les relations entre les entités.

Les algorithmes ML traditionnels nécessitent que les données soient organisées sous forme de tableaux ou de séquences. Cela fonctionne généralement bien, mais certains domaines sont plus naturellement et plus efficacement représentés par des graphiques (comme un réseau d'objets liés les uns aux autres, comme illustré plus loin dans cet article). Au lieu de contraindre ces ensembles de données de graphes dans des tables ou des séquences, vous pouvez utiliser des algorithmes de ML de graphes pour représenter et apprendre des données telles qu'elles sont présentées sous forme de graphe, y compris des informations sur les nœuds constitutifs, les arêtes et d'autres fonctionnalités.

Considérant que le trading obligataire est intrinsèquement représenté comme un réseau d'interactions entre acheteurs et vendeurs impliquant divers types d'instruments obligataires, une solution efficace doit exploiter les effets de réseau des communautés de traders qui participent au marché. Voyons comment nous avons tiré parti des effets de réseau commercial et mis en œuvre cette vision ici.

Solution

La négociation d'obligations est caractérisée par plusieurs facteurs, notamment la taille de la transaction, la durée, l'émetteur, le taux, la valeur des coupons, l'offre/demande et le type de protocole de négociation impliqué. En plus des ordres et des transactions, Trumid capture également des «indications d'intérêt» (IOI). Les données d'interaction historiques incarnent le comportement commercial et les conditions du marché évoluant au fil du temps. Nous avons utilisé ces données pour construire un graphique des interactions horodatées entre les commerçants, les obligations et les émetteurs, et avons utilisé le graphique ML pour prédire les interactions futures.

La solution de recommandation comprenait quatre étapes principales :

  • Préparation des données de trading sous forme de jeu de données graphique
  • Entraînement d'un modèle d'intégration de graphes de connaissances
  • Anticiper les nouveaux métiers
  • Conditionnement de la solution sous la forme d'un flux de travail évolutif

Dans les sections suivantes, nous abordons chaque étape plus en détail.

Préparation des données de trading sous forme de jeu de données graphique

Il existe de nombreuses façons de représenter les données de trading sous forme de graphique. Une option consiste à représenter les données de manière exhaustive avec des nœuds, des arêtes et des propriétés : les commerçants en tant que nœuds avec des propriétés (telles que l'employeur ou l'occupation), les obligations en tant que nœuds avec des propriétés (émetteur, encours, échéance, taux, valeur du coupon) et les transactions. comme des arêtes avec des propriétés (date, type, taille). Une autre option consiste à simplifier les données et à n'utiliser que des nœuds et des relations (les relations sont des arêtes typées comme négociées ou émises par). Cette dernière approche a mieux fonctionné dans notre cas, et nous avons utilisé le graphique représenté dans la figure suivante.

Graphique des relations entre traders, obligations et émetteurs d'obligations

De plus, nous avons supprimé certains des bords considérés comme obsolètes : si un trader interagissait avec plus de 100 obligations différentes, nous ne gardions que les 100 dernières obligations.

Enfin, nous avons enregistré le jeu de données du graphique sous la forme d'une liste d'arêtes dans TSV Format:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Entraînement d'un modèle d'intégration de graphes de connaissances

Pour les graphes composés uniquement de nœuds et de relations (souvent appelés graphes de connaissances), l'équipe DGL a développé le framework d'intégration de graphes de connaissances DGL-KE. KE signifie incorporation de connaissances, l'idée étant de représenter les nœuds et les relations (connaissances) par des coordonnées (incorporations) et d'optimiser (entraîner) les coordonnées afin que la structure de graphe d'origine puisse être récupérée à partir des coordonnées. Dans la liste des modèles d'intégration disponibles, nous avons sélectionné TransE (intégrations translationnelles). TransE forme des plongements avec pour objectif d'approximer l'égalité suivante :

Intégration du nœud source + intégration de la relation = intégration du nœud cible (1)

Nous avons formé le modèle en invoquant le dglke_train commande. La sortie de la formation est un dossier modèle contenant les représentations incorporées formées.

Pour plus de détails sur TransE, reportez-vous à Traduire les représentations vectorielles continues pour modéliser des données multi-relationnelles.

Anticiper les nouveaux métiers

Pour prédire les nouvelles transactions d'un trader avec notre modèle, nous avons utilisé l'égalité (1) : ajouter l'intégration du trader à l'intégration récente de la transaction et rechercher les obligations les plus proches de l'intégration résultante.

Nous l'avons fait en deux étapes :

  1. Calculer les scores de toutes les relations commerciales récentes possibles avec dglke_predict.
  2. Calculez les 100 meilleurs scores pour chaque trader.

Pour des instructions détaillées sur l'utilisation du DGL-KE, reportez-vous à Entraînement des incorporations de graphes de connaissances à grande échelle avec la bibliothèque de graphes profonds ainsi que le Documentation DGL-KE.

Conditionnement de la solution sous la forme d'un flux de travail évolutif

Nous avons utilisé les notebooks SageMaker pour développer et déboguer notre code. Pour la production, nous voulions invoquer le modèle comme un simple appel d'API. Nous avons constaté que nous n'avions pas besoin de séparer la préparation des données, la formation du modèle et la prédiction, et qu'il était pratique de regrouper l'ensemble du pipeline dans un seul script et d'utiliser le traitement SageMaker. Le traitement SageMaker vous permet d'exécuter un script à distance sur un type d'instance et une image Docker choisis sans avoir à vous soucier de l'allocation des ressources et du transfert de données. C'était simple et économique pour nous, car l'instance GPU n'est utilisée et payée que pendant les 15 minutes nécessaires à l'exécution du script.

Pour obtenir des instructions détaillées sur l'utilisation du traitement SageMaker, voir Traitement Amazon SageMaker - Traitement des données et évaluation de modèle entièrement gérés ainsi que le En cours.

Résultats

Notre modèle de graphique personnalisé s'est très bien comporté par rapport aux autres méthodes : performances améliorées de 80 %, avec des résultats plus stables pour tous les types de commerçants. Nous avons mesuré la performance par rappel moyen (pourcentage de transactions réelles prédites par le recommandeur, moyenné sur tous les commerçants). Avec d'autres mesures standard, l'amélioration variait de 50 à 130 %.

Cette performance nous a permis de mieux faire correspondre les commerçants et les obligations, ce qui indique une meilleure expérience des commerçants au sein du modèle, l'apprentissage automatique offrant un grand pas en avant par rapport aux règles codées en dur, qui peuvent être difficiles à mettre à l'échelle.

Conclusion

Trumid se concentre sur la fourniture de produits innovants et l'efficacité du flux de travail à sa communauté d'utilisateurs. Construire le réseau d'échange de crédits de demain nécessite une collaboration continue avec des pairs et des experts du secteur tels que le AWS ML Solutions Lab, conçu pour vous aider à innover plus rapidement.

Pour plus d'informations, consultez les ressources suivantes:


À propos des auteurs

Développer des systèmes d'apprentissage automatique avancés chez Trumid avec la bibliothèque Deep Graph pour l'intégration des connaissances PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Marc van Oudheusden est Senior Data Scientist au sein de l'équipe Amazon ML Solutions Lab chez Amazon Web Services. Il travaille avec des clients AWS pour résoudre des problèmes commerciaux grâce à l'intelligence artificielle et à l'apprentissage automatique. En dehors du travail, vous pouvez le trouver à la plage, jouer avec ses enfants, surfer ou faire du kitesurf.

Développer des systèmes d'apprentissage automatique avancés chez Trumid avec la bibliothèque Deep Graph pour l'intégration des connaissances PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Mutisya Ndunda est responsable de la stratégie des données et de l'IA chez Trumid. Il est un professionnel financier chevronné avec plus de 20 ans d'expérience institutionnelle dans les marchés des capitaux, le trading et la technologie financière. Mutisya possède une solide expérience quantitative et analytique avec plus d'une décennie d'expérience dans l'intelligence artificielle, l'apprentissage automatique et l'analyse de données volumineuses. Avant Trumid, il était PDG d'Alpha Vertex, une société de technologie financière proposant des solutions analytiques alimentées par des algorithmes d'IA propriétaires aux institutions financières. Mutisya est titulaire d'un baccalauréat en génie électrique de l'Université Cornell et d'une maîtrise en ingénierie financière de l'Université Cornell.

Développer des systèmes d'apprentissage automatique avancés chez Trumid avec la bibliothèque Deep Graph pour l'intégration des connaissances PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Isaac Privitéra est Senior Data Scientist au Amazon Machine Learning Solutions Lab, où il développe des solutions d'apprentissage automatique et d'apprentissage en profondeur sur mesure pour résoudre les problèmes commerciaux des clients. Il travaille principalement dans le domaine de la vision par ordinateur, se concentrant sur l'offre aux clients AWS d'une formation distribuée et d'un apprentissage actif.

Horodatage:

Plus de Apprentissage automatique AWS