Desarrollo de sistemas avanzados de aprendizaje automático en Trumid con Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Desarrollo de sistemas avanzados de aprendizaje automático en Trumid con Deep Graph Library para Knowledge Embedding

Esta es una publicación de invitado coescrita con Mutisya Ndunda de Trumid.

Como muchas industrias, el mercado de bonos corporativos no se presta a un enfoque único para todos. Es enorme, la liquidez está fragmentada y los clientes institucionales exigen soluciones adaptadas a sus necesidades específicas. Los avances en IA y aprendizaje automático (ML) se pueden emplear para mejorar la experiencia del cliente, aumentar la eficiencia y precisión de los flujos de trabajo operativos y mejorar el rendimiento al respaldar múltiples aspectos del proceso comercial.

Trumida es una empresa de tecnología financiera que construye la red de comercio de crédito del mañana: un mercado para el comercio eficiente, la difusión de información y la ejecución entre los participantes del mercado de bonos corporativos. Trumid está optimizando la experiencia de negociación de créditos mediante la combinación de principios tecnológicos y de diseño de productos de vanguardia con una profunda experiencia en el mercado. El resultado es una solución comercial integrada que ofrece un ecosistema completo de protocolos y herramientas de ejecución dentro de una plataforma intuitiva.

El mercado de negociación de bonos ha implicado tradicionalmente procesos de comparación de compradores/vendedores fuera de línea con la ayuda de tecnología basada en reglas. Trumid se ha embarcado en una iniciativa para transformar esta experiencia. A través de su plataforma de negociación electrónica, los comerciantes pueden acceder a miles de bonos para comprar o vender, una comunidad de usuarios comprometidos con los que interactuar y una variedad de protocolos de negociación y soluciones de ejecución. Con una red de usuarios en expansión, el equipo de estrategia de datos e IA de Trumid se asoció con el Laboratorio de soluciones de aprendizaje automático de AWS. El objetivo era desarrollar sistemas ML que pudieran brindar una experiencia comercial más personalizada al modelar el interés y las preferencias de los usuarios por los bonos disponibles en Trumid.

Estos modelos de ML se pueden usar para acelerar el tiempo de conocimiento y acción al personalizar la forma en que se muestra la información a cada usuario para garantizar que la información más relevante y procesable que le interese a un comerciante sea priorizada y accesible.

Para resolver este desafío, Trumid y ML Solutions Lab desarrollaron un proceso integral de preparación de datos, entrenamiento de modelos e inferencia basado en un modelo de red neuronal profunda creado con Deep Graph Library for Knowledge Embedding (DGL-KE). Una solución integral con Amazon SageMaker también fue desplegado.

Beneficios del aprendizaje automático de gráficos

Los datos del mundo real son complejos e interconectados y, a menudo, contienen estructuras de red. Los ejemplos incluyen moléculas en la naturaleza, redes sociales, Internet, carreteras y plataformas de comercio financiero.

Los gráficos proporcionan una forma natural de modelar esta complejidad al extraer información rica e importante que está incrustada en las relaciones entre entidades.

Los algoritmos de ML tradicionales requieren que los datos se organicen como tablas o secuencias. Esto generalmente funciona bien, pero algunos dominios se representan de manera más natural y efectiva mediante gráficos (como una red de objetos relacionados entre sí, como se ilustra más adelante en esta publicación). En lugar de convertir estos conjuntos de datos de gráficos en tablas o secuencias, puede usar algoritmos de aprendizaje automático de gráficos para representar y aprender de los datos tal como se presentan en su forma de gráfico, incluida la información sobre los nodos constituyentes, los bordes y otras características.

Teniendo en cuenta que el comercio de bonos se representa inherentemente como una red de interacciones entre compradores y vendedores que involucra varios tipos de instrumentos de bonos, una solución efectiva debe aprovechar los efectos de red de las comunidades de comerciantes que participan en el mercado. Veamos cómo aprovechamos los efectos de la red comercial e implementamos esta visión aquí.

Solución

La negociación de bonos se caracteriza por varios factores, que incluyen el tamaño de la transacción, el plazo, el emisor, la tasa, los valores de los cupones, la oferta de compra/venta y el tipo de protocolo de negociación involucrado. Además de órdenes y transacciones, Trumid también captura "indicaciones de interés" (IOI). Los datos históricos de interacción representan el comportamiento comercial y las condiciones del mercado que evolucionan con el tiempo. Usamos estos datos para construir un gráfico de interacciones con marca de tiempo entre comerciantes, bonos y emisores, y usamos gráficos ML para predecir futuras interacciones.

La solución de recomendación constaba de cuatro pasos principales:

  • Preparación de los datos comerciales como un conjunto de datos gráficos
  • Entrenamiento de un modelo de incrustación de grafos de conocimiento
  • Predicción de nuevas operaciones
  • Empaquetar la solución como un flujo de trabajo escalable

En las siguientes secciones, analizamos cada paso con más detalle.

Preparación de los datos comerciales como un conjunto de datos gráficos

Hay muchas maneras de representar los datos comerciales como un gráfico. Una opción es representar los datos de forma exhaustiva con nodos, bordes y propiedades: comerciantes como nodos con propiedades (como empleador o tenencia), bonos como nodos con propiedades (emisor, cantidad pendiente, vencimiento, tasa, valor de cupón) y operaciones como bordes con propiedades (fecha, tipo, tamaño). Otra opción es simplificar los datos y usar solo nodos y relaciones (las relaciones se escriben como aristas como comercializadas o emitidas por). Este último enfoque funcionó mejor en nuestro caso, y usamos el gráfico representado en la siguiente figura.

Gráfico de relaciones entre comerciantes, bonos y emisores de bonos

Además, eliminamos algunas de las ventajas que se consideraban obsoletas: si un comerciante interactuaba con más de 100 bonos diferentes, conservamos solo los últimos 100 bonos.

Finalmente, guardamos el conjunto de datos del gráfico como una lista de bordes en TSV formato:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Entrenamiento de un modelo de incrustación de grafos de conocimiento

Para gráficos compuestos solo de nodos y relaciones (a menudo llamados gráficos de conocimiento), el equipo de DGL desarrolló el marco de incrustación de gráficos de conocimiento. DGL-KE. KE significa incrustación de conocimiento, la idea es representar nodos y relaciones (conocimiento) por coordenadas (incrustaciones) y optimizar (entrenar) las coordenadas para que la estructura gráfica original pueda recuperarse a partir de las coordenadas. En la lista de modelos de incrustación disponibles, seleccionamos TransE (incrustaciones translacionales). TransE entrena empotramientos con el objetivo de aproximar la siguiente igualdad:

Incrustación de nodo de origen + incrustación de relación = incrustación de nodo de destino (1)

Entrenamos el modelo invocando el dglke_train dominio. El resultado del entrenamiento es una carpeta modelo que contiene las incrustaciones entrenadas.

Para obtener más detalles sobre TransE, consulte Traducir incrustaciones para modelar datos multirelacionales.

Predicción de nuevas operaciones

Para predecir nuevas transacciones de un comerciante con nuestro modelo, usamos la igualdad (1): agregue la incorporación del comerciante a la incorporación de operaciones recientes y busque los bonos más cercanos a la incorporación resultante.

Esto lo hicimos en dos pasos:

  1. Calcular puntuaciones para todas las posibles relaciones comerciales recientes con dglke_predict.
  2. Calcule las 100 puntuaciones más altas para cada comerciante.

Para obtener instrucciones detalladas sobre cómo utilizar el DGL-KE, consulte Capacitación de incrustaciones de gráficos de conocimiento a escala con la Biblioteca Deep Graph y Documentación DGL-KE.

Empaquetar la solución como un flujo de trabajo escalable

Usamos cuadernos de SageMaker para desarrollar y depurar nuestro código. Para la producción, queríamos invocar el modelo como una simple llamada a la API. Descubrimos que no necesitábamos separar la preparación de datos, el entrenamiento de modelos y la predicción, y era conveniente empaquetar toda la canalización como un solo script y usar el procesamiento de SageMaker. El procesamiento de SageMaker le permite ejecutar un script de forma remota en un tipo de instancia elegido y en una imagen de Docker sin tener que preocuparse por la asignación de recursos y la transferencia de datos. Esto fue simple y rentable para nosotros, porque la instancia de GPU solo se usa y se paga durante los 15 minutos necesarios para que se ejecute el script.

Para obtener instrucciones detalladas sobre cómo utilizar el procesamiento de SageMaker, consulte Procesamiento de Amazon SageMaker: procesamiento de datos completamente administrado y evaluación de modelos y Procesamiento.

Resultados

Nuestro modelo de gráfico personalizado funcionó muy bien en comparación con otros métodos: el rendimiento mejoró en un 80 %, con resultados más estables en todos los tipos de comerciantes. Medimos el rendimiento mediante el recuerdo medio (porcentaje de operaciones reales previstas por el recomendador, promediado entre todos los operadores). Con otras métricas estándar, la mejora osciló entre el 50 y el 130 %.

Este rendimiento nos permitió hacer coincidir mejor a los comerciantes y los bonos, lo que indica una experiencia de comerciante mejorada dentro del modelo, con el aprendizaje automático brindando un gran paso adelante de las reglas codificadas, que pueden ser difíciles de escalar.

Conclusión

Trumid se centra en ofrecer productos innovadores y eficiencias en el flujo de trabajo a su comunidad de usuarios. Construir la red comercial de crédito del mañana requiere una colaboración continua con colegas y expertos de la industria como AWS ML Solutions Lab, diseñado para ayudarlo a innovar más rápido.

Para obtener más información, consulte los siguientes recursos:


Sobre los autores

Desarrollo de sistemas avanzados de aprendizaje automático en Trumid con Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Marc van Oudheusden es científico de datos sénior en el equipo de Amazon ML Solutions Lab en Amazon Web Services. Trabaja con clientes de AWS para resolver problemas comerciales con inteligencia artificial y aprendizaje automático. Fuera del trabajo puedes encontrarlo en la playa, jugando con sus hijos, surfeando o haciendo kitesurf.

Desarrollo de sistemas avanzados de aprendizaje automático en Trumid con Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Mutisya Ndunda es el director de estrategia de datos e inteligencia artificial de Trumid. Es un profesional financiero experimentado con más de 20 años de amplia experiencia institucional en mercados de capital, comercio y tecnología financiera. Mutisya tiene una sólida formación cuantitativa y analítica con más de una década de experiencia en inteligencia artificial, aprendizaje automático y análisis de big data. Antes de Trumid, fue director ejecutivo de Alpha Vertex, una empresa de tecnología financiera que ofrece soluciones analíticas impulsadas por algoritmos de IA patentados para instituciones financieras. Mutisya tiene una licenciatura en Ingeniería Eléctrica de la Universidad de Cornell y una maestría en Ingeniería Financiera de la Universidad de Cornell.

Desarrollo de sistemas avanzados de aprendizaje automático en Trumid con Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Isaac Privitera es un científico de datos sénior en Amazon Machine Learning Solutions Lab, donde desarrolla soluciones personalizadas de aprendizaje automático y aprendizaje profundo para abordar los problemas comerciales de los clientes. Trabaja principalmente en el espacio de la visión por computadora, y se enfoca en brindar a los clientes de AWS capacitación distribuida y aprendizaje activo.

Sello de tiempo:

Mas de Aprendizaje automático de AWS