Desenvolvendo sistemas avançados de aprendizado de máquina na Trumid com a biblioteca Deep Graph para incorporação de conhecimento

Republicado por Platão

seguidores: 0

Este é um post convidado co-escrito com Mutisya Ndunda de Trumid.

Como muitas indústrias, o mercado de títulos corporativos não se presta a uma abordagem de tamanho único. É vasto, a liquidez é fragmentada e os clientes institucionais demandam soluções sob medida para suas necessidades específicas. Avanços em IA e aprendizado de máquina (ML) podem ser empregados para melhorar a experiência do cliente, aumentar a eficiência e a precisão dos fluxos de trabalho operacionais e aprimorar o desempenho ao oferecer suporte a vários aspectos do processo de negociação.

trumid é uma empresa de tecnologia financeira que está construindo a rede de negociação de crédito do futuro - um mercado para negociação eficiente, disseminação de informações e execução entre os participantes do mercado de títulos corporativos. A Trumid está otimizando a experiência de negociação de crédito combinando design de produto de ponta e princípios de tecnologia com profundo conhecimento de mercado. O resultado é uma solução de negociação integrada que oferece um ecossistema completo de protocolos e ferramentas de execução em uma plataforma intuitiva.

O mercado de negociação de títulos tradicionalmente envolve processos de correspondência de comprador/vendedor offline auxiliados por tecnologia baseada em regras. A Trumid embarcou em uma iniciativa para transformar essa experiência. Por meio de sua plataforma de negociação eletrônica, os traders podem acessar milhares de títulos para comprar ou vender, uma comunidade de usuários engajados para interagir e uma variedade de protocolos de negociação e soluções de execução. Com uma rede de usuários em expansão, a equipe de IA e estratégia de dados da Trumid fez parceria com a Laboratório de soluções de aprendizado de máquina da AWS. O objetivo era desenvolver sistemas de ML que pudessem oferecer uma experiência de negociação mais personalizada, modelando o interesse e as preferências dos usuários por títulos disponíveis na Trumid.

Esses modelos de ML podem ser usados para acelerar o tempo de insights e ações, personalizando como as informações são exibidas para cada usuário para garantir que as informações mais relevantes e acionáveis que um trader possa se importar sejam priorizadas e acessíveis.

Para resolver esse desafio, a Trumid e o ML Solutions Lab desenvolveram uma preparação de dados de ponta a ponta, treinamento de modelo e processo de inferência com base em um modelo de rede neural profunda construído usando a Deep Graph Library for Knowledge Embedding (DGL-KE). Uma solução de ponta a ponta com Amazon Sage Maker também foi implantado.

Benefícios do aprendizado de máquina gráfico

Os dados do mundo real são complexos e interconectados e geralmente contêm estruturas de rede. Exemplos incluem moléculas na natureza, redes sociais, internet, estradas e plataformas de negociação financeira.

Os gráficos fornecem uma maneira natural de modelar essa complexidade extraindo informações importantes e ricas que estão incorporadas nas relações entre as entidades.

Os algoritmos tradicionais de ML exigem que os dados sejam organizados como tabelas ou sequências. Isso geralmente funciona bem, mas alguns domínios são representados de forma mais natural e eficaz por gráficos (como uma rede de objetos relacionados entre si, conforme ilustrado mais adiante neste post). Em vez de forçar esses conjuntos de dados de gráfico em tabelas ou sequências, você pode usar algoritmos de ML de gráfico para representar e aprender com os dados apresentados em sua forma de gráfico, incluindo informações sobre nós constituintes, arestas e outros recursos.

Considerando que a negociação de títulos é inerentemente representada como uma rede de interações entre compradores e vendedores envolvendo vários tipos de instrumentos de títulos, uma solução eficaz precisa aproveitar os efeitos de rede das comunidades de comerciantes que participam do mercado. Vejamos como alavancamos os efeitos da rede de negociação e implementamos essa visão aqui.

Solução

A negociação de títulos é caracterizada por vários fatores, incluindo tamanho da negociação, prazo, emissor, taxa, valores de cupom, oferta de compra/venda e tipo de protocolo de negociação envolvido. Além de ordens e negociações, a Trumid também captura “indicações de interesse” (IOIs). Os dados históricos de interação incorporam o comportamento de negociação e as condições de mercado que evoluem ao longo do tempo. Usamos esses dados para criar um gráfico de interações com registro de data e hora entre traders, títulos e emissores e usamos o gráfico ML para prever interações futuras.

A solução de recomendação compreendeu quatro etapas principais:

Preparando os dados de negociação como um conjunto de dados de gráfico
Como treinar um modelo de incorporação de gráfico de conhecimento
Previsão de novos negócios
Empacotando a solução como um fluxo de trabalho escalável

Nas seções a seguir, discutiremos cada etapa com mais detalhes.

Preparando os dados de negociação como um conjunto de dados de gráfico

Há muitas maneiras de representar dados de negociação como um gráfico. Uma opção é representar os dados exaustivamente com nós, bordas e propriedades: traders como nós com propriedades (como empregador ou posse), títulos como nós com propriedades (emissor, valor em aberto, vencimento, taxa, valor do cupom) e negócios como arestas com propriedades (data, tipo, tamanho). Outra opção é simplificar os dados e usar apenas nós e relações (as relações são bordas digitadas como negociado ou emitido por). Essa última abordagem funcionou melhor no nosso caso e usamos o gráfico representado na figura a seguir.

Gráfico de relações entre traders, títulos e emissores de títulos

Além disso, removemos algumas das arestas consideradas obsoletas: se um trader interagia com mais de 100 títulos diferentes, mantemos apenas os últimos 100 títulos.

Por fim, salvamos o conjunto de dados do gráfico como uma lista de arestas em TSV formato:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

Como treinar um modelo de incorporação de gráfico de conhecimento

Para gráficos compostos apenas de nós e relações (geralmente chamados de gráficos de conhecimento), a equipe DGL desenvolveu a estrutura de incorporação de gráficos de conhecimento DGL-KE. KE significa incorporação de conhecimento, a ideia é representar nós e relações (conhecimento) por coordenadas (embeddings) e otimizar (treinar) as coordenadas para que a estrutura do grafo original possa ser recuperada a partir das coordenadas. Na lista de modelos de incorporação disponíveis, selecionamos TransE (embeddings translacionais). TransE treina embeddings com o objetivo de aproximar a seguinte igualdade:

Incorporação de nó de origem + incorporação de relação = incorporação de nó de destino (1)

Treinamos o modelo invocando o dglke_train comando. A saída do treinamento é uma pasta de modelo contendo os embeddings treinados.

Para obter mais detalhes sobre TransE, consulte Traduzindo Embeddings para Modelagem de Dados Multi-relacionais.

Previsão de novos negócios

Para prever novas negociações de um trader com nosso modelo, usamos a igualdade (1): adicionamos a incorporação do trader à incorporação recente e procuramos os títulos mais próximos da incorporação resultante.

Fizemos isso em duas etapas:

Calcular pontuações para todas as possíveis relações comerciais recentes com dglke_predict.
Calcule as 100 maiores pontuações para cada trader.

Para obter instruções detalhadas sobre como usar o DGL-KE, consulte Treinamento de embeddings de gráfico de conhecimento em escala com a Deep Graph Library e Documentação DGL-KE.

Empacotando a solução como um fluxo de trabalho escalável

Usamos os notebooks SageMaker para desenvolver e depurar nosso código. Para produção, queríamos invocar o modelo como uma simples chamada de API. Descobrimos que não precisávamos separar preparação de dados, treinamento de modelo e previsão, e era conveniente empacotar todo o pipeline como um único script e usar o processamento do SageMaker. O processamento do SageMaker permite que você execute um script remotamente em um tipo de instância e imagem Docker escolhidos sem ter que se preocupar com alocação de recursos e transferência de dados. Isso foi simples e econômico para nós, porque a instância da GPU é usada e paga apenas durante os 15 minutos necessários para a execução do script.

Para obter instruções detalhadas sobre como usar o processamento do SageMaker, consulte Processamento Amazon SageMaker - Processamento de dados totalmente gerenciado e avaliação de modelo e Tratamento.

Resultados

Nosso modelo de gráfico personalizado teve um desempenho muito bom em comparação com outros métodos: o desempenho melhorou em 80%, com resultados mais estáveis em todos os tipos de traders. Medimos o desempenho pelo recall médio (porcentagem de negociações reais previstas pelo recomendador, com média de todos os traders). Com outras métricas padrão, a melhoria variou de 50 a 130%.

Esse desempenho nos permitiu combinar melhor os traders e títulos, indicando uma experiência aprimorada do trader dentro do modelo, com o aprendizado de máquina oferecendo um grande avanço em relação às regras codificadas, que podem ser difíceis de dimensionar.

Conclusão

A Trumid está focada em fornecer produtos inovadores e eficiências de fluxo de trabalho para sua comunidade de usuários. Construir a rede de negociação de crédito do futuro requer colaboração contínua com colegas e especialistas do setor, como o AWS ML Solutions Lab, projetado para ajudá-lo a inovar mais rapidamente.

Para obter mais informações, consulte os seguintes recursos:

Sobre os autores

Marc van Oudheusden é cientista de dados sênior da equipe do Amazon ML Solutions Lab na Amazon Web Services. Ele trabalha com clientes da AWS para resolver problemas de negócios com inteligência artificial e aprendizado de máquina. Fora do trabalho você pode encontrá-lo na praia, brincando com seus filhos, surfando ou praticando kitesurf.

Mutisya Ndunda é o chefe de estratégia de dados e IA da Trumid. Ele é um profissional financeiro experiente com mais de 20 anos de ampla experiência institucional em mercados de capitais, negociação e tecnologia financeira. Mutisya tem uma sólida formação quantitativa e analítica com mais de uma década de experiência em inteligência artificial, aprendizado de máquina e análise de big data. Antes de Trumid, ele foi CEO da Alpha Vertex, uma empresa de tecnologia financeira que oferece soluções analíticas baseadas em algoritmos de IA proprietários para instituições financeiras. Mutisya é bacharel em Engenharia Elétrica pela Cornell University e mestre em Engenharia Financeira pela Cornell University.

Desenvolvendo sistemas avançados de aprendizado de máquina na Trumid com a Deep Graph Library for Knowledge Embedding PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai. Isaac Privitera é Cientista de Dados Sênior no Amazon Machine Learning Solutions Lab, onde desenvolve soluções sob medida de aprendizado de máquina e aprendizado profundo para resolver os problemas de negócios dos clientes. Ele trabalha principalmente no espaço de visão computacional, concentrando-se em capacitar clientes da AWS com treinamento distribuído e aprendizado ativo.

Carimbo de hora: 25 de julho de 202225 de julho de 2022

Carimbo de hora: 17 de Outubro, 2023

Desenvolvendo sistemas avançados de aprendizado de máquina na Trumid com a Deep Graph Library for Knowledge Embedding

Republicado por Platão

Benefícios do aprendizado de máquina gráfico

Solução

Preparando os dados de negociação como um conjunto de dados de gráfico

Como treinar um modelo de incorporação de gráfico de conhecimento

Previsão de novos negócios

Empacotando a solução como um fluxo de trabalho escalável

Resultados

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Como a Patsnap usou a inferência GPT-2 no Amazon SageMaker com baixa latência e baixo custo | Amazon Web Services

MLOps na borda com Amazon SageMaker Edge Manager e AWS IoT Greengrass

Controles administrativos corporativos, inscrição simples e suporte expandido à linguagem de programação para Amazon CodeWhisperer

Indexe seu conteúdo do Microsoft Exchange usando o conector do Exchange para Amazon Kendra

Recomendações de energia e pesquisa usando um gráfico de conhecimento da IMDb – Parte 3

Use o Amazon SageMaker Data Wrangler no Amazon SageMaker Studio com uma configuração de ciclo de vida padrão

Leia páginas da web e destaque o conteúdo usando o Amazon Polly

Personalize seus resultados de pesquisa com a integração do Amazon Personalize e do Amazon OpenSearch Service | Amazon Web Services

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta