在 Trumid 使用用于知识嵌入 PlatoBlockchain 数据智能的深度图库开发高级机器学习系统。 垂直搜索。 哎。

在 Trumid 使用用于知识嵌入的深度图库开发高级机器学习系统

这是与 Trumid 的 Mutisya Ndunda 共同撰写的客座文章。

与许多行业一样,公司债券市场并不适合一刀切的方法。 它庞大,流动性分散,机构客户需要针对其特定需求量身定制的解决方案。 人工智能和机器学习 (ML) 的进步可用于改善客户体验、提高运营工作流程的效率和准确性,并通过支持交易流程的多个方面来提高性能。

特鲁米德 是一家构建未来信用交易网络的金融科技公司——一个在公司债券市场参与者之间进行高效交易、信息传播和执行的市场。 Trumid 通过将领先的产品设计和技术原理与深厚的市场专业知识相结合来优化信用交易体验。 结果是一个集成的交易解决方案,在一个直观的平台内提供完整的协议和执行工具生态系统。

债券交易市场传统上涉及由基于规则的技术辅助的线下买卖双方匹配过程。 Trumid 已着手改变这种体验。 通过其电子交易平台,交易者可以访问数以千计的债券进行买卖、参与互动的用户社区以及各种交易协议和执行解决方案。 随着用户网络的扩大,Trumid 的人工智能和数据战略团队与 AWS 机器学习解决方案实验室. 目标是开发 ML 系统,通过模拟用户对 Trumid 上可用债券的兴趣和偏好,提供更加个性化的交易体验。

这些 ML 模型可用于通过个性化向每个用户显示信息的方式来加快洞察和采取行动的时间,以确保交易者可能关心的最相关和可操作的信息得到优先处理和访问。

为了解决这一挑战,Trumid 和 ML Solutions Lab 开发了一种端到端的数据准备、模型训练和推理过程,该过程基于使用用于知识嵌入的深度图库构建的深度神经网络模型(DGL-KE)。 端到端的解决方案 亚马逊SageMaker 也被部署了。

图机器学习的好处

现实世界的数据是复杂且相互关联的,并且通常包含网络结构。 示例包括自然界中的分子、社交网络、互联网、道路和金融交易平台。

通过提取嵌入在实体之间的关系中的重要且丰富的信息,图提供了一种对这种复杂性进行建模的自然方法。

传统的 ML 算法需要将数据组织为表格或序列。 这通常效果很好,但有些领域更自然、更有效地由图表示(例如相互关联的对象网络,如本文后面所述)。 您可以使用图 ML 算法来表示和学习以图形式呈现的数据,包括有关组成节点、边和其他特征的信息,而不是将这些图数据集强制转换为表格或序列。

考虑到债券交易本质上表现为买卖双方之间涉及各种债券工具的互动网络,有效的解决方案需要利用参与市场的交易者社区的网络效应。 让我们看看我们如何利用交易网络效应并在这里实现这一愿景。

解决方案

债券交易的特点是几个因素,包括交易规模、期限、发行人、利率、票面价值、买卖报价和所涉及的交易协议类型。 除了订单和交易,Trumid 还捕获“感兴趣的迹象”(IOI)。 历史交互数据体现了交易行为和随时间变化的市场状况。 我们使用这些数据构建了交易者、债券和发行人之间带有时间戳的交互图,并使用图 ML 来预测未来的交互。

推荐解决方案包括四个主要步骤:

  • 将交易数据准备为图形数据集
  • 训练知识图嵌入模型
  • 预测新交易
  • 将解决方案打包为可扩展的工作流程

在以下部分中,我们将更详细地讨论每个步骤。

将交易数据准备为图形数据集

有很多方法可以将交易数据表示为图表。 一种选择是用节点、边和属性详尽地表示数据:交易者作为具有属性(例如雇主或任期)的节点,债券作为具有属性(发行人、未偿还金额、到期日、利率、票面价值)的节点,以及交易作为具有属性(日期、类型、大小)的边。 另一种选择是简化数据并仅使用节点和关系(关系是类型化的边,如交易或发行人)。 后一种方法在我们的案例中效果更好,我们使用了下图所示的图表。

交易者、债券和债券发行人之间的关系图

此外,我们删除了一些被认为过时的边缘:如果交易者与 100 多种不同的债券进行交互,我们只保留最后 100 种债券。

最后,我们将图形数据集保存为边列表 TSV 格式:

t987	trade-old		i55198
t995	trade-old		i55306
t987	trade-recent	i24528
t995	trade-recent	i49181
t987	ioi-recent		i24523
t995	ioi-old 		i49178
…
i49611	issued-by		XXX
i46569	issued-by		YYY
i46507	issued-by		ZZZ

训练知识图嵌入模型

对于仅由节点和关系组成的图(通常称为知识图),DGL 团队开发了知识图嵌入框架 DGL-KE. KE代表知识嵌入,其思想是通过坐标(嵌入)表示节点和关系(知识)并优化(训练)坐标,以便可以从坐标中恢复原始图结构。 在可用嵌入模型列表中,我们选择了 TransE(翻译嵌入)。 TransE 训练嵌入的目标是逼近以下等式:

源节点嵌入+关系嵌入=目标节点嵌入(1)

我们通过调用 dglke_train 命令。 训练的输出是包含训练嵌入的模型文件夹。

有关 TransE 的更多详细信息,请参阅 翻译嵌入以建模多关系数据.

预测新交易

为了使用我们的模型预测来自交易者的新交易,我们使用了等式 (1):将交易者嵌入添加到最近交易的嵌入中,并寻找最接近结果嵌入的债券。

我们分两步完成:

  1. 计算所有可能的最近贸易关系的分数 dglke_predict.
  2. 计算每个交易者的前 100 名最高分。

有关如何使用 DGL-KE 的详细说明,请参阅 使用Deep Graph Library大规模培训知识图嵌入DGL-KE 文档.

将解决方案打包为可扩展的工作流程

我们使用 SageMaker 笔记本来开发和调试我们的代码。 对于生产,我们希望将模型作为简单的 API 调用来调用。 我们发现我们不需要将数据准备、模型训练和预测分开,并且可以方便地将整个管道打包为单个脚本并使用 SageMaker 处理。 SageMaker 处理允许您在所选实例类型和 Docker 映像上远程运行脚本,而无需担心资源分配和数据传输。 这对我们来说既简单又划算,因为 GPU 实例仅在脚本运行所需的 15 分钟内使用并付费。

有关如何使用 SageMaker 处理的详细说明,请参阅 Amazon SageMaker处理–完全托管的数据处理和模型评估处理中.

成果

与其他方法相比,我们的自定义图表模型表现得非常好:性能提高了 80%,所有交易者类型的结果都更加稳定。 我们通过平均召回率(推荐者预测的实际交易的百分比,所有交易者的平均值)来衡量绩效。 使用其他标准指标,改进范围为 50-130%。

这种性能使我们能够更好地匹配交易者和债券,表明模型中的交易者体验得到了增强,机器学习从难以扩展的硬编码规则向前迈出了一大步。

结论

Trumid 专注于为其用户社区提供创新产品和工作流程效率。 构建未来的信用交易网络需要与同行和行业专家(如 AWS ML Solutions Lab)持续协作,旨在帮助您更快地进行创新。

有关更多信息,请参见以下资源:


关于作者

在 Trumid 使用用于知识嵌入 PlatoBlockchain 数据智能的深度图库开发高级机器学习系统。 垂直搜索。 哎。马克·范·奥德斯登 是 Amazon Web Services 的 Amazon ML Solutions Lab 团队的高级数据科学家。 他与 AWS 客户合作,利用人工智能和机器学习解决业务问题。 工作之余,您可能会在海滩上找到他,和他的孩子们玩耍、冲浪或风筝冲浪。

在 Trumid 使用用于知识嵌入 PlatoBlockchain 数据智能的深度图库开发高级机器学习系统。 垂直搜索。 哎。穆蒂西亚·恩杜达 是 Trumid 的数据战略和人工智能主管。 他是一位经验丰富的金融专业人士,在资本市场、交易和金融技术方面拥有超过 20 年的广泛机构经验。 Mutisya 拥有强大的定量和分析背景,在人工智能、机器学习和大数据分析方面拥有十多年的经验。 在加入 Trumid 之前,他是 Alpha Vertex 的首席执行官,该公司是一家金融技术公司,为金融机构提供由专有 AI 算法提供支持的分析解决方案。 Mutisya 拥有康奈尔大学电气工程学士学位和康奈尔大学金融工程硕士学位。

在 Trumid 使用用于知识嵌入 PlatoBlockchain 数据智能的深度图库开发高级机器学习系统。 垂直搜索。 哎。艾萨克·普里维特拉(Isaac Privitera) 是亚马逊机器学习解决方案实验室的高级数据科学家,在那里他开发定制的机器学习和深度学习解决方案来解决客户的业务问题。 他主要在计算机视觉领域工作,专注于为 AWS 客户提供分布式培训和主动学习。

时间戳记:

更多来自 AWS机器学习