利用 AWS 低代码-无代码服务加速投资流程

由柏拉图重新发布

关注： 0

在过去的几年里，机构资产管理者在如何获取多个数据源并将其集成到他们的投资流程中发生了巨大的范式转变。随着风险相关性的频繁变化、意想不到的波动源以及来自被动策略的竞争日益激烈，资产管理公司正在使用更广泛的第三方数据源来获得竞争优势并提高风险调整后的回报。然而，从多个数据源中提取收益的过程可能极具挑战性。资产管理公司的数据工程团队忙于数据采集和预处理，而数据科学团队则在挖掘数据以获取投资见解。

第三方或替代数据是指投资过程中使用的数据，来自传统市场数据提供商之外。机构投资者经常使用第三方或替代数据来扩充他们的传统数据源，以在他们的投资过程中获得优势。通常引用的示例包括但不限于卫星成像、信用卡数据和社交媒体情绪。基金经理每年在外部数据集上投资近 3 亿美元，年支出增长 20-30%。

随着可用的第三方和替代数据集呈指数增长，快速分析新数据集是否增加新投资见解的能力成为投资管理行业的竞争优势。 AWS 无代码低代码 (LCNC) 数据和 AI 服务使非技术团队能够执行初始数据筛选、确定数据载入的优先级、加快洞察时间并释放宝贵的技术资源——创造持久的竞争优势。

在这篇博文中，我们讨论了作为机构资产管理者，您可以如何利用 AWS LCNC 数据和 AI 服务将初始数据分析和优先级确定过程扩展到技术团队之外，并加速您的决策制定。借助 AWS LCNC 服务，您无需编写任何代码即可使用机器学习 (ML) 模型快速订阅和评估各种第三方数据集、预处理数据并检查其预测能力。

解决方案概述

我们的用例是分析外部数据集的股价预测能力并确定其特征重要性——哪些字段对股价表现影响最大。这是一次通过测试，以确定数据集中的多个字段中的哪些字段应该使用传统的定量方法进行更密切的评估，以适应您的投资流程。这种类型的首次通过测试可以由分析师快速完成，从而节省时间并让您更快地确定数据集载入的优先级。此外，虽然我们使用股票价格作为目标示例，但也可以使用其他指标，例如盈利能力、估值比率或交易量。用于此用例的所有数据集都发布在 AWS数据交换.

下图解释了端到端架构和用于推动决策的 AWS LCNC 服务：

我们的解决方案包括以下步骤和解决方案：

数据摄取：AWS Data Exchange，用于订阅已发布的替代数据集并将它们下载到亚马逊简单存储服务（Amazon S3）存储桶。
数据工程： AWS Glue 数据酿造用于存储在 Amazon S3 中的数据的数据工程和转换。
机器学习：亚马逊 SageMaker 画布用于构建用于预测的时间序列预测模型并识别数据对预测的影响。
商业智能：亚马逊QuickSight 或 Amazon SageMaker Canvas 来审查功能对决策预测的重要性。

数据提取

AWS数据交换使得在云中查找、订阅和使用第三方数据变得容易。您可以浏览 AWS Data Exchange 目录并查找与您的业务相关的数据产品以及订阅从供应商处获取数据，无需任何进一步处理，也不需要 ETL 过程。请注意，许多提供商提供免费的初始订阅，这样您就可以分析他们的数据，而无需首先承担前期费用。

对于此用例，在 AWS Data Exchange 中搜索并订阅以下数据集：

美国市值前 20 大公司 10 年的日终股票数据出版阿尔法华帝. 此免费数据集包含截至 20 年 10 月 5 日市值排名前 2020 的美国股票的 10 年历史数据。该数据集包含以下 XNUMX 个符号——AAPL：Apple Inc.； AMZN：亚马逊公司； BRK-A：伯克希尔哈撒韦公司（A 类）； FB：脸书公司；谷歌：字母表公司； JNJ：强生公司； MA：万事达卡公司； MSFT：微软公司 V：Visa Inc.； WMT：沃尔玛公司
关键数据字段包括
- 开盘价：当日交易开盘价
- 高：当日交易高价
- 低：当日成交低价
- 收盘价：当日收盘价
- 成交量：当日交易量
- 调整后的收盘价：当日拆分和股息调整后的收盘价
- Split Ratio：生效日新旧股数之比
- 分红：现金分红金额
S3 空头利息和证券金融数据出版 S3合作伙伴. 该数据集包含以下字段：

领域	课程描述
营业日	费率的生效日期
安全 ID	安全标识符包含 Sedol、ISIN、FIGI、Ticker、Bloomberg ID
名称	证券名称
报价	为现有空头头寸支付的市场综合融资费用
出价率	长期持有人借出现有股票赚取的市场综合借贷费
最后汇率	当天借出的增量股票所赚取的市场综合借贷费用（即期汇率）
拥挤	动量指标衡量相对于市场浮动的每日卖空和回补事件
短期利息	以股数表示的实时空头利息
空头利息名义	空头利息 * 价格（美元）
空头利息	实时空头利息占股权流通量的百分比
S3浮点数	包括通过卖空创建的合成多头在内的流通股数量
S3SIPct浮点数	实时空头利率预测除以 S3 浮动
指示可用性	S3 预计可用可贷数量
采用	实时空头利息除以总可贷供应量
天到Cover10天	这是一个流动性指标 = 空头利息 / 10 天平均 ADTV
天到Cover30天	这是一个流动性指标 = 空头利息 / 30 天平均 ADTV
天到Cover90天	这是一个流动性指标 = 空头利息 / 90 天平均 ADTV
原始单位制	时间点空头利息

要获取数据，您将首先在 AWS Data Exchange 中搜索数据集并订阅数据集：

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

一旦数据集的发布者批准了您的订阅请求，您就可以将数据集下载到您的 S3 存储桶中：

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

选择 添加自动导出作业目的地，提供 S3 存储桶的详细信息，并下载数据集：

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

重复这些步骤以获取 Alpha Vantage 数据集。完成后，您将在 S3 存储桶中拥有这两个数据集。

数据工程

一旦数据集在您的 S3 存储桶中，您就可以使用 AWS Glue 数据酿造来转换数据。 AWS Glue DataBrew 提供超过 350 种预构建的转换来自动执行数据准备任务（例如过滤异常、标准化格式和更正无效值），否则这些任务将需要数天或数周的时间来编写手动编码的转换。

要在 AWS DataBrew 中创建用于预测的整合精选数据集，请执行以下步骤。有关详细信息，请参阅此新闻.

创建 DataBrew 数据集。
将 DataBrew 数据集加载到 DataBrew 项目中。
构建 DataBrew 配方。
运行 DataBrew 作业。

创建 DataBrew 数据集：在 AWS Glue DataBrew 中，一个 数据集 表示从 S3 存储桶上传的数据。我们将创建两个 DataBrew 数据集——用于收盘价和 S3 空头利率。创建数据集时，只需输入一次 S3 连接详细信息。从那时起，DataBrew 可以为您访问基础数据。

将 DataBrew 数据集加载到 DataBrew 项目中：在 AWS Glue DataBrew 中，一个项目是您数据分析和转换工作的核心。 DataBrew 项目汇集了 DataBrew 数据集，使您能够开发数据转换（DataBrew 配方）。在这里，我们将再次创建两个 DataBrew 项目，用于日终股票价格和 S3 空头利息。

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

构建 DataBrew 配方: 在DataBrew中，食谱是一组数据转换步骤。您可以将这些步骤应用于您的数据集。对于用例，我们将构建两个转换。第一个将更改收盘股价时间戳列的格式，以便可以将数据集连接到 S3 空头利息：

第二个转换管理数据，它的最后一步确保我们将数据集连接成一个管理数据集。有关构建数据转换配方的更多详细信息，请参阅此新闻.

DataBrew 职位：创建 DataBrew 配方后，您可以先运行收盘价 DataBrew 作业，然后运行 S3 空头利息配方。参考这个新闻创建一个统一的数据集。将最终的精选数据集保存到 S3 存储桶中。

端到端数据工程工作流程如下所示：

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

机器识别

通过后数据工程创建的精选数据集，您可以使用亚马逊 SageMaker 画布构建您的预测模型并分析特征对预测的影响。亚马逊 SageMaker 画布为业务用户提供可视化的点击式界面，使他们能够自行构建模型并生成准确的 ML 预测——无需任何 ML 经验或无需编写一行代码。

要在 Amazon SageMaker Canvas 中构建时间序列预测模型，请按照以下步骤操作。有关详细信息，请参阅此新闻:

在 SageMaker Canvas 中选择精选数据集。
建立时间序列预测模型。
分析结果和特征重要性。

建立时间序列预测模型：选择数据集后，选择要预测的目标列。在我们的例子中，这将是股票代码的收盘价。 SageMaker Canvas 自动检测到这是一个时间序列预测问题陈述。

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

您必须按如下方式配置模型以进行时间序列预测。对于项目 ID，选择股票代码名称。请记住，我们的数据集包含前 10 只股票的股票代码。时间戳选择timestamp栏，最后在【Forecast Horizon】中输入你想要预测未来的天数。

现在您已准备好构建模型。 SageMaker Canvas 提供两种构建模型的选项：快速构建和标准构建。在我们的例子中，我们将使用“标准构建”。

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

标准构建大约需要三个小时来构建模型并使用亚马逊预报，一种基于机器学习作为底层预测引擎的时间序列预测服务。 Forecast 通过传统和深度学习模型的模型集成创建高度准确的预测，而无需 ML 经验。

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

模型构建完成后，您现在可以查看模型性能（预测准确性）和特征重要性。从下图中可以看出，该模型将 Crowding 和 DaysToCover10Day 识别为驱动预测值的两个主要特征。这符合我们的市场直觉，因为拥挤度是衡量每日做空和回补事件的动量指标，而近期空头利率是一种流动性衡量指标，表明投资者在股票中的仓位。动量和流动性都会推动价格波动。

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

这一结果表明这两个特征（或字段）与股价走势有密切关系，可以优先考虑入职和进一步分析。

商业智能

在时间序列预测的背景下，概念 回溯测试 指利用现有历史数据评估预测方法准确性的过程。该过程通常是迭代的，并在历史数据中存在的多个日期上重复。

正如我们已经讨论过的，SageMaker Canvas 使用 Amazon Forecast 作为时间序列预测的引擎。 Forecast 创建回测作为模型构建过程的一部分。您现在可以通过登录 Amazon Forecast 查看预测器详细信息。要更深入地了解模型可解释性，请参阅此新闻.

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

Amazon Forecast 提供有关预测指标的更多详细信息，例如加权绝对百分比误差 (WAPE)、均方根误差 (RMSE)、平均绝对百分比误差 (MAPE) 和平均绝对比例误差 (MASE)。您可以从 Amazon Forecast 导出预测器质量分数。

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

Amazon Forecast 对提供的时间序列数据集运行一次回测。回测结果可使用以下网址下载 导出回测结果 按钮。导出的回测结果下载到 S3 存储桶。

我们现在将在 Amazon QuickSight 中绘制回测结果。要在 Amazon QuickSight 中可视化回测结果，请从 QuickSight 连接到 Amazon S3 中的数据集并创建可视化。

利用 AWS 低代码-无代码服务 PlatoBlockchain 数据智能加速投资流程。垂直搜索。人工智能。

清理

该解决方案中利用的 AWS 服务本质上是托管的和无服务器的。 SageMaker Canvas 旨在运行长时间运行的 ML 训练，并且将始终开启。确保您明确注销 SageMaker Canvas。请参阅文档以获得更多细节。

结论

在这篇博文中，我们讨论了作为机构资产管理者，您可以如何利用 AWS 低代码无代码 (LCNC) 数据和 AI 服务，通过将初始数据集筛选工作卸载给非技术人员来加速外部数据集的评估。这种首次通过分析可以快速完成，以帮助您决定应优先考虑哪些数据集以进行入职和进一步分析。

我们逐步演示了数据分析师如何通过 AWS Data Exchange 获取新的第三方数据、使用 AWS Glue DataBrew 无代码 ETL 服务预处理数据以及评估数据集中的哪些特征对模型的预测影响最大.

一旦数据准备好进行分析，分析师就可以使用 SageMaker Canvas 构建预测模型，评估其拟合度并识别重要特征。在我们的示例中，模型的 MAPE (.05) 和 WAPE (.045) 表明拟合良好，并将“Crowding”和“DaysToCover10Day”显示为数据集中对预测影响最大的信号。该分析量化了哪些数据对模型的影响最大，因此可以优先考虑进一步调查并可能将其纳入您的 alpha 信号或风险管理流程。同样重要的是，可解释性分数表明哪些数据在确定预测方面起着相对较小的作用，因此在进一步调查中可能处于较低的优先级。

要更快地评估第三方财务数据支持您的投资流程的能力，请查看 AWS Data Exchange 上可用的金融服务数据源，并给数据酿造和帆布今天试一试。

作者简介

鲍里斯·利特文 是首席解决方案架构师，负责金融服务行业创新。他是前 Quant 和 FinTech 创始人，热衷于系统化投资。

Meenakshisundaram 坦达瓦拉扬 是 AWS 的高级 AI/ML 专家。他在 AI 和 ML 之旅中帮助高科技战略客户。他非常热衷于数据驱动的人工智能。

卡米洛阿尼亚 是英国 AWS 的高级初创解决方案架构师。他是一位热情的技术专家，帮助任何规模的初创公司建立和发展。

丹·辛瑞奇 是 AWS 的高级产品经理，专注于帮助公司通过 ML 做出更好的决策。他之前曾为大型机构投资者构建投资组合分析平台和多资产类别风险模型。

时间戳记： 2022 年 12 月 20 日2022 年 12 月 23 日

时间戳记： 2024 年 1 月 17 日

使用 AWS Low Code-No Code 服务加速投资流程

由柏拉图重新发布

解决方案概述

数据提取

数据工程

机器识别

商业智能

清理

结论

作者简介

更多来自 AWS机器学习

使用 Amazon SageMaker Data Wrangler 在大型数据集上调整经过训练的参数

使用 Amazon SageMaker Data Wrangler 检测文本数据中的模式

白皮书：医疗保健和生命科学领域的机器学习最佳实践

在 Amazon SageMaker 上的 NVIDIA Triton 推理服务器上实现基于决策树的 ML 模型的低延迟托管

Amp on Amazon 如何使用数据来提高客户参与度，第 1 部分：构建数据分析平台

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理