使用 Amazon SageMaker Canvas 从 40 多个数据源导入数据以进行无代码机器学习

使用 Amazon SageMaker Canvas 从 40 多个数据源导入数据以进行无代码机器学习

数据是机器学习 (ML) 的核心。 包含相关数据以全面展示您的业务问题可确保您有效地捕捉趋势和关系,从而获得推动业务决策所需的洞察力。 和 亚马逊 SageMaker 画布,您现在可以从导入数据 超过 40 个数据源 用于无代码 ML。 Canvas 通过为业务分析师提供可视化界面来扩展对 ML 的访问,使他们能够自行生成准确的 ML 预测,而无需任何 ML 经验或不必编写一行代码。 现在,您可以从流行的关系数据存储中导入应用内数据,例如 亚马逊雅典娜 以及由支持的第三方软件即服务 (SaaS) 平台 亚马逊AppFlow 例如 Salesforce、SAP OData 和 Google Analytics。

为 ML 收集高质量数据的过程可能既复杂又耗时,因为 SaaS 应用程序和数据存储服务的激增导致数据跨多个系统传播。 例如,您可能需要使用来自 Salesforce 的客户数据、来自 SAP 的财务数据和来自 Snowflake 的物流数据来进行客户流失分析。 要跨这些来源创建数据集,您需要单独登录每个应用程序,选择所需的数据,然后将其导出到本地,然后可以在其中使用不同的工具进行聚合。 然后需要将该数据集导入到单独的 ML 应用程序中。

通过此次发布,Canvas 通过支持来自 40 多个数据源的应用内数据导入和聚合,使您能够利用存储在不同来源的数据。 此功能可通过新的本地连接器连接到 Athena 和 Amazon AppFlow,通过 AWS胶水 数据目录。 Amazon AppFlow 是一项托管服务,使您能够安全地将数据从第三方 SaaS 应用程序传输到 亚马逊简单存储服务 (Amazon S3),只需点击几下即可使用 Data Catalog 对数据进行编目。 传输数据后,您可以简单地访问 Canvas 中的数据源,您可以在其中查看表架构、在数据源内或跨数据源连接表、编写 Athena 查询以及预览和导入数据。 导入数据后,您可以使用现有的 Canvas 功能,例如构建 ML 模型、查看列影响数据或生成预测。 您可以在 Amazon AppFlow 中自动执行数据传输过程以按计划激活,以确保您始终可以访问 Canvas 中的最新数据。

解决方案概述

这篇文章中概述的步骤提供了两个示例,说明如何将数据导入 Canvas 以实现无代码 ML。 在第一个示例中,我们演示了如何通过 Athena 导入数据。 在第二个示例中,我们展示了如何通过 Amazon AppFlow 从第三方 SaaS 应用程序导入数据。

从 Athena 导入数据

在本节中,我们将展示一个从 Athena 导入 Canvas 中的数据以进行客户细分分析的示例。 我们创建了一个 ML 分类模型,将我们的客户群分为四个不同的类别,最终目标是使用该模型来预测新客户将属于哪个类别。 我们遵循三个主要步骤:导入数据、训练模型和生成预测。 让我们开始吧。

导入数据

要从 Athena 导入数据,请完成以下步骤:

  1. 在 Canvas 控制台上,选择 数据集 在导航窗格中,然后选择 进口.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  2. 展开 数据源 菜单并选择 雅典娜.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  3. 选择要从中导入的正确数据库和表。 您可以选择预览图标来选择性地预览表格。
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

以下屏幕截图显示了预览表的示例。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

在我们的示例中,我们根据客户参与我们服务的营销渠道对客户进行细分。 这是由列指定的 segmentation,其中 A 是印刷媒体,B 是移动媒体,C 是店内促销,D 是电视。

  1. 当您对拥有正确的表格感到满意时,将所需的表格拖到 拖放数据集以加入 部分。
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  2. 您现在可以选择性地选择或取消选择列,通过将另一个表拖到 拖放数据集以加入 部分,或编写 SQL 查询来指定您的数据切片。 对于这篇文章,我们使用表中的所有数据。
  3. 要导入数据,请选择 导入数据。
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

您的数据作为数据集从 Athena 中的特定表导入到 Canvas 中。

训练模型

导入数据后,它会显示在 数据集 页。 在此阶段,您可以构建模型。 为此,请完成以下步骤:

  1. 选择您的数据集并选择 创建模型.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  2. 针对 型号名称,输入您的型号名称(对于这篇文章, my_first_model).
  3. Canvas 使您能够创建用于预测分析、图像分析和文本分析的模型。 因为我们要对客户进行分类,所以选择 预测分析 问题类型.
  4. 要继续,请选择 创建.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

点击 建立 页面,您可以查看有关数据集的统计信息,例如缺失值的百分比和数据的均值。

  1. 针对 目标列, 选择一列(对于这篇文章, segmentation).
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

Canvas 提供两种可以生成预测的模型。 快速构建优先考虑速度而不是准确性,可在 2-15 分钟内提供模型。 标准构建优先考虑准确性而不是速度,在 2-4 小时内提供模型。

  1. 对于这篇文章,选择 快速建立.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  2. 模型训练好后,可以分析模型的准确率。

以下模型在 94.67% 的时间内对客户进行了正确分类。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

  1. 您还可以选择查看每列如何影响分类。 在此示例中,随着客户年龄的增长,该列对分类的影响较小。 要使用新模型生成预测,请选择 预测.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

生成预测

点击 预测 选项卡,您可以生成批量预测和单个预测。 完成以下步骤:

  1. 对于这篇文章,选择 单次预测 了解新客户的客户细分情况。
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

对于我们的预测,我们想了解如果客户 32 岁并且是专业律师,他们将属于哪个细分群体。

  1. 用这些输入替换相应的值。
  2. 更新.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

更新的预测显示在预测窗口中。 在此示例中,一位 32 岁的律师被归入 D 段。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

将数据从第三方 SaaS 应用程序导入 AWS

要将数据从第三方 SaaS 应用程序导入 Canvas 以实现无代码 ML,您必须首先通过 Amazon AppFlow 将数据从应用程序传输到 Amazon S3。 在此示例中,我们从 SAP OData 传输制造数据。

要传输您的数据,请完成以下步骤:

  1. 在Amazon AppFlow控制台上,选择 创建流程.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  2. 针对 流程名称,输入名称。
  3. 下一页.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  4. 针对 来源名称,选择您想要的第三方 SaaS 应用程序(对于本文,SAP OData)。
  5. 创建新连接.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  6. 连接到 SAP OData 弹出窗口,填写身份验证详细信息并选择 分享链接.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  7. 针对 SAP OData 对象, 在 SAP OData 中选择包含您的数据的对象。
  8. 针对 目的地名称,选择 Amazon S3.
  9. 针对 桶详情,指定您的 S3 存储桶详细信息。
  10. 选择 在 AWS Glue 数据目录中对您的数据进行编目.
  11. 针对 用户角色, 选择 AWS身份和访问管理 (IAM) 角色,Canvas 用户将使用该角色从中访问数据。
  12. 针对 流量触发, 选择 按需运行.

或者,您可以通过选择 按计划运行流程.

  1. 下一页.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  2. 选择如何映射字段并完成字段映射。 对于这篇文章,因为没有对应的目标数据库映射到,所以不需要指定映射。
  3. 下一步。
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  4. 或者,如有必要,添加过滤器以限制传输的数据。
  5. 下一页.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。
  6. 查看您的详细信息并选择 创建流程.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

创建流程后,页面顶部会出现一个绿色丝带,表示它已成功更新。

  1. 运行流程.
    使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

在此阶段,您已成功将数据从 SAP OData 传输到 Amazon S3。

现在您可以从 Canvas 应用程序中导入数据。 要从 Canvas 导入数据,请按照 数据导入 这篇文章前面的部分。 对于这个例子,在 数据源 上的下拉菜单 数据导入 页面,可以看到 SAP O数据 上市。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

您现在可以使用所有现有的 Canvas 功能,例如清理数据、构建 ML 模型、查看列影响数据和生成预测。

清理

要清理配置的资源,请通过选择注销 Canvas 应用程序 退出 在导航窗格中。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。

结论

借助 Canvas,您现在可以通过 AWS Glue 数据目录通过 Athena 和 Amazon AppFlow 的原生连接器从 47 个数据源导入无代码 ML 数据。 此过程使您能够在通过 Amazon AppFlow 传输数据后直接访问和聚合 Canvas 中跨数据源的数据。 您可以自动执行数据传输以按计划激活,这意味着您无需再次执行该过程来刷新数据。 通过此过程,您可以使用最新数据创建新数据集,而无需离开 Canvas 应用程序。 此功能现已在提供 Canvas 的所有 AWS 区域推出。 要开始导入数据,请导航至 Canvas 控制台并按照本文中概述的步骤进行操作。 要了解更多信息,请参阅 连接到数据源.


关于作者

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。布兰登奈尔 是 Amazon SageMaker Canvas 的高级产品经理。 他的专业兴趣在于创建可扩展的机器学习服务和应用程序。 工作之余,他会探索国家公园、完善高尔夫挥杆动作或计划一次冒险之旅。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。桑贾娜·坎巴拉帕利 是 AWS Sagemaker Canvas 的软件开发经理,旨在通过构建无代码 ML 应用程序来普及机器学习。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。徐欣 是 Canvas 团队的软件开发工程师,负责数据准备以及无代码机器学习产品的其他方面工作。 在业余时间,他喜欢慢跑、阅读和看电影。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能从 40 多个数据源导入数据以进行无代码机器学习。垂直搜索。人工智能。沃尔坎温萨尔 是 Canvas 团队的高级前端工程师,他在该团队中构建无代码产品,使人类可以使用人工智能。 业余时间,他喜欢跑步、阅读、看电竞和武术。

时间戳记:

更多来自 AWS机器学习