使用 Amazon SageMaker Canvas 进行探索性数据分析

由柏拉图重新发布

关注： 0

探索性数据分析 (EDA) 是业务分析师执行的一项常见任务，用于发现模式、理解关系、验证假设和识别数据中的异常。在机器学习 (ML) 中，重要的是首先了解数据及其关系，然后再进行模型构建。传统的 ML 开发周期有时可能需要数月时间，并且需要高级数据科学和 ML 工程技能，而无代码 ML 解决方案可以帮助公司将 ML 解决方案的交付速度加快到数天甚至数小时。

亚马逊 SageMaker 画布是一种无代码 ML 工具，可帮助业务分析师生成准确的 ML 预测，而无需编写代码或不需要任何 ML 经验。 Canvas 提供了一个易于使用的可视化界面来加载、清理和转换数据集，然后构建 ML 模型并生成准确的预测。

在这篇文章中，我们将介绍如何执行 EDA，以便在构建 ML 模型之前更好地了解您的数据，这要归功于 Canvas 内置的高级可视化。这些可视化可帮助您分析数据集中特征之间的关系并更好地理解您的数据。这是直观地完成的，能够与数据交互并发现临时查询可能不会注意到的洞察力。在构建和训练 ML 模型之前，可以通过 Canvas 中的“数据可视化器”快速创建它们。

解决方案概述

这些可视化增加了 Canvas 已经提供的数据准备和探索功能的范围，包括纠正缺失值和替换异常值的能力；过滤、连接和修改数据集；并从时间戳中提取特定的时间值。要了解有关 Canvas 如何帮助您清理、转换和准备数据集的更多信息，请查看使用高级转换准备数据.

对于我们的用例，我们着眼于客户在任何业务中流失的原因，并从分析师的角度说明 EDA 如何提供帮助。我们在这篇文章中使用的数据集是来自电信移动电话运营商的合成数据集，用于客户流失预测，您可以下载 (流失.csv)，或者您带上自己的数据集进行试验。有关导入您自己的数据集的说明，请参阅在 Amazon SageMaker Canvas 中导入数据.

先决条件

请遵循中的指示设置 Amazon SageMaker Canvas 的先决条件在您继续之前。

将数据集导入 Canvas

要将示例数据集导入 Canvas，请完成以下步骤：

以业务用户身份登录 Canvas.首先，我们将前面提到的数据集从本地计算机上传到 Canvas。如果您想使用其他来源，例如亚马逊Redshift，请参阅连接到外部数据源.
进口.
上传，然后选择 从计算机中选择文件.
选择您的数据集 (churn.csv) 并选择 导入日期.
选择数据集并选择 建立模型.
针对 型号名称，输入一个名字（对于这篇文章，我们给了名字 Churn prediction）。
创建.

选择数据集后，您会立即看到概述数据类型、缺失值、不匹配值、唯一值以及相应列的平均值或众数值的概览。
从 EDA 的角度来看，您可以观察到数据集中没有缺失或不匹配的值。作为业务分析师，您可能希望在开始数据探索之前就初步了解模型构建，以确定模型将如何执行以及哪些因素对模型的性能有影响。通过首先预览模型，Canvas 使您能够在构建模型之前从数据中获得洞察力。
在进行任何数据探索之前，请选择 预览模型.
选择要预测的列（流失）。Canvas 自动检测这是二分类预测。
预览模型. SageMaker Canvas 使用您的数据子集快速构建模型，以检查您的数据是否已准备好生成准确的预测。使用此示例模型，您可以了解当前模型的准确性以及每列对预测的相对影响。

以下屏幕截图显示了我们的预览。

模型预览表明模型在 95.6% 的时间内预测正确的目标（流失？）。您还可以查看初始列影响（每列对目标列的影响）。让我们进行一些数据探索、可视化和转换，然后继续构建模型。

数据探索

Canvas 已经提供了一些常见的基本可视化，例如在网格视图中的数据分布建立标签。这些对于获取数据的高级概述、了解数据的分布方式以及获取数据集的摘要概述非常有用。

作为业务分析师，您可能需要深入了解数据的分布方式以及分布如何反映目标列（流失），以便在构建模型之前轻松理解数据关系。您现在可以选择 网格视图 以获得数据分布的概览。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

以下屏幕截图显示了数据集分布的概述。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

我们可以进行以下观察：

电话具有太多独特的价值，没有任何实际用途。我们知道电话是一个客户 ID，并且不想构建一个可能考虑特定客户的模型，而是从更一般的意义上了解可能导致客户流失的因素。您可以删除此变量。
大多数数字特征分布良好，遵循高斯钟形曲线。在 ML 中，您希望数据呈正态分布，因为任何呈现正态分布的变量都能够以更高的准确度进行预测。

让我们更深入地查看 Canvas 中可用的高级可视化。

数据可视化

作为业务分析师，您希望了解数据元素之间是否存在关系，以及它们与流失率的关系。借助 Canvas，您可以探索和可视化您的数据，这有助于您在构建 ML 模型之前深入了解您的数据。您可以使用散点图、条形图和箱线图进行可视化，这可以帮助您了解数据并发现可能影响模型准确性的特征之间的关系。

要开始创建可视化，请完成以下步骤：

点击建立画布应用程序的选项卡，选择 数据可视化器.

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

Canvas 中可视化的一个关键加速器是数据可视化器. 让我们改变样本大小以获得更好的视角。

选择旁边的行数 可视化示例.
使用滑块选择所需的样本量。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

更新确认对您的样本量的更改。

您可能希望根据数据集更改样本大小。在某些情况下，您可能有几百到几千行可以选择整个数据集。在某些情况下，您可能有几千行，在这种情况下，您可以根据您的用例选择几百或几千行。

散点图显示了为同一个人测量的两个定量变量之间的关系。在我们的例子中，了解值之间的关系以检查相关性很重要。

因为我们有 Calls、Mins 和 Charge，所以我们将为 Day、Evening 和 Night 绘制它们之间的相关性。

首先，让我们创建一个 散点图 日收费与日分钟之间。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

我们可以观察到，随着 Day Mins 的增加，Day Charge 也会增加。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

这同样适用于晚间通话。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

夜间电话也有相同的模式。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

因为 mins 和 charge 似乎呈线性增加，您可以观察到它们彼此之间具有高度相关性。在某些 ML 算法中包含这些特征对可能会占用额外的存储空间并降低训练速度，并且在不止一列中包含类似信息可能会导致模型过分强调影响并导致模型出现不希望的偏差。让我们从每个高度相关的对中删除一个特征：具有 Day Mins 的对中的 Day Charge，具有 Night Mins 的对中的 Night Charge，以及具有 Intl Mins 的对中的 Intl Charge。

数据平衡和变化

条形图是 x 轴上的分类变量和 y 轴上的数值变量之间的图，用于探索两个变量之间的关系。让我们创建一个条形图来查看调用如何在我们的目标列 Churn for True 和 False 中分布。选择 条形图 并分别拖放日呼叫和流失到 y 轴和 x 轴。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

现在，让我们为晚间电话与流失创建相同的条形图。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

接下来，让我们为夜间通话与流失创建一个条形图。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

看起来已经流失的客户和没有流失的客户之间的行为存在差异。

箱线图很有用，因为它们显示了按类别（流失与否）的数据行为差异。因为我们要预测流失（目标列），所以让我们针对目标列创建一些特征的箱线图，以推断数据集的描述性统计数据，例如均值、最大值、最小值、中值和异常值。

箱形图 并将 Day mins 和 Churn 分别拖放到 y 轴和 x 轴。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

您还可以针对我们的目标列（流失）尝试对其他列使用相同的方法。

现在让我们针对客户服务电话创建一个天分钟的箱线图，以了解客户服务电话如何跨越天分钟值。您可以看到，客户服务电话与 day mins 值没有相关性或相关性。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

根据我们的观察，我们可以确定数据集是相当平衡的。我们希望数据在真值和假值之间均匀分布，这样模型就不会偏向一个值。

转换

根据我们的观察，我们删除了 Phone 列，因为它只是一个帐号，而 Day Charge、Eve Charge、Night Charge 列因为它们包含重叠的信息，例如 mins 列，但我们可以再次运行预览来确认。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

数据分析和转换后，我们再次预览模型。

您可以观察到模型估计的准确率从 95.6% 变为 93.6%（这可能会有所不同），但是特定列的列影响（特征重要性）发生了很大变化，这提高了训练速度以及列对当我们进入模型构建的下一步时的预测。我们的数据集不需要额外的转换，但如果您需要，您可以利用机器学习数据转换清理、转换和准备数据以进行模型构建。

建立模型

您现在可以继续构建模型并分析结果。有关详细信息，请参阅使用 Amazon SageMaker Canvas 通过无代码机器学习预测客户流失.

清理

为了避免未来会话费用, 注销帆布。

使用 Amazon SageMaker Canvas 进行探索性数据分析 PlatoBlockchain 数据智能。垂直搜索。人工智能。

结论

在这篇文章中，我们展示了如何使用 EDA 的 Canvas 可视化功能在模型构建之前更好地理解您的数据，创建准确的 ML 模型，并使用无代码、可视化的点击式界面生成预测。

作者简介

拉贾库马尔·桑帕斯库马尔 是 AWS 的首席技术客户经理，为客户提供业务技术协调方面的指导，并支持其云运营模型和流程的重塑。他对云计算和机器学习充满热情。 Raj 还是一名机器学习专家，与 AWS 客户合作设计、部署和管理他们的 AWS 工作负载和架构。

拉胡尔·纳贝拉 是 AWS 专业服务的数据分析顾问。他目前的工作重点是让客户能够在 AWS 上构建他们的数据和机器学习工作负载。在业余时间，他喜欢打板球和排球。

拉维特亚·叶拉曼奇里 是位于纽约的 Amazon Web Services 的企业解决方案架构师。他与大型金融服务企业客户合作，在云上设计和部署高度安全、可扩展、可靠且具有成本效益的应用程序。他拥有超过 11 年的风险管理、技术咨询、数据分析和机器学习经验。当他不帮助客户时，他喜欢旅行和玩 PS5。

时间戳记： 2022 年 10 月 18 日2022 年 10 月 19 日

时间戳记： 2022 年 3 月 1 日

使用 Amazon SageMaker Canvas 进行探索性数据分析

由柏拉图重新发布

解决方案概述

先决条件

将数据集导入 Canvas

数据探索

数据可视化

数据平衡和变化

转换

建立模型

清理

结论

作者简介

更多来自 AWS机器学习

在 NFL 的 Next Gen Stats 中识别防御覆盖方案

使用多个区域提高 Amazon Rekognition 无状态 API 的可扩展性

使用 Amazon SageMaker Studio 和 Amazon SageMaker Autopilot 使用卫星图像特征识别红树林 - 第 1 部分

在 Amazon SageMaker 上使用 AWS Trainium 训练 Llama 2 的简单指南 |亚马逊网络服务

AWS 上高级驾驶辅助系统 (ADAS) 的模块化功能设计

使用 Amazon SageMaker 模型并行和数据并行库进行分布式训练和高效扩展 |亚马逊网络服务

使用 AWS IoT Greengrass V2 使用 Amazon SageMaker Edge Manager 进行异常检测

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理