使用 Amazon SageMaker Data Wrangler 进行数据准备并使用 Studio Lab 来学习和试验 ML

由柏拉图重新发布

关注： 0

Amazon SageMaker Studio 实验室是一个基于开源 JupyterLab 的免费机器学习 (ML) 开发环境，任何人都可以使用 AWS ML 计算资源学习和实验 ML。它基于相同的架构和用户界面亚马逊SageMaker Studio，但具有 Studio 功能的子集。

当您开始开展 ML 计划时，您需要在继续模型构建之前执行探索性数据分析 (EDA) 或数据准备。亚马逊SageMaker数据牧马人是一种能力亚马逊SageMaker 这使得数据科学家和工程师可以通过可视化界面更快地为机器学习应用程序准备数据。 Data Wrangler 将聚合和准备 ML 数据所需的时间从几周缩短到几分钟。

Data Wrangler 中功能准备的关键加速器是数据质量和洞察报告。此报告检查数据质量并帮助检测数据中的异常情况，以便您可以执行所需的数据工程来修复数据集。您可以使用数据质量和见解报告对数据进行分析，以深入了解数据集，例如缺失值的数量和异常值的数量。如果您的数据存在问题，例如目标泄漏或不平衡，见解报告可以提醒您注意这些问题，并帮助您确定需要执行的数据准备步骤。

Studio Lab 用户可以从 Data Wrangler 中受益，因为数据质量和特征工程对于模型的预测性能至关重要。 Data Wrangler 通过深入了解数据质量问题并使用低代码 UI 轻松实现快速功能迭代和工程，帮助提高数据质量和功能工程。

在这篇文章中，我们将向您展示如何执行探索性数据分析，使用 Data Wrangler 准备和转换数据，以及将转换和准备的数据导出到 Studio Lab 以进行模型构建。

解决方案概述

该解决方案包括以下高级步骤：

创建 AWS 帐户和管理员用户。这是一个先决条件
下载数据集流失.csv.
将数据集加载到亚马逊简单存储服务（亚马逊S3）。
创建 SageMaker Studio 域并启动 Data Wrangler。
将数据集从 Amazon S3 导入 Data Wrangler 流。
创建数据质量和见解报告并就必要的特征工程得出结论。
在 Data Wrangler 中执行必要的数据转换。
下载数据质量和见解报告以及转换后的数据集。
将数据上传到 Studio Lab 项目以进行模型训练。

下图说明了此工作流程。

先决条件

要使用 Data Wrangler 和 Studio Lab，您需要满足以下先决条件：

使用 Data Wrangler 构建数据准备工作流程

首先，请完成以下步骤：

将您的数据集上传到 Amazon S3。
在SageMaker控制台上， 控制面板 在导航窗格中，选择 GOHAT STUDIO.
点击 启动应用 在您的用户个人资料旁边的菜单中，选择 GOHAT STUDIO.

成功登录 Studio 后，您应该会看到如下图所示的开发环境。
要创建新的 Data Wrangler 工作流程，请在文件菜单中选择全新，然后选择 数据牧马人流程.

Data Wrangler 的第一步是进口您的数据。您可以从多个数据源导入数据，例如 Amazon S3、亚马逊雅典娜, 亚马逊Redshift, 雪花及 Databricks。在本例中，我们使用 Amazon S3。如果您只是想了解 Data Wrangler 的工作原理，您可以随时选择 使用样本数据集.
导入日期.
Amazon S3.
选择您上传的数据集并选择进口.

Data Wrangler 使您能够导入整个数据集或对其一部分进行采样。
要快速了解数据集，请选择 第一个 K 打样并输入 50000 样本大小.

了解数据质量并获得见解

让我们使用数据质量和见解报告对导入到 Data Wrangler 中的数据进行分析。您可以使用该报告来了解需要采取哪些步骤来清理和处理数据。此报告提供缺失值数量和离群值数量等信息。如果您的数据存在问题，例如目标泄漏或不平衡，洞察报告可以提醒您注意这些问题。

选择旁边的加号 资料类型 并选择 获取数据洞察.
针对 分析类型，选择 数据质量和洞察报告.
针对 目标列，选择 搅拌？.
针对 问题类型选择分类.
创建.

您将看到一份详细的报告，您可以查看和下载。该报告包括快速模型、特征摘要、特征关联和数据洞察等几个部分。以下屏幕截图提供了这些部分的示例。

报告中的观察结果

从报告中，我们可以得出以下几点观察：

没有发现重复的行。
State 列似乎分布相当均匀，因此数据在州人口方面是平衡的。
Phone 列提供了太多的独特值而没有任何实际用途。太多的唯一值使该列没有用处。我们可以放弃 Phone 我们转型中的专栏。
根据报告的特征相关部分， Mins 和 Charge 是高度相关的。我们可以删除其中之一。

转型

根据我们的观察，我们希望做出以下转变：

取出 Phone 列，因为它有许多独特的值。
我们还看到几个特征本质上彼此具有 100% 的相关性。在某些机器学习算法中包含这些特征对可能会产生不需要的问题，而在其他算法中它只会引入较小的冗余和偏差。让我们从每一对高度相关的特征中删除一个特征： Day Charge 从对与 Day Mins, Night Charge 从对与 Night Mins及 Intl Charge 从对与 Intl Mins.
转化率 True or False ，在 Churn 列为数值 1 或 0。

返回数据流并选择旁边的加号 资料类型.
添加变换.
添加步骤.
您可以搜索您要查找的转换（在我们的例子中，管理列）。
管理栏.
针对改造¸选择 下降柱.
针对 要删除的列¸选择 Phone, Day Charge, Eve Charge, Night Charge及 Intl Charge.
预览，然后选择更新.

让我们添加另一个转换来执行分类编码 Churn? 列。
选择变换 分类编码.
针对改造，选择 序数编码.
针对 输入列，选择 Churn? 列。
针对 处理策略无效，选择 替换为 NaN.
预览，然后选择更新.

现在 True 和 False 分别转换为 1 和 0。

现在我们已经对数据有了很好的了解，并且已经准备好并转换了用于模型构建的数据，我们可以将数据移动到 Studio Lab 进行模型构建。

将数据上传至 Studio Lab

要开始在 Studio Lab 中使用数据，请完成以下步骤：

出口数据 至出口到 S3 存储桶。
针对 亚马逊 S3 位置，输入您的 S3 路径。
指定文件类型。
出口数据.
导出数据后，您可以将数据从S3存储桶下载到本地计算机。
现在您可以转到 Studio Lab 并将文件上传到 Studio Lab。

或者，您可以从 Studio Lab 连接到 Amazon S3。欲了解更多信息，请参阅在 Amazon SageMaker Studio 实验室中使用外部资源.
让我们安装 SageMaker 并导入 Pandas。
根据需要导入所有库。
现在我们可以读取 CSV 文件了。
让我们打印一下 churn 以确认数据集正确。

现在您已在 Studio Lab 中获得了经过处理的数据集，您可以执行模型构建所需的进一步步骤。

数据牧马人定价

您可以在 Data Wrangler 中执行本文中的所有 EDA 或数据准备步骤，付对于简单实例、作业和基于使用或消耗的存储定价。无需预付费用或许可费。

清理

当您不使用 Data Wrangler 时，关闭运行它的实例很重要，以避免产生额外费用。为了避免丢失工作，请在关闭 Data Wrangler 之前保存数据流。

要将数据流保存在 Studio 中，请选择文件，然后选择 保存数据牧马人流程.
Data Wrangler 每 60 秒自动保存一次数据流。
要关闭 Data Wrangler 实例，请在 Studio 中选择 运行实例和内核.
下 运行应用程序, 选择旁边的关机图标 sagemaker-data-wrangler-1.0 app.
全部关闭 进行确认。

Data Wrangler 在 ml.m5.4xlarge 实例上运行。此实例从 运行实例 当您关闭 Data Wrangler 应用程序时。

关闭 Data Wrangler 应用程序后，它必须在您下次打开 Data Wrangler 流文件时重新启动。这可能需要几分钟。

结论

在这篇文章中，我们了解了如何深入了解数据集、执行探索性数据分析、使用 Studio 中的 Data Wrangler 准备和转换数据，以及将转换和准备的数据导出到 Studio Lab 并执行模型构建和其他步骤。

借助 SageMaker Data Wrangler，您可以简化数据准备和特征工程的过程，并通过单个可视化界面完成数据准备工作流程的每个步骤，包括数据选择、清理、探索和可视化。

关于作者

拉贾库马尔·桑帕斯库马尔 是 AWS 的首席技术客户经理，为客户提供业务技术协调方面的指导，并支持其云运营模型和流程的重塑。他对云和机器学习充满热情。 Raj 还是一名机器学习专家，与 AWS 客户合作设计、部署和管理他们的 AWS 工作负载和架构。

Meenakshisundaram 坦达瓦拉扬 是一位高级 AI/ML 专家，热衷于设计、创建和推广以人为本的数据和分析体验。他支持 AWS 战略客户向数据驱动型组织转型。

詹姆斯吴 是 AWS 的高级 AI/ML 专家解决方案架构师。帮助客户设计和构建 AI/ML 解决方案。 James 的工作涵盖了广泛的 ML 用例，主要兴趣在于计算机视觉、深度学习和在整个企业中扩展 ML。在加入 AWS 之前，James 担任了 10 多年的架构师、开发人员和技术领导者，其中包括 6 年的工程经验和 4 年的营销和广告行业经验。

时间戳记： 2022 年 9 月 15 日2022 年 9 月 15 日

时间戳记： 2024 年 3 月 4 日

使用 Amazon SageMaker Data Wrangler 进行数据准备，使用 Studio Labs 学习和试验机器学习

由柏拉图重新发布

解决方案概述

先决条件

使用 Data Wrangler 构建数据准备工作流程

了解数据质量并获得见解

报告中的观察结果

转型

将数据上传至 Studio Lab

数据牧马人定价

清理

结论

关于作者

更多来自 AWS机器学习

Accenture 使用 AWS 生成式 AI 服务创建监管文档创作解决方案 |亚马逊网络服务

Amazon Comprehend Targeted Sentiment 添加了同步支持

BigBasket 如何使用 Amazon SageMaker 改进实体店的人工智能结账 |亚马逊网络服务

使用 AWS CDK 部署 Amazon SageMaker Studio 生命周期配置 | 亚马逊网络服务

宣布更新适用于 Amazon Kendra 的 Salesforce 连接器 (V2)

下一代 Amazon SageMaker 实验 – 大规模组织、跟踪和比较您的机器学习培训

利用 BMC AMI zAdviser Enterprise 和 Amazon Bedrock 实现 DevOps 成熟度 |亚马逊网络服务

解锁创新：AWS 和 Anthropic 共同突破生成式 AI 的界限 |亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理