手动检查数据质量和清理数据是一个痛苦且耗时的过程,可能会占用数据科学家在项目上的大量时间。 根据 Anaconda 对数据科学家进行的 2020 年调查,数据科学家将大约 66% 的时间花在数据准备和分析任务上,包括加载 (19%)、清理 (26%) 和可视化数据 (21%)。 亚马逊SageMaker 提供一系列数据准备工具,以满足不同客户的需求和偏好。 对于喜欢基于 GUI 的交互界面的用户, SageMaker数据牧马人 提供 300 多种内置可视化、分析和转换,无需编写一行代码即可高效处理由 Spark 支持的数据。
机器学习 (ML) 中的数据可视化是一个迭代过程,需要持续可视化数据集以进行发现、调查和验证。 透视数据需要查看每一列以理解可能的数据错误、缺失值、错误数据类型、误导/不正确数据、离群数据等。
在这篇文章中,我们将向您展示如何 亚马逊SageMaker数据牧马人 自动生成数据分布的关键可视化,检测数据质量问题,并显示数据洞察力,例如每个特征的异常值,而无需编写任何代码。 它通过自动质量警告(例如,缺失值或无效值)帮助改善数据网格体验。 自动生成的可视化也是交互式的。 例如,您可以显示按百分比排序的前五个最常见项目的列表,并将鼠标悬停在栏上以在计数和百分比之间切换。
先决条件
Amazon SageMaker Data Wrangler 是 SageMaker Studio 中提供的一项 SageMaker 功能。 你可以关注 Studio 入职流程 启动 Studio 环境和笔记本。 尽管您可以从几种身份验证方法中进行选择,但创建 Studio 域的最简单方法是遵循 快速入门说明. 快速入门使用与标准 Studio 设置相同的默认设置。 您也可以选择使用 AWS Identity and Access Management (IAM) 身份中心 (AWS Single Sign-On 的继承者)进行身份验证(请参阅 使用 IAM 身份中心载入 Amazon SageMaker 域).
解决方案演练
开始您的 SageMaker 工作室 环境与创造新 数据管理员流程. 您可以导入自己的数据集或使用示例数据集 (泰坦尼克号) 如下图所示。 这两个节点( 资源 节点和 data 类型节点)是可点击的——当您双击这两个节点时,Data Wrangler 将显示表格。
在我们的例子中,让我们右键单击 数据类型 图标和 添加转换:
您现在应该在每列的顶部看到可视化效果。 请等待一些时间来加载图表。 延迟取决于数据集的大小(对于泰坦尼克号数据集,在默认情况下应该需要 1-2 秒)。
通过将鼠标悬停在工具提示上滚动到水平顶部栏。 现在图表已经加载,您可以看到数据分布、无效值和缺失值。 离群值和缺失值是错误数据的特征,识别它们至关重要,因为它们可能会影响您的结果。 这意味着由于您的数据来自不具代表性的样本,您的发现可能无法推广到您研究之外的情况。 值的分类可以在底部的图表中看到 有效 值以白色表示, 无效 蓝色的值,和 失踪 紫色的值。 您还可以查看 离群 由图表左侧或右侧的蓝点表示。
所有的可视化都以直方图的形式出现。 对于非分类数据,为每个 bin 定义一个桶集。 对于分类数据,每个唯一值都被视为一个 bin。 在直方图的顶部,有一个条形图向您显示无效值和缺失值。 我们可以查看数字、分类、二进制、文本和日期时间类型的有效值比率,以及基于空单元格和空单元格总数的缺失值比率,最后是无效值比率。 让我们看一些示例,以了解如何使用 Data Wrangler 的预加载示例 Titanic 数据集.
例子1 – 我们可以查看 20% 的缺失值 年龄 功能/专栏。 在数据相关研究/ML 领域处理缺失数据至关重要,可以通过删除数据或估算数据(通过一些估计处理缺失值)。
您可以使用 处理缺失值 变换组。 使用 估算缺失 转换以生成在输入列中发现缺失值的估算值。 配置取决于您的数据类型。
在这个例子中, 年龄 列具有数字数据类型。 对于插补策略,我们可以选择插补 意味着 或者 近似中位数 超过数据集中存在的值。
现在我们已经添加了转换,我们可以看到 年龄 列不再有缺失值。
例子2 – 我们可以查看 27% 的无效值 票 特征/列是 STRING 类型。 无效数据会产生有偏差的估计,从而降低模型的准确性并导致错误的结论。 让我们探索一些我们可以用来处理无效数据的转换 票 列。
查看屏幕截图,我们看到一些输入的格式是在数字之前包含字母“电脑17318” 和其他只是数字,例如“11769“。
我们可以选择应用转换来搜索和编辑字符串中的特定模式,例如“个人电脑” 并更换它们。 接下来,我们可以投我们的 绳子 列为新类型,例如 长 为了易于使用。
这仍然给我们留下了 19% 的缺失值 票 特征。 与示例 1 类似,我们现在可以使用均值或近似中位数来估算缺失值。 特点 票 根据下图,不应再具有无效或缺失值。
为确保您在完成本教程后不会产生费用,请确保您 关闭 Data Wrangler 应用程序.
结论
在这篇文章中,我们介绍了新的 Amazon Sagemaker 数据管理员 有助于删除的小部件 无差别的繁重工作 在数据准备期间为最终用户提供自动呈现的可视化效果和每个功能的数据分析洞察力。 这个小部件可以轻松地可视化数据(例如,分类/非分类直方图)、检测数据质量问题(例如,缺失值和无效值)和表面数据洞察(例如,离群值和前 N 项)。
您可以立即在 SageMaker Studio 可用的所有区域开始使用此功能。 试试看, 让我们知道您的想法。 我们一直期待您的反馈,无论是通过您常用的 AWS 支持联系人,还是在 AWS 论坛 对于 SageMaker。
作者简介
伊莎杜阿 是旧金山湾区的一名高级解决方案架构师。 她通过了解 AWS 企业客户的目标和挑战来帮助他们成长,并指导他们如何以云原生方式构建应用程序,同时确保它们具有弹性和可扩展性。 她对机器学习技术和环境可持续性充满热情。
帕特·帕特尔(Parth Patel) 是旧金山湾区 AWS 的解决方案架构师。 Parth 指导客户加速他们的云之旅,并帮助他们成功采用 AWS 云。 他专注于机器学习和应用程序现代化。