在 Amazon SageMaker Data Wrangler 中为 Amazon Athena 数据源配置自定义 Amazon S3 查询输出位置和数据保留策略

由柏拉图重新发布

关注： 0

亚马逊SageMaker数据牧马人将汇总和准备机器学习 (ML) 数据所需的时间从几周缩短到几分钟亚马逊SageMaker Studio，第一个用于 ML 的完全集成的开发环境 (IDE)。使用 Data Wrangler，您可以简化数据准备和特征工程的过程，并从单个可视化界面完成数据准备工作流程的每个步骤，包括数据选择、清理、探索和可视化。您可以从多个数据源导入数据，例如亚马逊简单存储服务（Amazon S3），亚马逊Redshift, 雪花及 26 个联合查询数据源通过支持亚马逊雅典娜.

从今天开始，在从 Athena 数据源导入数据时，您可以配置 S3 查询输出位置和数据保留期限，以在 Data Wrangler 中导入数据，以控制 Athena 将中间数据存储在何处以及存储多长时间。在这篇文章中，我们将向您介绍这个新功能。

解决方案概述

Athena 是一种交互式查询服务，可让您轻松浏览 AWS胶水数据目录，并使用标准 SQL 分析 Amazon S3 和 26 个联合查询数据源中的数据。当您使用 Athena 导入数据时，您可以将 Data Wrangler 的默认 S3 位置用于 Athena 查询输出，或指定 Athena 工作组以强制执行自定义 S3 位置。以前，您必须实施清理工作流来删除这些中间数据，或者手动设置 S3 生命周期配置来控制存储成本并满足组织的数据安全要求。这是一个很大的运营开销，而且不可扩展。

Data Wrangler 现在支持 Athena 查询输出的自定义 S3 位置和数据保留期。借助这项新功能，您可以将 Athena 查询输出位置更改为自定义 S3 存储桶。您现在为 Athena 查询输出设置了 5 天的默认数据保留策略，您可以更改此策略以满足您组织的数据安全要求。根据保留期，自动清理 S3 存储桶中的 Athena 查询输出。导入数据后，您可以对此数据集执行探索性数据分析，并将干净的数据存储回 Amazon S3。

下图说明了此体系结构。

对于我们的用例，我们使用示例银行数据集来遍历解决方案。工作流程包括以下步骤：

下载样本数据集并将其上传到 S3 存储桶。
设置 AWS Glue 履带抓取架构并将元数据架构存储在 AWS Glue 数据目录中。
使用 Athena 访问数据目录以从 S3 存储桶中查询数据。
创建一个新的 Data Wrangler 流以连接到 Athena。
创建连接时，为数据集设置保留 TTL。
在工作流中使用此连接并将干净的数据存储在另一个 S3 存储桶中。

为简单起见，我们假设您已经设置了 Athena 环境（步骤 1-3）。我们在这篇文章中详细介绍了后续步骤。

先决条件

要设置 Athena 环境，请参阅用户指南获取分步说明，并完成上一节中概述的步骤 1-3。

将您的数据从 Athena 导入 Data Wrangler

要导入您的数据，请完成以下步骤：

在 Studio 控制台上，选择资源导航窗格中的图标。
数据管理员 在下拉菜单上。
新流程.
点击进口标签，选择 亚马逊雅典娜.

将打开一个详细信息页面，您可以在其中连接到 Athena 并编写 SQL 查询以从数据库中导入。
输入连接的名称。
扩大 高级配置.
连接到 Athena 时，Data Wrangler 使用 Amazon S3 暂存查询的数据。默认情况下，此数据暂存于 S3 位置 s3://sagemaker-{region}-{account_id}/athena/ 保留期为 5 天。
针对 查询结果的 Amazon S3 位置，输入您的 S3 位置。
选择 数据保留期 并设置数据保留期（对于这篇文章，1 天）。
如果取消选择此选项，数据将无限期保留。在幕后，Data Wrangler 将 S3 生命周期配置策略附加到该 S3 位置以自动清理。请参阅以下示例策略：
```
 "Rules": [
        {
            "Expiration": {
                "Days": 1
            },
            "ID": "sm-data-wrangler-retention-policy-xxxxxxx",
            "Filter": {
                "Prefix": "athena/test"
            },
            "Status": "Enabled"
        }
    ]
```
你需要 s3:GetLifecycleConfiguration 和 s3:PutLifecycleConfiguration 让您的 SageMaker 执行角色正确应用生命周期配置策略。如果没有这些权限，您在尝试导入数据时会收到错误消息。

以下错误消息是缺少的示例 GetLifecycleConfiguration 允许。

以下错误消息是缺少的示例 PutLifecycleConfiguration 允许。
（可选） 工作组，您可以指定一个 Athena 工作组。
Athena 工作组将用户、团队、应用程序或工作负载隔离到不同的组中，每个组都有自己的权限和配置设置。当您指定工作组时，Data Wrangler 会继承 Athena 中定义的工作组设置。例如，如果工作组定义了一个 S3 位置来存储查询结果并启用 覆盖客户端 设置中，您无法编辑 S3 查询结果位置。默认情况下，Data Wrangler 还会为您保存 Athena 连接。这在进口标签。您始终可以重新打开该连接以查询并将不同的数据带入 Data Wrangler。
取消选择 保存连接 如果您不想保存连接。
要配置 Athena 连接，请选择 不包含 打样导入整个数据集。

对于大型数据集，Data Wrangler 允许您导入数据的子集以构建转换工作流程，并且仅在您准备好时处理整个数据集。这加快了迭代周期并节省了处理时间和成本。要了解有关可用的不同数据采样选项的更多信息，请访问 Amazon SageMaker Data Wrangler 现在支持随机抽样和分层抽样.
针对 资料目录¸选择 AwsData目录.
针对 数据库，选择您的数据库。

Data Wrangler 显示可用的表。您可以选择每个表来检查架构并预览数据。
在查询字段中输入以下代码：
```
Select *
From bank_additional_full
```
运行预览数据。
如果一切看起来都不错，请选择进口.
输入数据集名称并选择地址将数据导入 Data Wrangler 工作区。

使用 Data Wrangler 分析和处理数据

将数据加载到 Data Wrangler 后，您可以进行探索性数据分析 (EDA) 并为机器学习准备数据。

选择旁边的加号 bank-data 数据流中的数据集，然后选择 添加分析.
Data Wrangler 提供内置分析，包括数据质量和洞察报告、数据相关性、预训练偏差报告、数据集摘要和可视化（如直方图和散点图）。此外，您可以创建自己的自定义可视化。
针对 分析类型¸选择 数据质量和洞察报告.
这会自动生成可视化、分析以识别数据质量问题，并为您的数据集所需的正确转换提供建议。
针对 目标列，选择 Y.
因为这是一个分类问题陈述，对于 问题类型，选择分类.
创建.

Data Wrangler 会为您的数据集创建详细报告。您还可以将报告下载到本地计算机。
对于数据准备，选择数据流中银行数据数据集旁边的加号，然后选择 添加变换.
添加步骤 开始构建您的转换。

在撰写本文时，Data Wrangler 提供了 300 多个内置转换。您还可以使用 Pandas 或 PySpark 编写自己的转换。

您现在可以根据业务需求开始构建转换和分析。

清理

为避免持续成本，请在完成后使用以下步骤删除 Data Wrangler 资源。

选择正在运行的实例和内核图标。
在运行应用程序下，单击旁边的关机图标 sagemaker-data-wrangler-1.0 app.
选择全部关闭以确认。

结论

在这篇文章中，我们概述了自定义 S3 位置和启用 S3 生命周期配置以将数据从 Athena 导入 Data Wrangler。借助此功能，您可以将中间数据存储在安全的 S3 位置，并在保留期后自动删除数据副本，以降低未经授权访问数据的风险。我们鼓励您尝试这项新功能。建设愉快！

要了解有关 Athena 和 SageMaker 的更多信息，请访问雅典娜用户指南和亚马逊 SageMaker 文档.

关于作者

在 Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence 中为 Amazon Athena 数据源配置自定义 Amazon S3 查询输出位置和数据保留策略。垂直搜索。哎。 Meenakshisundaram 坦达瓦拉扬 是 AWS 的高级 AI/ML 专家。他帮助高科技战略客户进行 AI 和 ML 之旅。他对数据驱动的人工智能充满热情。

哈里什·拉贾戈帕兰 是 Amazon Web Services 的高级解决方案架构师。 Harish 与企业客户合作，帮助他们完成云之旅。

詹姆斯吴 是 AWS 的高级 AI/ML 专家解决方案架构师。帮助客户设计和构建 AI/ML 解决方案。 James 的工作涵盖了广泛的 ML 用例，主要兴趣在于计算机视觉、深度学习和在整个企业中扩展 ML。在加入 AWS 之前，James 担任了 10 多年的架构师、开发人员和技术领导者，其中包括 6 年的工程经验和 4 年的营销和广告行业经验。