借助 Amazon SageMaker Data Wrangler 和 Apache Hive 的强大功能加快洞察速度

由柏拉图重新发布

关注： 0

亚马逊SageMaker数据牧马人将在 Amazon SageMaker Studio 中为机器学习 (ML) 聚合和准备数据所需的时间从数周缩短至几分钟。 Data Wrangler 使您能够访问来自各种流行来源的数据（Amazon S3, 亚马逊雅典娜, 亚马逊Redshift, 亚马逊电子病历和 Snowflake）以及 40 多个其他第三方来源。从今天开始，您可以连接到亚马逊电子病历 Hive 作为大数据查询引擎，为 ML 引入大数据集。

聚合和准备大量数据是 ML 工作流程的关键部分。数据科学家和数据工程师使用在 Amazon EMR 上运行的 Apache Spark、Apache Hive 和 Presto 进行大规模数据处理。这篇博文将介绍数据专业人员如何使用 SageMaker Data Wrangler 的可视化界面来定位和连接到具有 Hive 端点的现有 Amazon EMR 集群。为了为建模或报告做好准备，他们可以直观地分析数据库、表、模式，并编写 Hive 查询以创建 ML 数据集。然后，他们可以使用 Data Wrangler 可视化界面快速分析数据，以评估数据质量、发现异常和缺失或不正确的数据，并获得有关如何处理这些问题的建议。他们可以利用更流行的 ML 支持的内置分析和 Spark 支持的 300 多个内置转换来分析、清理和设计功能，而无需编写一行代码。最后，他们还可以训练和部署模型 SageMaker自动驾驶仪、计划作业，或从 Data Wrangler 的可视化界面在 SageMaker Pipeline 中操作数据准备。

解决方案概述

借助 SageMaker Studio 设置，数据专业人员可以快速识别并连接到现有的 EMR 集群。此外，数据专业人员可以从以下位置发现 EMR 集群使用预定义模板的 SageMaker Studio 按需点击几下。客户可以使用 SageMaker Studio 通用笔记本并在其中编写代码 Apache Spark, 蜂房, 急板 or 火花大规模地进行数据准备。但是，并非所有数据专业人员都熟悉编写 Spark 代码来准备数据，因为其中涉及陡峭的学习曲线。由于 Amazon EMR 是 Amazon SageMaker Data Wrangler 的数据源，他们现在无需编写一行代码即可快速简单地连接到 Amazon EMR。

下图表示此解决方案中使用的不同组件。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

我们演示了两个可用于建立与 EMR 集群的连接的身份验证选项。对于每个选项，我们部署了一个独特的堆栈 AWS CloudFormation 模板。

选择每个选项后，CloudFormation 模板会执行以下操作：

在仅 VPC 模式下创建一个 Studio 域，以及一个名为 studio-user.
创建构建块，包括 VPC、端点、子网、安全组、EMR 集群和成功运行示例所需的其他资源。
对于 EMR 集群，连接 AWS Glue 数据目录作为 EMR Hive 和 Presto 的元存储，在 EMR 中创建一个 Hive 表，并用来自 美国机场数据集.
对于 LDAP CloudFormation 模板，创建一个亚马逊弹性计算云 (Amazon EC2) 实例来托管 LDAP 服务器以验证 Hive 和 Presto LDAP 用户。

选项 1：轻量级访问目录协议

对于 LDAP 身份验证 CloudFormation 模板，我们使用 LDAP 服务器配置 Amazon EC2 实例，并将 EMR 集群配置为使用此服务器进行身份验证。这是启用了 TLS。

选项 2：无授权

在无身份验证 CloudFormation 模板中，我们使用未启用身份验证的标准 EMR 集群。

使用 AWS CloudFormation 部署资源

完成以下步骤以部署环境：

登录 AWS管理控制台作为 AWS身份和访问管理（IAM）用户，最好是管理员用户。
启动堆栈 为适当的身份验证场景启动 CloudFormation 模板。确保用于部署 CloudFormation 堆栈的区域没有现有的 Studio 域。如果您在某个区域中已有 Studio 域，则可以选择其他区域。

LDAP的

无授权
下一页.
针对 堆栈名称，输入堆栈名称（例如， dw-emr-hive-blog).
将其他值保留为默认值。
要继续，请选择 下一页 从堆栈详细信息页面和堆栈选项。
LDAP 堆栈使用以下凭据。
- 用户名： david
- 密码： welcome123
在审阅页面上，选中复选框以确认AWS CloudFormation可以创建资源。
创建堆栈. 等到堆栈的状态从 CREATE_IN_PROGRESS 至 CREATE_COMPLETE。该过程通常需要10到15分钟。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

在 Data Wrangler 中将 Amazon EMR 设置为数据源

在本节中，我们将介绍如何连接到通过 CloudFormation 模板创建的现有 Amazon EMR 集群作为 Data Wrangler 中的数据源。

创建新的数据流

要创建数据流，请完成以下步骤：

在 SageMaker 控制台上，单击域名，然后点击 工作室域名 通过运行以上 CloudFormation 模板创建。
选择 工作室用户 用户配置文件并启动 Studio。
开工作室.
在 Studio 主页控制台中，选择 以可视化方式导入和准备数据. 或者，在文件下拉，选择全新，然后选择 数据牧马人流程.
创建新流可能需要几分钟时间。创建流后，您会看到 导入日期 页面上发布服务提醒。
在 Data Wrangler 中添加 Amazon EMR 作为数据源。在 添加数据源 菜单中选择 亚马逊电子病历.

您可以浏览您的 Studio 执行角色有权查看的所有 EMR 集群。您有两种连接到集群的选择；一种是通过交互式 UI，另一种是首先使用 AWS Secrets Manager 创建密钥使用 JDBC URL，包括 EMR 集群信息，然后在 UI 中提供存储的 AWS 秘密 ARN 以连接到 Hive。在这篇博客中，我们遵循第一个选项。

选择您要使用的以下集群之一。点击 下一页，然后选择端点。
选择 蜂巢， 连接到 Amazon EMR，创建一个名称来标识您的连接，然后单击 下一页.
选择身份验证类型 轻量级目录访问协议 (LDAP) or 无身份验证.

对于轻量级目录访问协议 (LDAP)，选择该选项并单击 接下来，登录集群r，然后提供要进行身份验证的用户名和密码，然后单击“连接”。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

对于无身份验证，您将连接到 EMR Hive，而无需在 VPC 中提供用户凭证。进入 EMR 的 Data Wrangler 的 SQL 资源管理器页面。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

连接后，您可以交互式地查看数据库树和表格预览或模式。您还可以查询、探索和可视化来自 EMR 的数据。对于预览，默认情况下您会看到 100 条记录的限制。在查询编辑器框中提供 SQL 语句并单击运行按钮，查询将在 EMR 的 Hive 引擎上执行以预览数据。

取消查询 按钮允许取消正在进行的查询，如果它们花费了异常长的时间。

最后一步是导入。准备好查询数据后，您可以选择根据采样类型（FirstK、随机或分层）和采样大小更新数据选择的采样设置，以便将数据导入 Data Wrangler。

点击进口. 将加载准备页面，允许您向数据集添加各种转换和基本分析。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

导航 数据流 从顶部屏幕，根据转换和分析的需要向流程添加更多步骤。你可以运行一个数据洞察报告识别数据质量问题并获得解决这些问题的建议。让我们看一些示例转换。
在 数据流 视图，您应该看到我们正在使用 EMR 作为使用 Hive 连接器的数据源。
让我们点击 + 右边的按钮 资料类型 并选择 添加变换. 当你这样做时，你会回到时间视图。

让我们探索数据。我们看到它具有多种功能，例如 国际航空运输协会代码, 机场, 市, 州, 国家, 纬度及经度. 我们可以看到整个数据集是基于一个国家，也就是美国，并且在纬度和经度. 数据缺失会导致参数估计出现偏差，会降低样本的代表性，因此我们需要进行一些归责并处理我们数据集中的缺失值。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

让我们点击 添加步骤 右侧导航栏上的按钮。选择 手柄缺失. 这些配置可以在以下屏幕截图中看到。

下 转变， 选择估算。选择 立柱类型 as 数字和 输入栏 名称纬度和 经度。 我们将使用近似中值来估算缺失值。

首先点击预览查看缺失值，然后单击更新以添加转换。
借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

现在让我们看看另一个示例转换。构建 ML 模型时，如果列是多余的或对您的模型没有帮助，则会将其删除。删除列的最常见方法是删除它。在我们的数据集中，特征国家可以删除，因为数据集专门用于美国机场数据。要管理列，请单击 添加步骤 右侧导航栏上的按钮，然后选择 管理栏. 这些配置可以在以下屏幕截图中看到。在下面改造，选择 下降柱，并在下 要删除的列，选择国家.
点击预览然后更新删除列。
Feature Store 是一个用于存储、共享和管理 ML 模型特征的存储库。让我们点击 + 右边的按钮 下降柱。选择 输出到 并选择 SageMaker功能商店 （通过 Jupyter 笔记本）.
通过选择 SageMaker功能商店作为目的地，您可以将要素保存到现有要素组中或创建新要素组。

我们现在已经使用 Data Wrangler 创建了特征，并轻松地将这些特征存储在特征存储中。我们在 Data Wrangler UI 中展示了特征工程的示例工作流程。然后我们通过创建一个新的特征组将这些特征直接从 Data Wrangler 保存到特征存储中。最后，我们运行了一个处理作业，将这些特征提取到特征存储中。 Data Wrangler 和 Feature Store 一起帮助我们构建了自动化和可重复的流程，以最少的编码来简化我们的数据准备任务。 Data Wrangler 还为我们提供了灵活性，可以使用以下方法自动执行相同的数据准备流程预定作业. 我们也可以自动使用 SageMaker Autopilot 训练和部署模型从 Data Wrangler 的可视化界面，或使用 SageMaker Pipelines（通过 Jupyter Notebook）创建训练或特征工程管道，并使用 SageMaker 推理管道（通过 Jupyter Notebook）部署到推理端点。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

清理

如果您已完成 Data Wrangler 的工作，以下步骤将帮助您删除创建的资源以避免产生额外费用。

关闭 SageMaker Studio。

在 SageMaker Studio 中，关闭所有选项卡，然后选择文件然后关闭. 一旦提示选择 全部关机.

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

根据实例类型，关闭可能需要几分钟时间。确保删除与用户个人资料关联的所有应用程序。如果它们没有被删除，请手动删除用户配置文件下关联的应用程序。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

清空从 CloudFormation 启动时创建的所有 S3 存储桶。

通过在 AWS 控制台搜索中搜索 S3 打开 Amazon S3 页面。清空配置集群时创建的所有 S3 存储桶。桶将是格式 dw-emr-hive-blog-.

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

删除 SageMaker Studio EFS。

通过在 AWS 控制台搜索中搜索 EFS 打开 EFS 页面。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

找到 SageMaker 创建的文件系统。您可以通过单击 文件系统标识 并确认标签 ManagedByAmazonSageMakerResource 在标签标签。

删除 CloudFormation 堆栈。通过从 AWS 控制台搜索并打开 CloudFormation 服务来打开 CloudFormation。

选择以开头的模板 dw- 如以下屏幕所示，并通过单击删除按钮。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

这是预料之中的，我们将回到这里并在后续步骤中对其进行清理。

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

在 CloudFormation 堆栈无法完成后删除 VPC。首先从 AWS 控制台打开 VPC。
接下来，确定由 SageMaker Studio CloudFormation 创建的 VPC，标题为 dw-emr-，然后按照提示删除VPC。
删除 CloudFormation 堆栈。

返回 CloudFormation 并重试堆栈删除 dw-emr-hive-blog.

借助 Amazon SageMaker Data Wrangler 和 Apache Hive PlatoBlockchain 数据智能的强大功能，加快获得洞察的速度。垂直搜索。人工智能。

完全的！这篇博文中描述的 CloudFormation 模板提供的所有资源现在将从您的帐户中删除。

结论

在这篇博文中，我们介绍了如何在 Data Wrangler 中将 Amazon EMR 设置为数据源、如何转换和分析数据集，以及如何将结果导出到数据流以供在 Jupyter 笔记本中使用。在使用 Data Wrangler 的内置分析功能可视化我们的数据集后，我们进一步增强了数据流。我们无需编写一行代码就创建了数据准备管道这一事实意义重大。

要开始使用 Data Wrangler，请参阅使用 Amazon SageMaker Data Wrangler 准备 ML 数据并查看最新信息 Data Wrangler 产品页面和 AWS 技术文档.

作者简介

阿贾伊戈文达拉姆 是 AWS 的高级解决方案架构师。他与使用 AI/ML 解决复杂业务问题的战略客户合作。他的经验在于为适度到大规模的 AI/ML 应用程序部署提供技术指导和设计协助。他的知识范围从应用程序架构到大数据、分析和机器学习。他喜欢边休息边听音乐、体验户外活动以及与亲人共度时光。

伊莎杜阿 是旧金山湾区的一名高级解决方案架构师。她通过了解 AWS 企业客户的目标和挑战来帮助他们成长，并指导他们如何以云原生方式构建他们的应用程序，同时确保弹性和可扩展性。她对机器学习技术和环境可持续性充满热情。

瓦伦·梅塔（Varun Mehta） 是 AWS 的解决方案架构师。他热衷于帮助客户在 AWS 云上构建企业级架构完善的解决方案。他与使用 AI/ML 解决复杂业务问题的战略客户合作。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-insight-with-amazon-sagemaker-data-wrangler-and-the-power-of-apache-hive/

时间戳记： 2023 年 3 月 10 日

时间戳记： 2023 年 12 月 6 日

由柏拉图重新发布

改进 Amazon Rekognition 自定义标签模型的提示

Amazon Bedrock 中的知识库现在简化了针对单个文档提出问题 |亚马逊网络服务

使用 Amazon SageMaker JumpStart 上的稳定扩散模型从文本生成图像

在 Amazon SageMaker 上连接 Amazon EMR 和 RStudio

用于经济高效、高性能 AI 推理的 Amazon EC2 DL2q 实例现已全面上市 | 亚马逊网络服务

使用 Amazon SageMaker JumpStart 的 Pinecone 矢量数据库和 Llama-2 通过检索增强生成减轻幻觉 | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

LDAP的
无授权

解决方案概述

选项 1：轻量级访问目录协议

选项 2：无授权

使用 AWS CloudFormation 部署资源

在 Data Wrangler 中将 Amazon EMR 设置为数据源

创建新的数据流

清理

结论

作者简介

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理