利用 AWS SageMaker Data Wrangler 中的新功能优化数据准备

由柏拉图重新发布

关注： 0

数据准备是任何数据驱动项目中的关键步骤，拥有正确的工具可以大大提高运营效率。亚马逊SageMaker数据牧马人将聚合和准备机器学习 (ML) 表格和图像数据所需的时间从几周缩短到几分钟。借助 SageMaker Data Wrangler，您可以简化数据准备和特征工程的过程，并通过单个可视化界面完成数据准备工作流程的每个步骤，包括数据选择、清理、探索和可视化。

在这篇文章中，我们将探讨 SageMaker Data Wrangler 专为改善操作体验而设计的最新功能。我们深入研究支持简单的存储服务（亚马逊 S3）舱单文件、交互式数据流中的推理工件以及与 JSON（JavaScript对象表示法）推理格式，强调这些增强功能如何使数据准备变得更容易、更高效。

介绍新功能

在本节中，我们将讨论 SageMaker Data Wrangler 用于优化数据准备的新功能。

用于 ML 推理的 SageMaker Autopilot 支持 S3 清单文件

SageMaker Data Wrangler 支持统一数据准备和模型训练有经验亚马逊SageMaker自动驾驶仪只需点击几下即可。您可以使用 SageMaker Autopilot 针对您在数据流中转换的数据自动训练、调整和部署模型。

现在，通过 S3 清单文件支持，这种体验得到了进一步简化。 S3 清单文件是一个文本文件，列出了 S3 存储桶中存储的对象（文件）。如果您在 SageMaker Data Wrangler 中导出的数据集相当大，并且在 Amazon S3 中分成多个部分的数据文件，现在 SageMaker Data Wrangler 将自动在 S3 中创建一个代表所有这些数据文件的清单文件。现在可以将生成的清单文件与 SageMaker Data Wrangler 中的 SageMaker Autopilot UI 结合使用，以获取所有分区数据进行训练。

在此功能推出之前，当使用根据 SageMaker Data Wrangler 准备的数据训练的 SageMaker Autopilot 模型时，您只能选择一个数据文件，该文件可能无法代表整个数据集，尤其是在数据集非常大的情况下。借助这种新的清单文件体验，您不再局限于数据集的子集。您可以使用清单文件通过 SageMaker Autopilot 构建表示所有数据的 ML 模型，并将其用于 ML 推理和生产部署。此功能通过使用 SageMaker Autopilot 简化训练 ML 模型并简化数据处理工作流程，从而提高运营效率。

添加了对生成工件中的推理流的支持

客户希望将应用于模型训练数据的数据转换（例如 one-hot 编码、PCA 和插补缺失值）应用于生产中的实时推理或批量推理。为此，您必须拥有 SageMaker Data Wrangler 推理工件，该工件由 SageMaker 模型使用。

以前，推理工件只能在导出到 SageMaker Autopilot 训练或导出推理管道笔记本时从 UI 生成。如果您想将 SageMaker Data Wrangler 流程带到外部，这并不能提供灵活性。亚马逊SageMaker Studio 环境。现在，您可以通过 SageMaker Data Wrangler 处理作业为任何兼容的流文件生成推理工件。这使得能够通过 SageMaker Data Wrangler 流程实现编程式、端到端 MLOps，以实现代码优先的 MLOps 角色，以及通过从 UI 创建作业来获取推理工件的直观、无代码路径。

简化数据准备

JSON 已成为现代数据生态系统中广泛采用的数据交换格式。 SageMaker Data Wrangler 与 JSON 格式的集成使您能够无缝处理 JSON 数据以进行转换和清理。通过提供对 JSON 的本机支持，SageMaker Data Wrangler 简化了处理结构化和半结构化数据的流程，使您能够提取有价值的见解并高效准备数据。 SageMaker Data Wrangler 现在支持批量和实时推理端点部署的 JSON 格式。

解决方案概述

对于我们的用例，我们使用示例亚马逊顾客评论数据集展示 SageMaker Data Wrangler 如何简化使用 SageMaker Autopilot 构建新 ML 模型的操作工作。亚马逊客户评论数据集包含来自亚马逊的产品评论和元数据，其中包括 142.8 年 1996 月至 2014 年 XNUMX 月的 XNUMX 亿条评论。

在较高层面上，我们使用 SageMaker Data Wrangler 来管理这个大型数据集并执行以下操作：

使用所有数据集（而不仅仅是样本）在 SageMaker Autopilot 中开发 ML 模型。
使用 SageMaker Data Wrangler 生成的推理工件构建实时推理管道，并使用 JSON 格式进行输入和输出。

SageMaker Autopilot 支持 S3 清单文件

使用 SageMaker Data Wrangler 创建 SageMaker Autopilot 实验时，您以前只能指定单个 CSV 或 Parquet 文件。现在，您还可以使用 S3 清单文件，从而可以使用大量数据进行 SageMaker Autopilot 实验。 SageMaker Data Wrangler 会自动将输入数据文件分区为几个较小的文件，并生成可在 SageMaker Autopilot 实验中使用的清单，以从交互式会话中提取所有数据，而不仅仅是一个小样本。

完成以下步骤：

将 Amazon 客户评论数据从 CSV 文件导入到 SageMaker Data Wrangler。确保导入数据时禁用采样。
指定标准化数据的转换。在此示例中，使用 SageMaker Data Wrangler 的内置转换删除符号并将所有内容转换为小写。
火车模型 开始训练。

数据流 - 训练模型

为了使用 SageMaker Autopilot 训练模型，SageMaker 会自动将数据导出到 S3 存储桶。对于像这样的大型数据集，它会自动将文件分解为较小的文件，并生成包含较小文件位置的清单。

数据流-自动驾驶仪

首先，选择您的输入数据。

此前，SageMaker Data Wrangler 没有选项来生成与 SageMaker Autopilot 一起使用的清单文件。今天，随着清单文件支持的发布，SageMaker Data Wrangler 将自动将清单文件导出到 Amazon S3，使用清单文件 S3 位置预填充 SageMaker Autopilot 训练的 S3 位置，并将清单文件选项切换为支持。生成或使用清单文件不需要任何工作。

自动驾驶实验

通过选择模型预测的目标来配置您的实验。
接下来，选择训练方法。在这种情况下，我们选择汽车并让 SageMaker Autopilot 根据数据集大小决定最佳训练方法。

创建自动驾驶实验

指定部署设置。
最后，检查作业配置并提交 SageMaker Autopilot 实验进行训练。当 SageMaker Autopilot 完成实验时，您可以查看训练结果并探索最佳模型。

自动驾驶仪实验 - 完成

由于对清单文件的支持，您可以使用整个数据集进行 SageMaker Autopilot 实验，而不仅仅是数据的子集。

有关将 SageMaker Autopilot 与 SageMaker Data Wrangler 结合使用的更多信息，请参阅使用 Amazon SageMaker Data Wrangler 和 Amazon SageMaker Autopilot 进行统一数据准备和模型训练。

从 SageMaker 处理作业生成推理工件

现在，让我们看看如何通过 SageMaker Data Wrangler UI 和 SageMaker Data Wrangler 笔记本生成推理工件。

SageMaker 数据牧马人 UI

对于我们的用例，我们希望通过 UI 处理数据，然后使用生成的数据通过 SageMaker 控制台训练和部署模型。完成以下步骤：

打开您在上一节中创建的数据流。
选择最后一个变换旁边的加号，选择 添加目的地，并选择 Amazon S3。这将是处理后的数据的存储位置。
建立工作.
选择 生成推理工件 在推理参数部分中生成推理工件。
对于推理工件名称，输入推理工件的名称（使用 .tar.gz 作为文件扩展名）。
对于推理输出节点，输入与应用于训练数据的转换相对应的目标节点。
配置作业.
下 作业配置，输入路径 流文件S3位置。一个名为 data_wrangler_flows 将在此位置下创建，并且推理工件将上传到此文件夹。要更改上传位置，请设置不同的 S3 位置。
保留所有其他选项的默认值并选择创建创建处理作业。

处理作业将创建一个 tarball (.tar.gz) 包含修改后的数据流文件和新添加的推理部分，允许您将其用于推理。在部署推理解决方案时，您需要推理工件的 S3 统一资源标识符 (URI) 来向 SageMaker 模型提供工件。 URI 的形式为 {Flow file S3 location}/data_wrangler_flows/{inference artifact name}.tar.gz.
如果您之前没有记下这些值，则可以选择处理作业的链接来查找相关详细信息。在我们的示例中，URI 是 s3://sagemaker-us-east-1-43257985977/data_wrangler_flows/example-2023-05-30T12-20-18.tar.gz.
复制的值 处理图像; 创建模型时我们也需要这个 URI。
现在，我们可以使用此 URI 在 SageMaker 控制台上创建 SageMaker 模型，稍后可以将其部署到端点或批量转换作业。
下 模型设置¸ 输入模型名称并指定您的 IAM 角色。
针对 容器输入选项，选择 提供模型工件和推理图像位置.
针对 推理代码图像的位置，输入处理图像URI。
针对 模型工件的位置，输入推理工件 URI。
此外，如果您的数据具有将由经过训练的 ML 模型预测的目标列，请在下面指定该列的名称 环境变量, INFERENCE_TARGET_COLUMN_NAME as 键列名称为值.
通过选择完成模型创建 建立模型.

我们现在有了一个可以部署到端点或批量转换作业的模型。

SageMaker Data Wrangler 笔记本

对于从处理作业生成推理工件的代码优先方法，我们可以通过选择来找到示例代码 输出到 在节点菜单上并选择 Amazon S3, SageMaker管道或 SageMaker 推理管道。我们选择 SageMaker 推理管道 在这个例子中。

SageMaker 推理管道

在此笔记本中，有一个标题为 创建处理器 （这在 SageMaker Pipelines 笔记本中是相同的，但在 Amazon S3 笔记本中，等效代码将位于 作业配置 部分）。本节的底部是我们的推理工件的配置，称为 inference_params。它包含我们在 UI 中看到的相同信息，即推理工件名称和推理输出节点。这些值将被预先填充，但可以修改。另外还有一个参数叫做 use_inference_params，需要设置为 True 在处理作业中使用此配置。

推理配置

再往下是一个标题为 定义管道步骤，其中 inference_params 配置附加到作业参数列表并传递到 SageMaker Data Wrangler 处理步骤的定义中。在 Amazon S3 笔记本中， job_arguments 紧随其后定义 作业配置 部分。

创建 SageMaker 管道

通过这些简单的配置，此笔记本创建的处理作业将在与我们的流文件（之前在我们的笔记本中定义）相同的 S3 位置生成推理工件。我们可以通过编程方式确定此 S3 位置，并使用此工件来创建 SageMaker 模型 SageMaker Python 开发工具包，这在 SageMaker Inference Pipeline 笔记本中进行了演示。

相同的方法可以应用于创建 SageMaker Data Wrangler 处理作业的任何 Python 代码。

JSON 文件格式支持推理过程中的输入和输出

网站和应用程序使用 JSON 作为 API 的请求/响应是很常见的，这样信息就很容易被不同的编程语言解析。

以前，在拥有经过训练的模型后，您只能通过 CSV 作为 SageMaker Data Wrangler 推理管道中的输入格式与其进行交互。如今，您可以使用 JSON 作为输入和输出格式，从而在与 SageMaker Data Wrangler 推理容器交互时提供更大的灵活性。

要开始在推理管道笔记本中使用 JSON 进行输入和输出，请完成以下步骤：

定义有效负载。

对于每个有效负载，模型都需要一个键命名实例。该值是一个对象列表，每个对象都有自己的数据点。这些对象需要一个称为特征的键，并且值应该是要提交给模型的单个数据点的特征。可以在单个请求中提交多个数据点，每个请求的总大小最多为 6 MB。

请参见以下代码：

sample_record_payload = json.dumps
( { "instances":[ {"features":["This is the best", "I'd use this product twice a day every day if I could. it's the best ever"] } ] }
)

指定 ContentType as application/json.
向模型提供数据并接收 JSON 格式的推理。

我们用于推理的通用数据格式有关示例输入和输出 JSON 示例。

清理

当您使用完 SageMaker Data Wrangler 后，我们建议您关闭其运行的实例，以避免产生额外费用。有关如何关闭 SageMaker Data Wrangler 应用程序和关联实例的说明，请参阅关闭数据管理员.

结论

SageMaker Data Wrangler 的新功能，包括对 S3 清单文件的支持、推理功能和 JSON 格式集成，改变了数据准备的操作体验。这些增强功能简化了数据导入、自动化数据转换并简化了 JSON 数据的处理。借助这些功能，您可以提高运营效率、减少手动工作量并轻松从数据中提取有价值的见解。充分利用 SageMaker Data Wrangler 新功能的强大功能，释放数据准备工作流程的全部潜力。

要开始使用 SageMaker Data Wrangler，请查看有关 SageMaker Data Wrangler 的最新信息 SageMaker Data Wrangler 产品页面.

关于作者

慕尼黑达布拉 是 Amazon Web Services (AWS) 的首席解决方案架构师。他目前关注的领域是人工智能/机器学习和可观察性。他在设计和构建可扩展的分布式系统方面拥有深厚的背景。他喜欢帮助客户在 AWS 中进行业务创新和转型。领英： /姆达布拉

利用 AWS SageMaker Data Wrangler 中的新功能优化数据准备 | 亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。 帕特里克·林 是 Amazon SageMaker Data Wrangler 的软件开发工程师。他致力于使 Amazon SageMaker Data Wrangler 成为生产化 ML 工作流的第一大数据准备工具。工作之余，你可以看到他阅读、听音乐、与朋友交谈以及在他的教堂服务。

SEO 支持的内容和 PR 分发。今天得到放大。
PlatoData.Network 垂直生成人工智能。赋予自己力量。访问这里。
柏拉图爱流。 Web3 智能。知识放大。访问这里。
柏拉图ESG。汽车/电动汽车，碳，清洁科技, 能源，环境，太阳能，废物管理。访问这里。
块偏移量。现代化环境抵消所有权。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/optimize-data-preparation-with-new-features-in-aws-sagemaker-data-wrangler/

时间戳记： 2023 年 8 月 4 日

时间戳记： 2022 年 9 月 26 日

由柏拉图重新发布

在您的 AWS 环境中实施 RStudio 并使用 AWS Lake Formation 权限访问您的数据湖

保护 Amazon SageMaker Studio 预签名 URL 第 1 部分：基础设施

使用 Amazon Polly 在朗读时突出显示文本 | 亚马逊网络服务

使用 AWS 无服务器和机器学习服务进行实时欺诈检测

使用 Amazon SageMaker JumpStart 通过法学硕士进行信息提取 |亚马逊网络服务

在 Amazon SageMaker 上运行集成 ML 模型

使用 Amazon SageMaker 模型并行和数据并行库进行分布式训练和高效扩展 |亚马逊网络服务

在 AWS 上使用数据网格架构构建和训练 ML 模型：第 2 部分

使用 AWS 机器学习服务将内容本地化为多种语言

为 Amazon Textract 引入自助服务配额管理和更高的默认服务配额

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理