使用 Amazon SageMaker Data Wrangler 在大型数据集上重新调整训练参数

由柏拉图重新发布

关注： 0

亚马逊SageMaker数据牧马人帮助您从单个可视化界面理解、聚合、转换和准备数据以用于机器学习 (ML)。它包含 300 多个内置数据转换，因此您无需编写任何代码即可快速规范化、转换和组合特征。

数据科学从业者生成、观察和处理数据，以解决他们需要从数据集中转换和提取特征的业务问题。诸如序号编码或单热编码之类的转换学习数据集上的编码。这些编码输出称为训练参数。随着数据集随时间变化，可能需要重新调整以前未见过的数据的编码，以保持转换流与您的数据相关。

我们很高兴地宣布改装训练参数功能，它允许您使用以前训练的参数并根据需要改装它们。在这篇文章中，我们演示了如何使用此功能。

Data Wrangler 改装功能概述

在深入研究 refit 训练参数功能的细节之前，我们将通过以下示例说明此功能的工作原理。

假设您的客户数据集具有分类特征 country 表示为字符串 Australia 和 Singapore. 机器学习算法需要数字输入；因此，必须将这些分类值编码为数值。对分类数据进行编码是为类别创建数字表示的过程。例如，如果您的类别国家有值 Australia 和 Singapore，您可以将此信息编码为两个向量：[1, 0] 来表示 Australia 和 [0, 1] 代表 Singapore. 这里使用的转换是单热编码，新的编码输出反映了经过训练的参数。

训练模型后，随着时间的推移，您的客户可能会增加，并且您在国家/地区列表中有更多不同的值。新数据集可能包含另一个类别， India，这不是原始数据集的一部分，这会影响模型的准确性。因此，有必要使用随时间收集的新数据重新训练您的模型。

为了克服这个问题，您需要刷新编码以包含新类别并根据最新数据集更新矢量表示。在我们的示例中，编码应反映 country，这是 India. 我们通常将这种刷新编码的过程称为改装操作。执行改装操作后，您将获得新的编码： Australia: [1, 0, 0], Singapore: [0, 1, 0] 和 India: [0, 0, 1]。重新拟合 one-hot 编码，然后在新数据集上重新训练模型可以得到更好质量的预测。

Data Wrangler 的 refit 训练参数功能在以下情况下很有用：

新数据被添加到数据集中 – 当数据集被新数据丰富时，重新训练 ML 模型是必要的。为了获得最佳结果，我们需要在新数据集上重新拟合训练过的参数。
在对样本数据执行特征工程后对完整数据集进行训练 – 对于大型数据集，会考虑使用数据集的样本来学习经过训练的参数，这可能不代表您的整个数据集。我们需要重新学习完整数据集上的训练参数。

以下是对数据集执行的一些最常见的 Data Wrangler 转换，这些转换受益于改装训练参数选项：

有关 Data Wrangler 中转换的更多信息，请参阅转换资料.

在这篇文章中，我们展示了如何使用 Data Wrangler 在数据集上处理这些经过训练的参数。您可以在生产作业中使用 Data Wrangler 流，在数据增长和变化时重新处理数据。

解决方案概述

对于这篇文章，我们演示了如何将 Data Wrangler 的改装训练参数功能与公开可用的数据集结合使用 Kaggle：来自 Zillow 的美国房屋数据，美国的待售物业。它具有各种房屋地理分布的房屋销售价格。

下图说明了使用 refit 训练参数功能的 Data Wrangler 的高级架构。我们还展示了没有经过改装训练的参数对数据质量的影响，并在最后对比了结果。

工作流程包括以下步骤：

进行探索性数据分析 – 在 Data Wrangler 上创建一个新流以开始探索性数据分析 (EDA)。导入业务数据以了解、清理、聚合、转换和准备您的数据以进行训练。参考使用示例数据集探索 Amazon SageMaker Data Wrangler 功能有关使用 Data Wrangler 执行 EDA 的更多详细信息。
创建数据处理作业 – 此步骤将您对数据集所做的所有转换导出为存储在配置文件中的流文件亚马逊简单存储服务（亚马逊 S3）位置。使用 Data Wrangler 生成的流文件的数据处理作业应用在您的数据集上学习的转换和训练参数。数据处理作业完成后，输出文件将上传到目标节点中配置的 Amazon S3 位置。请注意，改装选项默认处于关闭状态。作为立即执行处理作业的替代方法，您还可以安排处理工作使用 Data Wrangler 只需单击几下 – 创建作业以在特定时间运行。
使用 refit 训练的参数功能创建数据处理作业 – 在创建作业时选择新的改装训练参数功能，以在完整或增强数据集上强制重新学习训练参数。根据用于存储流文件的 Amazon S3 位置配置，数据处理作业会创建或更新新的流文件。如果您配置与步骤 3 中相同的 Amazon S2 位置，则数据处理作业会更新在步骤 2 中生成的流文件，该文件可用于保持流与数据的相关性。处理作业完成后，输出文件将上传到目标节点配置的 S3 存储桶。您可以将更新后的流程用于整个数据集以用于生产工作流程。

先决条件

在开始之前，将数据集上传到 S3 存储桶，然后将其导入 Data Wrangler。有关说明，请参阅从 Amazon S3 导入数据.

现在让我们来看看架构图中提到的步骤。