使用 Amazon SageMaker Canvas 构建无代码 ML 模型时识别并避免常见数据问题

由柏拉图重新发布

关注： 0

业务分析师处理数据，喜欢分析、探索和理解数据以实现有效的业务成果。为了解决业务问题，他们通常依靠数据科学家等机器学习 (ML) 从业者来协助使用 ML 等技术，使用现有数据构建模型并生成预测。然而，这并不总是可能的，因为数据科学家通常忙于他们的任务，没有足够的带宽来帮助分析师。

作为一名业务分析师，要独立并实现您的目标，最好使用使用 ML 的易于使用、直观和可视化的工具，而无需了解详细信息和使用代码。使用这些工具将帮助您解决业务问题并实现预期的结果。

为了帮助您和您的组织变得更高效，并在不编写代码的情况下使用 ML，我们介绍了 Amazon SageMaker 画布. 这是一种无代码 ML 解决方案，可帮助您构建准确的 ML 模型，而无需了解技术细节，例如 ML 算法和评估指标。 SageMaker Canvas 提供了一个可视化、直观的界面，让您可以导入数据、训练 ML 模型、执行模型分析和生成 ML 预测，所有这些都无需编写一行代码。

使用 SageMaker Canvas 进行实验时，您可能会遇到数据质量问题，例如缺失值或问题类型错误。在训练 ML 模型后的过程中，这些问题可能要到很晚才会被发现。为了缓解这一挑战，SageMaker Canvas 现在支持数据验证。此功能会主动检查数据中的问题并提供解决方案指导。

在本文中，我们将演示如何在模型构建之前使用 SageMaker Canvas 中的数据验证功能。顾名思义，此功能可验证您的数据集、报告问题并提供有用的指导来修复这些问题。通过使用质量更高的数据，您最终将获得性能更好的 ML 模型。

在 SageMaker Canvas 中验证数据

数据验证是 SageMaker Canvas 中的一项新功能，用于主动检查潜在的数据质量问题。导入数据并选择目标列后，您可以选择验证数据，如下所示：

如果您选择验证您的数据，Canvas 会根据多种条件分析您的数据，包括：

目标列中的唯一标签太多 – 对于类别预测模型类型
对于数据中的行数，目标列中的唯一标签太多 – 对于类别预测模型类型
您的数据的模型类型错误 – 模型类型与您在“目标”列中预测的数据不符
无效行过多 – 目标列中的缺失值
所有特征列都是文本列 - 它们将被丢弃用于标准构建
列太少 – 数据中的列太少
没有完整的行 – 数据中的所有行都包含缺失值
一个或多个列名包含双下划线 – SageMaker 无法处理列标题中的 (__)

每个验证标准的详细信息将在本文的后面部分提供。

如果所有检查都通过，您将收到以下确认信息： “在您的数据集中未发现任何问题”。

如果发现任何问题，您将收到通知以查看和了解。这会及早发现数据质量问题，让您在进一步浪费时间和资源之前立即解决这些问题。

您可以进行调整并继续验证您的数据集，直到所有问题都得到解决。

验证目标列和模型类型

当您在 SageMaker Canvas 中构建 ML 模型时，与 目标列 可能会导致您的模型构建失败。 SageMaker Canvas 检查可能影响您的各种问题 目标列。

对于您的目标列，检查 您的数据的模型类型错误. 例如，如果选择了 2 类别预测模型，但您的目标列具有 2 个以上的唯一标签，则 SageMaker Canvas 将提供以下验证警告。
如果模型类型是 2 或 3+ 类别预测，那么你必须验证 太多独特的标签 为您的目标列. 唯一类的最大数量为 2000。如果您在 Target 列中选择具有超过 2000 个唯一值的列，则 Canvas 将提供以下验证警告。
除了太多独特的目标标签，你还应该提防太多 数据中行数的许多唯一目标标签。 SageMaker Canvas 强制目标标签与总行数的比率小于 10%。这可确保您对每个类别都有足够的代表性以获得高质量模型，并减少过度拟合的可能性。如果您的模型对训练数据的预测良好，但对以前从未见过的新数据的预测不佳，则该模型被视为过度拟合。参考此处了解更多信息。
最后，对目标列的最后检查是 无效行过多. 如果您的目标列有超过 10% 的数据丢失或无效，那么它将影响您的模型性能，并且在某些情况下会导致您的模型构建失败。以下示例在目标列中有许多缺失值（>90% 缺失），您会收到以下验证警告。

如果您收到针对目标列的上述任何警告，请使用以下步骤来缓解这些问题：

您使用的是正确的目标列吗？
您是否选择了正确的模型类型？
您能否增加数据集中每个目标标签的行数？
你能把相似的标签合并/组合在一起吗？
你能填写缺失/无效的值吗？
您是否有足够的数据可以删除缺失值/无效值？
如果上述所有选项都没有清除警告，那么您应该考虑使用不同的数据集。

参考 SageMaker Canvas 数据转换文档执行上述插补步骤。

验证所有列

除了目标列之外，您还可能会遇到其他数据列（特征列）的数据质量问题。特征列是用于进行 ML 预测的输入数据。

每个数据集应该至少有 1 个特征列和 1 个目标列（总共 2 列）。否则，SageMaker Canvas 会给您一个 数据中的列太少 警告。您必须先满足此要求，然后才能继续构建模型。
之后，您必须确保您的数据至少有 1 个数字列。如果没有，那么你会得到 所有特征列都是文本列 警告。这是因为文本列通常在标准构建期间被删除，从而使模型没有要训练的特征。因此，这将导致您的模型构建失败。您可以使用 SageMaker Canvas 将一些文本列编码为数字或使用快速构建而不是标准构建。
对于特征列，您可能会收到的第三种警告是 没有完整的行. 此验证检查您是否至少有一行没有缺失值。 SageMaker Canvas 至少需要一个完整的行，否则您的 快速构建 将失败。在构建模型之前尝试填充缺失值。
最后一种验证是 一个或多个列名包含双下划线. 这是 SageMaker 画布的特定要求。如果您的列标题中有双下划线 (__)，那么这将导致您的 快速构建 失败。重命名列以删除任何双下划线，然后重试。

清理

为了避免未来会话费用，注销 SageMaker Canvas。

结论

SageMaker Canvas 是一种无代码 ML 解决方案，允许业务分析师创建准确的 ML 模型并通过可视化的点击式界面生成预测。我们向您展示了 SageMaker Canvas 如何通过主动验证数据集来帮助您确保数据质量并缓解数据问题。通过及早发现问题，SageMaker Canvas 可帮助您构建高质量的 ML 模型并减少构建迭代，而无需具备数据科学和编程专业知识。要了解有关此新功能的更多信息，请参阅 SageMaker 画布文档。

要开始使用并了解有关 SageMaker Canvas 的更多信息，请参阅以下资源：

关于作者

哈里哈兰苏雷什 是 AWS 的高级解决方案架构师。他热衷于数据库、机器学习和设计创新解决方案。在加入 AWS 之前，Hariharan 是一名产品架构师、核心银行实施专家和开发人员，并在 BFSI 组织工作了 11 年多。除了技术，他还喜欢滑翔伞和骑自行车。

赛纳·米里亚拉 是 AWS 的高级技术客户经理，为美国的汽车客户工作。 Sainath 热衷于使用 AI/ML 设计和构建大型分布式应用程序。在业余时间，Sainath 会与家人和朋友共度时光。

詹姆斯吴 是 AWS 的高级 AI/ML 专家解决方案架构师。帮助客户设计和构建 AI/ML 解决方案。 James 的工作涵盖了广泛的 ML 用例，主要兴趣在于计算机视觉、深度学习和在整个企业中扩展 ML。在加入 AWS 之前，James 担任了 10 多年的架构师、开发人员和技术领导者，其中包括 6 年的工程经验和 4 年的营销和广告行业经验。

时间戳记： 2022 年 11 月 10 日2022 年 11 月 11 日

时间戳记： 2022 年 5 月 5 日

在使用 Amazon SageMaker Canvas 构建无代码 ML 模型时识别和避免常见数据问题

由柏拉图重新发布

在 SageMaker Canvas 中验证数据

验证目标列和模型类型

验证所有列

清理

结论

关于作者

更多来自 AWS机器学习

宣布新工具和功能以实现负责任的人工智能创新 | 亚马逊网络服务

启用多区域 Amazon SageMaker 终端节点的 CI/CD

保险行业使用 AWS AI 和分析服务进行智能文档处理：第 2 部分

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理