使用 SageMaker Autopilot 模型质量报告自动生成模型评估指标

由柏拉图重新发布

关注： 0

亚马逊SageMaker自动驾驶仪通过自动执行特征工程、训练、调整和部署 ML 模型进行推理的步骤，帮助您完成端到端机器学习 (ML) 工作流程。您向 SageMaker Autopilot 提供表格数据集和要预测的目标属性。然后，SageMaker Autopilot 会自动探索您的数据、训练、调整、排名并找到最佳模型。最后，您可以一键将此模型部署到生产环境中进行推理。

什么是新的？

新推出的功能， SageMaker Autopilot 模型质量报告，现在报告模型的指标，以便更好地了解模型在回归和分类问题上的性能。您可以利用这些指标来收集有关模型排行榜中最佳模型的更多见解。

这些指标和报告在最佳模型的“模型详细信息”下的新“性能”选项卡中提供，包括混淆矩阵、接收器操作特征 (AUC-ROC) 曲线下的面积和精确召回曲线下的面积(AUC-PR)。这些指标可帮助您了解误报/误报 (FPs/FN)、真阳性 (TP) 和假阳性 (FP) 之间的权衡，以及准确率和召回率之间的权衡，以评估最佳模型性能特征。

运行 SageMaker Autopilot 实验

数据集

我们使用 UCI的银行营销数据集演示 SageMaker Autopilot 模型质量报告。此数据包含客户属性，例如年龄、工作类型、婚姻状况以及我们将用来预测客户是否会在银行开户的其他属性。数据集将此账户称为定期存款。这使得我们的案例成为一个二元分类问题——预测要么是“是”，要么是“否”。 SageMaker Autopilot 将代表我们生成多个模型，以最好地预测潜在客户。然后，我们将检查 SageMaker Autopilot 的模型质量报告 最好的模型.

先决条件

要启动 SageMaker Autopilot 实验，您必须首先将数据放在一个亚马逊简单存储服务 (Amazon S3) 存储桶。指定要用于训练的存储桶和前缀。确保存储桶与 SageMaker Autopilot 实验位于同一区域。您还必须确保身份和访问管理 (IAM) 角色 Autopilot 有权访问 Amazon S3 中的数据。

创建实验

在 SageMaker Studio 中创建 SageMaker Autopilot 实验有多种选择。通过打开一个新的启动器，您可以直接访问 SageMaker Autopilot。如果没有，那么您可以选择左侧的 SageMaker 资源图标。接下来可以选择 实验和试验 从下拉菜单中选择。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

为您的实验命名。
通过选择 Amazon S3 存储桶和文件名连接到您的数据源。
选择 Amazon S3 中的输出数据位置。
为您的数据集选择目标列。在这种情况下，我们的目标是“y”列来表示是/否。
或者，如果您希望 SageMaker Autopilot 自动部署模型端点，请提供端点名称。
将所有其他高级设置保留为默认设置，然后选择 建立实验.

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

实验完成后，您可以在 SageMaker Studio 中查看结果。 SageMaker Autopilot 将展示其训练的不同模型中的最佳模型。您可以查看不同试验的详细信息和结果，但我们将使用最佳模型来演示模型质量报告的使用。

选择模型，然后右键单击 在模型详细信息中打开.
在模型详细信息中，选择性能标签。这通过可视化和绘图显示模型指标。
下性能，选择 下载绩效报告 作为PDF。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

解读 SageMaker Autopilot 模型质量报告

模型质量报告总结了 SageMaker Autopilot 作业和模型详细信息。我们将重点关注报告的 PDF 格式，但您也可以访问 JSON 格式的结果。因为 SageMaker Autopilot 将我们的数据集确定为二元分类问题，所以 SageMaker Autopilot 旨在最大化 F1质量指标 找到最佳模型。 SageMaker Autopilot 默认选择此选项。但是，可以灵活地选择其他客观指标，例如准确性和 AUC。我们模型的 F1 分数是 0.61。要解释 F1 分数，首先了解混淆矩阵会有所帮助，输出 PDF 中的模型质量报告对此进行了解释。

混淆矩阵

混淆矩阵通过比较不同的类和标签来帮助可视化模型性能。 SageMaker Autopilot 实验创建了一个混淆矩阵，在模型质量报告中将实际标签显示为行，将谓词标签显示为列。左上角的方框显示没有在银行开户的客户被模型正确预测为“否”。这些都是 真正的负面 （田纳西州）。右下角的方框显示了确实在银行开户的客户，这些客户被模型正确预测为“是”。这些都是 真正的积极 （太平洋时间）。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

左下角显示数量 假阴性 (FN)。该模型预测客户不会开户，但客户开了。右上角显示数量误报 (FP)。模型预测客户会开户，但客户做了不能实际上这样做。

模型质量报告指标

模型质量报告解释了如何计算 误报率 (FPR) 和 真阳性率（TPR）.

召回率或误报率 (FPR) 衡量被错误预测为开户（正数）的实际负数的比例。范围为 0 到 1，值越小表示预测准确度越高。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

请注意，FPR 也表示为 1-Specificity，其中 Speciality 或 True Negative Rate (TNR) 是正确识别为未开户（负数）的 TN 的比例。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

召回率/灵敏度/真阳性率 (TPR) 衡量被预测为开户的实际积极因素的比例。范围也是 0 到 1，值越大表示预测精度越好。这也称为召回/敏感度。该度量表示在数据集中找到所有相关实例的能力。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

平台精度 测量在所有预测为阳性的实际阳性中被预测为阳性的比例。取值范围为 0 到 1，值越大表示准确度越高。精度表示我们的模型认为相关且实际相关的数据点的比例。精度是一个很好的衡量标准，尤其是当 FP 的成本很高时——例如垃圾邮件检测。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

我们的模型显示精度为 0.53，召回率为 0.72。

F1分数 演示了我们的目标指标，即准确率和召回率的调和平均值。因为我们的数据集是不平衡的，有利于许多“否”预测，所以 F1 将 FP 和 FN 都考虑在内，以赋予准确率和召回率相同的权重。

该报告解释了如何解释这些指标。如果您不熟悉这些术语，这会有所帮助。在我们的示例中，精度和召回率是二元分类问题的重要指标，因为它们用于计算 F1 分数。该报告解释说，F1 分数可以在 0 和 1 之间变化。可能的最佳表现将获得 1 分，而 0 表示最差。请记住，我们模型的 F1 分数是 0.61。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

Fβ分数 是准确率和召回率的加权调和平均值。此外，F1 分数与 Fβ 相同，β=1。该报告提供了分类器的 Fβ 分数，其中 β 取 0.5、1 和 2。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

指标表

根据问题的不同，您可能会发现 SageMaker Autopilot 最大化了多类分类问题的另一个指标，例如准确性。无论问题类型如何，模型质量报告都会生成一个表格，其中汇总了模型的内联和 PDF 报告中可用的指标。您可以在文件.

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

最好的常量分类器——一个用作与其他更复杂分类器进行比较的简单基线的分类器——总是预测用户提供的常量多数标签。在我们的例子中，“常数”模型会预测“否”，因为这是最常见的类别，并且被认为是负面标签。训练分类器模型的度量（例如 f1、f2 或召回）可以与常量分类器（即基线）的度量进行比较。这确保了训练后的模型比常量分类器表现更好。 Fβ 分数（f0_5、f1 和 f2，其中 β 分别取 0.5、1 和 2 的值）是准确率和召回率的加权调和平均值。这在 1 处达到最佳值，在 0 处达到最差值。

在我们的例子中，最好的常数分类器总是预测“否”。因此，准确率高达 0.89，但召回率、准确率和 Fβ 分数为 0。如果数据集在没有单一多数或少数类的情况下完全平衡，我们会看到准确率、召回率、和常数分类器的 Fβ 分数。

此外，您可以以 JSON 格式查看这些结果，如以下示例所示。您可以通过 UI 访问 PDF 和 JSON 文件，以及亚马逊SageMaker Python SDK 使用 S3OutputPath 元素输出数据配置结构在创建AutoMLJob/描述AutoMLJob API 响应。

{ "version" : 0.0, "dataset" : { "item_count" : 9152, "evaluation_time" : "2022-03-16T20:49:18.661Z" }, "binary_classification_metrics" : { "confusion_matrix" : { "no" : { "no" : 7468, "yes" : 648 }, "yes" : { "no" : 295, "yes" : 741 } }, "recall" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "precision" : { "value" : 0.5334773218142549, "standard_deviation" : 0.007335840278445563 }, "accuracy" : { "value" : 0.8969624125874126, "standard_deviation" : 0.0011703516093899595 }, "recall_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "precision_best_constant_classifier" : { "value" : 0.0, "standard_deviation" : 0.0 }, "accuracy_best_constant_classifier" : { "value" : 0.8868006993006993, "standard_deviation" : 0.0016707401772078998 }, "true_positive_rate" : { "value" : 0.7152509652509652, "standard_deviation" : 0.00439996600081394 }, "true_negative_rate" : { "value" : 0.9201577131591917, "standard_deviation" : 0.0010233756436643213 }, "false_positive_rate" : { "value" : 0.07984228684080828, "standard_deviation" : 0.0010233756436643403 }, "false_negative_rate" : { "value" : 0.2847490347490348, "standard_deviation" : 0.004399966000813983 },
………………….

ROC 和 AUC

根据问题类型，您可能对可接受的 FPR 有不同的阈值。例如，如果您试图预测客户是否会开设账户，那么企业可能更容易接受更高的 FP 率。与向错误预测为“是”的客户提供优惠相比，错过向被错误预测为“否”的客户提供优惠的风险更大。更改这些阈值以产生不同的 FPR 需要您创建新的混淆矩阵。

分类算法返回称为预测概率的连续值。这些概率必须转换为二进制值（用于二进制分类）。在二元分类问题中，阈值（或决策阈值）是将概率二等分为简单二元决策的值。对于 0 到 1 范围内的归一化投影概率，阈值默认设置为 0.5。

对于二元分类模型，一个有用的评估指标是接收器操作特征 (ROC) 曲线下的面积。模型质量报告包括一个 ROC 图，其中 TP 率作为 y 轴，FPR 作为 x 轴。接收器操作特性 (AUC-ROC) 下的面积代表 TPR 和 FPR 之间的权衡。

您可以通过采用使用阈值的二元分类预测器并分配具有预测概率的标签来创建 ROC 曲线。当您改变模型的阈值时，您涵盖了两个极端。当 TPR 和 FPR 都为 0 时，意味着一切都被标记为“否”，而当 TPR 和 FPR 都为 1 时，意味着一切都被标记为“是”。

如果一个随机预测器在一半时间标记为“是”，另一半时间标记为“否”，那么 ROC 将是一条直线对角线（红色虚线）。这条线将单位正方形切成两个大小相等的三角形。因此，曲线下面积为 0.5。 AUC-ROC 值为 0.5 意味着您的预测器在区分这两个类别方面并不比随机猜测客户是否会开户更好。 AUC-ROC 值越接近 1.0，它的预测就越好。低于 0.5 的值表明我们实际上可以通过反转它给我们的答案来使我们的模型产生更好的预测。对于我们的最佳模型，AUC 为 0.93。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

精确召回曲线

模型质量报告还创建了一个精确召回 (PR) 曲线来绘制不同阈值的精确度（y 轴）和召回率（x 轴）——非常类似于 ROC 曲线。 PR 曲线通常用于信息检索，是 ROC 曲线的替代方案，用于解决类分布中存在较大偏差的分类问题。

对于这些类别不平衡的数据集，当少数正类比多数负类更有趣时，PR 曲线尤其有用。请记住，我们的模型显示了 0.53 的精度和 0.72 的召回率。此外，请记住，最好的常量分类器无法区分“是”和“否”。它每次都会预测一个随机类或一个常量类。

“是”和“否”之间平衡数据集的曲线将是一条 0.5 处的水平线，因此 PR 曲线下的面积 (AUPRC) 为 0.5。为了创建 PRC，我们在曲线上以不同的阈值绘制各种模型，方法与 ROC 曲线相同。对于我们的数据，AUPRC 为 0.61。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

模型质量报告输出

您可以在运行 SageMaker AutoPilot 实验之前指定输出路径时指定的 Amazon S3 存储桶中找到模型质量报告。您会在下方找到报告 documentation/model_monitor/output/<autopilot model name>/ prefix 保存为 PDF。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。

结论

SageMaker Autopilot 模型质量报告可让您轻松快速查看和共享 SageMaker Autopilot 实验的结果。您可以使用 SageMaker Autopilot 轻松完成模型训练和调整，然后参考生成的报告来解释结果。无论您最终使用 SageMaker Autopilot 的最佳模型还是其他候选模型，这些结果都可以作为评估初步模型训练和调整工作的有用起点。 SageMaker Autopilot 模型质量报告有助于减少编写代码和生成用于性能评估和比较的视觉效果所需的时间。

您现在可以轻松地将 autoML 整合到您的业务案例中，而无需建立数据科学团队。贤者制造者文件提供了大量示例来帮助您入门。

作者简介

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。 彼得·颂 是 AWS 的解决方案架构师，热衷于帮助客户从他们的数据中发现洞察力。他一直在构建解决方案，以帮助公共和私营部门的组织做出数据驱动的决策。他拥有所有 AWS 认证以及两项 GCP 认证。他喜欢喝咖啡、做饭、保持活跃并与家人共度时光。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。 阿伦普拉萨特·香卡（Arunprasath Shankar） 是 AWS 的人工智能和机器学习 (AI/ML) 专家解决方案架构师，帮助全球客户在云中有效和高效地扩展他们的 AI 解决方案。在业余时间，阿伦喜欢看科幻电影和听古典音乐。

使用 SageMaker Autopilot 模型质量报告 PlatoBlockchain 数据智能自动生成模型评估指标。垂直搜索。哎。 阿里·塔克比里 是 AI/ML 专家解决方案架构师，通过使用机器学习帮助客户解决他们在 AWS 云上的业务挑战。

普拉迪普·雷迪 是 SageMaker Low/No Code ML 团队的高级产品经理，该团队包括 SageMaker Autopilot、SageMaker Automatic Model Tuner。工作之余，Pradeep 喜欢阅读、跑步和使用 raspberry pi 等手掌大小的计算机和其他家庭自动化技术进行探索。

时间戳记： 2022 年 3 月 29 日

时间戳记： 2023 年 12 月 4 日

由柏拉图重新发布

解锁创新：AWS 和 Anthropic 共同突破生成式 AI 的界限 |亚马逊网络服务

通过 AWS CDK 使用 Amazon SageMaker Role Manager 在几分钟内定义自定义权限 | 亚马逊网络服务

使用 AWS Graviton 降低 Amazon SageMaker 推理成本

使用 AutoGluon-TimeSeries 轻松准确地进行预测

Getir 如何使用 Amazon SageMaker 和 AWS Batch 将模型训练持续时间缩短 90% | 亚马逊网络服务

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

什么是新的？

运行 SageMaker Autopilot 实验

数据集

先决条件

创建实验

解读 SageMaker Autopilot 模型质量报告

混淆矩阵

模型质量报告指标

指标表

ROC 和 AUC

精确召回曲线

模型质量报告输出

结论

作者简介

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理