使用 Amazon SageMaker Canvas 通过无代码机器学习预测机器故障类型

由柏拉图重新发布

关注： 0

预测常见的机器故障类型在制造业中至关重要。给定与给定故障类型相关的产品的一组特征，您可以开发一个模型，当您将这些属性提供给机器学习 (ML) 模型时，该模型可以预测故障类型。 ML 可以提供洞察力，但到目前为止，您需要 ML 专家来构建模型来预测机器故障类型，缺乏这些模型可能会延迟企业提高效率或改进所需的任何纠正措施。

在这篇文章中，我们将向您展示业务分析师如何构建机器故障类型预测 ML 模型亚马逊 SageMaker 画布. Canvas 为您提供可视化的点击式界面，让您可以自行构建模型并生成准确的 ML 预测——无需任何 ML 经验或编写一行代码。

解决方案概述

假设您是分配到大型制造组织的维护团队的业务分析师。您的维护团队已要求您协助预测常见故障。他们为您提供了一个历史数据集，其中包含与给定故障类型相关的特征，并希望您预测未来会发生哪种故障。故障类型包括无故障、过载和电源故障。下表列出了数据架构。

栏名	数据类型	产品描述
UID	INT	唯一标识符，范围为 1–10,000
产品编号	STRING	由一个字母（L、M 或 H 表示低、中或高）组成，作为产品质量变量和变量特定的序列号
类型	STRING	与 productID 关联的首字母仅由 L、M 或 H 组成
空气温度 [K]	DECIMAL	开尔文指定的气温
过程温度 [K]	DECIMAL	精确控制温度以确保开尔文指定类型产品的质量
转速 [rpm]	DECIMAL	绕轴旋转的物体的旋转速度是物体的转数除以时间，指定为每分钟转数
扭矩[Nm]	DECIMAL	通过半径的机器转动力，以牛顿米表示
工具磨损 [分钟]	INT	以分钟表示的工具磨损
故障类型（目标）	STRING	无故障、电源故障或过载故障

确定故障类型后，企业可以采取任何纠正措施。为此，您可以使用 CSV 文件中的数据，该文件包含表格中列出的产品的某些特征。您使用 Canvas 执行以下步骤：

导入维护数据集。
训练和构建预测性机器维护模型。
分析模型结果。
针对模型测试预测。

先决条件

具有 AWS账户需要具有适当的权限才能完成以下先决条件：

部署亚马逊SageMaker 域有关说明，请参阅加入 Amazon SageMaker 域.
启动画布。有关说明，请参阅设置和管理 Amazon SageMaker Canvas（适用于 IT 管理员）.
为 Canvas 配置跨域资源共享 (CORS) 策略。有关说明，请参阅让您的用户能够上传本地文件.

导入数据集

首先，下载维护数据集并查看文件以确保所有数据都在那里。

Canvas 在您的应用程序中提供了几个示例数据集来帮助您入门。要了解有关 SageMaker 提供的示例数据集的更多信息，您可以进行试验，请参阅使用示例数据集. 如果您使用示例数据集 (canvas-sample-maintenance.csv) 在 Canvas 中可用，您不必导入维护数据集。

使用 Amazon SageMaker Canvas PlatoBlockchain 数据智能通过无代码机器学习预测机器故障类型。垂直搜索。哎。
您可以将来自不同数据源的数据导入 Canvas。如果您打算使用自己的数据集，请按照在 Amazon SageMaker Canvas 中导入数据.

对于这篇文章，我们使用我们下载的完整维护数据集。

登录 AWS管理控制台，使用具有适当权限的帐户访问 Canvas。
登录到画布控制台。
进口.
上传并选择 maintenance_dataset.csv 文件中。
导入日期 将其上传到 Canvas。

导入数据集

导入过程大约需要 10 秒（这可能因数据集大小而异）。完成后，您可以看到数据集在 Ready 状态。

在您确认导入的数据集是 ready，您可以创建模型。

构建和训练模型

要创建和训练您的模型，请完成以下步骤：

新模式，并为您的模型提供名称。
创建.
点击 maintenance_dataset.csv 数据集并选择 选择数据集.
在模型视图中，您可以看到四个选项卡，它们对应于创建模型并使用它来生成预测的四个步骤：选择, 建立, 分析及预测.
点击选择标签，选择 maintenance_dataset.csv 您之前上传的数据集并选择 选择数据集.
该数据集包括 9 列和 10,000 行。 Canvas 自动进入构建阶段。
在此选项卡上，选择目标列，在我们的例子中 故障类型.维护团队已通知您，此列指示通常根据现有机器的历史数据看到的故障类型。这就是您想要训练模型进行预测的内容。 Canvas 自动检测到这是 3类别 问题（也称为 多类分类）。如果检测到错误的模型类型，您可以使用 变更类型 选项。
需要注意的是，这个数据集对 No Failure 类是高度不平衡的，可以通过查看名为 故障类型. 尽管 Canvas 和底层的 AutoML 功能可以部分处理数据集的不平衡，但这可能会导致一些性能偏差。作为附加的下一步，请参阅使用 Amazon SageMaker Data Wrangler 平衡机器学习数据. 按照共享链接中的步骤，您可以启动亚马逊SageMaker Studio 应用程序从 SageMaker 控制台导入此数据集亚马逊SageMaker数据牧马人并使用 Balance 数据转换，然后将平衡的数据集带回 Canvas 并继续以下步骤。我们在这篇文章中继续处理不平衡数据集，以表明 Canvas 也可以处理不平衡数据集。
在页面的下半部分，您可以查看数据集的一些统计信息，包括缺失值和不匹配值、唯一值以及平均值和中值。如果您不想将它们用于预测，您也可以通过简单地取消选择它们来删除它们。
探索完本节之后，就该训练模型了！在构建完整模型之前，最好通过训练快速模型来大致了解模型性能。快速模型训练较少的模型和超参数组合，以便优先考虑速度而不是准确性，特别是在您想要证明为您的用例训练 ML 模型的价值的情况下。请注意，快速构建选项不适用于大于 50,000 行的模型。
快速建立.

模型构建中

现在你在任何地方等待 2 到 15 分钟。完成后，Canvas 会自动移动到分析选项卡向您显示快速训练的结果。使用快速构建执行的分析估计您的模型能够在 99.2% 的时间内预测正确的故障类型（结果）。您可能会遇到略有不同的值。这是意料之中的。

让我们专注于第一个选项卡，概述. 这是向您显示的选项卡 列影响，或每列在预测目标列中的估计重要性。在此示例中，扭矩 [Nm] 和转速 [rpm] 列对预测将发生哪种类型的故障具有最重要的影响。

分析 - 概述

评估模型性能

当你移动到进球在您的分析的一部分中，您可以看到表示我们的预测值相对于实际值的分布的图。请注意，大多数故障都属于“无故障”类别。要了解有关 Canvas 如何使用 SHAP 基线为 ML 带来可解释性的更多信息，请参阅在 Amazon SageMaker Canvas 中评估模型的性能以及 SHAP可解释性基准.
评估模型指标

Canvas 在训练前将原始数据集拆分为训练集和验证集。评分是 Canvas 针对模型运行验证集的结果。这是一个交互式界面，您可以在其中选择故障类型。如果你选择 过度劳累失败 在图中，您可以看到模型识别了这 84% 的时间。这足以采取行动——也许让操作员或工程师进一步检查。您可以选择 电源（检测）失败 在图形中查看相应的评分以进行进一步的解释和操作。

您可能对故障类型以及模型根据一系列输入预测故障类型的能力感兴趣。要仔细查看结果，请选择 高级指标. 这将显示一个矩阵，使您可以更仔细地检查结果。在 ML 中，这被称为 混淆矩阵.

高级指标

该矩阵默认为支配类，No Failure。在 增益级 菜单中，您可以选择查看其他两种故障类型的高级指标 Overstrain Failure 和 Power Failure。

在 ML 中，模型的准确性定义为正确预测的数量除以预测的总数。蓝色框表示模型针对具有已知结果的测试数据子集做出的正确预测。在这里，我们感兴趣的是模型预测特定机器故障类型的时间百分比（比如说 没有失败）当它实际上是失败类型（没有失败）。在 ML 中，用于衡量这一点的比率是 TP / (TP + FN)。这被称为记得. 在默认情况下，没有失败，在 1,923 条总记录中有 1,926 条正确预测，结果为 99% 记得. 或者，在 Overstrain Failure 类别中，32 个中有 38 个，结果为 84% 记得. 最后，在电源故障类别中，16 个中有 19 个，结果为 84% 记得.

现在，您有两个选择：

您可以通过选择使用此模型来运行一些预测预测.
您可以创建此模型的新版本以使用 标准构建 选项。这将花费更长的时间（大约 1 到 2 小时），但提供了一个更强大的模型，因为它通过了对数据、算法和调整迭代的完整 AutoML 审查。

因为您正在尝试预测故障，并且模型在 84% 的时间内正确地预测了故障，所以您可以自信地使用该模型来识别可能的故障。因此，您可以继续选择选项 1。如果您没有信心，那么您可以让数据科学家审查 Canvas 所做的建模，并通过选项 2 提供潜在的改进。

生成预测

现在模型已经训练好了，你可以开始生成预测了。

预测在底部分析页，或选择预测标签。
选择数据集，然后选择 maintenance_dataset.csv 文件中。
生成预测.

Canvas 使用这个数据集来生成我们的预测。尽管在训练和测试中不使用相同的数据集通常是个好主意，但在这种情况下，为了简单起见，您可以使用相同的数据集。或者，您可以从用于训练的原始数据集中删除一些记录，并在 CSV 文件中使用这些记录，并将其提供给此处的批量预测，这样您就不会使用相同的数据集来测试训练后的数据。

批量预测
几秒钟后，预测完成。 Canvas 返回每行数据的预测以及预测正确的概率。您可以选择预览查看预测，或选择下载下载包含完整输出的 CSV 文件。

下载预测
您还可以通过选择来选择预测值 单次预测 而不是 批量预测. Canvas 向您展示了一个视图，您可以在其中手动提供每个特征的值并生成预测。这非常适合假设场景等情况，例如：工具磨损如何影响故障类型？如果过程温度升高或降低怎么办？如果转速发生变化怎么办？

单一预测

标准构建

标准构建 选项选择准确性而不是速度。如果您想与您的数据科学家和 ML 工程师共享模型的工件，您可以接下来创建一个标准构建。

添加版本
选择一个新版本并选择 标准构建.
创建标准构建后，您可以与数据科学家和 ML 工程师共享模型，以进行进一步的评估和迭代。

分享模型

清理

为了避免未来会话费用, 退出 Canvas。

结论

在这篇文章中，我们展示了业务分析师如何使用 Canvas 使用维护数据创建机器故障类型预测模型。 Canvas 允许可靠性工程师等业务分析师创建准确的 ML 模型并使用无代码、可视化、点击式界面生成预测。分析师可以通过与数据科学家同事分享他们的模型将其提升到一个新的水平。数据科学家可以在 Studio 中查看 Canvas 模型，在那里他们可以探索 Canvas 所做的选择、验证模型结果，甚至只需单击几下即可将模型投入生产。这可以加速基于机器学习的价值创造，并帮助更快地扩展改进的结果。

要了解有关使用 Canvas 的更多信息，请参阅构建、共享、部署：业务分析师和数据科学家如何使用无代码 ML 和 Amazon SageMaker Canvas 缩短上市时间. 有关使用无代码解决方案创建 ML 模型的更多信息，请参阅宣布推出 Amazon SageMaker Canvas – 面向业务分析师的可视化、无代码机器学习功能.

作者简介

拉贾库马尔·桑帕斯库马尔 是 AWS 的首席技术客户经理，为客户提供业务技术协调方面的指导，并支持其云运营模型和流程的重塑。他对云计算和机器学习充满热情。 Raj 还是一名机器学习专家，与 AWS 客户合作设计、部署和管理他们的 AWS 工作负载和架构。

吐温·阿特金斯 是 Amazon Web Services 的高级解决方案架构师。他负责与农业、零售和制造业客户合作，确定业务问题，并向后工作以确定可行和可扩展的技术解决方案。十多年来，Twann 一直在帮助客户规划和迁移关键工作负载，最近专注于为未来的客户和建设者普及分析、人工智能和机器学习。

奥姆卡尔·穆卡丹 是 Amazon Web Services 的边缘专家解决方案架构师。他目前专注于使商业客户能够有效地设计、构建和扩展 AWS Edge 服务产品的解决方案，其中包括但不限于 AWS Snow 系列。

时间戳记： 2022 年 6 月 23 日

时间戳记： 2023 年 3 月 3 日

由柏拉图重新发布

AWS Inferentia 和 AWS Trainium 在 Amazon SageMaker JumpStart 中部署 Llama 3 模型的成本最低亚马逊网络服务

Amazon Search 如何在 AWS 上使用 NVIDIA Triton 实现低延迟、高吞吐量的 T5 推理

使用 AWS 实现生成 AI 的安全方法 |亚马逊网络服务

Alida 通过 Amazon Bedrock 更深入地了解客户反馈 |亚马逊网络服务

集成 Amazon Lex 和 Uneeq 的数字人类平台

部署一个 MLOps 解决方案，在 AWS Lambda 中托管您的模型端点

使用 Amazon Kendra 的 Exchange 连接器为您的 Microsoft Exchange 内容编制索引

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

解决方案概述

先决条件

导入数据集

构建和训练模型

评估模型性能

生成预测

标准构建

清理

结论

作者简介

更多来自 AWS机器学习

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理