Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 | 亚马逊网络服务

Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 | 亚马逊网络服务

用他们自己的话来说,“1902 年,威利斯·开利解决了人类最难以捉摸的挑战之一,即通过现代空调控制室内环境。 如今,开利产品创造了舒适的环境,保障了全球食品供应,并能够在严格的条件下安全运输重要的医疗用品。”

At 承运人,我们成功的基础是生产值得客户信赖的产品,让他们全年舒适和安全。 随着气候变化导致极端温度变得更加普遍,高可靠性和低设备停机时间变得越来越重要。 我们历来依赖基于阈值的系统,该系统使用我们的工程团队定义的参数来提醒我们设备的异常行为。 尽管此类系统很有效,但它们的目的是识别和诊断设备问题,而不是预测问题。 在故障发生之前进行预测,使我们的 HVAC 经销商能够主动解决问题并改善客户体验。

为了提高设备的可靠性,我们与 亚马逊机器学习解决方案实验室 开发能够在发生故障之前预测设备问题的定制机器学习 (ML) 模型。 我们的团队开发了一个框架,用于处理超过 50 TB 的历史传感器数据并以 91% 的精度预测故障。 我们现在可以通知经销商即将发生的设备故障,以便他们可以安排检查并最大限度地减少设备停机时间。 随着安装更多设备,该解决方案框架是可扩展的,并且可以重复用于各种下游建模任务。

在这篇文章中,我们展示了 Carrier 和 AWS 团队如何应用机器学习来使用单一模型预测大型设备的故障。 我们首先强调一下我们如何使用 AWS胶水 用于高度并行的数据处理。 然后我们讨论如何 亚马逊SageMaker 帮助我们进行特征工程并构建可扩展的监督深度学习模型。

用例、目标和风险概述

该项目的主要目标是通过预测即将发生的设备故障并通知经销商来减少停机时间。 这使得经销商能够主动安排维护并提供卓越的客户服务。 在开发此解决方案时,我们面临三个主要挑战:

  • 数据可扩展性 – 数据处理和特征提取需要扩展到大量不断增长的历史传感器数据
  • 模型可扩展性 – 建模方法需要能够扩展到超过 10,000 个单元
  • 模型精度 – 需要低误报率以避免不必要的维护检查

从数据和建模的角度来看,可扩展性是该解决方案的关键要求。 我们拥有超过 50 TB 的历史设备数据,并且预计随着更多 HVAC 设备连接到云,这些数据将快速增长。 数据处理和模型推理需要随着数据的增长而扩展。 为了使我们的建模方法能够扩展到超过 10,000 个单元,我们需要一个可以从一组设备中学习的模型,而不是依赖于单个单元的异常读数。 这将允许跨单元的泛化,并通过托管单个模型来降低推理成本。

此用例的另一个问题是触发误报。 这意味着经销商或技术人员将前往现场检查客户的设备并发现一切正常运行。 该解决方案需要高精度模型,以确保当经销商收到警报时,设备很可能会出现故障。 这有助于赢得经销商、技术人员和房主等的信任,并减少与不必要的现场检查相关的成本。

我们与 Amazon ML 解决方案实验室的 AI/ML 专家合作,进行了为期 14 周的开发工作。 最后,我们的解决方案包括两个主要组件。 第一个是使用 AWS Glue 构建的数据处理模块,它总结设备行为并减少训练数据的大小,以实现高效的下游处理。 第二个是通过 SageMaker 管理的模型训练界面,它允许我们在将模型部署到生产端点之前训练、调整和评估模型。

数据处理

我们安装的每个 HVAC 装置都会从 90 个不同的传感器生成数据,其中包括整个系统的转速、温度和压力读数。 这相当于每台设备每天生成约 8 万个数据点,已安装数万台设备。 随着越来越多的 HVAC 系统连接到云,我们预计数据量将快速增长,因此管理其大小和复杂性以供下游任务使用至关重要。 传感器数据历史的长度也提出了建模挑战。 在实际触发故障之前的几个月,设备可能会开始显示即将发生故障的迹象。 这在预测信号和实际故障之间造成了显着的滞后。 压缩输入数据长度的方法对于机器学习建模至关重要。

为了解决传感器数据的大小和复杂性,我们将其压缩为循环特征,如图 1 所示。这极大地减小了数据大小,同时捕获表征设备行为的特征。

Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

图 1:HVAC 传感器数据示例

AWS Glue 是一种无服务器数据集成服务,用于大规模处理大量数据。 AWS Glue 使我们能够轻松运行并行数据预处理和特征提取。 我们使用 AWS Glue 来检测周期并使用我们的工程团队确定的关键功能来总结单元行为。 这极大地将我们的数据集大小从每个单元每天超过 8 万个数据点减少到大约 1,200 个。 至关重要的是,这种方法以更小的数据占用量保留了有关单元行为的预测信息。

AWS Glue 作业的输出是每个周期的单元行为的摘要。 然后我们使用一个 Amazon SageMaker处理 计算跨周期的特征并标记我们的数据。 我们将 ML 问题表述为二元分类任务,目标是预测未来 60 天内的设备故障。 这使得我们的经销商网络能够及时解决潜在的设备故障。 值得注意的是,并非所有设备都会在 60 天内出现故障。 性能缓慢下降的设备可能需要更长的时间才会发生故障。 我们在模型评估步骤中解决了这个问题。 我们将建模重点放在夏季,因为这几个月是美国大多数 HVAC 系统持续运行且条件更为极端的时期。

建模

Transformer 架构已成为处理时态数据的最先进方法。 他们可以在每个时间步使用长序列的历史数据,而不会受到梯度消失的影响。 我们模型在给定时间点的输入由之前 128 个设备周期的特征组成,大约是机组运行一周。 这是由三层编码器处理的,其输出被平均并输入多层感知器 (MLP) 分类器。 MLP 分类器由三个具有 ReLU 激活函数的线性层和一个具有 LogSoftMax 激活函数的最终层组成。 我们使用加权负对数似然损失,对正类使用不同的权重作为损失函数。 这使我们的模型偏向高精度,并避免代价高昂的误报。 它还将我们的业务目标直接纳入模型训练过程中。 图 2 展示了变压器架构。

变压器架构

图 2:时间转换器架构

产品培训

训练这种时间学习模型时面临的一个挑战是数据不平衡。 有些单位的运行历史比其他单位更长,因此我们的数据集中有更多的周期。 由于它们在数据集中的比例过高,因此这些单位将对我们的模型产生更大的影响。 我们通过在一个单元的历史记录中随机抽取 100 个周期来解决这个问题,并评估当时发生故障的概率。 这确保了每个单元在训练过程中都有同等的代表性。 在消除不平衡数据问题的同时,此方法还具有复制将在生产中使用的批处理方法的额外好处。 这种抽样方法应用于训练、验证和测试集。

训练是使用 SageMaker 上的 GPU 加速实例进行的。 监控损失表明,它在 180 个训练 epoch 后达到了最佳结果,如图 3 所示。图 4 显示所得时间分类模型的 ROC 曲线下面积为 81%。

训练曲线

图 3:历元内的训练损失

Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。

图 4:60 天锁定的 ROC-AUC

评价

虽然我们的模型是在周期级别进行训练的,但评估需要在单元级别进行。 这样,一个具有多个真阳性检测的单元在单元级别上仍然只算作单个真阳性。 为此,我们分析了预测结果与故障发生前 60 天窗口之间的重叠。 下图对此进行了说明,该图显示了预测结果的四种情况:

  • 真阴性 – 所有预测结果均为负(紫色)(图5)
  • 假阳性 – 积极的预测是误报(图 6)
  • 假阴性 – 虽然预测都是负面的,但实际标签可能是正面的(绿色)(图 7)
  • 真阳性 – 一些预测可能是负面的(绿色),并且至少有一个预测是正面的(黄色)(图 8)
真阴性

图 5.1:真实的负面案例

假阳性

图 5.2:误报案例

假阴性

图 5.3:假阴性案例

真肯定

图 5.4:真阳性案例

训练后,我们使用评估集来调整发送警报的阈值。 将模型置信度阈值设置为 0.99 可获得大约 81% 的精度。 这没有达到我们最初 90% 的成功标准。 然而,我们发现很大一部分单位在 60 天评估窗口之外就失败了。 这是有道理的,因为设备可能会主动显示错误行为,但需要超过 60 天才会出现故障。 为了解决这个问题,我们定义了一个名为 有效精度,这是真实阳性精度 (81%) 与超出我们目标 30 天窗口的 60 天内发生的额外锁定精度的组合。

对于暖通空调经销商来说,最重要的是现场检查有助于防止客户未来出现暖通空调问题。 使用此模型,我们估计 81.2% 的检查将防止未来 60 天内发生停工。 此外,10.4% 的停工发生在检查后 90 天内。 剩下的8.4%将是误报。 训练后模型的有效精度为91.6%。

结论

在这篇文章中,我们展示了我们的团队如何使用 AWS Glue 和 SageMaker 创建可扩展的监督学习解决方案以进行预测性维护。 我们的模型能够捕获传感器数据长期历史的趋势,并提前几周准确检测数百个设备故障。 提前预测故障将减少路边时间,使我们的经销商能够提供更及时的技术援助并改善整体客户体验。 随着每年安装更多的云连接 HVAC 设备,这种方法的影响将随着时间的推移而增加。

我们的下一步是将这些见解整合到即将发布的 Carrier Connected Dealer Portal 中。 该门户将这些预测警报与我们从基于 AWS 的数据湖中获得的其他见解相结合,以便让我们的经销商更清楚地了解整个客户群的设备运行状况。 我们将通过集成来自其他来源的数据并从传感器数据中提取更高级的功能来继续改进我们的模型。 该项目中采用的方法为我们的团队开始回答其他关键问题提供了坚实的基础,这些问题可以帮助我们减少保修索赔并提高现场设备效率。

如果您想帮助加快产品和服务中ML的使用,请联系 亚马逊机器学习解决方案实验室。 要了解有关此项目中使用的服务的更多信息,请参阅 AWS Glue 开发人员指南Amazon SageMaker 开发人员指南.


作者简介

Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。拉维·帕坦卡 是 Carrier 住宅 HVAC 部门物联网相关分析的技术领导者。 他制定了与诊断和预测相关的分析问题,并为基于机器学习/深度学习的分析解决方案和架构提供了方向。

Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。丹·沃尔克 是 AWS 生成式 AI 创新中心的数据科学家。 他在机器学习、深度学习和时间序列分析方面拥有十年经验,并拥有加州大学伯克利分校数据科学硕士学位。 他热衷于利用尖端人工智能技术将复杂的业务挑战转化为机遇。

Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。于英伟 是 AWS 生成 AI 创新中心的应用科学家。 他拥有与多个跨行业组织合作进行机器学习各种概念验证的经验,包括 NLP、时间序列分析和生成人工智能技术。 Yingwei 在德克萨斯 A&M 大学获得计算机科学博士学位。

Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。于彦翔 是 Amazon Web Services 的应用科学家,在生成式 AI 创新中心工作。 他拥有超过 8 年为工业应用构建人工智能和机器学习模型的经验,专门研究生成式人工智能、计算机视觉和时间序列建模。 他的工作重点是寻找创新方法,将先进的生成技术应用于现实世界的问题。

Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。迭戈·索科林斯基 是 AWS Generative AI 创新中心的高级应用科学经理,领导美国东部和拉丁美洲地区的交付团队。 他在机器学习和计算机视觉方面拥有二十多年的经验,并拥有约翰·霍普金斯大学数学博士学位。

Carrier 如何使用 AWS Glue 和 Amazon SageMaker 预测 HVAC 故障 |亚马逊网络服务柏拉图区块链数据智能。垂直搜索。人工智能。丁可欣 是五年级博士学位。 北卡罗来纳大学夏洛特分校计算机科学专业的候选人。 她的研究重点是应用深度学习方法来分析多模态数据,包括医学图像和基因组测序数据。

时间戳记:

更多来自 AWS机器学习