Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 | アマゾン ウェブ サービス

Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 | アマゾン ウェブ サービス

彼ら自身の言葉を借りれば、「1902 年、ウィリス キャリアは、現代の空調によって屋内環境を制御するという人類の最もとらえどころのない課題の XNUMX つを解決しました。 現在、キャリア製品は快適な環境を作り出し、世界の食料供給を守り、厳しい条件下での重要な医療用品の安全な輸送を可能にしています。」

At キャリア、当社の成功の基盤は、お客様が一年中快適で安全な状態を保つために信頼できる製品を作ることです。 気候変動により極端な温度が一般的になるにつれ、高い信頼性と短い機器のダウンタイムの重要性がますます高まっています。 当社はこれまで、エンジニアリング チームが定義したパラメータを使用して、機器の異常な動作を警告するしきい値ベースのシステムに依存してきました。 このようなシステムは効果的ですが、機器の問題を予測するのではなく、特定して診断することを目的としています。 故障が発生する前に故障を予測することで、HVAC ディーラーは問題に積極的に対処し、顧客エクスペリエンスを向上させることができます。

機器の信頼性を向上させるために、当社は次の企業と提携しました。 Amazon 機械学習ソリューション ラボ 故障前に機器の問題を予測できるカスタム機械学習 (ML) モデルを開発します。 私たちのチームは、50 TB を超える過去のセンサー データを処理し、91% の精度で障害を予測するためのフレームワークを開発しました。 差し迫った機器の故障をディーラーに通知できるようになりました。これにより、ディーラーは検査をスケジュールし、ユニットのダウンタイムを最小限に抑えることができます。 ソリューション フレームワークは、より多くの機器が設置されるにつれて拡張可能であり、さまざまな下流のモデリング タスクに再利用できます。

この投稿では、Carrier チームと AWS チームが ML を適用して、単一モデルを使用して大規模な機器全体の障害を予測する方法を示します。 まず、どのように使用するかを強調します。 AWSグルー 高度な並列データ処理を実現します。 次に、その方法について説明します アマゾンセージメーカー 特徴エンジニアリングとスケーラブルな教師あり深層学習モデルの構築に役立ちます。

ユースケース、目標、リスクの概要

このプロジェクトの主な目的は、差し迫った機器の故障を予測し、ディーラーに通知することでダウンタイムを削減することです。 これにより、ディーラーはメンテナンスを積極的にスケジュールし、優れた顧客サービスを提供できるようになります。 このソリューションに取り組む際、私たちは XNUMX つの主な課題に直面しました。

  • データのスケーラビリティ – データ処理と特徴抽出は、増大する大規模な過去のセンサー データ全体にわたって拡張する必要がある
  • モデルのスケーラビリティ – モデリングアプローチは、10,000 ユニットを超えるスケールに対応できる必要があります
  • モデルの精度 – 不必要な保守検査を回避するには、低い誤検知率が必要です

データとモデリングの両方の観点から見たスケーラビリティは、このソリューションの重要な要件です。 当社には 50 TB を超える過去の機器データがあり、より多くの HVAC ユニットがクラウドに接続されるにつれて、このデータは急速に増加すると予想されます。 データ処理とモデル推論は、データの増大に応じて拡張する必要があります。 モデリング アプローチを 10,000 台を超えるユニットに拡張するには、単一ユニットの異常な読み取り値に依存するのではなく、一連の機器から学習できるモデルが必要です。 これにより、単一のモデルをホストすることでユニット間での一般化が可能になり、推論のコストが削減されます。

このユースケースのもう XNUMX つの懸念は、誤ったアラームがトリガーされることです。 これは、ディーラーまたは技術者が現場に出向いて顧客の機器を検査し、すべてが適切に動作していることを確認することを意味します。 このソリューションには、ディーラーに警告があったときに機器が故障する可能性が高いことを保証する高精度のモデルが必要です。 これにより、ディーラー、技術者、住宅所有者などからの信頼を獲得し、不必要な現場検査にかかるコストを削減できます。

私たちは、Amazon ML Solutions Lab の AI/ML 専門家と協力して、14 週間の開発作業を行いました。 最終的に、私たちのソリューションには XNUMX つの主要なコンポーネントが含まれます。 XNUMX つ目は、AWS Glue で構築されたデータ処理モジュールです。これは、機器の動作を要約し、効率的なダウンストリーム処理のためにトレーニング データのサイズを削減します。 XNUMX つ目は、SageMaker を通じて管理されるモデル トレーニング インターフェイスです。これにより、実稼働エンドポイントにデプロイされる前にモデルをトレーニング、調整、評価できます。

データ処理

当社が設置する各 HVAC ユニットは、システム全体の RPM、温度、圧力の読み取り値を含む 90 個の異なるセンサーからデータを生成します。 これは、数万台のユニットが設置されている場合、8 日にユニットあたり約 XNUMX 万のデータ ポイントが生成されることになります。 クラウドに接続される HVAC システムが増えるにつれて、データ量が急速に増加すると予想されており、下流のタスクで使用するデータのサイズと複雑さを管理することが重要になっています。 センサー データ履歴の長さも、モデリングの課題となります。 ユニットは、実際に障害が発生する数か月前に、差し迫った障害の兆候を示し始めることがあります。 これにより、予測信号と実際の障害の間に大きな遅れが生じます。 ML モデリングでは、入力データの長さを圧縮する方法が重要になります。

センサー データのサイズと複雑さに対処するために、図 1 に示すようにデータをサイクル特徴に圧縮します。これにより、機器の動作を特徴付ける特徴をキャプチャしながら、データのサイズが大幅に削減されます。

Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

図 1: HVAC センサー データのサンプル

AWS Glue は、大量のデータを大規模に処理するためのサーバーレス データ統合サービスです。 AWS Glue を使用すると、並列データの前処理と特徴抽出を簡単に実行できました。 私たちは AWS Glue を使用してサイクルを検出し、エンジニアリングチームが特定した主要な機能を使用してユニットの動作を要約しました。 これにより、データセットのサイズが、ユニットあたり 8 日あたり 1,200 万を超えるデータ ポイントから約 XNUMX まで劇的に減少しました。 重要なのは、このアプローチでは、ユニットの動作に関する予測情報がはるかに小さいデータ フットプリントで保存されることです。

AWS Glue ジョブの出力は、各サイクルのユニットの動作の概要です。 次に、 Amazon SageMaker処理 サイクル全体の特徴を計算し、データにラベルを付けるジョブ。 今後 60 日間の機器の故障を予測することを目標に、ML 問題をバイナリ分類タスクとして定式化します。 これにより、当社のディーラーネットワークは潜在的な機器の故障にタイムリーに対処できるようになります。 すべてのユニットが 60 日以内に故障するわけではないことに注意することが重要です。 ユニットのパフォーマンスがゆっくりと低下すると、障害が発生するまでにさらに時間がかかる可能性があります。 これについては、モデルの評価ステップで対処します。 夏期は米国のほとんどの HVAC システムが一貫して動作し、より過酷な条件下にあるため、モデル化を夏場に焦点を当てました。

モデリング

Transformer アーキテクチャは、時間データを処理するための最先端のアプローチとなっています。 勾配の消失に悩まされることなく、各タイム ステップで履歴データの長いシーケンスを使用できます。 特定の時点でのモデルへの入力は、過去 128 回の装置サイクルの特徴で構成されており、これはおよそ 2 週間のユニット操作に相当します。 これは XNUMX 層エンコーダによって処理され、その出力は平均化されて多層パーセプトロン (MLP) 分類器に供給されます。 MLP 分類器は、ReLU アクティベーション関数を備えた XNUMX つの線形レイヤーと、LogSoftMax アクティベーションを備えた最終レイヤーで構成されます。 損失関数には、正のクラスに異なる重みを付けた重み付けされた負の対数尤度損失を使用します。 これにより、モデルが高精度に偏り、コストのかかる誤警報が回避されます。 また、ビジネス目標をモデルのトレーニング プロセスに直接組み込んでいます。 図 XNUMX は、変圧器のアーキテクチャを示しています。

変圧器のアーキテクチャ

図 2: 時間変換器のアーキテクチャ

トレーニング

この時間学習モデルをトレーニングする際の 100 つの課題は、データの不均衡です。 一部のユニットは他のユニットよりも運用履歴が長いため、データセットに含まれるサイクルが多くなります。 これらのユニットはデータセット内で過剰に表現されているため、モデルに対する影響力が大きくなります。 この問題は、ユニットの履歴で XNUMX サイクルをランダムにサンプリングし、その時点での故障の確率を評価することで解決します。 これにより、トレーニング プロセス中に各ユニットが均等に表現されることが保証されます。 このアプローチには、不均衡なデータの問題が解決されると同時に、運用環境で使用されるバッチ処理アプローチを複製できるという追加の利点もあります。 このサンプリング アプローチは、トレーニング、検証、およびテスト セットに適用されました。

トレーニングは、SageMaker 上の GPU 高速化インスタンスを使用して実行されました。 損失をモニタリングすると、図 180 に示すように、3 トレーニング エポック後に最良の結果が得られることがわかります。図 4 は、結果の時間分類モデルの ROC 曲線の下の面積が 81% であることを示しています。

トレーニングカーブ

図 3: エポックにわたるトレーニング損失

Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。

図 4: 60 日間のロックアウトの ROC-AUC

評価

モデルはサイクル レベルでトレーニングされますが、評価はユニット レベルで行う必要があります。 このように、複数の真陽性検出が行われた 60 つのユニットは、ユニット レベルでは XNUMX つの真陽性としてのみカウントされます。 これを行うために、予測された結果と障害に先立つ XNUMX 日間の期間との重複を分析します。 これを次の図に示します。この図は、結果を予測する XNUMX つのケースを示しています。

  • 真陰性 – 予測結果はすべて陰性 (紫色) です (図 5)
  • 偽陽性 – 肯定的な予測は誤報です (図 6)
  • 偽陰性 – 予測はすべてネガティブですが、実際のラベルはポジティブ (緑色) になる可能性があります (図 7)
  • 真陽性 – 一部の予測は否定的 (緑色) であり、少なくとも 8 つの予測は肯定的 (黄色) である可能性があります (図 XNUMX)
真のネガティブ

図 5.1: 真陰性の場合

偽陽性

図 5.2: 誤検知のケース

偽陰性

図 5.3: 偽陰性の場合

トゥルーポジティブ

図 5.4: 真陽性の場合

トレーニング後、評価セットを使用してアラートを送信するためのしきい値を調整します。 モデルの信頼しきい値を 0.99 に設定すると、精度は約 81% になります。 これは、当初の成功基準 90% を下回っています。 ただし、かなりの部分のユニットが 60 日間の評価期間のすぐ外側で故障したことがわかりました。 ユニットは実際に問題のある動作を示しても、障害が発生するまでに 60 日以上かかる可能性があるため、これは当然のことです。 これに対処するために、というメトリクスを定義しました。 実効精度これは、真陽性の精度 (81%) と、目標の 30 日の枠を超えた 60 日間に発生したロックアウトの追加精度を組み合わせたものです。

HVAC ディーラーにとって最も重要なことは、現場検査が顧客の将来の HVAC 問題を防ぐのに役立つことです。 このモデルを使用すると、検査によって今後 81.2 日間のロックアウトの発生を 60% の確率で防止できると推定されます。 さらに、ロックアウトが検査後 10.4 日以内に発生した確率は 90% でした。 残りの 8.4% は誤報となります。 トレーニングされたモデルの有効精度は 91.6% です。

まとめ

この投稿では、私たちのチームが AWS Glue と SageMaker を使用して、予測メンテナンスのためのスケーラブルな教師あり学習ソリューションを作成した方法を示しました。 私たちのモデルは、センサー データの長期履歴全体の傾向を捕捉し、何百もの機器の故障を数週間前に正確に検出できます。 障害を事前に予測することで、縁石から縁石までの時間が短縮され、ディーラーはよりタイムリーな技術支援を提供できるようになり、全体的な顧客体験が向上します。 クラウド接続された HVAC ユニットが年々設置されるにつれて、このアプローチの影響は時間の経過とともに増大します。

私たちの次のステップは、これらの洞察を Carrier の Connected Dealer Portal の今後のリリースに統合することです。 このポータルは、これらの予測アラートを AWS ベースのデータレイクから得た他の洞察と組み合わせて、ディーラーが顧客ベース全体の機器の状態をより明確に把握できるようにします。 今後も、追加のソースからのデータを統合し、センサー データからより高度な機能を抽出することで、モデルの改良を続けていきます。 このプロジェクトで採用された方法は、保証請求を減らし、現場での機器の効率を向上させるのに役立つ他の重要な質問に答え始めるための強力な基盤をチームに提供します。

製品やサービスでのMLの使用を促進するサポートが必要な場合は、 Amazon MLソリューションラボ。 このプロジェクトで使用されるサービスの詳細については、を参照してください。 AWS Glue 開発者ガイドAmazonSageMaker開発者ガイド.


著者について

Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ラヴィ・パタンカール Carrier の住宅用 HVAC 部門の IoT 関連分析の技術リーダーです。 彼は、診断と予測に関連する分析問題を定式化し、ML/深層学習ベースの分析ソリューションとアーキテクチャの方向性を提供します。

Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ダン・ヴォルク は、AW​​S Generative AI イノベーション センターのデータ サイエンティストです。 彼は機械学習、深層学習、時系列分析で XNUMX 年の経験があり、カリフォルニア大学バークレー校でデータ サイエンスの修士号を取得しています。 彼は、最先端の AI テクノロジーを活用して、複雑なビジネス課題をチャンスに変えることに情熱を注いでいます。

Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。イングウェイ・ユー AWS Generative AI Innovation Center の応用科学者です。 彼は、NLP、時系列分析、生成 AI テクノロジーなど、機械学習のさまざまな概念実証において、業界全体の複数の組織と協力した経験があります。 インウェイはテキサス A&M 大学でコンピューター サイエンスの博士号を取得しました。

Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ヤンシャン・ユー アマゾン ウェブ サービスの応用科学者で、ジェネレーティブ AI イノベーション センターに取り組んでいます。 産業アプリケーション向けの AI および機械学習モデルの構築に 8 年以上の経験があり、生成 AI、コンピューター ビジョン、時系列モデリングを専門としています。 彼の研究は、高度な生成技術を現実世界の問題に適用する革新的な方法を見つけることに重点を置いています。

Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ディエゴ・ソコリンスキー AWS Generative AI Innovation Center のシニア応用科学マネージャーであり、米国東部およびラテンアメリカ地域の配信チームを率いています。 彼は機械学習とコンピューター ビジョンで XNUMX 年以上の経験があり、ジョンズ ホプキンス大学で数学の博士号を取得しています。

Carrier が AWS Glue と Amazon SageMaker を使用して HVAC 障害を予測する方法 |アマゾン ウェブ サービス PlatoBlockchain データ インテリジェンス。垂直検索。あい。ディン・ケシン 博士課程XNUMX年生です。 UNCシャーロット校のコンピューターサイエンスの候補者。 彼女の研究は、医療画像やゲノム配列データなどのマルチモーダル データを分析するための深層学習手法の適用に焦点を当てています。

タイムスタンプ:

より多くの AWS機械学習