Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon

Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon

По их собственным словам: «В 1902 году Уиллис Кэрриер решил одну из самых неуловимых задач человечества — контроль внутренней среды с помощью современного кондиционирования воздуха. Сегодня продукция Carrier создает комфортную среду, защищает мировые запасы продовольствия и обеспечивает безопасную транспортировку жизненно важных предметов медицинского назначения в сложных условиях».

At ПеревозчикОсновой нашего успеха является создание продуктов, которым наши клиенты могут доверять, чтобы обеспечить им комфорт и безопасность круглый год. Высокая надежность и сокращение простоев оборудования становятся все более важными, поскольку экстремальные температуры становятся все более распространенными из-за изменения климата. Исторически мы полагались на системы, основанные на пороговых значениях, которые предупреждают нас об аномальном поведении оборудования, используя параметры, определенные нашей командой инженеров. Хотя такие системы эффективны, они предназначены для выявления и диагностики проблем с оборудованием, а не для их прогнозирования. Прогнозирование неисправностей до их возникновения позволяет нашим дилерам систем отопления, вентиляции и кондиционирования воздуха активно решать проблемы и улучшать качество обслуживания клиентов.

Чтобы повысить надежность нашего оборудования, мы сотрудничаем с Лаборатория решений для машинного обучения Amazon разработать специальную модель машинного обучения (ML), способную прогнозировать проблемы с оборудованием до его выхода из строя. Наши команды разработали систему для обработки более 50 ТБ исторических данных датчиков и прогнозирования неисправностей с точностью 91%. Теперь мы можем уведомлять дилеров о приближающемся отказе оборудования, чтобы они могли планировать проверки и минимизировать время простоя оборудования. Структура решения масштабируется по мере установки большего количества оборудования и может быть повторно использована для различных последующих задач моделирования.

В этом посте мы покажем, как команды Carrier и AWS применили машинное обучение для прогнозирования неисправностей в больших парках оборудования с использованием единой модели. Сначала мы расскажем, как мы используем Клей AWS для высокопараллельной обработки данных. Затем мы обсуждаем, как Создатель мудреца Амазонки помогает нам с разработкой функций и созданием масштабируемой контролируемой модели глубокого обучения.

Обзор варианта использования, целей и рисков

Основная цель этого проекта — сократить время простоев за счет прогнозирования предстоящих отказов оборудования и уведомления дилеров. Это позволяет дилерам заранее планировать техническое обслуживание и обеспечивать исключительное обслуживание клиентов. При работе над этим решением мы столкнулись с тремя основными проблемами:

  • Масштабируемость данных – Обработка данных и извлечение признаков должны масштабироваться на основе больших растущих исторических данных датчиков.
  • Масштабируемость модели – Подход к моделированию должен быть масштабируемым для более чем 10,000 XNUMX единиц.
  • Точность модели – Чтобы избежать ненужных проверок при техническом обслуживании, необходим низкий уровень ложных срабатываний.

Масштабируемость, как с точки зрения данных, так и с точки зрения моделирования, является ключевым требованием для этого решения. У нас есть более 50 ТБ исторических данных об оборудовании, и мы ожидаем, что эти данные будут быстро расти по мере того, как к облаку будет подключено все больше устройств HVAC. Обработка данных и вывод моделей должны масштабироваться по мере роста наших данных. Чтобы наш подход к моделированию можно было масштабировать более чем на 10,000 XNUMX единиц, нам нужна модель, которая может учиться на парке оборудования, а не полагаться на аномальные показания для одной единицы. Это позволит проводить обобщение по всем единицам и снизить стоимость вывода за счет размещения единой модели.

Другая проблема в этом варианте использования — возникновение ложных тревог. Это означает, что дилер или технический специалист выедет на место, чтобы осмотреть оборудование клиента и убедиться, что все работает должным образом. Решение требует высокоточной модели, чтобы гарантировать, что при предупреждении дилера оборудование, скорее всего, выйдет из строя. Это помогает завоевать доверие дилеров, технических специалистов и домовладельцев, а также снижает затраты, связанные с ненужными проверками на месте.

Мы сотрудничали с экспертами AI/ML из лаборатории решений Amazon ML для 14-недельной разработки. В конечном итоге наше решение включает в себя два основных компонента. Первый — это модуль обработки данных, созданный с помощью AWS Glue, который суммирует поведение оборудования и уменьшает размер наших обучающих данных для эффективной последующей обработки. Второй — это интерфейс обучения модели, управляемый через SageMaker, который позволяет нам обучать, настраивать и оценивать нашу модель перед ее развертыванием на конечной точке производства.

Обработка данных

Каждая установка HVAC, которую мы устанавливаем, генерирует данные от 90 различных датчиков с показаниями частоты вращения, температуры и давления во всей системе. Это составляет примерно 8 миллионов точек данных, генерируемых на единицу в день, при десятках тысяч установленных единиц. Поскольку к облаку подключается все больше систем HVAC, мы ожидаем, что объем данных будет быстро расти, поэтому для нас крайне важно управлять их размером и сложностью для использования в последующих задачах. Продолжительность истории данных датчиков также представляет собой проблему моделирования. Устройство может начать проявлять признаки надвигающегося отказа за несколько месяцев до фактического возникновения неисправности. Это создает значительную задержку между прогнозирующим сигналом и фактическим сбоем. Метод сжатия входных данных становится критически важным для моделирования машинного обучения.

Чтобы решить проблему размера и сложности данных датчиков, мы сжимаем их в циклические характеристики, как показано на рисунке 1. Это значительно уменьшает размер данных, одновременно фиксируя характеристики, характеризующие поведение оборудования.

Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Рисунок 1. Пример данных датчика HVAC.

AWS Glue — это бессерверный сервис интеграции данных для обработки больших объемов данных в любом масштабе. AWS Glue позволил нам легко выполнить параллельную предварительную обработку данных и извлечение признаков. Мы использовали AWS Glue для обнаружения циклов и обобщения поведения устройств, используя ключевые функции, определенные нашей командой инженеров. Это резко сократило размер нашего набора данных с более чем 8 миллионов точек данных в день на единицу до примерно 1,200. Важно отметить, что этот подход сохраняет прогнозную информацию о поведении устройства при гораздо меньшем объеме данных.

Результатом задания AWS Glue является сводка поведения устройства для каждого цикла. Затем мы используем Обработка Amazon SageMaker Задача — вычислить характеристики по циклам и пометить наши данные. Мы формулируем задачу ML как задачу бинарной классификации с целью прогнозирования неисправностей оборудования в ближайшие 60 дней. Это позволяет нашей дилерской сети своевременно устранять потенциальные неисправности оборудования. Важно отметить, что не все устройства выходят из строя в течение 60 дней. Устройство, в котором наблюдается медленное снижение производительности, может потребовать больше времени для выхода из строя. Мы решаем эту проблему на этапе оценки модели. Мы сосредоточили наше моделирование на летнем времени, потому что именно в эти месяцы большинство систем HVAC в США работают стабильно и в более экстремальных условиях.

моделирование

Трансформаторные архитектуры стали современным подходом к обработке временных данных. Они могут использовать длинные последовательности исторических данных на каждом временном шаге, не страдая от исчезновения градиентов. Входные данные для нашей модели в данный момент времени состоят из характеристик предыдущих 128 циклов оборудования, что составляет примерно одну неделю работы агрегата. Это обрабатывается трехуровневым кодером, выходные данные которого усредняются и подаются в классификатор многоуровневого персептрона (MLP). Классификатор MLP состоит из трех линейных уровней с функциями активации ReLU и последнего уровня с активацией LogSoftMax. Мы используем взвешенную отрицательную логарифмическую потерю правдоподобия с другим весом положительного класса для нашей функции потерь. Это склоняет нашу модель к высокой точности и позволяет избежать дорогостоящих ложных тревог. Он также включает наши бизнес-цели непосредственно в процесс обучения модели. Рисунок 2 иллюстрирует архитектуру трансформатора.

Архитектура трансформатора

Рисунок 2: Архитектура временного преобразователя

Обучение

Одной из проблем при обучении этой модели временного обучения является дисбаланс данных. Некоторые агрегаты имеют более длительную историю эксплуатации, чем другие, и поэтому в нашем наборе данных содержится больше циклов. Поскольку они перепредставлены в наборе данных, эти единицы будут иметь большее влияние на нашу модель. Мы решаем эту проблему путем случайной выборки 100 циклов из истории устройства и оценки вероятности отказа в этот момент. Это гарантирует, что каждое подразделение будет одинаково представлено в процессе обучения. Устранив проблему несбалансированности данных, этот подход имеет дополнительное преимущество, заключающееся в воспроизведении подхода пакетной обработки, который будет использоваться в производстве. Этот подход к выборке был применен к обучающим, проверочным и тестовым наборам.

Обучение проводилось с использованием экземпляра SageMaker с ускорением на графическом процессоре. Мониторинг потерь показывает, что наилучшие результаты достигаются после 180 эпох обучения, как показано на рисунке 3. На рисунке 4 показано, что площадь под кривой ROC для полученной модели временной классификации составляет 81%.

Тренировочная кривая

Рисунок 3. Потери в обучении по эпохам

Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Рисунок 4: ROC-AUC для 60-дневной блокировки

Оценка

Хотя наша модель обучается на уровне цикла, оценка должна проводиться на уровне единицы. Таким образом, одна единица с несколькими истинно положительными обнаружениями по-прежнему считается только одним истинно положительным на уровне единицы. Для этого мы анализируем перекрытие между прогнозируемыми результатами и 60-дневным окном, предшествующим ошибке. Это проиллюстрировано на следующем рисунке, на котором показаны четыре случая прогнозирования результатов:

  • Истинный отрицательный – Все результаты прогнозирования отрицательные (фиолетовый цвет) (рис. 5)
  • Ложно положительный – Положительные прогнозы являются ложными тревогами (рис. 6).
  • Ложный негатив – Хотя все прогнозы отрицательные, фактические метки могут быть положительными (зеленые) (рис. 7).
  • Истинный положительный – Некоторые прогнозы могут быть отрицательными (зеленый цвет), и по крайней мере один прогноз является положительным (желтый цвет) (рис. 8).
Истинно отрицательный

Рисунок 5.1: Истинно отрицательный случай

ложноположительный

Рисунок 5.2: Ложноположительный случай

Ложный Отрицательный

Рисунок 5.3: Ложноотрицательный случай

Истинно положительный

Рисунок 5.4: Истинно положительный случай

После обучения мы используем набор оценок для настройки порога отправки оповещения. Установка порога достоверности модели на уровне 0.99 дает точность примерно 81%. Это не соответствует нашему первоначальному критерию успеха в 90%. Однако мы обнаружили, что значительная часть устройств вышла из строя сразу после 60-дневного периода оценки. Это имеет смысл, поскольку устройство может активно проявлять неисправное поведение, но выход из строя может занять более 60 дней. Чтобы справиться с этим, мы определили метрику под названием эффективная точность, что представляет собой сочетание истинной положительной точности (81%) с дополнительной точностью локаутов, произошедших в течение 30 дней после нашего целевого 60-дневного окна.

Для дилера HVAC наиболее важно, чтобы проверка на месте помогла предотвратить будущие проблемы с HVAC у клиента. Используя эту модель, мы оцениваем, что в 81.2% случаев проверки предотвратят локаут в течение следующих 60 дней. Кроме того, в 10.4% случаев локаут мог произойти в течение 90 дней после проверки. Остальные 8.4% окажутся ложной тревогой. Эффективная точность обученной модели составляет 91.6%.

Заключение

В этом посте мы показали, как наша команда использовала AWS Glue и SageMaker для создания масштабируемого контролируемого решения для обучения для прогнозного обслуживания. Наша модель способна фиксировать тенденции в долгосрочной истории данных датчиков и точно обнаруживать сотни отказов оборудования на несколько недель вперед. Заблаговременное прогнозирование неисправностей сократит время поездки от бордюра до бордюра, что позволит нашим дилерам предоставлять более своевременную техническую помощь и улучшит общее качество обслуживания клиентов. Эффект от этого подхода со временем будет возрастать по мере того, как с каждым годом устанавливается все больше подключенных к облаку устройств HVAC.

Наш следующий шаг — интегрировать эти идеи в предстоящую версию портала подключенных дилеров Carrier. Портал объединяет эти прогнозные оповещения с другими данными, которые мы получаем из нашего озера данных на базе AWS, чтобы предоставить нашим дилерам больше информации о состоянии оборудования по всей их клиентской базе. Мы продолжим совершенствовать нашу модель, интегрируя данные из дополнительных источников и извлекая более продвинутые функции из данных наших датчиков. Методы, использованные в этом проекте, дают нашей команде прочную основу для ответа на другие ключевые вопросы, которые могут помочь нам сократить гарантийные претензии и повысить эффективность оборудования в полевых условиях.

Если вам нужна помощь в ускорении использования машинного обучения в ваших продуктах и ​​услугах, обратитесь в Лаборатория решений Amazon ML. Чтобы узнать больше об услугах, используемых в этом проекте, обратитесь к Руководство разработчика AWS Glue и Руководство разработчика Amazon SageMaker.


Об авторах

Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Рави Патанкар является техническим руководителем отдела аналитики, связанной с Интернетом вещей, в подразделении бытового отопления, вентиляции и кондиционирования воздуха компании Carrier. Он формулирует аналитические задачи, связанные с диагностикой и прогнозированием, и задает направления для аналитических решений и архитектуры на основе машинного обучения и глубокого обучения.

Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Дэн Волк — специалист по данным в Инновационном центре AWS Generative AI. Он имеет десятилетний опыт работы в области машинного обучения, глубокого обучения и анализа временных рядов, а также степень магистра в области науки о данных Калифорнийского университета в Беркли. Он увлечен преобразованием сложных бизнес-задач в возможности, используя передовые технологии искусственного интеллекта.

Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Инвэй Ю — научный сотрудник в инновационном центре AWS Generative AI. У него есть опыт работы с несколькими организациями в разных отраслях над различными проверками концепций машинного обучения, включая НЛП, анализ временных рядов и генеративные технологии искусственного интеллекта. Инвэй получил степень доктора компьютерных наук в Техасском университете A&M.

Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Яньсян Юй — научный сотрудник Amazon Web Services, работающий в Инновационном центре генеративного искусственного интеллекта. Имея более чем 8-летний опыт создания моделей искусственного интеллекта и машинного обучения для промышленных приложений, он специализируется на генеративном искусственном интеллекте, компьютерном зрении и моделировании временных рядов. Его работа сосредоточена на поиске инновационных способов применения передовых генеративных методов для решения реальных проблем.

Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Диего Соколинский — старший менеджер по прикладным наукам в Инновационном центре AWS Generative AI, где он возглавляет группу доставки в восточные регионы США и Латинскую Америку. Он имеет более чем двадцатилетний опыт работы в области машинного обучения и компьютерного зрения и имеет степень доктора философии по математике, полученную в Университете Джонса Хопкинса.

Как Carrier прогнозирует неисправности систем отопления, вентиляции и кондиционирования с помощью AWS Glue и Amazon SageMaker | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Кексинь Дин является доктором философии пятого курса. кандидат компьютерных наук в UNC-Шарлотт. Ее исследования сосредоточены на применении методов глубокого обучения для анализа мультимодальных данных, включая данные медицинских изображений и геномного секвенирования.

Отметка времени:

Больше от Машинное обучение AWS