Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Servicios web de Amazon

Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Servicios web de Amazon

En sus propias palabras, “En 1902, Willis Carrier resolvió uno de los desafíos más difíciles de alcanzar de la humanidad: controlar el ambiente interior mediante aire acondicionado moderno. Hoy en día, los productos Carrier crean entornos confortables, salvaguardan el suministro mundial de alimentos y permiten el transporte seguro de suministros médicos vitales en condiciones exigentes”.

At Portador, la base de nuestro éxito es fabricar productos en los que nuestros clientes puedan confiar para mantenerse cómodos y seguros durante todo el año. La alta confiabilidad y el bajo tiempo de inactividad de los equipos son cada vez más importantes a medida que las temperaturas extremas se vuelven más comunes debido al cambio climático. Históricamente hemos dependido de sistemas basados ​​en umbrales que nos alertan sobre el comportamiento anormal del equipo, utilizando parámetros definidos por nuestro equipo de ingeniería. Aunque estos sistemas son eficaces, su objetivo es identificar y diagnosticar problemas en los equipos en lugar de predecirlos. Predecir fallas antes de que ocurran permite a nuestros distribuidores de HVAC abordar los problemas de manera proactiva y mejorar la experiencia del cliente.

Para mejorar la confiabilidad de nuestros equipos, nos asociamos con el Laboratorio de soluciones de aprendizaje automático de Amazon desarrollar un modelo personalizado de aprendizaje automático (ML) capaz de predecir problemas en los equipos antes de que fallen. Nuestros equipos desarrollaron un marco para procesar más de 50 TB de datos históricos de sensores y predecir fallas con una precisión del 91 %. Ahora podemos notificar a los distribuidores sobre fallas inminentes en los equipos, para que puedan programar inspecciones y minimizar el tiempo de inactividad de la unidad. El marco de la solución es escalable a medida que se instalan más equipos y puede reutilizarse para una variedad de tareas de modelado posteriores.

En esta publicación, mostramos cómo los equipos de Carrier y AWS aplicaron ML para predecir fallas en grandes flotas de equipos utilizando un solo modelo. Primero destacamos cómo utilizamos Pegamento AWS para procesamiento de datos altamente paralelo. Luego discutimos cómo Amazon SageMaker Nos ayuda con la ingeniería de funciones y la construcción de un modelo de aprendizaje profundo supervisado escalable.

Descripción general del caso de uso, objetivos y riesgos

El objetivo principal de este proyecto es reducir el tiempo de inactividad prediciendo fallas inminentes en los equipos y notificando a los distribuidores. Esto permite a los distribuidores programar el mantenimiento de forma proactiva y brindar un servicio al cliente excepcional. Nos enfrentamos a tres desafíos principales al trabajar en esta solución:

  • Escalabilidad de datos – El procesamiento de datos y la extracción de características deben ampliarse a través de datos de sensores históricos en crecimiento y de gran tamaño.
  • Escalabilidad del modelo – El enfoque de modelado debe ser capaz de escalar a más de 10,000 unidades.
  • Precisión del modelo – Se necesitan bajas tasas de falsos positivos para evitar inspecciones de mantenimiento innecesarias.

La escalabilidad, tanto desde la perspectiva de los datos como del modelado, es un requisito clave para esta solución. Tenemos más de 50 TB de datos históricos de equipos y esperamos que estos datos crezcan rápidamente a medida que más unidades HVAC se conecten a la nube. El procesamiento de datos y la inferencia de modelos deben ampliarse a medida que crecen nuestros datos. Para que nuestro enfoque de modelado pueda escalar a más de 10,000 XNUMX unidades, necesitamos un modelo que pueda aprender de una flota de equipos en lugar de depender de lecturas anómalas para una sola unidad. Esto permitirá la generalización entre unidades y reducirá el costo de la inferencia al alojar un único modelo.

La otra preocupación de este caso de uso es generar falsas alarmas. Esto significa que un distribuidor o técnico irá al sitio para inspeccionar el equipo del cliente y comprobar que todo funciona correctamente. La solución requiere un modelo de alta precisión para garantizar que cuando se alerta a un distribuidor, es probable que el equipo falle. Esto ayuda a ganarse la confianza de distribuidores, técnicos y propietarios de viviendas por igual, y reduce los costos asociados con inspecciones in situ innecesarias.

Nos asociamos con los expertos en IA/ML del Amazon ML Solutions Lab para un esfuerzo de desarrollo de 14 semanas. Al final, nuestra solución incluye dos componentes principales. El primero es un módulo de procesamiento de datos creado con AWS Glue que resume el comportamiento del equipo y reduce el tamaño de nuestros datos de entrenamiento para un procesamiento posterior eficiente. La segunda es una interfaz de entrenamiento de modelos administrada a través de SageMaker, que nos permite entrenar, ajustar y evaluar nuestro modelo antes de implementarlo en un punto final de producción.

Proceso de datos

Cada unidad HVAC que instalamos genera datos de 90 sensores diferentes con lecturas de RPM, temperatura y presiones en todo el sistema. Esto equivale a aproximadamente 8 millones de puntos de datos generados por unidad por día, con decenas de miles de unidades instaladas. A medida que se conectan más sistemas HVAC a la nube, anticipamos que el volumen de datos crecerá rápidamente, lo que hace que sea fundamental para nosotros gestionar su tamaño y complejidad para su uso en tareas posteriores. La duración del historial de datos del sensor también presenta un desafío de modelado. Una unidad puede comenzar a mostrar signos de falla inminente meses antes de que se active realmente una falla. Esto crea un retraso significativo entre la señal predictiva y la falla real. Un método para comprimir la longitud de los datos de entrada se vuelve fundamental para el modelado de ML.

Para abordar el tamaño y la complejidad de los datos del sensor, los comprimimos en características de ciclo como se muestra en la Figura 1. Esto reduce drásticamente el tamaño de los datos al tiempo que captura características que caracterizan el comportamiento del equipo.

Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Figura 1: Muestra de datos del sensor HVAC

AWS Glue es un servicio de integración de datos sin servidor para procesar grandes cantidades de datos a escala. AWS Glue nos permitió ejecutar fácilmente el preprocesamiento de datos y la extracción de características en paralelo. Usamos AWS Glue para detectar ciclos y resumir el comportamiento de la unidad utilizando características clave identificadas por nuestro equipo de ingeniería. Esto redujo drásticamente el tamaño de nuestro conjunto de datos de más de 8 millones de puntos de datos por día por unidad a aproximadamente 1,200. Fundamentalmente, este enfoque preserva la información predictiva sobre el comportamiento de la unidad con una huella de datos mucho menor.

El resultado del trabajo de AWS Glue es un resumen del comportamiento de la unidad para cada ciclo. Luego usamos un Procesamiento de Amazon SageMaker trabajo para calcular características a través de ciclos y etiquetar nuestros datos. Formulamos el problema de ML como una tarea de clasificación binaria con el objetivo de predecir fallas en los equipos en los próximos 60 días. Esto permite a nuestra red de distribuidores abordar posibles fallas del equipo de manera oportuna. Es importante tener en cuenta que no todas las unidades fallan dentro de los 60 días. Una unidad que experimente una lenta degradación del rendimiento podría tardar más en fallar. Abordamos esto durante el paso de evaluación del modelo. Centramos nuestro modelado en el verano porque es en esos meses cuando la mayoría de los sistemas HVAC en los EE. UU. funcionan de manera constante y en condiciones más extremas.

Modelado

Las arquitecturas de transformadores se han convertido en el enfoque más moderno para el manejo de datos temporales. Pueden utilizar largas secuencias de datos históricos en cada paso de tiempo sin sufrir gradientes que desaparecen. La entrada a nuestro modelo en un momento dado se compone de las características de los 128 ciclos de equipo anteriores, lo que equivale aproximadamente a una semana de operación de la unidad. Esto es procesado por un codificador de tres capas cuya salida se promedia y se introduce en un clasificador de perceptrón multicapa (MLP). El clasificador MLP se compone de tres capas lineales con funciones de activación ReLU y una capa final con activación LogSoftMax. Usamos una pérdida de probabilidad logarítmica negativa ponderada con un peso diferente en la clase positiva para nuestra función de pérdida. Esto inclina nuestro modelo hacia una alta precisión y evita costosas falsas alarmas. También incorpora nuestros objetivos comerciales directamente en el proceso de capacitación del modelo. La Figura 2 ilustra la arquitectura del transformador.

Arquitectura del transformador

Figura 2: Arquitectura del transformador temporal

Formación

Un desafío al entrenar este modelo de aprendizaje temporal es el desequilibrio de los datos. Algunas unidades tienen un historial operativo más largo que otras y, por lo tanto, tienen más ciclos en nuestro conjunto de datos. Debido a que están sobrerrepresentadas en el conjunto de datos, estas unidades tendrán más influencia en nuestro modelo. Resolvemos esto muestreando aleatoriamente 100 ciclos en el historial de una unidad donde evaluamos la probabilidad de una falla en ese momento. Esto asegura que cada unidad esté igualmente representada durante el proceso de capacitación. Si bien elimina el problema de los datos desequilibrados, este enfoque tiene el beneficio adicional de replicar un enfoque de procesamiento por lotes que se utilizará en producción. Este enfoque de muestreo se aplicó a los conjuntos de entrenamiento, validación y prueba.

La capacitación se realizó utilizando una instancia acelerada por GPU en SageMaker. El monitoreo de la pérdida muestra que logra los mejores resultados después de 180 épocas de entrenamiento, como se muestra en la Figura 3. La Figura 4 muestra que el área bajo la curva ROC para el modelo de clasificación temporal resultante es del 81%.

Curva de entrenamiento

Figura 3: Pérdida de entrenamiento a lo largo de épocas

Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Figura 4: ROC-AUC para bloqueo de 60 días

Evaluación

Si bien nuestro modelo se entrena a nivel de ciclo, la evaluación debe realizarse a nivel de unidad. De esta manera, una unidad con múltiples detecciones de verdaderos positivos todavía se cuenta solo como un único verdadero positivo a nivel de unidad. Para hacer esto, analizamos la superposición entre los resultados previstos y la ventana de 60 días que precede a una falla. Esto se ilustra en la siguiente figura, que muestra cuatro casos de predicción de resultados:

  • Verdadero-negativo – Todos los resultados de la predicción son negativos (morado) (Figura 5)
  • Falso positivo – Las predicciones positivas son falsas alarmas (Figura 6)
  • Falso negativo – Aunque todas las predicciones son negativas, las etiquetas reales podrían ser positivas (verde) (Figura 7)
  • Verdadero positivo – Algunas de las predicciones podrían ser negativas (verde) y al menos una predicción es positiva (amarillo) (Figura 8)
Verdadero negativo

Figura 5.1: Caso negativo verdadero

falso positivo

Figura 5.2: Caso falso positivo

Falso negativo

Figura 5.3: Caso falso negativo

Verdadero Positivo

Figura 5.4: Caso positivo verdadero

Después del entrenamiento, utilizamos el conjunto de evaluación para ajustar el umbral para enviar una alerta. Establecer el umbral de confianza del modelo en 0.99 produce una precisión de aproximadamente el 81%. Esto no alcanza nuestro criterio inicial de éxito del 90%. Sin embargo, descubrimos que una buena parte de las unidades fallaron justo después del período de evaluación de 60 días. Esto tiene sentido, porque una unidad puede mostrar activamente un comportamiento defectuoso pero tardar más de 60 días en fallar. Para manejar esto, definimos una métrica llamada precisión efectiva, que es una combinación de la verdadera precisión positiva (81%) con la precisión adicional de los bloqueos que ocurrieron en los 30 días posteriores a nuestra ventana objetivo de 60 días.

Para un distribuidor de HVAC, lo más importante es que una inspección in situ ayude a prevenir futuros problemas de HVAC para el cliente. Utilizando este modelo, estimamos que el 81.2% de las veces la inspección evitará que se produzca un cierre patronal en los próximos 60 días. Además, el 10.4% de las veces el cierre patronal se habría producido dentro de los 90 días posteriores a la inspección. El 8.4% restante será una falsa alarma. La precisión efectiva del modelo entrenado es del 91.6%.

Conclusión

En esta publicación, mostramos cómo nuestro equipo utilizó AWS Glue y SageMaker para crear una solución de aprendizaje supervisado escalable para mantenimiento predictivo. Nuestro modelo es capaz de capturar tendencias a lo largo de historiales a largo plazo de datos de sensores y detectar con precisión cientos de fallas de equipos con semanas de anticipación. Predecir las fallas con anticipación reducirá el tiempo de acera a acera, lo que permitirá a nuestros distribuidores brindar asistencia técnica más oportuna y mejorar la experiencia general del cliente. Los impactos de este enfoque crecerán con el tiempo a medida que cada año se instalen más unidades HVAC conectadas a la nube.

Nuestro próximo paso es integrar estos conocimientos en el próximo lanzamiento del Portal de Distribuidores Conectados de Carrier. El portal combina estas alertas predictivas con otros conocimientos que obtenemos de nuestro lago de datos basado en AWS para brindarles a nuestros distribuidores más claridad sobre el estado de los equipos en toda su base de clientes. Continuaremos mejorando nuestro modelo integrando datos de fuentes adicionales y extrayendo funciones más avanzadas de los datos de nuestros sensores. Los métodos empleados en este proyecto proporcionan una base sólida para que nuestro equipo comience a responder otras preguntas clave que pueden ayudarnos a reducir los reclamos de garantía y mejorar la eficiencia de los equipos en el campo.

Si desea obtener ayuda para acelerar el uso de AA en sus productos y servicios, comuníquese con el Laboratorio de soluciones de Amazon ML. Para obtener más información sobre los servicios utilizados en este proyecto, consulte la Guía para desarrolladores de AWS Glue y del Guía para desarrolladores de Amazon SageMaker.


Acerca de los autores

Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Ravi Patankar es líder técnico de análisis relacionados con IoT en la Unidad de HVAC residencial de Carrier. Formula problemas de análisis relacionados con diagnósticos y pronósticos y proporciona dirección para arquitectura y soluciones de análisis basadas en aprendizaje profundo/ML.

Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.dan volk es científico de datos en el Centro de innovación de IA generativa de AWS. Tiene diez años de experiencia en aprendizaje automático, aprendizaje profundo y análisis de series temporales y tiene una maestría en ciencia de datos de UC Berkeley. Le apasiona transformar desafíos comerciales complejos en oportunidades aprovechando tecnologías de inteligencia artificial de vanguardia.

Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.yingwei yu es científico aplicado en el Centro de innovación de IA generativa de AWS. Tiene experiencia trabajando con varias organizaciones de todos los sectores en diversas pruebas de conceptos en aprendizaje automático, incluida la PNL, el análisis de series temporales y las tecnologías de inteligencia artificial generativa. Yingwei recibió su doctorado en informática de la Universidad Texas A&M.

Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Yanxiang Yu es un científico aplicado en Amazon Web Services y trabaja en el Centro de innovación de IA generativa. Con más de 8 años de experiencia en la creación de modelos de inteligencia artificial y aprendizaje automático para aplicaciones industriales, se especializa en inteligencia artificial generativa, visión por computadora y modelado de series temporales. Su trabajo se centra en encontrar formas innovadoras de aplicar técnicas generativas avanzadas a problemas del mundo real.

Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Diego Socolinsky Es gerente senior de ciencias aplicadas en el Centro de innovación de IA generativa de AWS, donde dirige el equipo de entrega para las regiones del este de EE. UU. y América Latina. Tiene más de veinte años de experiencia en aprendizaje automático y visión por computadora, y tiene un doctorado en matemáticas de la Universidad Johns Hopkins.

Cómo Carrier predice fallas de HVAC usando AWS Glue y Amazon SageMaker | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.Kexin Ding es un doctorado de quinto año. Candidato en Ciencias de la Computación en la UNC-Charlotte. Su investigación se centra en la aplicación de métodos de aprendizaje profundo para analizar datos multimodales, incluidos datos de secuenciación genómica y de imágenes médicas.

Sello de tiempo:

Mas de Aprendizaje automático de AWS