Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Usługi internetowe Amazona

Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Usługi internetowe Amazona

Jak sami mówią: „W 1902 roku Willis Carrier rozwiązał jedno z najbardziej nieuchwytnych wyzwań ludzkości, jakim było kontrolowanie środowiska wewnętrznego za pomocą nowoczesnej klimatyzacji. Obecnie produkty Carrier tworzą komfortowe środowisko, zabezpieczają globalne dostawy żywności i umożliwiają bezpieczny transport niezbędnych artykułów medycznych w wymagających warunkach.

At Przewoźnikpodstawą naszego sukcesu jest tworzenie produktów, którym nasi klienci mogą zaufać i które zapewniają im wygodę i bezpieczeństwo przez cały rok. Wysoka niezawodność i krótki czas przestojów sprzętu są coraz ważniejsze, ponieważ ekstremalne temperatury stają się coraz bardziej powszechne ze względu na zmiany klimatyczne. W przeszłości polegaliśmy na systemach opartych na progach, które ostrzegają nas o nietypowym zachowaniu sprzętu, korzystając z parametrów zdefiniowanych przez nasz zespół inżynierów. Chociaż takie systemy są skuteczne, ich zadaniem jest raczej identyfikowanie i diagnozowanie problemów ze sprzętem niż ich przewidywanie. Przewidywanie usterek przed ich wystąpieniem umożliwia naszym dealerom HVAC proaktywne rozwiązywanie problemów i poprawę jakości obsługi klienta.

Aby poprawić niezawodność naszych urządzeń, nawiązaliśmy współpracę z firmą Laboratorium rozwiązań do uczenia maszynowego Amazon Amazon opracowanie niestandardowego modelu uczenia maszynowego (ML) zdolnego przewidywać problemy ze sprzętem przed awarią. Nasze zespoły opracowały platformę do przetwarzania ponad 50 TB historycznych danych z czujników i przewidywania usterek z precyzją 91%. Możemy teraz powiadamiać dealerów o zbliżającej się awarii sprzętu, aby mogli zaplanować inspekcje i zminimalizować przestoje urządzenia. Struktura rozwiązania jest skalowalna w miarę instalowania większej ilości sprzętu i może być ponownie wykorzystywana do różnych dalszych zadań modelowania.

W tym poście pokazujemy, jak zespoły Carrier i AWS zastosowały ML do przewidywania usterek w dużych flotach sprzętu przy użyciu jednego modelu. Najpierw podkreślamy, jak używamy Klej AWS do wysoce równoległego przetwarzania danych. Następnie omówimy, jak Amazon Sage Maker pomaga nam w inżynierii funkcji i budowaniu skalowalnego nadzorowanego modelu głębokiego uczenia się.

Omówienie przypadków użycia, celów i zagrożeń

Głównym celem tego projektu jest ograniczenie przestojów poprzez przewidywanie zbliżających się awarii sprzętu i powiadamianie dealerów. Umożliwia to dealerom proaktywne planowanie konserwacji i zapewnianie wyjątkowej obsługi klienta. Pracując nad tym rozwiązaniem stanęliśmy przed trzema głównymi wyzwaniami:

  • Skalowalność danych – Przetwarzanie danych i ekstrakcja funkcji muszą być skalowane w oparciu o duże, rosnące dane historyczne z czujników
  • Skalowalność modelu – Podejście polegające na modelowaniu musi umożliwiać skalowanie w zakresie ponad 10,000 XNUMX jednostek
  • Precyzja modelu – Aby uniknąć niepotrzebnych przeglądów konserwacyjnych, potrzebny jest niski odsetek fałszywych alarmów

Skalowalność, zarówno z punktu widzenia danych, jak i modelowania, jest kluczowym wymaganiem dla tego rozwiązania. Mamy ponad 50 TB historycznych danych o sprzęcie i spodziewamy się, że dane te będą szybko rosły w miarę podłączania większej liczby urządzeń HVAC do chmury. Przetwarzanie danych i wnioskowanie o modelach należy skalować w miarę wzrostu ilości danych. Aby nasze podejście do modelowania można było skalować na ponad 10,000 XNUMX jednostek, potrzebujemy modelu, który będzie w stanie uczyć się na podstawie floty sprzętu, a nie polegać na anomalnych odczytach dla pojedynczej jednostki. Umożliwi to uogólnienie między jednostkami i obniży koszty wnioskowania poprzez hostowanie pojedynczego modelu.

Innym problemem związanym z tym przypadkiem użycia jest wywoływanie fałszywych alarmów. Oznacza to, że sprzedawca lub technik uda się na miejsce, aby sprawdzić sprzęt klienta i sprawdzić, czy wszystko działa prawidłowo. Rozwiązanie wymaga modelu o wysokiej precyzji, który zagwarantuje, że w przypadku powiadomienia sprzedawcy istnieje ryzyko, że sprzęt ulegnie awarii. Pomaga to zdobyć zaufanie dealerów, techników i właścicieli domów oraz zmniejsza koszty związane z niepotrzebnymi inspekcjami na miejscu.

Nawiązaliśmy współpracę z ekspertami AI/ML w Amazon ML Solutions Lab w ramach 14-tygodniowego projektu rozwojowego. Ostatecznie nasze rozwiązanie składa się z dwóch podstawowych komponentów. Pierwszy to moduł przetwarzania danych zbudowany przy użyciu kleju AWS, który podsumowuje zachowanie sprzętu i zmniejsza rozmiar naszych danych szkoleniowych w celu wydajnego przetwarzania na późniejszym etapie. Drugi to interfejs uczenia modelu zarządzany przez SageMaker, który pozwala nam trenować, dostrajać i oceniać nasz model przed jego wdrożeniem w produkcyjnym punkcie końcowym.

Przetwarzanie danych

Każda instalowana przez nas jednostka HVAC generuje dane z 90 różnych czujników wraz z odczytami prędkości obrotowej, temperatury i ciśnienia w całym systemie. Oznacza to około 8 milionów punktów danych generowanych dziennie na jednostkę, przy zainstalowanych dziesiątkach tysięcy jednostek. W miarę jak coraz więcej systemów HVAC jest podłączonych do chmury, przewidujemy, że ilość danych będzie szybko rosła, przez co zarządzanie ich rozmiarem i złożonością w celu wykorzystania w dalszych zadaniach będzie dla nas niezwykle istotne. Długość historii danych z czujników również stanowi wyzwanie w modelowaniu. Jednostka może zacząć wykazywać oznaki zbliżającej się awarii na kilka miesięcy przed faktycznym wystąpieniem usterki. Powoduje to znaczne opóźnienie pomiędzy sygnałem przewidywanym a rzeczywistą awarią. Metoda kompresji długości danych wejściowych staje się krytyczna dla modelowania ML.

Aby uwzględnić rozmiar i złożoność danych czujnika, kompresujemy je do postaci cykli, jak pokazano na rysunku 1. To radykalnie zmniejsza rozmiar danych, jednocześnie przechwytując cechy charakteryzujące zachowanie sprzętu.

Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Rysunek 1: Próbka danych z czujnika HVAC

AWS Glue to bezserwerowa usługa integracji danych służąca do przetwarzania dużych ilości danych na dużą skalę. AWS Glue umożliwił nam łatwe równoległe przetwarzanie wstępne danych i ekstrakcję cech. Użyliśmy kleju AWS do wykrywania cykli i podsumowywania zachowania jednostek przy użyciu kluczowych funkcji zidentyfikowanych przez nasz zespół inżynierów. To radykalnie zmniejszyło rozmiar naszego zbioru danych z ponad 8 milionów punktów danych dziennie na jednostkę do około 1,200. Co najważniejsze, podejście to pozwala zachować informacje predykcyjne o zachowaniu jednostki przy znacznie mniejszym zużyciu danych.

Dane wyjściowe zadania klejenia AWS to podsumowanie zachowania jednostki w każdym cyklu. Następnie używamy Przetwarzanie Amazon SageMaker zadaniem jest obliczenie funkcji w cyklach i oznaczenie naszych danych. Formułujemy problem ML jako zadanie klasyfikacji binarnej, którego celem jest przewidywanie usterek sprzętu w ciągu najbliższych 60 dni. Dzięki temu nasza sieć dealerów może w odpowiednim czasie reagować na potencjalne awarie sprzętu. Należy pamiętać, że nie wszystkie jednostki ulegają awarii w ciągu 60 dni. Jednostka doświadczająca powolnego spadku wydajności może potrzebować więcej czasu na awarię. Zajmujemy się tym na etapie oceny modelu. W naszych modelach skupiliśmy się na okresie letnim, ponieważ w tych miesiącach większość systemów HVAC w USA działa nieprzerwanie i w bardziej ekstremalnych warunkach.

Modelowanie

Architektury transformatorów stały się najnowocześniejszym podejściem do przetwarzania danych tymczasowych. Mogą wykorzystywać długie sekwencje danych historycznych na każdym etapie bez ryzyka zanikania gradientów. Dane wejściowe do naszego modelu w danym momencie składają się z cech z poprzednich 128 cykli sprzętu, co odpowiada w przybliżeniu jednemu tydzieńowi pracy jednostki. Jest on przetwarzany przez trójwarstwowy koder, którego sygnał wyjściowy jest uśredniany i wprowadzany do klasyfikatora wielowarstwowego perceptronu (MLP). Klasyfikator MLP składa się z trzech warstw liniowych z funkcjami aktywacji ReLU i warstwy końcowej z aktywacją LogSoftMax. W naszej funkcji straty używamy ważonej ujemnej straty logarytmicznej wiarygodności z inną wagą klasy dodatniej. To skłania nasz model do dużej precyzji i pozwala uniknąć kosztownych fałszywych alarmów. Uwzględnia także nasze cele biznesowe bezpośrednio w procesie szkolenia modeli. Rysunek 2 ilustruje architekturę transformatora.

Architektura transformatora

Rysunek 2: Tymczasowa architektura transformatora

Trening

Jednym z wyzwań podczas szkolenia tego tymczasowego modelu uczenia się jest brak równowagi danych. Niektóre jednostki mają dłuższą historię operacyjną niż inne i dlatego mają więcej cykli w naszym zbiorze danych. Ponieważ są one nadreprezentowane w zbiorze danych, jednostki te będą miały większy wpływ na nasz model. Rozwiązujemy ten problem poprzez losowe próbkowanie 100 cykli w historii jednostki i oceniamy prawdopodobieństwo awarii w tym momencie. Dzięki temu każda jednostka będzie jednakowo reprezentowana podczas procesu szkoleniowego. Eliminując problem niezrównoważonych danych, podejście to ma dodatkową zaletę polegającą na replikowaniu podejścia do przetwarzania wsadowego, które będzie stosowane w produkcji. To podejście do pobierania próbek zastosowano do zbiorów szkoleniowych, walidacyjnych i testowych.

Szkolenie przeprowadzono przy użyciu instancji akcelerowanej przez GPU w SageMaker. Monitorowanie straty pokazuje, że najlepsze wyniki osiąga ona po 180 epokach treningowych, jak pokazano na rysunku 3. Rysunek 4 pokazuje, że pole pod krzywą ROC dla wynikowego modelu klasyfikacji czasowej wynosi 81%.

Krzywa treningowa

Rysunek 3: Straty szkoleniowe na przestrzeni epok

Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Rysunek 4: ROC-AUC dla 60-dniowej blokady

Ocena

Podczas gdy nasz model jest szkolony na poziomie cyklu, ocena musi odbywać się na poziomie jednostki. W ten sposób jedna jednostka z wieloma prawdziwie pozytywnymi wykryciami jest nadal liczona tylko jako jedna prawdziwie dodatnia liczba na poziomie jednostki. W tym celu analizujemy nakładanie się przewidywanych wyników i 60-dniowego okna poprzedzającego usterkę. Ilustruje to poniższy rysunek, który przedstawia cztery przypadki przewidywania wyników:

  • Prawdziwy negatyw – Wszystkie wyniki prognoz są negatywne (fioletowe) (Rysunek 5)
  • Fałszywie pozytywne – Pozytywne prognozy to fałszywe alarmy (Rysunek 6)
  • Fałszywie negatywny – Chociaż wszystkie przewidywania są negatywne, rzeczywiste etykiety mogą być pozytywne (zielone) (Rysunek 7)
  • Prawdziwie pozytywne – Niektóre prognozy mogą być negatywne (kolor zielony), a co najmniej jedna prognoza jest pozytywna (kolor żółty) (Rysunek 8)
Prawdziwie negatywny

Rysunek 5.1: Prawdziwie negatywny przypadek

fałszywie dodatnich

Rysunek 5.2: Przypadek fałszywie pozytywny

Fałszywie negatywny

Rysunek 5.3: Przypadek fałszywie negatywny

Prawdziwie pozytywne

Rysunek 5.4: Prawdziwie pozytywny przypadek

Po szkoleniu używamy zestawu ewaluacyjnego do dostrojenia progu wysyłania alertu. Ustawienie progu ufności modelu na 0.99 daje dokładność na poziomie około 81%. To nie spełnia naszego początkowego kryterium sukcesu wynoszącego 90%. Odkryliśmy jednak, że znaczna część jednostek uległa awarii tuż po 60-dniowym okresie oceny. Ma to sens, ponieważ jednostka może aktywnie wykazywać nieprawidłowe zachowanie, ale awaria może trwać dłużej niż 60 dni. Aby sobie z tym poradzić, zdefiniowaliśmy metrykę zwaną efektywna precyzja, co stanowi połączenie prawdziwej dodatniej precyzji (81%) z dodatkową precyzją blokad, które wystąpiły w ciągu 30 dni poza naszym docelowym oknem 60-dniowym.

Dla dealera HVAC najważniejsze jest to, że inspekcja na miejscu pomaga zapobiec przyszłym problemom z HVAC. Korzystając z tego modelu, szacujemy, że w 81.2% przypadków inspekcja zapobiegnie wystąpieniu lokautu w ciągu najbliższych 60 dni. Ponadto w 10.4% przypadków blokada miałaby miejsce w ciągu 90 dni od inspekcji. Pozostałe 8.4% będzie alarmem fałszywym. Efektywna precyzja wytrenowanego modelu wynosi 91.6%.

Wnioski

W tym poście pokazaliśmy, jak nasz zespół wykorzystał AWS Glue i SageMaker do stworzenia skalowalnego rozwiązania do nadzorowanego uczenia się na potrzeby konserwacji predykcyjnej. Nasz model jest w stanie wychwytywać trendy w długoterminowej historii danych z czujników i dokładnie wykrywać setki awarii sprzętu z tygodniowym wyprzedzeniem. Przewidywanie usterek z wyprzedzeniem skróci czas od jednego krawężnika do krawężnika, umożliwiając naszym dealerom świadczenie pomocy technicznej w krótszym czasie i poprawiając ogólne doświadczenie klienta. Skutki tego podejścia będą z biegiem czasu coraz większe, w miarę instalowania co roku większej liczby jednostek HVAC podłączonych do chmury.

Naszym następnym krokiem jest zintegrowanie tych spostrzeżeń z nadchodzącą wersją portalu Connected Dealer Portal firmy Carrier. Portal łączy te prognostyczne alerty z innymi spostrzeżeniami, które uzyskujemy z naszego jeziora danych opartego na AWS, aby zapewnić naszym dealerom większą przejrzystość stanu sprzętu w całej bazie klientów. Będziemy nadal udoskonalać nasz model, integrując dane z dodatkowych źródeł i wydobywając bardziej zaawansowane funkcje z danych z naszych czujników. Metody zastosowane w tym projekcie stanowią dla naszego zespołu solidną podstawę do rozpoczęcia odpowiadania na inne kluczowe pytania, które mogą pomóc nam zmniejszyć roszczenia gwarancyjne i poprawić wydajność sprzętu w terenie.

Jeśli potrzebujesz pomocy w przyspieszeniu stosowania ML w swoich produktach i usługach, skontaktuj się z Laboratorium rozwiązań Amazon ML. Więcej informacji na temat usług wykorzystanych w tym projekcie można znaleźć na stronie Przewodnik programisty kleju AWS oraz Przewodnik dla programistów Amazon SageMaker.


O autorach

Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Raviego Patankara jest liderem technicznym w zakresie analiz związanych z IoT w dziale HVAC dla budynków mieszkalnych firmy Carrier. Formułuje problemy analityczne związane z diagnostyką i prognostyką oraz wyznacza kierunki dla rozwiązań i architektury analitycznej opartej na ML/deep learning.

Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Dana Volka jest analitykiem danych w Centrum Innowacji AWS Generative AI. Ma dziesięcioletnie doświadczenie w uczeniu maszynowym, głębokim uczeniu się i analizie szeregów czasowych oraz posiada tytuł magistra w dziedzinie analityki danych na Uniwersytecie Kalifornijskim w Berkeley. Jego pasją jest przekształcanie złożonych wyzwań biznesowych w możliwości poprzez wykorzystanie najnowocześniejszych technologii AI.

Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Yingwei Yu jest naukowcem stosowanym w Centrum Innowacji AWS Generative AI. Ma doświadczenie w pracy z kilkoma organizacjami z różnych branż nad różnymi weryfikacjami koncepcji w uczeniu maszynowym, w tym NLP, analizie szeregów czasowych i technologiach generatywnej sztucznej inteligencji. Yingwei uzyskał stopień doktora informatyki na Uniwersytecie Texas A&M.

Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Yanxiang Yu jest naukowcem stosowanym w Amazon Web Services i pracuje nad Centrum Innowacji Generative AI. Dzięki ponad 8-letniemu doświadczeniu w budowaniu modeli sztucznej inteligencji i uczenia maszynowego do zastosowań przemysłowych specjalizuje się w generatywnej sztucznej inteligencji, wizji komputerowej i modelowaniu szeregów czasowych. Jego praca koncentruje się na znalezieniu innowacyjnych sposobów zastosowania zaawansowanych technik generatywnych do problemów świata rzeczywistego.

Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Diego Socolinsky’ego jest starszym menedżerem ds. nauk stosowanych w Centrum Innowacji AWS Generative AI, gdzie kieruje zespołem dostaw dla regionów wschodnich Stanów Zjednoczonych i Ameryki Łacińskiej. Ma ponad dwudziestoletnie doświadczenie w uczeniu maszynowym i wizji komputerowej oraz posiada stopień doktora matematyki na Uniwersytecie Johnsa Hopkinsa.

Jak Carrier przewiduje awarie HVAC przy użyciu AWS Glue i Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.Kexina Dinga jest doktorantem piątego roku. kandydat na informatykę na UNC-Charlotte. Jej badania koncentrują się na zastosowaniu metod głębokiego uczenia się do analizy danych multimodalnych, w tym obrazu medycznego i danych sekwencjonowania genomicznego.

Znak czasu:

Więcej z Uczenie maszynowe AWS