Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon

Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon

Nói theo cách riêng của họ, “Năm 1902, Willis Carrier đã giải quyết một trong những thách thức khó nắm bắt nhất của nhân loại trong việc kiểm soát môi trường trong nhà thông qua điều hòa không khí hiện đại. Ngày nay, các sản phẩm của Carrier tạo ra môi trường thoải mái, bảo vệ nguồn cung cấp thực phẩm toàn cầu và cho phép vận chuyển an toàn các vật tư y tế quan trọng trong những điều kiện khắt khe.”

At Carrier, nền tảng thành công của chúng tôi là tạo ra những sản phẩm mà khách hàng có thể tin tưởng để giúp họ luôn thoải mái và an toàn quanh năm. Độ tin cậy cao và thời gian ngừng hoạt động của thiết bị thấp ngày càng quan trọng khi nhiệt độ khắc nghiệt ngày càng trở nên phổ biến do biến đổi khí hậu. Trước đây, chúng tôi dựa vào các hệ thống dựa trên ngưỡng để cảnh báo chúng tôi về hành vi bất thường của thiết bị, sử dụng các thông số do nhóm kỹ thuật của chúng tôi xác định. Mặc dù các hệ thống như vậy có hiệu quả nhưng chúng nhằm mục đích xác định và chẩn đoán các sự cố của thiết bị hơn là dự đoán chúng. Dự đoán lỗi trước khi chúng xảy ra cho phép các đại lý HVAC của chúng tôi chủ động giải quyết các vấn đề và cải thiện trải nghiệm của khách hàng.

Để cải thiện độ tin cậy của thiết bị, chúng tôi đã hợp tác với Phòng thí nghiệm Giải pháp Máy học của Amazon để phát triển mô hình học máy (ML) tùy chỉnh có khả năng dự đoán các sự cố của thiết bị trước khi xảy ra lỗi. Nhóm của chúng tôi đã phát triển một khung xử lý hơn 50 TB dữ liệu cảm biến lịch sử và dự đoán lỗi với độ chính xác 91%. Giờ đây, chúng tôi có thể thông báo cho các đại lý về lỗi thiết bị sắp xảy ra để họ có thể lên lịch kiểm tra và giảm thiểu thời gian ngừng hoạt động của thiết bị. Khung giải pháp có thể mở rộng khi có nhiều thiết bị được lắp đặt hơn và có thể được tái sử dụng cho nhiều nhiệm vụ lập mô hình tiếp theo.

Trong bài đăng này, chúng tôi trình bày cách các nhóm Carrier và AWS áp dụng ML để dự đoán lỗi trên các nhóm thiết bị lớn bằng một mô hình duy nhất. Đầu tiên chúng tôi nhấn mạnh cách chúng tôi sử dụng Keo AWS để xử lý dữ liệu song song cao. Sau đó chúng tôi thảo luận về cách Amazon SageMaker giúp chúng tôi về kỹ thuật tính năng và xây dựng mô hình học sâu có giám sát có thể mở rộng.

Tổng quan về trường hợp sử dụng, mục tiêu và rủi ro

Mục tiêu chính của dự án này là giảm thời gian ngừng hoạt động bằng cách dự đoán các lỗi thiết bị sắp xảy ra và thông báo cho các đại lý. Điều này cho phép các đại lý lên lịch bảo trì một cách chủ động và cung cấp dịch vụ khách hàng đặc biệt. Chúng tôi phải đối mặt với ba thách thức chính khi thực hiện giải pháp này:

  • Khả năng mở rộng dữ liệu – Xử lý dữ liệu và trích xuất tính năng cần mở rộng quy mô dữ liệu cảm biến lịch sử đang phát triển lớn
  • Khả năng mở rộng mô hình – Phương pháp mô hình hóa cần có khả năng mở rộng trên 10,000 đơn vị
  • Độ chính xác của mô hình – Cần có tỷ lệ dương tính giả thấp để tránh việc kiểm tra bảo trì không cần thiết

Khả năng mở rộng, cả từ góc độ dữ liệu và mô hình hóa, là yêu cầu chính cho giải pháp này. Chúng tôi có hơn 50 TB dữ liệu lịch sử về thiết bị và hy vọng dữ liệu này sẽ tăng nhanh khi có nhiều thiết bị HVAC được kết nối với đám mây hơn. Việc xử lý dữ liệu và suy luận mô hình cần phải mở rộng quy mô khi dữ liệu của chúng tôi phát triển. Để phương pháp lập mô hình của chúng tôi có thể mở rộng trên 10,000 đơn vị, chúng tôi cần một mô hình có thể học hỏi từ một nhóm thiết bị thay vì dựa vào các chỉ số bất thường cho một đơn vị. Điều này sẽ cho phép khái quát hóa giữa các đơn vị và giảm chi phí suy luận bằng cách lưu trữ một mô hình duy nhất.

Mối quan tâm khác đối với trường hợp sử dụng này là gây ra cảnh báo sai. Điều này có nghĩa là đại lý hoặc kỹ thuật viên sẽ đến tận nơi để kiểm tra thiết bị của khách hàng và tìm mọi thứ có hoạt động bình thường hay không. Giải pháp yêu cầu mô hình có độ chính xác cao để đảm bảo rằng khi đại lý được cảnh báo thì thiết bị có khả năng bị lỗi. Điều này giúp giành được sự tin tưởng của các đại lý, kỹ thuật viên cũng như chủ nhà và giảm chi phí liên quan đến việc kiểm tra tại chỗ không cần thiết.

Chúng tôi hợp tác với các chuyên gia AI/ML tại Phòng thí nghiệm Giải pháp Máy học Amazon trong nỗ lực phát triển kéo dài 14 tuần. Cuối cùng, giải pháp của chúng tôi bao gồm hai thành phần chính. Đầu tiên là mô-đun xử lý dữ liệu được xây dựng bằng AWS Glue để tóm tắt hoạt động của thiết bị và giảm kích thước dữ liệu đào tạo của chúng tôi để xử lý tiếp theo một cách hiệu quả. Thứ hai là giao diện đào tạo mô hình được quản lý thông qua SageMaker, cho phép chúng tôi đào tạo, điều chỉnh và đánh giá mô hình của mình trước khi triển khai đến điểm cuối sản xuất.

Xử lí dữ liệu

Mỗi thiết bị HVAC mà chúng tôi lắp đặt tạo ra dữ liệu từ 90 cảm biến khác nhau với số đo RPM, nhiệt độ và áp suất trên toàn hệ thống. Con số này lên tới khoảng 8 triệu điểm dữ liệu được tạo ra trên mỗi đơn vị mỗi ngày, với hàng chục nghìn đơn vị được cài đặt. Khi ngày càng có nhiều hệ thống HVAC được kết nối với đám mây, chúng tôi dự đoán khối lượng dữ liệu sẽ tăng nhanh chóng, điều này khiến chúng tôi phải quản lý quy mô và độ phức tạp của dữ liệu để sử dụng trong các tác vụ tiếp theo. Độ dài của lịch sử dữ liệu cảm biến cũng là một thách thức đối với việc lập mô hình. Một thiết bị có thể bắt đầu hiển thị các dấu hiệu lỗi sắp xảy ra nhiều tháng trước khi lỗi thực sự được kích hoạt. Điều này tạo ra độ trễ đáng kể giữa tín hiệu dự đoán và lỗi thực tế. Phương pháp nén độ dài của dữ liệu đầu vào trở nên quan trọng đối với mô hình ML.

Để giải quyết kích thước và độ phức tạp của dữ liệu cảm biến, chúng tôi nén dữ liệu đó thành các đặc điểm chu trình như trong Hình 1. Điều này làm giảm đáng kể kích thước dữ liệu trong khi ghi lại các đặc điểm đặc trưng cho hoạt động của thiết bị.

Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Hình 1: Mẫu dữ liệu cảm biến HVAC

AWS Glue là dịch vụ tích hợp dữ liệu không có máy chủ để xử lý số lượng lớn dữ liệu trên quy mô lớn. AWS Glue cho phép chúng tôi dễ dàng chạy tính năng tiền xử lý dữ liệu và trích xuất tính năng song song. Chúng tôi đã sử dụng AWS Glue để phát hiện chu kỳ và tóm tắt hành vi của thiết bị bằng các tính năng chính được nhóm kỹ thuật của chúng tôi xác định. Điều này đã giảm đáng kể kích thước tập dữ liệu của chúng tôi từ hơn 8 triệu điểm dữ liệu mỗi ngày trên mỗi đơn vị xuống còn khoảng 1,200. Điều quan trọng là phương pháp này bảo toàn thông tin dự đoán về hành vi của đơn vị với lượng dữ liệu nhỏ hơn nhiều.

Đầu ra của tác vụ AWS Glue là bản tóm tắt hoạt động của thiết bị cho mỗi chu kỳ. Sau đó chúng tôi sử dụng một Chế biến Amazon SageMaker công việc tính toán các tính năng trong các chu kỳ và gắn nhãn cho dữ liệu của chúng tôi. Chúng tôi xây dựng bài toán ML dưới dạng nhiệm vụ phân loại nhị phân với mục tiêu dự đoán lỗi thiết bị trong 60 ngày tới. Điều này cho phép mạng lưới đại lý của chúng tôi giải quyết kịp thời các lỗi thiết bị tiềm ẩn. Điều quan trọng cần lưu ý là không phải tất cả các thiết bị đều hỏng trong vòng 60 ngày. Một thiết bị bị suy giảm hiệu suất chậm có thể mất nhiều thời gian hơn để thất bại. Chúng tôi giải quyết vấn đề này trong bước đánh giá mô hình. Chúng tôi tập trung lập mô hình vào mùa hè vì những tháng đó là thời điểm hầu hết các hệ thống HVAC ở Hoa Kỳ hoạt động ổn định và trong những điều kiện khắc nghiệt hơn.

Mô hình hóa

Kiến trúc máy biến áp đã trở thành phương pháp tiên tiến nhất để xử lý dữ liệu thời gian. Họ có thể sử dụng chuỗi dữ liệu lịch sử dài ở mỗi bước thời gian mà không bị biến đổi độ dốc. Đầu vào cho mô hình của chúng tôi tại một thời điểm nhất định bao gồm các tính năng của 128 chu kỳ thiết bị trước đó, tức là khoảng một tuần vận hành thiết bị. Điều này được xử lý bởi bộ mã hóa ba lớp có đầu ra được tính trung bình và đưa vào bộ phân loại perceptron (MLP) nhiều lớp. Trình phân loại MLP bao gồm ba lớp tuyến tính với các hàm kích hoạt ReLU và lớp cuối cùng có kích hoạt LogSoftMax. Chúng tôi sử dụng mức giảm khả năng ghi nhật ký âm có trọng số với trọng số khác trên lớp dương cho hàm mất mát của chúng tôi. Điều này làm cho mô hình của chúng tôi hướng tới độ chính xác cao và tránh được các cảnh báo sai gây tốn kém. Nó cũng kết hợp trực tiếp các mục tiêu kinh doanh của chúng tôi vào quá trình đào tạo mô hình. Hình 2 minh họa kiến ​​trúc máy biến áp.

Kiến trúc máy biến áp

Hình 2: Kiến trúc máy biến áp tạm thời

Hội thảo

Một thách thức khi đào tạo mô hình học tập tạm thời này là sự mất cân bằng dữ liệu. Một số đơn vị có lịch sử hoạt động lâu hơn những đơn vị khác và do đó có nhiều chu kỳ hơn trong tập dữ liệu của chúng tôi. Bởi vì chúng được thể hiện quá mức trong tập dữ liệu nên các đơn vị này sẽ có nhiều ảnh hưởng hơn đến mô hình của chúng tôi. Chúng tôi giải quyết vấn đề này bằng cách lấy mẫu ngẫu nhiên 100 chu kỳ trong lịch sử của một đơn vị trong đó chúng tôi đánh giá xác suất xảy ra lỗi tại thời điểm đó. Điều này đảm bảo rằng mỗi đơn vị được đại diện như nhau trong quá trình đào tạo. Trong khi loại bỏ vấn đề dữ liệu mất cân bằng, phương pháp này còn có thêm lợi ích là nhân rộng phương pháp xử lý hàng loạt sẽ được sử dụng trong sản xuất. Phương pháp lấy mẫu này được áp dụng cho các tập huấn luyện, xác nhận và kiểm tra.

Quá trình đào tạo được thực hiện bằng cách sử dụng phiên bản được tăng tốc GPU trên SageMaker. Việc theo dõi tổn thất cho thấy nó đạt được kết quả tốt nhất sau 180 kỷ nguyên đào tạo như trong Hình 3. Hình 4 cho thấy diện tích dưới đường cong ROC cho mô hình phân loại thời gian thu được là 81%.

Đường cong đào tạo

Hình 3: Suy giảm đào tạo qua các thời kỳ

Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Hình 4: ROC-AUC cho khóa 60 ngày

Đánh giá

Mặc dù mô hình của chúng tôi được đào tạo ở cấp độ chu trình nhưng việc đánh giá cần phải diễn ra ở cấp độ đơn vị. Theo cách này, một đơn vị có nhiều lần phát hiện dương tính thực sự vẫn chỉ được tính là một kết quả dương tính thực sự duy nhất ở cấp đơn vị. Để làm điều này, chúng tôi phân tích sự trùng lặp giữa kết quả dự đoán và khoảng thời gian 60 ngày trước khi xảy ra lỗi. Điều này được minh họa trong hình dưới đây, cho thấy bốn trường hợp dự đoán kết quả:

  • Âm tính thật – Tất cả các kết quả dự đoán đều âm tính (màu tím) (Hình 5)
  • Dương tính giả – Những dự đoán tích cực là báo động sai (Hình 6)
  • Sai âm – Mặc dù các dự đoán đều là âm nhưng nhãn thực tế có thể là dương (màu xanh lá cây) (Hình 7)
  • Đúng tích cực – Một số dự đoán có thể là tiêu cực (màu xanh lá cây) và ít nhất một dự đoán là tích cực (màu vàng) (Hình 8)
Phủ định thực sự

Hình 5.1: Trường hợp âm tính thực

sai tích cực

Hình 5.2: Trường hợp dương tính giả

Phủ định sai

Hình 5.3: Trường hợp âm tính giả

Tích cực thực sự

Hình 5.4: Trường hợp dương tính thật

Sau khi đào tạo, chúng tôi sử dụng bộ đánh giá để điều chỉnh ngưỡng gửi cảnh báo. Đặt ngưỡng tin cậy của mô hình ở mức 0.99 mang lại độ chính xác khoảng 81%. Điều này không đạt được tiêu chí thành công 90% ban đầu của chúng tôi. Tuy nhiên, chúng tôi nhận thấy rằng một phần lớn các thiết bị đã thất bại ngay ngoài thời hạn đánh giá 60 ngày. Điều này hợp lý vì một thiết bị có thể chủ động hiển thị hành vi bị lỗi nhưng phải mất hơn 60 ngày mới hỏng. Để xử lý vấn đề này, chúng tôi đã xác định một số liệu gọi là độ chính xác hiệu quả, là sự kết hợp giữa độ chính xác dương thực sự (81%) với độ chính xác bổ sung của việc khóa xảy ra trong 30 ngày ngoài khung thời gian 60 ngày mục tiêu của chúng tôi.

Đối với đại lý HVAC, điều quan trọng nhất là việc kiểm tra tại chỗ giúp ngăn ngừa các sự cố HVAC trong tương lai cho khách hàng. Khi sử dụng mô hình này, chúng tôi ước tính rằng 81.2% thời gian kiểm tra sẽ ngăn chặn tình trạng khóa máy xảy ra trong 60 ngày tới. Ngoài ra, 10.4% trường hợp khóa máy sẽ xảy ra trong vòng 90 ngày kể từ ngày kiểm tra. 8.4% còn lại sẽ là báo động giả. Độ chính xác hiệu quả của mô hình được huấn luyện là 91.6%.

Kết luận

Trong bài đăng này, chúng tôi đã trình bày cách nhóm của chúng tôi sử dụng AWS Glue và SageMaker để tạo ra giải pháp học tập có giám sát có thể mở rộng nhằm bảo trì dự đoán. Mô hình của chúng tôi có khả năng nắm bắt các xu hướng trong lịch sử lâu dài của dữ liệu cảm biến và phát hiện chính xác hàng trăm lỗi thiết bị trước hàng tuần. Dự đoán trước lỗi sẽ giảm thời gian chờ đợi, cho phép các đại lý của chúng tôi cung cấp hỗ trợ kỹ thuật kịp thời hơn và cải thiện trải nghiệm tổng thể của khách hàng. Tác động của phương pháp này sẽ tăng lên theo thời gian khi ngày càng có nhiều thiết bị HVAC kết nối với đám mây được lắp đặt hàng năm.

Bước tiếp theo của chúng tôi là tích hợp những hiểu biết sâu sắc này vào bản phát hành sắp tới của Cổng thông tin đại lý được kết nối của Carrier. Cổng kết hợp những cảnh báo mang tính dự đoán này với những thông tin chi tiết khác mà chúng tôi thu được từ hồ dữ liệu dựa trên AWS để giúp đại lý của chúng tôi hiểu rõ hơn về tình trạng thiết bị trên toàn bộ cơ sở khách hàng của họ. Chúng tôi sẽ tiếp tục cải thiện mô hình của mình bằng cách tích hợp dữ liệu từ các nguồn bổ sung và trích xuất các tính năng nâng cao hơn từ dữ liệu cảm biến của chúng tôi. Các phương pháp được sử dụng trong dự án này cung cấp nền tảng vững chắc để nhóm của chúng tôi bắt đầu trả lời các câu hỏi quan trọng khác có thể giúp chúng tôi giảm yêu cầu bảo hành và cải thiện hiệu suất thiết bị tại hiện trường.

Nếu bạn muốn được trợ giúp đẩy nhanh việc sử dụng ML trong các sản phẩm và dịch vụ của mình, vui lòng liên hệ với Phòng thí nghiệm giải pháp Amazon ML. Để tìm hiểu thêm về các dịch vụ được sử dụng trong dự án này, hãy tham khảo Hướng dẫn dành cho nhà phát triển keo AWSHướng dẫn dành cho nhà phát triển Amazon SageMaker.


Về các tác giả

Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Ravi Patankar là người dẫn đầu kỹ thuật về phân tích liên quan đến IoT tại Đơn vị HVAC dân cư của Carrier. Ông xây dựng các vấn đề phân tích liên quan đến chẩn đoán và tiên lượng, đồng thời đưa ra định hướng cho kiến ​​trúc và giải pháp phân tích dựa trên ML/học sâu.

Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Dan Volk là Nhà khoa học dữ liệu tại Trung tâm đổi mới AI sáng tạo AWS. Anh có mười năm kinh nghiệm trong lĩnh vực học máy, học sâu và phân tích chuỗi thời gian, đồng thời có bằng Thạc sĩ Khoa học Dữ liệu của UC Berkeley. Anh đam mê biến những thách thức kinh doanh phức tạp thành cơ hội bằng cách tận dụng các công nghệ AI tiên tiến.

Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Yingwei Yu là Nhà khoa học ứng dụng tại Trung tâm đổi mới AI sáng tạo AWS. Anh ấy có kinh nghiệm làm việc với một số tổ chức trong các ngành về các bằng chứng khái niệm khác nhau trong học máy, bao gồm NLP, phân tích chuỗi thời gian và công nghệ AI tổng quát. Yingwei nhận bằng Tiến sĩ về khoa học máy tính tại Đại học Texas A&M.

Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Diên Hương Vũ là Nhà khoa học ứng dụng tại Amazon Web Services, làm việc tại Trung tâm đổi mới sáng tạo AI. Với hơn 8 năm kinh nghiệm xây dựng các mô hình AI và máy học cho các ứng dụng công nghiệp, anh ấy chuyên về AI tổng quát, thị giác máy tính và mô hình hóa chuỗi thời gian. Công việc của ông tập trung vào việc tìm ra những cách sáng tạo để áp dụng các kỹ thuật sáng tạo tiên tiến vào các vấn đề trong thế giới thực.

Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Diego Socolinsky là Giám đốc khoa học ứng dụng cấp cao của Trung tâm đổi mới AI sáng tạo AWS, nơi ông lãnh đạo nhóm phân phối cho khu vực Đông Hoa Kỳ và Mỹ Latinh. Ông có hơn XNUMX năm kinh nghiệm trong lĩnh vực học máy và thị giác máy tính, đồng thời có bằng Tiến sĩ toán học tại Đại học Johns Hopkins.

Cách Carrier dự đoán lỗi HVAC bằng AWS Glue và Amazon SageMaker | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.Kexin Đinh là bằng tiến sĩ năm thứ năm. ứng viên ngành khoa học máy tính tại UNC-Charlotte. Nghiên cứu của cô tập trung vào việc áp dụng các phương pháp học sâu để phân tích dữ liệu đa phương thức, bao gồm dữ liệu giải trình tự hình ảnh y tế và bộ gen.

Dấu thời gian:

Thêm từ Học máy AWS