Amazon SageMaker Canvas का उपयोग करके डेटा निर्माण में विसंगतियों का पता लगाएं

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

क्लाउड कंप्यूटिंग के उपयोग के साथ, बड़े डेटा और मशीन लर्निंग (एमएल) टूल जैसे अमेज़न एथेना or अमेज़न SageMaker निर्माण और रखरखाव में अधिक प्रयास के बिना ही ये किसी के लिए भी उपलब्ध और उपयोग योग्य हो गए हैं। औद्योगिक कंपनियां संचालन से लेकर पूर्वानुमानित रखरखाव या योजना बनाने तक अपने पूरे पोर्टफोलियो में संसाधन दक्षता बढ़ाने के लिए डेटा एनालिटिक्स और डेटा-संचालित निर्णय लेने पर ध्यान दे रही हैं।

आईटी में बदलाव की गति के कारण, पारंपरिक उद्योगों में ग्राहकों को कौशल की दुविधा का सामना करना पड़ रहा है। एक ओर, विश्लेषकों और डोमेन विशेषज्ञों को संबंधित डेटा और उसकी व्याख्या का बहुत गहरा ज्ञान है, फिर भी अक्सर डेटा विज्ञान टूलींग और पायथन जैसी उच्च-स्तरीय प्रोग्रामिंग भाषाओं के संपर्क में कमी होती है। दूसरी ओर, डेटा विज्ञान विशेषज्ञों के पास अक्सर मशीन डेटा सामग्री की व्याख्या करने और प्रासंगिक चीज़ों के लिए इसे फ़िल्टर करने का अनुभव नहीं होता है। यह दुविधा उन कुशल मॉडलों के निर्माण में बाधा डालती है जो व्यवसाय-प्रासंगिक अंतर्दृष्टि उत्पन्न करने के लिए डेटा का उपयोग करते हैं।

अमेज़ॅन सेजमेकर कैनवास पूर्वानुमान, वर्गीकरण या प्रतिगमन मॉडल जैसे शक्तिशाली विश्लेषण और एमएल मॉडल बनाने के लिए डोमेन विशेषज्ञों को एक नो-कोड इंटरफ़ेस प्रदान करके इस दुविधा का समाधान करता है। यह आपको निर्माण के बाद इन मॉडलों को एमएल और एमएलओपीएस विशेषज्ञों के साथ तैनात करने और साझा करने की भी अनुमति देता है।

इस पोस्ट में, हम आपको दिखाते हैं कि अपने डेटा में सही सुविधाओं को क्यूरेट करने और चुनने के लिए सेजमेकर कैनवस का उपयोग कैसे करें, और फिर मॉडल ट्यूनिंग के लिए सेजमेकर कैनवस की नो-कोड कार्यक्षमता का उपयोग करके विसंगति का पता लगाने के लिए एक भविष्यवाणी मॉडल को प्रशिक्षित करें।

विनिर्माण उद्योग के लिए विसंगति का पता लगाना

लेखन के समय, सेजमेकर कैनवस पूर्वानुमान, प्रतिगमन और वर्गीकरण जैसे विशिष्ट व्यावसायिक उपयोग के मामलों पर ध्यान केंद्रित करता है। इस पोस्ट के लिए, हम प्रदर्शित करते हैं कि कैसे ये क्षमताएं जटिल असामान्य डेटा बिंदुओं का पता लगाने में भी मदद कर सकती हैं। उदाहरण के लिए, औद्योगिक मशीनों की खराबी या असामान्य संचालन को इंगित करने के लिए यह उपयोग मामला प्रासंगिक है।

उद्योग क्षेत्र में विसंगति का पता लगाना महत्वपूर्ण है, क्योंकि मशीनें (ट्रेन से लेकर टर्बाइन तक) आम तौर पर बहुत विश्वसनीय होती हैं, जिनमें विफलताओं के बीच कई वर्षों का समय लगता है। इन मशीनों के अधिकांश डेटा, जैसे तापमान सेंसर रीडिंग या स्थिति संदेश, सामान्य संचालन का वर्णन करते हैं और निर्णय लेने के लिए सीमित मूल्य रखते हैं। किसी गलती के मूल कारणों की जांच करते समय या भविष्य की गलतियों के लिए चेतावनी संकेतक के रूप में इंजीनियर असामान्य डेटा की तलाश करते हैं, और प्रदर्शन प्रबंधक संभावित सुधारों की पहचान करने के लिए असामान्य डेटा की जांच करते हैं। इसलिए, डेटा-संचालित निर्णय लेने की दिशा में आगे बढ़ने का पहला कदम उस प्रासंगिक (असामान्य) डेटा को खोजने पर निर्भर करता है।

इस पोस्ट में, हम डेटा में सही सुविधाओं को क्यूरेट करने और चुनने के लिए सेजमेकर कैनवास का उपयोग करते हैं, और फिर मॉडल ट्यूनिंग के लिए सेजमेकर कैनवास नो-कोड कार्यक्षमता का उपयोग करके विसंगति का पता लगाने के लिए एक भविष्यवाणी मॉडल को प्रशिक्षित करते हैं। फिर हम मॉडल को सेजमेकर एंडपॉइंट के रूप में तैनात करते हैं।

समाधान अवलोकन

हमारे विसंगति का पता लगाने के उपयोग के मामले में, हम मशीन के सामान्य संचालन के लिए एक विशिष्ट विशेषता की भविष्यवाणी करने के लिए एक भविष्यवाणी मॉडल को प्रशिक्षित करते हैं, जैसे कि कार में संकेतित मोटर तापमान, कार में लागू गति और हालिया टॉर्क जैसी विशेषताओं को प्रभावित करने से। . माप के एक नए नमूने पर विसंगति का पता लगाने के लिए, हम विशेषता विशेषता के लिए मॉडल पूर्वानुमानों की तुलना प्रदान की गई टिप्पणियों से करते हैं।

कार मोटर के उदाहरण के लिए, एक डोमेन विशेषज्ञ सामान्य मोटर तापमान, हालिया मोटर टॉर्क, परिवेश तापमान और अन्य संभावित प्रभावित करने वाले कारकों का माप प्राप्त करता है। ये आपको अन्य विशेषताओं से तापमान की भविष्यवाणी करने के लिए एक मॉडल को प्रशिक्षित करने की अनुमति देते हैं। फिर हम नियमित आधार पर मोटर तापमान की भविष्यवाणी करने के लिए मॉडल का उपयोग कर सकते हैं। जब उस डेटा के लिए अनुमानित तापमान उस डेटा में देखे गए तापमान के समान होता है, तो मोटर सामान्य रूप से काम कर रही है; एक विसंगति एक विसंगति की ओर इशारा करेगी, जैसे शीतलन प्रणाली की विफलता या मोटर में खराबी।

निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।

प्रक्रिया का अवलोकन: सेजमेकर कैनवस में एक मॉडल बनाया जाता है, तैनात किया जाता है और फिर AWS लैम्ब्डा फनसिनो से एक्सेस किया जाता है।

समाधान में चार प्रमुख चरण शामिल हैं:

डोमेन विशेषज्ञ प्रारंभिक मॉडल बनाता है, जिसमें सेजमेकर कैनवस का उपयोग करके डेटा विश्लेषण और फीचर क्यूरेशन शामिल है।
डोमेन विशेषज्ञ के माध्यम से मॉडल साझा करता है अमेज़न सैजमेकर मॉडल रजिस्ट्री या इसे सीधे वास्तविक समय समापन बिंदु के रूप में तैनात करता है।
एक एमएलओपीएस विशेषज्ञ एक पूर्वानुमान से मॉडल आउटपुट को एक विसंगति संकेतक में अनुवादित करते हुए अनुमान बुनियादी ढांचे और कोड का निर्माण करता है। यह कोड आम तौर पर एक के अंदर चलता है AWS लाम्बा समारोह.
जब किसी एप्लिकेशन को किसी विसंगति का पता लगाने की आवश्यकता होती है, तो यह लैम्ब्डा फ़ंक्शन को कॉल करता है, जो अनुमान के लिए मॉडल का उपयोग करता है और प्रतिक्रिया प्रदान करता है (चाहे यह एक विसंगति है या नहीं)।

.. पूर्वापेक्षाएँ

इस पोस्ट का अनुसरण करने के लिए, आपको निम्नलिखित शर्तें पूरी करनी होंगी:

सेजमेकर का उपयोग करके मॉडल बनाएं

सेजमेकर कैनवस में एक रिग्रेशन मॉडल बनाने के लिए मॉडल निर्माण प्रक्रिया मानक चरणों का पालन करती है। अधिक जानकारी के लिए देखें अमेज़ॅन सेजमेकर कैनवास का उपयोग करने के साथ शुरुआत करना.

सबसे पहले, डोमेन विशेषज्ञ प्रासंगिक डेटा को सेजमेकर कैनवास में लोड करता है, जैसे माप की समय श्रृंखला। इस पोस्ट के लिए, हम एक सीएसवी फ़ाइल का उपयोग करते हैं जिसमें विद्युत मोटर के (कृत्रिम रूप से उत्पन्न) माप शामिल हैं। विवरण के लिए, देखें कैनवास में डेटा आयात करें. उपयोग किया गया नमूना डेटा डाउनलोड के लिए उपलब्ध है CSV.

सीएसवी की पहली पंक्तियों को दर्शाने वाला एक चित्र। इसके अलावा, त्वरित-पूर्वावलोकन मॉडल के लिए एक हिस्टोग्राम और बेंचमार्क मेट्रिक्स दिखाए जाते हैं।

सेजमेकर कैनवस के साथ डेटा क्यूरेट करें

डेटा लोड होने के बाद, डोमेन विशेषज्ञ अंतिम मॉडल में उपयोग किए गए डेटा को क्यूरेट करने के लिए सेजमेकर कैनवास का उपयोग कर सकता है। इसके लिए विशेषज्ञ उन स्तंभों का चयन करता है जिनमें संबंधित समस्या के लिए विशिष्ट माप होते हैं। अधिक सटीक रूप से, विशेषज्ञ उन स्तंभों का चयन करता है जो एक-दूसरे से संबंधित होते हैं, उदाहरण के लिए, दबाव-तापमान वक्र जैसे भौतिक संबंध द्वारा, और जहां उस रिश्ते में बदलाव उनके उपयोग के मामले के लिए एक प्रासंगिक विसंगति है। विसंगति का पता लगाने वाला मॉडल चयनित स्तंभों के बीच सामान्य संबंध सीखेगा और इंगित करेगा कि डेटा इसके अनुरूप नहीं है, जैसे मोटर पर वर्तमान भार को देखते हुए असामान्य रूप से उच्च मोटर तापमान।

व्यवहार में, डोमेन विशेषज्ञ को उपयुक्त इनपुट कॉलम और एक लक्ष्य कॉलम का एक सेट चुनने की आवश्यकता होती है। इनपुट आम तौर पर मात्राओं (संख्यात्मक या श्रेणीबद्ध) का संग्रह होता है जो मांग सेटिंग्स से लेकर लोड, गति या परिवेश के तापमान तक मशीन के व्यवहार को निर्धारित करता है। आउटपुट आम तौर पर एक संख्यात्मक मात्रा होती है जो मशीन के संचालन के प्रदर्शन को इंगित करती है, जैसे कि ऊर्जा अपव्यय को मापने वाला तापमान या मशीन के उप-इष्टतम परिस्थितियों में चलने पर कोई अन्य प्रदर्शन मीट्रिक बदलना।

इनपुट और आउटपुट के लिए किन मात्राओं का चयन करना है, इसकी अवधारणा को स्पष्ट करने के लिए, आइए कुछ उदाहरणों पर विचार करें:

घूमने वाले उपकरणों के लिए, जैसे कि इस पोस्ट में हम जो मॉडल बनाते हैं, विशिष्ट इनपुट रोटेशन की गति, टॉर्क (वर्तमान और इतिहास), और परिवेश का तापमान हैं, और लक्ष्य परिणामी असर या मोटर तापमान हैं जो रोटेशन की अच्छी परिचालन स्थितियों का संकेत देते हैं।
पवन टरबाइन के लिए, विशिष्ट इनपुट हवा की गति और रोटर ब्लेड सेटिंग्स का वर्तमान और हालिया इतिहास है, और लक्ष्य मात्रा उत्पादित शक्ति या घूर्णी गति है
एक रासायनिक प्रक्रिया के लिए, विशिष्ट इनपुट विभिन्न अवयवों का प्रतिशत और परिवेश का तापमान होते हैं, और लक्ष्य उत्पादित गर्मी या अंतिम उत्पाद की चिपचिपाहट होते हैं।
स्लाइडिंग दरवाजे जैसे चलती उपकरणों के लिए, विशिष्ट इनपुट मोटरों के लिए पावर इनपुट हैं, और लक्ष्य मान गति या आंदोलन के पूरा होने का समय है
एचवीएसी प्रणाली के लिए, विशिष्ट इनपुट प्राप्त तापमान अंतर और लोड सेटिंग्स हैं, और लक्ष्य मात्रा मापी गई ऊर्जा खपत है

अंततः, किसी दिए गए उपकरण के लिए सही इनपुट और लक्ष्य उपयोग के मामले और पता लगाने के लिए असामान्य व्यवहार पर निर्भर होंगे, और यह एक डोमेन विशेषज्ञ के लिए सबसे अच्छी तरह से जाना जाता है जो विशिष्ट डेटासेट की जटिलताओं से परिचित है।

ज्यादातर मामलों में, उपयुक्त इनपुट और लक्ष्य मात्रा का चयन करने का मतलब केवल सही कॉलम का चयन करना और लक्ष्य कॉलम को चिह्नित करना है (इस उदाहरण के लिए, bearing_temperature). हालाँकि, एक डोमेन विशेषज्ञ कॉलम को बदलने और डेटा को परिष्कृत या एकत्रित करने के लिए सेजमेकर कैनवस की नो-कोड सुविधाओं का भी उपयोग कर सकता है। उदाहरण के लिए, आप उस डेटा से विशिष्ट दिनांक या टाइमस्टैम्प निकाल या फ़िल्टर कर सकते हैं जो प्रासंगिक नहीं हैं। सेजमेकर कैनवस इस प्रक्रिया का समर्थन करता है, चयनित मात्राओं पर आंकड़े दिखाता है, जिससे आप यह समझ सकते हैं कि क्या किसी मात्रा में आउटलेयर और प्रसार है जो मॉडल के परिणामों को प्रभावित कर सकता है।

मॉडल को प्रशिक्षित करें, ट्यून करें और उसका मूल्यांकन करें

डोमेन विशेषज्ञ द्वारा डेटासेट में उपयुक्त कॉलम का चयन करने के बाद, वे इनपुट और आउटपुट के बीच संबंध जानने के लिए मॉडल को प्रशिक्षित कर सकते हैं। अधिक सटीक रूप से, मॉडल इनपुट से चयनित लक्ष्य मान की भविष्यवाणी करना सीखेगा।

आम तौर पर, आप सेजमेकर कैनवास का उपयोग कर सकते हैं मॉडल पूर्वावलोकन विकल्प। यह अपेक्षित मॉडल गुणवत्ता का त्वरित संकेत प्रदान करता है, और आपको आउटपुट मीट्रिक पर विभिन्न इनपुट के प्रभाव की जांच करने की अनुमति देता है। उदाहरण के लिए, निम्नलिखित स्क्रीनशॉट में, मॉडल सबसे अधिक प्रभावित है motor_speed और ambient_temperature भविष्यवाणी करते समय मेट्रिक्स bearing_temperature. यह तर्कसंगत है, क्योंकि ये तापमान आपस में घनिष्ठ रूप से संबंधित हैं। साथ ही, अतिरिक्त घर्षण या ऊर्जा हानि के अन्य साधनों से इस पर असर पड़ने की संभावना है।

मॉडल की गुणवत्ता के लिए, मॉडल का आरएमएसई एक संकेतक है कि मॉडल प्रशिक्षण डेटा में सामान्य व्यवहार को सीखने और इनपुट और आउटपुट उपायों के बीच संबंधों को पुन: पेश करने में कितना सक्षम था। उदाहरण के लिए, निम्नलिखित मॉडल में, मॉडल को सही भविष्यवाणी करने में सक्षम होना चाहिए motor_bearing तापमान 3.67 डिग्री सेल्सियस के भीतर है, इसलिए हम एक मॉडल भविष्यवाणी से वास्तविक तापमान के विचलन पर विचार कर सकते हैं जो उदाहरण के लिए 7.4 डिग्री से बड़ा है। हालाँकि, आपके द्वारा उपयोग की जाने वाली वास्तविक सीमा परिनियोजन परिदृश्य में आवश्यक संवेदनशीलता पर निर्भर करेगी।

वास्तविक और अनुमानित मोटर गति दिखाने वाला ग्राफ़। रिश्ता कुछ शोर के साथ रैखिक है।

अंत में, मॉडल मूल्यांकन और ट्यूनिंग समाप्त होने के बाद, आप संपूर्ण मॉडल प्रशिक्षण शुरू कर सकते हैं जो अनुमान के लिए उपयोग करने के लिए मॉडल तैयार करेगा।

मॉडल तैनात करें

हालाँकि सेजमेकर कैनवस अनुमान के लिए एक मॉडल का उपयोग कर सकता है, विसंगति का पता लगाने के लिए उत्पादक तैनाती के लिए आपको सेजमेकर कैनवस के बाहर मॉडल को तैनात करने की आवश्यकता होती है। अधिक सटीक रूप से, हमें मॉडल को समापन बिंदु के रूप में तैनात करने की आवश्यकता है।

इस पोस्ट में और सरलता के लिए, हम मॉडल को सीधे सेजमेकर कैनवस से समापन बिंदु के रूप में तैनात करते हैं। निर्देशों के लिए, देखें अपने मॉडलों को एक समापन बिंदु पर तैनात करें. परिनियोजन नाम पर ध्यान देना सुनिश्चित करें और आपके द्वारा परिनियोजन किए गए इंस्टेंस प्रकार के मूल्य निर्धारण पर विचार करें (इस पोस्ट के लिए, हम ml.m5.large का उपयोग करते हैं)। इसके बाद सेजमेकर कैनवस एक मॉडल एंडपॉइंट बनाएगा जिसे भविष्यवाणियां प्राप्त करने के लिए बुलाया जा सकता है।

मॉडल परिनियोजन की कॉन्फ़िगरेशन दिखाने वाली एक ऐपिकेशन विंडो। दिखाई गई सेटिंग्स एक मशीन आकार ml.m5.large और नमूना-विसंगति-मॉडल का परिनियोजन नाम हैं।

औद्योगिक सेटिंग में, किसी मॉडल को तैनात करने से पहले उसे पूरी तरह से परीक्षण से गुजरना पड़ता है। इसके लिए, डोमेन विशेषज्ञ इसे तैनात नहीं करेगा, बल्कि मॉडल को सेजमेकर मॉडल रजिस्ट्री में साझा करेगा। यहां, एक एमएलओपीएस संचालन विशेषज्ञ कार्यभार संभाल सकता है। आमतौर पर, वह विशेषज्ञ मॉडल एंडपॉइंट का परीक्षण करेगा, लक्ष्य एप्लिकेशन के लिए आवश्यक कंप्यूटिंग उपकरण के आकार का मूल्यांकन करेगा, और सबसे अधिक लागत-कुशल तैनाती का निर्धारण करेगा, जैसे सर्वर रहित अनुमान या बैच अनुमान के लिए तैनाती। ये चरण सामान्यतः स्वचालित होते हैं (उदाहरण के लिए, का उपयोग करके)। अमेज़ॅन सेजमेकर पाइपलाइन या अमेज़ॅन एसडीके).

एक छवि जो Amazon Sgemaker से मॉडल रजिस्ट्री में एक मॉडल साझा करने के लिए बटन दिखाती है।

विसंगति का पता लगाने के लिए मॉडल का उपयोग करें

पिछले चरण में, हमने सेजमेकर कैनवस में एक मॉडल परिनियोजन बनाया, जिसे कहा जाता है canvas-sample-anomaly-model. हम इसका उपयोग a की भविष्यवाणियाँ प्राप्त करने के लिए कर सकते हैं bearing_temperature डेटासेट में अन्य कॉलमों के आधार पर मान। अब, हम विसंगतियों का पता लगाने के लिए इस समापन बिंदु का उपयोग करना चाहते हैं।

असंगत डेटा की पहचान करने के लिए, हमारा मॉडल लक्ष्य मीट्रिक का अपेक्षित मूल्य प्राप्त करने के लिए पूर्वानुमान मॉडल समापन बिंदु का उपयोग करेगा और फिर डेटा में वास्तविक मूल्य के विरुद्ध अनुमानित मूल्य की तुलना करेगा। अनुमानित मूल्य प्रशिक्षण डेटा के आधार पर हमारे लक्ष्य मीट्रिक के लिए अपेक्षित मूल्य को इंगित करता है। इसलिए इस मान का अंतर देखे गए वास्तविक डेटा की असामान्यता के लिए एक मीट्रिक है। हम निम्नलिखित कोड का उपयोग कर सकते हैं:

# We are using pandas dataframes for data handling
import pandas as pd import boto3,json
sm_runtime_client = boto3.client('sagemaker-runtime') # Configuration of the actual model invocation
endpoint_name="canvas-sample-anomaly-model"
# Name of the column in the input data to compare with predictions
TARGET_COL='bearing_temperature' def do_inference(data, endpoint_name): # Example Code provided by Sagemaker Canvas body = data.to_csv(header=False, index=True).encode("utf-8") response = sm_runtime_client.invoke_endpoint(Body = body, EndpointName = endpoint_name, ContentType = "text/csv", Accept = "application/json", ) return json.loads(response["Body"].read()) def input_transformer(input_data, drop_cols = [ TARGET_COL ] ): # Transform the input: Drop the Target column return input_data.drop(drop_cols,axis =1 ) def output_transformer(input_data,response): # Take the initial input data and compare it to the response of the prediction model scored = input_data.copy() scored.loc[ input_data.index,'prediction_'+TARGET_COL ] = pd.DataFrame(
response[ 'predictions' ],
index = input_data.index )['score'] scored.loc[ input_data.index,'error' ] = (
scored[ TARGET_COL ]-scored[ 'prediction_'+TARGET_COL ]
).abs() return scored # Run the inference
raw_input = pd.read_csv(MYFILE) # Read my data for inference
to_score = input_transformer(raw_input) # Prepare the data
predictions = do_inference(to_score, endpoint_name) # create predictions
results = output_transformer(to_score,predictions) # compare predictions & actuals

पूर्ववर्ती कोड निम्नलिखित क्रियाएं करता है:

इनपुट डेटा को सही सुविधाओं तक फ़िल्टर किया गया है (फ़ंक्शन "input_transformer")।
सेजमेकर मॉडल एंडपॉइंट को फ़िल्टर किए गए डेटा (फ़ंक्शन ") के साथ लागू किया जाता हैdo_inference"), जहां हम सेजमेकर कैनवस में हमारे परिनियोजन के विवरण पृष्ठ को खोलते समय प्रदान किए गए नमूना कोड के अनुसार इनपुट और आउटपुट फ़ॉर्मेटिंग को संभालते हैं।
आह्वान का परिणाम मूल इनपुट डेटा से जुड़ जाता है और अंतर त्रुटि कॉलम (फ़ंक्शन ") में संग्रहीत होता हैoutput_transform")।

विसंगतियाँ खोजें और असामान्य घटनाओं का मूल्यांकन करें

एक विशिष्ट सेटअप में, विसंगतियाँ प्राप्त करने के लिए कोड लैम्ब्डा फ़ंक्शन में चलाया जाता है। लैम्ब्डा फ़ंक्शन को किसी एप्लिकेशन या से कॉल किया जा सकता है अमेज़ॅन एपीआई गेटवे. मुख्य फ़ंक्शन इनपुट डेटा की प्रत्येक पंक्ति के लिए एक विसंगति स्कोर लौटाता है - इस मामले में, एक विसंगति स्कोर की एक समय श्रृंखला।

परीक्षण के लिए, हम कोड को सेजमेकर नोटबुक में भी चला सकते हैं। नमूना डेटा का उपयोग करते समय निम्नलिखित ग्राफ़ हमारे मॉडल के इनपुट और आउटपुट दिखाते हैं। पूर्वानुमानित और वास्तविक मूल्यों के बीच विचलन की चोटियाँ (विसंगति स्कोर, निचले ग्राफ़ में दिखाया गया है) विसंगतियों का संकेत देती हैं। उदाहरण के लिए, ग्राफ़ में, हम तीन अलग-अलग शिखर देख सकते हैं जहां विसंगति स्कोर (अपेक्षित और वास्तविक तापमान के बीच का अंतर) 7 डिग्री सेल्सियस से अधिक है: पहला लंबे निष्क्रिय समय के बाद, दूसरा तापमान में भारी गिरावट पर bearing_temperature, और आखिरी कहाँ bearing_temperature की तुलना में उच्च है motor_speed.

समयश्रृंखला के लिए दो ग्राफ़. शीर्ष मोटर तापमान और मोटर गति के लिए समय-श्रृंखला दिखाता है। निचला ग्राफ समय के साथ विसंगति स्कोर को तीन शिखरों के साथ दिखाता है जो विसंगतियों का संकेत देते हैं।

कई मामलों में, विसंगति स्कोर की समय श्रृंखला जानना पहले से ही पर्याप्त है; आप मॉडल संवेदनशीलता की आवश्यकता के आधार पर एक महत्वपूर्ण विसंगति की चेतावनी देने के लिए एक सीमा निर्धारित कर सकते हैं। वर्तमान स्कोर तब इंगित करता है कि मशीन में असामान्य स्थिति है जिसकी जांच की आवश्यकता है। उदाहरण के लिए, हमारे मॉडल के लिए, विसंगति स्कोर का पूर्ण मान वितरित किया गया है जैसा कि निम्नलिखित ग्राफ़ में दिखाया गया है। यह पुष्टि करता है कि अधिकांश विसंगति स्कोर सामान्य त्रुटि के रूप में मॉडल के प्रशिक्षण के दौरान पाए गए (2xRMS=)8 डिग्री से नीचे हैं। ग्राफ़ आपको मैन्युअल रूप से एक सीमा चुनने में मदद कर सकता है, ताकि मूल्यांकन किए गए नमूनों का सही प्रतिशत विसंगतियों के रूप में चिह्नित हो।

विसंगति स्कोर के लिए मूल्यों की घटना का एक हिस्टोग्राम। वक्र x=0 से x=15 तक घटता है।

यदि वांछित आउटपुट विसंगतियों की घटनाएं हैं, तो मॉडल द्वारा प्रदान किए गए विसंगति स्कोर को व्यावसायिक उपयोग के लिए प्रासंगिक होने के लिए परिशोधन की आवश्यकता होती है। इसके लिए, एमएल विशेषज्ञ आम तौर पर विसंगति स्कोर पर शोर या बड़ी चोटियों को हटाने के लिए पोस्टप्रोसेसिंग जोड़ देगा, जैसे रोलिंग माध्य जोड़ना। इसके अलावा, विशेषज्ञ आम तौर पर विसंगति स्कोर का मूल्यांकन एक बढ़ाने के समान तर्क द्वारा करेगा अमेज़ॅन क्लाउडवॉच अलार्म, जैसे कि एक विशिष्ट अवधि में सीमा के उल्लंघन की निगरानी करना। अलार्म सेट करने के बारे में अधिक जानकारी के लिए देखें Amazon CloudWatch अलार्म का उपयोग करना. लैम्ब्डा फ़ंक्शन में इन मूल्यांकनों को चलाने से आपको चेतावनी भेजने की अनुमति मिलती है, उदाहरण के लिए, किसी को चेतावनी प्रकाशित करके अमेज़न सरल अधिसूचना सेवा (अमेज़ॅन एसएनएस) विषय।

क्लीन अप

इस समाधान का उपयोग समाप्त करने के बाद, आपको अनावश्यक लागत से बचने के लिए सफाई करनी चाहिए:

सेजमेकर कैनवस में, अपना मॉडल एंडपॉइंट परिनियोजन ढूंढें और इसे हटा दें।
सेजमेकर कैनवस के निष्क्रिय रूप से चलने पर लगने वाले शुल्क से बचने के लिए इससे लॉग आउट करें।

सारांश

इस पोस्ट में, हमने दिखाया कि कैसे एक डोमेन विशेषज्ञ इनपुट डेटा का मूल्यांकन कर सकता है और कोड लिखने की आवश्यकता के बिना सेजमेकर कैनवास का उपयोग करके एक एमएल मॉडल बना सकता है। फिर हमने दिखाया कि एक सरल वर्कफ़्लो के माध्यम से सेजमेकर और लैम्ब्डा का उपयोग करके वास्तविक समय में विसंगति का पता लगाने के लिए इस मॉडल का उपयोग कैसे किया जाए। यह संयोजन डोमेन विशेषज्ञों को डेटा विज्ञान में अतिरिक्त प्रशिक्षण के बिना शक्तिशाली एमएल मॉडल बनाने के लिए अपने ज्ञान का उपयोग करने का अधिकार देता है, और एमएलओपीएस विशेषज्ञों को इन मॉडलों का उपयोग करने और उन्हें लचीले ढंग से और कुशलता से अनुमान के लिए उपलब्ध कराने में सक्षम बनाता है।

सेजमेकर कैनवस के लिए 2 महीने का निःशुल्क टियर उपलब्ध है, और उसके बाद आप केवल उतना ही भुगतान करते हैं जितना आप उपयोग करते हैं। आज ही प्रयोग शुरू करें और अपने डेटा का अधिकतम लाभ उठाने के लिए एमएल जोड़ें।

लेखक के बारे में

Amazon SageMaker Canvas | का उपयोग करके विनिर्माण डेटा में विसंगतियों का पता लगाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. हेल्गे औफडरहाइड विनिर्माण और गतिशीलता जैसे औद्योगिक अनुप्रयोगों में ऑटोमेशन, एनालिटिक्स और मशीन लर्निंग पर मजबूत फोकस के साथ डेटा को वास्तविक दुनिया में उपयोग करने योग्य बनाने का उत्साही है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/detect-anomalies-in-manufacturing-data-using-amazon-sagemaker-canvas/

समय टिकट: फ़रवरी 15, 2024

समय टिकट: अप्रैल 22, 2024

प्लेटो द्वारा पुनर्प्रकाशित

अमेज़ॅन सैजमेकर स्वचालित मॉडल ट्यूनिंग अब हाइपरपैरामीटर अनुकूलन के लिए तीन नए समापन मानदंडों का समर्थन करता है

Amazon QuickSight | में वर्ड क्लाउड के साथ Amazon Comprehend विश्लेषण की कल्पना करें अमेज़न वेब सेवाएँ

समृद्ध मानव प्रतिक्रिया से सीखकर एलएलएम में मल्टी-हॉप रीजनिंग में सुधार करें

एडब्ल्यूएस डीपरेसर लीग 2022 की घोषणा

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा