अमेज़ॅन सेजमेकर डेटा रैंगलर का उपयोग करके बड़े डेटासेट पर प्रशिक्षित पैरामीटर्स को दोबारा फ़िट करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़न SageMaker डेटा रैंगलर आपको एक दृश्य इंटरफ़ेस से मशीन लर्निंग (एमएल) के लिए डेटा को समझने, एकत्र करने, बदलने और तैयार करने में मदद करता है। इसमें 300 से अधिक बिल्ट-इन डेटा ट्रांसफ़ॉर्मेशन शामिल हैं ताकि आप बिना कोई कोड लिखे सुविधाओं को जल्दी से सामान्य, रूपांतरित और संयोजित कर सकें।

डेटा विज्ञान व्यवसायी व्यावसायिक समस्याओं को हल करने के लिए डेटा उत्पन्न, निरीक्षण और संसाधित करते हैं, जहाँ उन्हें डेटासेट से सुविधाओं को बदलने और निकालने की आवश्यकता होती है। क्रमिक एन्कोडिंग या वन-हॉट एन्कोडिंग जैसे रूपांतरण आपके डेटासेट पर एन्कोडिंग सीखते हैं। इन एन्कोडेड आउटपुट को प्रशिक्षित पैरामीटर के रूप में संदर्भित किया जाता है। जैसे-जैसे समय के साथ डेटासेट बदलते हैं, आपके डेटा के लिए परिवर्तन प्रवाह को प्रासंगिक बनाए रखने के लिए पहले अनदेखे डेटा पर एन्कोडिंग को फिर से भरना आवश्यक हो सकता है।

हम रिफिट प्रशिक्षित पैरामीटर फीचर की घोषणा करते हुए उत्साहित हैं, जो आपको पिछले प्रशिक्षित पैरामीटर का उपयोग करने और उन्हें इच्छानुसार रीफिट करने की अनुमति देता है। इस पोस्ट में, हम प्रदर्शित करते हैं कि इस सुविधा का उपयोग कैसे करें।

डेटा रैंगलर रिफिट सुविधा का अवलोकन

रिफिट प्रशिक्षित पैरामीटर फीचर की बारीकियों में गोता लगाने से पहले, हम बताते हैं कि यह सुविधा निम्नलिखित उदाहरण के साथ कैसे काम करती है।

मान लें कि आपके ग्राहक डेटासेट में श्रेणीबद्ध सुविधा है country जैसे तार के रूप में प्रतिनिधित्व किया Australia और Singapore. एमएल एल्गोरिदम को संख्यात्मक इनपुट की आवश्यकता होती है; इसलिए, इन श्रेणीबद्ध मानों को सांख्यिक मानों में एन्कोड किया जाना चाहिए। एन्कोडिंग श्रेणीबद्ध डेटा श्रेणियों के लिए एक संख्यात्मक प्रतिनिधित्व बनाने की प्रक्रिया है। उदाहरण के लिए, यदि आपकी श्रेणी देश में मान हैं Australia और Singapore, आप इस जानकारी को दो वैक्टर में एन्कोड कर सकते हैं: [1, 0] प्रतिनिधित्व करने के लिए Australia और [0, 1] प्रतिनिधित्व करने के लिए Singapore. यहां उपयोग किया जाने वाला परिवर्तन एक-हॉट एन्कोडिंग है और नया एन्कोडेड आउटपुट प्रशिक्षित मापदंडों को दर्शाता है।

मॉडल को प्रशिक्षित करने के बाद, समय के साथ आपके ग्राहक बढ़ सकते हैं और देश सूची में आपके पास अधिक विशिष्ट मूल्य हैं। नए डेटासेट में दूसरी श्रेणी हो सकती है, India, जो मूल डेटासेट का हिस्सा नहीं था, जो मॉडल की सटीकता को प्रभावित कर सकता है। इसलिए, समय के साथ एकत्र किए गए नए डेटा के साथ अपने मॉडल को फिर से प्रशिक्षित करना आवश्यक है।

इस समस्या को दूर करने के लिए, आपको नई श्रेणी को शामिल करने के लिए एन्कोडिंग को ताज़ा करना होगा और अपने नवीनतम डेटासेट के अनुसार वेक्टर प्रतिनिधित्व को अपडेट करना होगा। हमारे उदाहरण में, एन्कोडिंग को के लिए नई श्रेणी को प्रतिबिंबित करना चाहिए countryहै, जो है India. हम आम तौर पर रिफिट ऑपरेशन के रूप में एन्कोडिंग को रीफ्रेश करने की इस प्रक्रिया को संदर्भित करते हैं। आपके द्वारा रिफिट ऑपरेशन करने के बाद, आपको नया एन्कोडिंग मिलता है: Australia: [1, 0, 0], Singapore: [0, 1, 0], और India: [0, 0, 1]। एक-हॉट एन्कोडिंग को रिफिट करने और फिर नए डेटासेट पर मॉडल को फिर से प्रशिक्षित करने से बेहतर गुणवत्ता वाले पूर्वानुमान मिलते हैं।

डेटा रैंगलर की रिफिट प्रशिक्षित पैरामीटर विशेषता निम्नलिखित मामलों में उपयोगी है:

डेटासेट में नया डेटा जोड़ा जाता है - जब डेटासेट नए डेटा से समृद्ध होता है, तो एमएल मॉडल को फिर से प्रशिक्षित करना आवश्यक है। इष्टतम परिणाम प्राप्त करने के लिए, हमें नए डेटासेट पर प्रशिक्षित मापदंडों को फिर से भरना होगा।
नमूना डेटा पर फीचर इंजीनियरिंग करने के बाद पूर्ण डेटासेट पर प्रशिक्षण - एक बड़े डेटासेट के लिए, प्रशिक्षित मापदंडों को सीखने के लिए डेटासेट के एक नमूने पर विचार किया जाता है, जो आपके संपूर्ण डेटासेट का प्रतिनिधित्व नहीं कर सकता है। हमें संपूर्ण डेटासेट पर प्रशिक्षित मापदंडों को पुनः प्राप्त करने की आवश्यकता है।

रिफिट प्रशिक्षित पैरामीटर विकल्प से लाभान्वित होने वाले डेटासेट पर किए गए कुछ सबसे सामान्य डेटा रैंगलर रूपांतरण निम्नलिखित हैं:

डेटा रैंगलर में परिवर्तन के बारे में अधिक जानकारी के लिए देखें डेटा ट्रांसफ़ॉर्म करें.

इस पोस्ट में, हम दिखाते हैं कि डेटा रैंगलर का उपयोग करके डेटासेट पर इन प्रशिक्षित मापदंडों को कैसे संसाधित किया जाए। आप उत्पादन कार्यों में डेटा रैंगलर प्रवाह का उपयोग अपने डेटा के बढ़ने और बदलने पर उसे पुन: संसाधित करने के लिए कर सकते हैं।

समाधान अवलोकन

इस पोस्ट के लिए, हम प्रदर्शित करते हैं कि सार्वजनिक रूप से उपलब्ध डेटासेट के साथ डेटा रैंगलर के रिफिट प्रशिक्षित पैरामीटर सुविधा का उपयोग कैसे करें Kaggle: ज़िलो से यूएस हाउसिंग डेटा, संयुक्त राज्य अमेरिका में बिक्री के लिए गुण। इसमें घरों के विभिन्न भू-वितरणों में घरेलू बिक्री मूल्य हैं।

निम्न आरेख रीफिट प्रशिक्षित पैरामीटर सुविधा का उपयोग करके डेटा रैंगलर के उच्च-स्तरीय आर्किटेक्चर को दिखाता है। हम रिफिट प्रशिक्षित पैरामीटर के बिना डेटा गुणवत्ता पर प्रभाव भी दिखाते हैं और अंत में परिणामों की तुलना करते हैं।

वर्कफ़्लो में निम्न चरण शामिल हैं:

खोजपूर्ण डेटा विश्लेषण करें - खोजपूर्ण डेटा विश्लेषण (ईडीए) शुरू करने के लिए डेटा रैंगलर पर एक नया प्रवाह बनाएं। प्रशिक्षण के लिए अपने डेटा को समझने, साफ करने, एकत्र करने, बदलने और तैयार करने के लिए व्यावसायिक डेटा आयात करें। को देखें नमूना डेटासेट के साथ अमेज़ॅन सेजमेकर डेटा रैंगलर क्षमताओं का अन्वेषण करें डेटा रैंगलर के साथ EDA करने के बारे में अधिक जानकारी के लिए।
डेटा प्रोसेसिंग जॉब बनाएं - यह चरण आपके द्वारा डेटासेट पर किए गए सभी परिवर्तनों को कॉन्फ़िगर में संग्रहीत प्रवाह फ़ाइल के रूप में निर्यात करता है अमेज़न सरल भंडारण सेवा (अमेज़न S3) स्थान। डेटा रैंगलर द्वारा उत्पन्न प्रवाह फ़ाइल के साथ डेटा प्रोसेसिंग कार्य आपके डेटासेट पर सीखे गए रूपांतरणों और प्रशिक्षित मापदंडों को लागू करता है। जब डेटा प्रोसेसिंग का काम पूरा हो जाता है, तो आउटपुट फाइल को डेस्टिनेशन नोड में कॉन्फ़िगर किए गए Amazon S3 लोकेशन पर अपलोड कर दिया जाता है। ध्यान दें कि रिफिट विकल्प डिफ़ॉल्ट रूप से बंद है। प्रसंस्करण कार्य को तुरंत निष्पादित करने के विकल्प के रूप में, आप भी कर सकते हैं एक प्रसंस्करण कार्य निर्धारित करें डेटा रैंगलर का उपयोग करते हुए कुछ ही क्लिक में - विशिष्ट समय पर चलने के लिए जॉब बनाएं।
रीफिट प्रशिक्षित पैरामीटर सुविधा के साथ डेटा प्रोसेसिंग जॉब बनाएं - अपने पूर्ण या प्रबलित डेटासेट पर अपने प्रशिक्षित मापदंडों को फिर से लागू करने के लिए नौकरी बनाते समय नई रीफिट प्रशिक्षित पैरामीटर सुविधा का चयन करें। फ्लो फाइल को स्टोर करने के लिए Amazon S3 लोकेशन कॉन्फ़िगरेशन के अनुसार, डेटा प्रोसेसिंग जॉब नई फ्लो फाइल बनाता या अपडेट करता है। यदि आप चरण 3 के समान Amazon S2 स्थान को कॉन्फ़िगर करते हैं, तो डेटा प्रोसेसिंग कार्य चरण 2 में उत्पन्न प्रवाह फ़ाइल को अपडेट करता है, जिसका उपयोग आपके डेटा के लिए आपके प्रवाह को प्रासंगिक बनाए रखने के लिए किया जा सकता है। प्रसंस्करण कार्य पूरा होने पर, आउटपुट फ़ाइलें गंतव्य नोड कॉन्फ़िगर किए गए S3 बकेट पर अपलोड की जाती हैं। आप उत्पादन कार्यप्रवाह के लिए अपने संपूर्ण डेटासेट पर अद्यतन प्रवाह का उपयोग कर सकते हैं।

.. पूर्वापेक्षाएँ

आरंभ करने से पहले, डेटासेट को S3 बकेट में अपलोड करें, फिर इसे डेटा रैंगलर में आयात करें। निर्देशों के लिए, देखें Amazon S3 से डेटा आयात करें.

आइए अब आर्किटेक्चर आरेख में वर्णित चरणों के माध्यम से चलते हैं।

डेटा रैंगलर में EDA करें

रिफिट प्रशिक्षित पैरामीटर सुविधा को आज़माने के लिए, डेटा रैंगलर में निम्नलिखित विश्लेषण और परिवर्तन सेट अप करें। EDA की स्थापना के अंत में, डेटा रैंगलर डेटासेट से प्रशिक्षित मापदंडों के साथ कैप्चर की गई एक फ़्लो फ़ाइल बनाता है।

अन्वेषणात्मक डेटा विश्लेषण के लिए Amazon SageMaker Data Wrangler में एक नया प्रवाह बनाएँ।
आपके द्वारा अपलोड किए गए व्यवसाय डेटा को Amazon S3 पर आयात करें।
आप फ़ाइल प्रकार, सीमांकक, नमूनाकरण, इत्यादि चुनने के लिए डेटा और विकल्पों का पूर्वावलोकन कर सकते हैं। इस उदाहरण के लिए, हम उपयोग करते हैं पहले के डेटा रैंगलर द्वारा डेटासेट से पहले 50,000 रिकॉर्ड आयात करने के लिए नमूनाकरण विकल्प प्रदान किया गया।
चुनें आयात.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

डेटा रैंगलर द्वारा लागू किए गए डेटा प्रकार मिलान की जांच करने के बाद, एक नया विश्लेषण जोड़ें।

के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
चुनें बनाएं.

डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट के साथ, आपको सामान्य जानकारी के साथ डेटासेट का एक संक्षिप्त सारांश मिलता है जैसे कि अनुपलब्ध मान, अमान्य मान, सुविधा प्रकार, बाहरी गणना, और बहुत कुछ। आप सुविधाएँ चुन सकते हैं property_type और city रिफिट प्रशिक्षित पैरामीटर सुविधा को समझने के लिए डेटासेट पर परिवर्तन लागू करने के लिए।

आइए फीचर पर ध्यान दें property_type डेटासेट से। रिपोर्ट में फ़ीचर विवरण अनुभाग, आप देख सकते हैं property_type, जो कि एक स्पष्ट विशेषता है, और डेटा रैंगलर द्वारा 50,000 सैंपल किए गए डेटासेट से प्राप्त छह अद्वितीय मूल्य हैं। संपूर्ण डेटासेट में सुविधा के लिए अधिक श्रेणियां हो सकती हैं property_type. कई अद्वितीय मूल्यों वाली सुविधा के लिए, आप क्रमसूचक एन्कोडिंग पसंद कर सकते हैं। यदि सुविधा में कुछ विशिष्ट मान हैं, तो एक-हॉट एन्कोडिंग दृष्टिकोण का उपयोग किया जा सकता है। इस उदाहरण के लिए, हम एक-हॉट एन्कोडिंग ऑन चुनते हैं property_type.

इसी प्रकार, के लिए city सुविधा, जो एक टेक्स्ट डेटा प्रकार है जिसमें बड़ी संख्या में अद्वितीय मान हैं, आइए इस सुविधा के लिए क्रमिक एन्कोडिंग लागू करें।

डेटा रैंगलर प्रवाह पर नेविगेट करें, धन चिह्न चुनें, और चुनें परिवर्तन जोड़ें.

चुनना सांकेतिक शब्दों में बदलना श्रेणीबद्ध सुविधाओं को बदलने के लिए विकल्प।

डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट से, फ़ीचर property_type छह अनूठी श्रेणियां दिखाता है: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY, तथा TOWNHOUSE.

के लिए बदालना, चुनें एक गर्म सांकेतिक शब्दों में बदलना.

फीचर पर वन-हॉट एनकोडिंग लगाने के बाद property_type, आप नए कॉलम के रूप में जोड़ी गई अलग-अलग सुविधाओं के रूप में सभी छह श्रेणियों का पूर्वावलोकन कर सकते हैं। ध्यान दें कि इस पूर्वावलोकन को उत्पन्न करने के लिए आपके डेटासेट से 50,000 रिकॉर्ड का नमूना लिया गया था। इस प्रवाह के साथ डेटा रैंगलर प्रोसेसिंग जॉब चलाते समय, ये परिवर्तन आपके संपूर्ण डेटासेट पर लागू होते हैं।

एक नया परिवर्तन जोड़ें और चुनें सांकेतिक शब्दों में बदलना श्रेणीबद्ध सुविधा पर परिवर्तन लागू करने के लिए city, जिसमें बड़ी संख्या में विशिष्ट श्रेणीबद्ध टेक्स्ट मान हैं।
इस सुविधा को सांख्यिक प्रतिनिधित्व में एन्कोड करने के लिए, चुनें साधारण सांकेतिक शब्दों में बदलना एसटी बदालना.

इस परिवर्तन पर पूर्वावलोकन चुनें।

आप देख सकते हैं कि श्रेणीबद्ध विशेषता city आउटपुट कॉलम में क्रमिक मानों के लिए मैप किया गया है e_city.

इस चरण को चुनकर जोड़ें अपडेट.

CSV फ़ाइल के रूप में आउटपुट उत्पन्न करने के लिए डेटासेट पर लागू परिवर्तनों को संग्रहीत करने के लिए आप गंतव्य को Amazon S3 पर सेट कर सकते हैं।

डेटा रैंगलर आपके द्वारा उपयोगकर्ता इंटरफ़ेस में परिभाषित वर्कफ़्लो को फ़्लो फ़ाइल के रूप में संग्रहीत करता है और कॉन्फ़िगर किए गए डेटा प्रोसेसिंग कार्य के Amazon S3 स्थान पर अपलोड करता है। इस फ़्लो फ़ाइल का उपयोग तब किया जाता है जब आप बड़े डेटासेट पर ट्रांसफ़ॉर्म लागू करने के लिए डेटा रैंगलर प्रोसेसिंग जॉब बनाते हैं, या मॉडल को फिर से प्रशिक्षित करने के लिए नए रीइन्फोर्समेंट डेटा को ट्रांसफ़ॉर्म करते हैं।

रीफिट सक्षम किए बिना डेटा रैंगलर डेटा प्रोसेसिंग कार्य लॉन्च करें

अब आप देख सकते हैं कि कैसे रिफिट विकल्प नए डेटासेट पर प्रशिक्षित मापदंडों का उपयोग करता है। इस प्रदर्शन के लिए, हम एक ही डेटा पर काम कर रहे दो डेटा रैंगलर प्रोसेसिंग जॉब को परिभाषित करते हैं। पहला संसाधन कार्य रीफिट को सक्षम नहीं करेगा; दूसरी प्रोसेसिंग जॉब के लिए, हम रिफिट का उपयोग करते हैं। हम अंत में प्रभावों की तुलना करते हैं।

चुनें नौकरी पैदा करो डेटा रैंगलर के साथ डेटा प्रोसेसिंग कार्य आरंभ करने के लिए।

के लिए कार्य नाम, नाम डालें।
के अंतर्गत प्रशिक्षित पैरामीटर, चयन न करें मरम्मत.
चुनें कार्य कॉन्फ़िगर करें.

आउटपुट फ्लो फाइल को स्टोर करने के लिए जॉब पैरामीटर्स जैसे इंस्टेंस टाइप, वॉल्यूम साइज और Amazon S3 लोकेशन को कॉन्फ़िगर करें।
डेटा रैंगलर प्रवाह फ़ाइल S3 स्थान में एक प्रवाह फ़ाइल बनाता है। प्रवाह मापदंडों को प्रशिक्षित करने के लिए परिवर्तनों का उपयोग करता है, और हम बाद में इन मापदंडों को फिर से प्रशिक्षित करने के लिए रीफिट विकल्प का उपयोग करते हैं।
चुनें बनाएं.

गंतव्य नोड में कॉन्फ़िगर किए गए S3 बकेट में रूपांतरित डेटा देखने के लिए डेटा प्रोसेसिंग कार्य पूरा होने तक प्रतीक्षा करें।

रीफिट सक्षम के साथ डेटा रैंगलर डेटा प्रोसेसिंग कार्य लॉन्च करें

आइए रीफिट प्रशिक्षित पैरामीटर सुविधा सक्षम के साथ सक्षम एक और प्रोसेसिंग जॉब बनाएं। यह विकल्प संपूर्ण डेटासेट पर पुन: सीखे गए प्रशिक्षित मापदंडों को लागू करता है। जब यह डेटा प्रोसेसिंग कार्य पूरा हो जाता है, तो एक फ़्लो फ़ाइल बनाई जाती है या कॉन्फ़िगर किए गए Amazon S3 स्थान पर अपडेट की जाती है।

चुनें नौकरी पैदा करो.

के लिए कार्य नाम, नाम डालें।
के लिए प्रशिक्षित पैरामीटर, चुनते हैं मरम्मत.
आप चुनते हैं सभी उत्पाद दिखाएं, आप सभी प्रशिक्षित मापदंडों की समीक्षा कर सकते हैं।

चुनें कार्य कॉन्फ़िगर करें.
Amazon S3 प्रवाह फ़ाइल स्थान दर्ज करें।
चुनें बनाएं.

डाटा प्रोसेसिंग कार्य पूरा होने की प्रतीक्षा करें।

परिभाषित रूपांतरणों को चलाने वाले डेटा प्रोसेसिंग कार्य द्वारा उत्पन्न डेटा को देखने के लिए गंतव्य नोड में कॉन्फ़िगर किए गए S3 बकेट का संदर्भ लें।

डेटा रैंगलर प्रोसेसिंग जॉब चलाने के लिए पायथन कोड को निर्यात करें

डेटा रैंगलर में क्रिएट जॉब विकल्प का उपयोग करके प्रोसेसिंग जॉब शुरू करने के विकल्प के रूप में, आप डेटा रैंगलर फ्लो को ज्यूपिटर नोटबुक में निर्यात करके डेटा प्रोसेसिंग जॉब को ट्रिगर कर सकते हैं। डेटा रैंगलर इनपुट, आउटपुट, प्रोसेसिंग जॉब कॉन्फ़िगरेशन और जॉब स्टेटस चेक के लिए कोड के साथ एक ज्यूपिटर नोटबुक बनाता है। आप अपनी डेटा परिवर्तन आवश्यकताओं के अनुसार पैरामीटर को बदल या अपडेट कर सकते हैं।

फाइनल के आगे धन चिह्न चुनें बदालना नोड।
चुनें निर्यात के लिए और अमेज़न S3 (ज्यूपिटर नोटबुक के माध्यम से).

आप इनपुट, आउटपुट, प्रोसेसिंग जॉब कॉन्फ़िगरेशन और जॉब स्टेटस चेक के लिए कोड के साथ खुली एक ज्यूपिटर नोटबुक देख सकते हैं।

कोड के माध्यम से रिफिट प्रशिक्षित पैरामीटर विकल्प को लागू करने के लिए, सेट करें refit करने के लिए पैरामीटर True.

डाटा प्रोसेसिंग नौकरी के परिणामों की तुलना करें

डेटा रैंगलर प्रोसेसिंग कार्य पूर्ण होने के बाद, आपको कॉन्फ़िगर किए गए Amazon S3 गंतव्य में संग्रहीत डेटा प्रोसेसिंग जॉब द्वारा उत्पन्न आउटपुट के साथ दो नए डेटा रैंगलर प्रवाह बनाने होंगे।

डेटा प्रोसेसिंग जॉब्स के आउटपुट की समीक्षा करने के लिए आप Amazon S3 डेस्टिनेशन फोल्डर में कॉन्फ़िगर किए गए स्थान का उल्लेख कर सकते हैं।

प्रसंस्करण कार्य परिणामों का निरीक्षण करने के लिए, परिवर्तन परिणामों की तुलना करने के लिए डेटा गुणवत्ता और इनसाइट्स रिपोर्ट का उपयोग करके दो नए डेटा रैंगलर प्रवाह बनाएँ।

अमेज़ॅन सेजमेकर डेटा रैंगलर में एक नया प्रवाह बनाएं।
Amazon S3 से रीफिट सक्षम आउटपुट फ़ाइल के बिना डेटा प्रोसेसिंग कार्य आयात करें।
एक नया विश्लेषण जोड़ें।
के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
चुनें बनाएं.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.
अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

उपरोक्त चरणों को दोहराएं और रीफिट सक्षम के साथ डेटा प्रोसेसिंग जॉब आउटपुट का विश्लेषण करने के लिए नया डेटा रैंगलर प्रवाह बनाएं।

अब आइए फीचर के लिए प्रोसेसिंग जॉब्स के आउटपुट देखें property_type डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट का उपयोग करना। डेटा और इनसाइट्स रिपोर्ट लिस्टिंग पर फीचर विवरण तक स्क्रॉल करें feature_type.

रिफिट प्रशिक्षित पैरामीटर प्रोसेसिंग जॉब ने पूरे डेटासेट पर प्रशिक्षित पैरामीटर को रिफिट किया है और नए मान को एन्कोड किया है APARTMENT पूर्ण डेटासेट पर सात अलग-अलग मानों के साथ।

सामान्य प्रसंस्करण कार्य ने नमूना डेटासेट प्रशिक्षित मापदंडों को लागू किया, जिसके लिए केवल छह अलग-अलग मान हैं property_type विशेषता। डेटा के लिए feature_type APARTMENT, अमान्य हैंडलिंग रणनीति स्किप लागू है और डेटा प्रोसेसिंग जॉब इस नई श्रेणी को नहीं सीखता है। एक-हॉट एन्कोडिंग ने नए डेटा पर मौजूद इस नई श्रेणी को छोड़ दिया है, और एन्कोडिंग श्रेणी को छोड़ देती है APARTMENT.

आइए अब एक और फीचर पर ध्यान दें, city. रिफिट प्रशिक्षित पैरामीटर प्रोसेसिंग जॉब ने इसके लिए उपलब्ध सभी मूल्यों को फिर से सीख लिया है city सुविधा, नए डेटा को देखते हुए।

में दिखाया गया है फ़ीचर सारांश रिपोर्ट का अनुभाग, नया एन्कोडेड फीचर कॉलम e_city रिफिट प्रशिक्षित पैरामीटर सुविधा का उपयोग करके 100% वैध पैरामीटर हैं।

इसके विपरीत, नए एन्कोडेड फीचर कॉलम में सामान्य प्रोसेसिंग जॉब में 82.4% लापता मान हैं e_city. यह घटना इसलिए है क्योंकि पूरे डेटासेट पर केवल सीखे गए प्रशिक्षित मापदंडों का नमूना सेट लागू किया जाता है और डेटा प्रोसेसिंग कार्य द्वारा कोई रीफिटिंग लागू नहीं की जाती है।

निम्नलिखित हिस्टोग्राम क्रमिक एन्कोडेड फीचर को दर्शाते हैं e_city. पहला हिस्टोग्राम रिफिट विकल्प के साथ रूपांतरित फीचर का है।

अगला हिस्टोग्राम बिना रिफिट विकल्प के रूपांतरित फीचर का है। नारंगी कॉलम डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट में अनुपलब्ध मान (NaN) दिखाता है। डेटा रैंगलर UI में कॉन्फ़िगर किए गए नए मान जो नमूना डेटासेट से नहीं सीखे गए हैं, उन्हें नॉट ए नंबर (NaN) के रूप में बदल दिया गया है अमान्य हैंडलिंग रणनीति.

रिफिट प्रशिक्षित पैरामीटर के साथ डाटा प्रोसेसिंग जॉब ने पुनः सीखा property_type और city संपूर्ण डेटासेट से नए मानों पर विचार करने वाली सुविधाएँ। रिफिट प्रशिक्षित पैरामीटर के बिना, डेटा प्रोसेसिंग जॉब केवल सैंपल किए गए डेटासेट के पूर्व-सीखा प्रशिक्षित पैरामीटर का उपयोग करता है। फिर यह उन्हें नए डेटा पर लागू करता है, लेकिन एन्कोडिंग के लिए नए मानों पर विचार नहीं किया जाता है। इसका मॉडल सटीकता पर प्रभाव पड़ेगा।

क्लीन अप

जब आप डेटा रैंगलर का उपयोग नहीं कर रहे हैं, तो अतिरिक्त शुल्क से बचने के लिए उस इंस्टेंस को बंद करना महत्वपूर्ण है जिस पर वह चलता है।

काम खोने से बचने के लिए, डेटा रैंगलर को बंद करने से पहले अपने डेटा प्रवाह को बचाएं।

अपने डेटा प्रवाह को बचाने के लिए अमेज़ॅन सैजमेकर स्टूडियो, चुनें पट्टिका, उसके बाद चुनो डेटा रैंगलर फ़्लो सहेजें. डेटा रैंगलर स्वचालित रूप से प्रत्येक 60 सेकंड में आपके डेटा प्रवाह को सहेजता है।
डेटा रैंगलर इंस्टेंस को बंद करने के लिए, स्टूडियो में, चुनें रनिंग इंस्टेंस और कर्नेल.
के अंतर्गत ऐप्स चालू हैं, सेजमेकर-डेटा-रैंगलर-1.0 ऐप के आगे शटडाउन आइकन चुनें।

चुनें सब बंद करो पुष्टि करने के लिए।

डेटा रैंगलर ml.m5.4xबड़े उदाहरण पर चलता है। यह उदाहरण गायब हो जाता है चल रहे उदाहरण जब आप डेटा रैंगलर ऐप को बंद करते हैं।

डेटा रैंगलर ऐप को बंद करने के बाद, अगली बार जब आप डेटा रैंगलर फ़्लो फ़ाइल खोलते हैं, तो उसे पुनरारंभ करना होगा। इसमें कुछ मिनट लग सकते हैं।

निष्कर्ष

इस पोस्ट में, हमने डेटा रैंगलर में रीफिट प्रशिक्षित पैरामीटर सुविधा का अवलोकन प्रदान किया। इस नई सुविधा के साथ, आप डेटा रैंगलर प्रवाह में प्रशिक्षित पैरामीटर्स को स्टोर कर सकते हैं, और डेटा प्रोसेसिंग जॉब्स बड़े डेटासेट्स या रीइन्फोर्समेंट डेटासेट्स पर सीखे गए परिवर्तनों को लागू करने के लिए प्रशिक्षित पैरामीटर्स का उपयोग करते हैं। आप इस विकल्प को पाठ सुविधाओं, संख्यात्मक डेटा, और आउटलेयर को संभालने के लिए लागू कर सकते हैं।

एमएल जीवनचक्र के डेटा प्रोसेसिंग के दौरान प्रशिक्षित मापदंडों को संरक्षित करना डेटा प्रोसेसिंग चरणों को सरल और कम करता है, मजबूत फीचर इंजीनियरिंग का समर्थन करता है, और नए डेटा पर मॉडल प्रशिक्षण और सुदृढीकरण प्रशिक्षण का समर्थन करता है।

हम आपको आपकी डेटा प्रोसेसिंग आवश्यकताओं के लिए इस नई सुविधा को आज़माने के लिए प्रोत्साहित करते हैं।

लेखक के बारे में

हरिहरन सुरेश AWS में एक वरिष्ठ समाधान वास्तुकार हैं। उन्हें डेटाबेस, मशीन लर्निंग और नए समाधानों को डिजाइन करने का शौक है। AWS में शामिल होने से पहले, हरिहरन एक उत्पाद वास्तुकार, कोर बैंकिंग कार्यान्वयन विशेषज्ञ और डेवलपर थे, और उन्होंने BFSI संगठनों के साथ 11 वर्षों तक काम किया। तकनीक से इतर उन्हें पैराग्लाइडिंग और साइकिल चलाने में मजा आता है।

संतोष कुलकर्णी Amazon वेब सर्विसेज में एंटरप्राइज सॉल्यूशंस आर्किटेक्ट हैं जो ऑस्ट्रेलिया में खेल ग्राहकों के साथ काम करते हैं। उन्हें एआई/एमएल, बिग डेटा और सॉफ्टवेयर विकास में अपने ज्ञान का उपयोग करके व्यावसायिक समस्याओं को हल करने के लिए बड़े पैमाने पर वितरित एप्लिकेशन बनाने का शौक है।

विशाल कपूर एडब्ल्यूएस एआई के साथ एक वरिष्ठ अनुप्रयुक्त वैज्ञानिक हैं। उन्हें डेटा रैंगलर में ग्राहकों को उनके डेटा को समझने में मदद करने का शौक है। अपने खाली समय में, वह माउंटेन बाइक, स्नोबोर्ड और अपने परिवार के साथ समय बिताते हैं।

अनिकेत मंजूनाथ Amazon SageMaker में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह अमेज़ॅन सैजमेकर डेटा रैंगलर का समर्थन करने में मदद करता है और वितरित मशीन लर्निंग सिस्टम के बारे में भावुक है। काम से बाहर, उन्हें लंबी पैदल यात्रा करना, फिल्में देखना और क्रिकेट खेलना पसंद है।

समय टिकट: नवम्बर 14/2022नवम्बर 14/2022

समय टिकट: फ़रवरी 29, 2024

अमेज़ॅन सेजमेकर डेटा रैंगलर का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से करें

प्लेटो द्वारा पुनर्प्रकाशित

डेटा रैंगलर रिफिट सुविधा का अवलोकन

समाधान अवलोकन

.. पूर्वापेक्षाएँ

डेटा रैंगलर में EDA करें

रीफिट सक्षम किए बिना डेटा रैंगलर डेटा प्रोसेसिंग कार्य लॉन्च करें

रीफिट सक्षम के साथ डेटा रैंगलर डेटा प्रोसेसिंग कार्य लॉन्च करें

डेटा रैंगलर प्रोसेसिंग जॉब चलाने के लिए पायथन कोड को निर्यात करें

डाटा प्रोसेसिंग नौकरी के परिणामों की तुलना करें

क्लीन अप

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

Amazon Rekognition और Amazon Textract का उपयोग करके दस्तावेज़ों को मॉडरेट, वर्गीकृत और संसाधित करें

AWS Amplify और Amazon Rekognition नमूना कार्यान्वयन का उपयोग करके अपनी पहचान सत्यापन परियोजनाओं में तेजी लाएं

Amazon Translate का उपयोग करके एकाधिक स्रोत भाषा दस्तावेज़ों का एकाधिक लक्षित भाषाओं में अनुवाद करें

वार्तालाप ट्रांस्क्रिप्ट में PII डेटा को कैसे संपादित करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा