अमेज़न SageMaker डेटा रैंगलर आपको एक दृश्य इंटरफ़ेस से मशीन लर्निंग (एमएल) के लिए डेटा को समझने, एकत्र करने, बदलने और तैयार करने में मदद करता है। इसमें 300 से अधिक बिल्ट-इन डेटा ट्रांसफ़ॉर्मेशन शामिल हैं ताकि आप बिना कोई कोड लिखे सुविधाओं को जल्दी से सामान्य, रूपांतरित और संयोजित कर सकें।
डेटा विज्ञान व्यवसायी व्यावसायिक समस्याओं को हल करने के लिए डेटा उत्पन्न, निरीक्षण और संसाधित करते हैं, जहाँ उन्हें डेटासेट से सुविधाओं को बदलने और निकालने की आवश्यकता होती है। क्रमिक एन्कोडिंग या वन-हॉट एन्कोडिंग जैसे रूपांतरण आपके डेटासेट पर एन्कोडिंग सीखते हैं। इन एन्कोडेड आउटपुट को प्रशिक्षित पैरामीटर के रूप में संदर्भित किया जाता है। जैसे-जैसे समय के साथ डेटासेट बदलते हैं, आपके डेटा के लिए परिवर्तन प्रवाह को प्रासंगिक बनाए रखने के लिए पहले अनदेखे डेटा पर एन्कोडिंग को फिर से भरना आवश्यक हो सकता है।
हम रिफिट प्रशिक्षित पैरामीटर फीचर की घोषणा करते हुए उत्साहित हैं, जो आपको पिछले प्रशिक्षित पैरामीटर का उपयोग करने और उन्हें इच्छानुसार रीफिट करने की अनुमति देता है। इस पोस्ट में, हम प्रदर्शित करते हैं कि इस सुविधा का उपयोग कैसे करें।
डेटा रैंगलर रिफिट सुविधा का अवलोकन
रिफिट प्रशिक्षित पैरामीटर फीचर की बारीकियों में गोता लगाने से पहले, हम बताते हैं कि यह सुविधा निम्नलिखित उदाहरण के साथ कैसे काम करती है।
मान लें कि आपके ग्राहक डेटासेट में श्रेणीबद्ध सुविधा है country
जैसे तार के रूप में प्रतिनिधित्व किया Australia
और Singapore
. एमएल एल्गोरिदम को संख्यात्मक इनपुट की आवश्यकता होती है; इसलिए, इन श्रेणीबद्ध मानों को सांख्यिक मानों में एन्कोड किया जाना चाहिए। एन्कोडिंग श्रेणीबद्ध डेटा श्रेणियों के लिए एक संख्यात्मक प्रतिनिधित्व बनाने की प्रक्रिया है। उदाहरण के लिए, यदि आपकी श्रेणी देश में मान हैं Australia
और Singapore
, आप इस जानकारी को दो वैक्टर में एन्कोड कर सकते हैं: [1, 0] प्रतिनिधित्व करने के लिए Australia
और [0, 1] प्रतिनिधित्व करने के लिए Singapore
. यहां उपयोग किया जाने वाला परिवर्तन एक-हॉट एन्कोडिंग है और नया एन्कोडेड आउटपुट प्रशिक्षित मापदंडों को दर्शाता है।
मॉडल को प्रशिक्षित करने के बाद, समय के साथ आपके ग्राहक बढ़ सकते हैं और देश सूची में आपके पास अधिक विशिष्ट मूल्य हैं। नए डेटासेट में दूसरी श्रेणी हो सकती है, India
, जो मूल डेटासेट का हिस्सा नहीं था, जो मॉडल की सटीकता को प्रभावित कर सकता है। इसलिए, समय के साथ एकत्र किए गए नए डेटा के साथ अपने मॉडल को फिर से प्रशिक्षित करना आवश्यक है।
इस समस्या को दूर करने के लिए, आपको नई श्रेणी को शामिल करने के लिए एन्कोडिंग को ताज़ा करना होगा और अपने नवीनतम डेटासेट के अनुसार वेक्टर प्रतिनिधित्व को अपडेट करना होगा। हमारे उदाहरण में, एन्कोडिंग को के लिए नई श्रेणी को प्रतिबिंबित करना चाहिए country
है, जो है India
. हम आम तौर पर रिफिट ऑपरेशन के रूप में एन्कोडिंग को रीफ्रेश करने की इस प्रक्रिया को संदर्भित करते हैं। आपके द्वारा रिफिट ऑपरेशन करने के बाद, आपको नया एन्कोडिंग मिलता है: Australia
: [1, 0, 0], Singapore
: [0, 1, 0], और India
: [0, 0, 1]। एक-हॉट एन्कोडिंग को रिफिट करने और फिर नए डेटासेट पर मॉडल को फिर से प्रशिक्षित करने से बेहतर गुणवत्ता वाले पूर्वानुमान मिलते हैं।
डेटा रैंगलर की रिफिट प्रशिक्षित पैरामीटर विशेषता निम्नलिखित मामलों में उपयोगी है:
- डेटासेट में नया डेटा जोड़ा जाता है - जब डेटासेट नए डेटा से समृद्ध होता है, तो एमएल मॉडल को फिर से प्रशिक्षित करना आवश्यक है। इष्टतम परिणाम प्राप्त करने के लिए, हमें नए डेटासेट पर प्रशिक्षित मापदंडों को फिर से भरना होगा।
- नमूना डेटा पर फीचर इंजीनियरिंग करने के बाद पूर्ण डेटासेट पर प्रशिक्षण - एक बड़े डेटासेट के लिए, प्रशिक्षित मापदंडों को सीखने के लिए डेटासेट के एक नमूने पर विचार किया जाता है, जो आपके संपूर्ण डेटासेट का प्रतिनिधित्व नहीं कर सकता है। हमें संपूर्ण डेटासेट पर प्रशिक्षित मापदंडों को पुनः प्राप्त करने की आवश्यकता है।
रिफिट प्रशिक्षित पैरामीटर विकल्प से लाभान्वित होने वाले डेटासेट पर किए गए कुछ सबसे सामान्य डेटा रैंगलर रूपांतरण निम्नलिखित हैं:
डेटा रैंगलर में परिवर्तन के बारे में अधिक जानकारी के लिए देखें डेटा ट्रांसफ़ॉर्म करें.
इस पोस्ट में, हम दिखाते हैं कि डेटा रैंगलर का उपयोग करके डेटासेट पर इन प्रशिक्षित मापदंडों को कैसे संसाधित किया जाए। आप उत्पादन कार्यों में डेटा रैंगलर प्रवाह का उपयोग अपने डेटा के बढ़ने और बदलने पर उसे पुन: संसाधित करने के लिए कर सकते हैं।
समाधान अवलोकन
इस पोस्ट के लिए, हम प्रदर्शित करते हैं कि सार्वजनिक रूप से उपलब्ध डेटासेट के साथ डेटा रैंगलर के रिफिट प्रशिक्षित पैरामीटर सुविधा का उपयोग कैसे करें Kaggle: ज़िलो से यूएस हाउसिंग डेटा, संयुक्त राज्य अमेरिका में बिक्री के लिए गुण। इसमें घरों के विभिन्न भू-वितरणों में घरेलू बिक्री मूल्य हैं।
निम्न आरेख रीफिट प्रशिक्षित पैरामीटर सुविधा का उपयोग करके डेटा रैंगलर के उच्च-स्तरीय आर्किटेक्चर को दिखाता है। हम रिफिट प्रशिक्षित पैरामीटर के बिना डेटा गुणवत्ता पर प्रभाव भी दिखाते हैं और अंत में परिणामों की तुलना करते हैं।
वर्कफ़्लो में निम्न चरण शामिल हैं:
- खोजपूर्ण डेटा विश्लेषण करें - खोजपूर्ण डेटा विश्लेषण (ईडीए) शुरू करने के लिए डेटा रैंगलर पर एक नया प्रवाह बनाएं। प्रशिक्षण के लिए अपने डेटा को समझने, साफ करने, एकत्र करने, बदलने और तैयार करने के लिए व्यावसायिक डेटा आयात करें। को देखें नमूना डेटासेट के साथ अमेज़ॅन सेजमेकर डेटा रैंगलर क्षमताओं का अन्वेषण करें डेटा रैंगलर के साथ EDA करने के बारे में अधिक जानकारी के लिए।
- डेटा प्रोसेसिंग जॉब बनाएं - यह चरण आपके द्वारा डेटासेट पर किए गए सभी परिवर्तनों को कॉन्फ़िगर में संग्रहीत प्रवाह फ़ाइल के रूप में निर्यात करता है अमेज़न सरल भंडारण सेवा (अमेज़न S3) स्थान। डेटा रैंगलर द्वारा उत्पन्न प्रवाह फ़ाइल के साथ डेटा प्रोसेसिंग कार्य आपके डेटासेट पर सीखे गए रूपांतरणों और प्रशिक्षित मापदंडों को लागू करता है। जब डेटा प्रोसेसिंग का काम पूरा हो जाता है, तो आउटपुट फाइल को डेस्टिनेशन नोड में कॉन्फ़िगर किए गए Amazon S3 लोकेशन पर अपलोड कर दिया जाता है। ध्यान दें कि रिफिट विकल्प डिफ़ॉल्ट रूप से बंद है। प्रसंस्करण कार्य को तुरंत निष्पादित करने के विकल्प के रूप में, आप भी कर सकते हैं एक प्रसंस्करण कार्य निर्धारित करें डेटा रैंगलर का उपयोग करते हुए कुछ ही क्लिक में - विशिष्ट समय पर चलने के लिए जॉब बनाएं।
- रीफिट प्रशिक्षित पैरामीटर सुविधा के साथ डेटा प्रोसेसिंग जॉब बनाएं - अपने पूर्ण या प्रबलित डेटासेट पर अपने प्रशिक्षित मापदंडों को फिर से लागू करने के लिए नौकरी बनाते समय नई रीफिट प्रशिक्षित पैरामीटर सुविधा का चयन करें। फ्लो फाइल को स्टोर करने के लिए Amazon S3 लोकेशन कॉन्फ़िगरेशन के अनुसार, डेटा प्रोसेसिंग जॉब नई फ्लो फाइल बनाता या अपडेट करता है। यदि आप चरण 3 के समान Amazon S2 स्थान को कॉन्फ़िगर करते हैं, तो डेटा प्रोसेसिंग कार्य चरण 2 में उत्पन्न प्रवाह फ़ाइल को अपडेट करता है, जिसका उपयोग आपके डेटा के लिए आपके प्रवाह को प्रासंगिक बनाए रखने के लिए किया जा सकता है। प्रसंस्करण कार्य पूरा होने पर, आउटपुट फ़ाइलें गंतव्य नोड कॉन्फ़िगर किए गए S3 बकेट पर अपलोड की जाती हैं। आप उत्पादन कार्यप्रवाह के लिए अपने संपूर्ण डेटासेट पर अद्यतन प्रवाह का उपयोग कर सकते हैं।
.. पूर्वापेक्षाएँ
आरंभ करने से पहले, डेटासेट को S3 बकेट में अपलोड करें, फिर इसे डेटा रैंगलर में आयात करें। निर्देशों के लिए, देखें Amazon S3 से डेटा आयात करें.
आइए अब आर्किटेक्चर आरेख में वर्णित चरणों के माध्यम से चलते हैं।
डेटा रैंगलर में EDA करें
रिफिट प्रशिक्षित पैरामीटर सुविधा को आज़माने के लिए, डेटा रैंगलर में निम्नलिखित विश्लेषण और परिवर्तन सेट अप करें। EDA की स्थापना के अंत में, डेटा रैंगलर डेटासेट से प्रशिक्षित मापदंडों के साथ कैप्चर की गई एक फ़्लो फ़ाइल बनाता है।
- अन्वेषणात्मक डेटा विश्लेषण के लिए Amazon SageMaker Data Wrangler में एक नया प्रवाह बनाएँ।
- आपके द्वारा अपलोड किए गए व्यवसाय डेटा को Amazon S3 पर आयात करें।
- आप फ़ाइल प्रकार, सीमांकक, नमूनाकरण, इत्यादि चुनने के लिए डेटा और विकल्पों का पूर्वावलोकन कर सकते हैं। इस उदाहरण के लिए, हम उपयोग करते हैं पहले के डेटा रैंगलर द्वारा डेटासेट से पहले 50,000 रिकॉर्ड आयात करने के लिए नमूनाकरण विकल्प प्रदान किया गया।
- चुनें आयात.
- डेटा रैंगलर द्वारा लागू किए गए डेटा प्रकार मिलान की जांच करने के बाद, एक नया विश्लेषण जोड़ें।
- के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
- चुनें बनाएं.
डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट के साथ, आपको सामान्य जानकारी के साथ डेटासेट का एक संक्षिप्त सारांश मिलता है जैसे कि अनुपलब्ध मान, अमान्य मान, सुविधा प्रकार, बाहरी गणना, और बहुत कुछ। आप सुविधाएँ चुन सकते हैं property_type
और city
रिफिट प्रशिक्षित पैरामीटर सुविधा को समझने के लिए डेटासेट पर परिवर्तन लागू करने के लिए।
आइए फीचर पर ध्यान दें property_type
डेटासेट से। रिपोर्ट में फ़ीचर विवरण अनुभाग, आप देख सकते हैं property_type
, जो कि एक स्पष्ट विशेषता है, और डेटा रैंगलर द्वारा 50,000 सैंपल किए गए डेटासेट से प्राप्त छह अद्वितीय मूल्य हैं। संपूर्ण डेटासेट में सुविधा के लिए अधिक श्रेणियां हो सकती हैं property_type
. कई अद्वितीय मूल्यों वाली सुविधा के लिए, आप क्रमसूचक एन्कोडिंग पसंद कर सकते हैं। यदि सुविधा में कुछ विशिष्ट मान हैं, तो एक-हॉट एन्कोडिंग दृष्टिकोण का उपयोग किया जा सकता है। इस उदाहरण के लिए, हम एक-हॉट एन्कोडिंग ऑन चुनते हैं property_type
.
इसी प्रकार, के लिए city
सुविधा, जो एक टेक्स्ट डेटा प्रकार है जिसमें बड़ी संख्या में अद्वितीय मान हैं, आइए इस सुविधा के लिए क्रमिक एन्कोडिंग लागू करें।
- डेटा रैंगलर प्रवाह पर नेविगेट करें, धन चिह्न चुनें, और चुनें परिवर्तन जोड़ें.
- चुनना सांकेतिक शब्दों में बदलना श्रेणीबद्ध सुविधाओं को बदलने के लिए विकल्प।
डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट से, फ़ीचर property_type
छह अनूठी श्रेणियां दिखाता है: CONDO
, LOT
, MANUFACTURED
, SINGLE_FAMILY
, MULTI_FAMILY
, तथा TOWNHOUSE
.
- के लिए बदालना, चुनें एक गर्म सांकेतिक शब्दों में बदलना.
फीचर पर वन-हॉट एनकोडिंग लगाने के बाद property_type
, आप नए कॉलम के रूप में जोड़ी गई अलग-अलग सुविधाओं के रूप में सभी छह श्रेणियों का पूर्वावलोकन कर सकते हैं। ध्यान दें कि इस पूर्वावलोकन को उत्पन्न करने के लिए आपके डेटासेट से 50,000 रिकॉर्ड का नमूना लिया गया था। इस प्रवाह के साथ डेटा रैंगलर प्रोसेसिंग जॉब चलाते समय, ये परिवर्तन आपके संपूर्ण डेटासेट पर लागू होते हैं।
- एक नया परिवर्तन जोड़ें और चुनें सांकेतिक शब्दों में बदलना श्रेणीबद्ध सुविधा पर परिवर्तन लागू करने के लिए
city
, जिसमें बड़ी संख्या में विशिष्ट श्रेणीबद्ध टेक्स्ट मान हैं। - इस सुविधा को सांख्यिक प्रतिनिधित्व में एन्कोड करने के लिए, चुनें साधारण सांकेतिक शब्दों में बदलना एसटी बदालना.
- इस परिवर्तन पर पूर्वावलोकन चुनें।
आप देख सकते हैं कि श्रेणीबद्ध विशेषता city
आउटपुट कॉलम में क्रमिक मानों के लिए मैप किया गया है e_city
.
- इस चरण को चुनकर जोड़ें अपडेट.
- CSV फ़ाइल के रूप में आउटपुट उत्पन्न करने के लिए डेटासेट पर लागू परिवर्तनों को संग्रहीत करने के लिए आप गंतव्य को Amazon S3 पर सेट कर सकते हैं।
डेटा रैंगलर आपके द्वारा उपयोगकर्ता इंटरफ़ेस में परिभाषित वर्कफ़्लो को फ़्लो फ़ाइल के रूप में संग्रहीत करता है और कॉन्फ़िगर किए गए डेटा प्रोसेसिंग कार्य के Amazon S3 स्थान पर अपलोड करता है। इस फ़्लो फ़ाइल का उपयोग तब किया जाता है जब आप बड़े डेटासेट पर ट्रांसफ़ॉर्म लागू करने के लिए डेटा रैंगलर प्रोसेसिंग जॉब बनाते हैं, या मॉडल को फिर से प्रशिक्षित करने के लिए नए रीइन्फोर्समेंट डेटा को ट्रांसफ़ॉर्म करते हैं।
रीफिट सक्षम किए बिना डेटा रैंगलर डेटा प्रोसेसिंग कार्य लॉन्च करें
अब आप देख सकते हैं कि कैसे रिफिट विकल्प नए डेटासेट पर प्रशिक्षित मापदंडों का उपयोग करता है। इस प्रदर्शन के लिए, हम एक ही डेटा पर काम कर रहे दो डेटा रैंगलर प्रोसेसिंग जॉब को परिभाषित करते हैं। पहला संसाधन कार्य रीफिट को सक्षम नहीं करेगा; दूसरी प्रोसेसिंग जॉब के लिए, हम रिफिट का उपयोग करते हैं। हम अंत में प्रभावों की तुलना करते हैं।
- चुनें नौकरी पैदा करो डेटा रैंगलर के साथ डेटा प्रोसेसिंग कार्य आरंभ करने के लिए।
- के लिए कार्य नाम, नाम डालें।
- के अंतर्गत प्रशिक्षित पैरामीटर, चयन न करें मरम्मत.
- चुनें कार्य कॉन्फ़िगर करें.
- आउटपुट फ्लो फाइल को स्टोर करने के लिए जॉब पैरामीटर्स जैसे इंस्टेंस टाइप, वॉल्यूम साइज और Amazon S3 लोकेशन को कॉन्फ़िगर करें।
- डेटा रैंगलर प्रवाह फ़ाइल S3 स्थान में एक प्रवाह फ़ाइल बनाता है। प्रवाह मापदंडों को प्रशिक्षित करने के लिए परिवर्तनों का उपयोग करता है, और हम बाद में इन मापदंडों को फिर से प्रशिक्षित करने के लिए रीफिट विकल्प का उपयोग करते हैं।
- चुनें बनाएं.
गंतव्य नोड में कॉन्फ़िगर किए गए S3 बकेट में रूपांतरित डेटा देखने के लिए डेटा प्रोसेसिंग कार्य पूरा होने तक प्रतीक्षा करें।
रीफिट सक्षम के साथ डेटा रैंगलर डेटा प्रोसेसिंग कार्य लॉन्च करें
आइए रीफिट प्रशिक्षित पैरामीटर सुविधा सक्षम के साथ सक्षम एक और प्रोसेसिंग जॉब बनाएं। यह विकल्प संपूर्ण डेटासेट पर पुन: सीखे गए प्रशिक्षित मापदंडों को लागू करता है। जब यह डेटा प्रोसेसिंग कार्य पूरा हो जाता है, तो एक फ़्लो फ़ाइल बनाई जाती है या कॉन्फ़िगर किए गए Amazon S3 स्थान पर अपडेट की जाती है।
- चुनें नौकरी पैदा करो.
- के लिए कार्य नाम, नाम डालें।
- के लिए प्रशिक्षित पैरामीटर, चुनते हैं मरम्मत.
- आप चुनते हैं सभी उत्पाद दिखाएं, आप सभी प्रशिक्षित मापदंडों की समीक्षा कर सकते हैं।
- चुनें कार्य कॉन्फ़िगर करें.
- Amazon S3 प्रवाह फ़ाइल स्थान दर्ज करें।
- चुनें बनाएं.
डाटा प्रोसेसिंग कार्य पूरा होने की प्रतीक्षा करें।
परिभाषित रूपांतरणों को चलाने वाले डेटा प्रोसेसिंग कार्य द्वारा उत्पन्न डेटा को देखने के लिए गंतव्य नोड में कॉन्फ़िगर किए गए S3 बकेट का संदर्भ लें।
डेटा रैंगलर प्रोसेसिंग जॉब चलाने के लिए पायथन कोड को निर्यात करें
डेटा रैंगलर में क्रिएट जॉब विकल्प का उपयोग करके प्रोसेसिंग जॉब शुरू करने के विकल्प के रूप में, आप डेटा रैंगलर फ्लो को ज्यूपिटर नोटबुक में निर्यात करके डेटा प्रोसेसिंग जॉब को ट्रिगर कर सकते हैं। डेटा रैंगलर इनपुट, आउटपुट, प्रोसेसिंग जॉब कॉन्फ़िगरेशन और जॉब स्टेटस चेक के लिए कोड के साथ एक ज्यूपिटर नोटबुक बनाता है। आप अपनी डेटा परिवर्तन आवश्यकताओं के अनुसार पैरामीटर को बदल या अपडेट कर सकते हैं।
- फाइनल के आगे धन चिह्न चुनें बदालना नोड।
- चुनें निर्यात के लिए और अमेज़न S3 (ज्यूपिटर नोटबुक के माध्यम से).
आप इनपुट, आउटपुट, प्रोसेसिंग जॉब कॉन्फ़िगरेशन और जॉब स्टेटस चेक के लिए कोड के साथ खुली एक ज्यूपिटर नोटबुक देख सकते हैं।
- कोड के माध्यम से रिफिट प्रशिक्षित पैरामीटर विकल्प को लागू करने के लिए, सेट करें
refit
करने के लिए पैरामीटरTrue
.
डाटा प्रोसेसिंग नौकरी के परिणामों की तुलना करें
डेटा रैंगलर प्रोसेसिंग कार्य पूर्ण होने के बाद, आपको कॉन्फ़िगर किए गए Amazon S3 गंतव्य में संग्रहीत डेटा प्रोसेसिंग जॉब द्वारा उत्पन्न आउटपुट के साथ दो नए डेटा रैंगलर प्रवाह बनाने होंगे।
डेटा प्रोसेसिंग जॉब्स के आउटपुट की समीक्षा करने के लिए आप Amazon S3 डेस्टिनेशन फोल्डर में कॉन्फ़िगर किए गए स्थान का उल्लेख कर सकते हैं।
प्रसंस्करण कार्य परिणामों का निरीक्षण करने के लिए, परिवर्तन परिणामों की तुलना करने के लिए डेटा गुणवत्ता और इनसाइट्स रिपोर्ट का उपयोग करके दो नए डेटा रैंगलर प्रवाह बनाएँ।
- अमेज़ॅन सेजमेकर डेटा रैंगलर में एक नया प्रवाह बनाएं।
- Amazon S3 से रीफिट सक्षम आउटपुट फ़ाइल के बिना डेटा प्रोसेसिंग कार्य आयात करें।
- एक नया विश्लेषण जोड़ें।
- के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
- चुनें बनाएं.
उपरोक्त चरणों को दोहराएं और रीफिट सक्षम के साथ डेटा प्रोसेसिंग जॉब आउटपुट का विश्लेषण करने के लिए नया डेटा रैंगलर प्रवाह बनाएं।
अब आइए फीचर के लिए प्रोसेसिंग जॉब्स के आउटपुट देखें property_type
डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट का उपयोग करना। डेटा और इनसाइट्स रिपोर्ट लिस्टिंग पर फीचर विवरण तक स्क्रॉल करें feature_type
.
रिफिट प्रशिक्षित पैरामीटर प्रोसेसिंग जॉब ने पूरे डेटासेट पर प्रशिक्षित पैरामीटर को रिफिट किया है और नए मान को एन्कोड किया है APARTMENT
पूर्ण डेटासेट पर सात अलग-अलग मानों के साथ।
सामान्य प्रसंस्करण कार्य ने नमूना डेटासेट प्रशिक्षित मापदंडों को लागू किया, जिसके लिए केवल छह अलग-अलग मान हैं property_type
विशेषता। डेटा के लिए feature_type
APARTMENT
, अमान्य हैंडलिंग रणनीति स्किप लागू है और डेटा प्रोसेसिंग जॉब इस नई श्रेणी को नहीं सीखता है। एक-हॉट एन्कोडिंग ने नए डेटा पर मौजूद इस नई श्रेणी को छोड़ दिया है, और एन्कोडिंग श्रेणी को छोड़ देती है APARTMENT
.
आइए अब एक और फीचर पर ध्यान दें, city
. रिफिट प्रशिक्षित पैरामीटर प्रोसेसिंग जॉब ने इसके लिए उपलब्ध सभी मूल्यों को फिर से सीख लिया है city
सुविधा, नए डेटा को देखते हुए।
में दिखाया गया है फ़ीचर सारांश रिपोर्ट का अनुभाग, नया एन्कोडेड फीचर कॉलम e_city
रिफिट प्रशिक्षित पैरामीटर सुविधा का उपयोग करके 100% वैध पैरामीटर हैं।
इसके विपरीत, नए एन्कोडेड फीचर कॉलम में सामान्य प्रोसेसिंग जॉब में 82.4% लापता मान हैं e_city
. यह घटना इसलिए है क्योंकि पूरे डेटासेट पर केवल सीखे गए प्रशिक्षित मापदंडों का नमूना सेट लागू किया जाता है और डेटा प्रोसेसिंग कार्य द्वारा कोई रीफिटिंग लागू नहीं की जाती है।
निम्नलिखित हिस्टोग्राम क्रमिक एन्कोडेड फीचर को दर्शाते हैं e_city
. पहला हिस्टोग्राम रिफिट विकल्प के साथ रूपांतरित फीचर का है।
अगला हिस्टोग्राम बिना रिफिट विकल्प के रूपांतरित फीचर का है। नारंगी कॉलम डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट में अनुपलब्ध मान (NaN) दिखाता है। डेटा रैंगलर UI में कॉन्फ़िगर किए गए नए मान जो नमूना डेटासेट से नहीं सीखे गए हैं, उन्हें नॉट ए नंबर (NaN) के रूप में बदल दिया गया है अमान्य हैंडलिंग रणनीति.
रिफिट प्रशिक्षित पैरामीटर के साथ डाटा प्रोसेसिंग जॉब ने पुनः सीखा property_type
और city
संपूर्ण डेटासेट से नए मानों पर विचार करने वाली सुविधाएँ। रिफिट प्रशिक्षित पैरामीटर के बिना, डेटा प्रोसेसिंग जॉब केवल सैंपल किए गए डेटासेट के पूर्व-सीखा प्रशिक्षित पैरामीटर का उपयोग करता है। फिर यह उन्हें नए डेटा पर लागू करता है, लेकिन एन्कोडिंग के लिए नए मानों पर विचार नहीं किया जाता है। इसका मॉडल सटीकता पर प्रभाव पड़ेगा।
क्लीन अप
जब आप डेटा रैंगलर का उपयोग नहीं कर रहे हैं, तो अतिरिक्त शुल्क से बचने के लिए उस इंस्टेंस को बंद करना महत्वपूर्ण है जिस पर वह चलता है।
काम खोने से बचने के लिए, डेटा रैंगलर को बंद करने से पहले अपने डेटा प्रवाह को बचाएं।
- अपने डेटा प्रवाह को बचाने के लिए अमेज़ॅन सैजमेकर स्टूडियो, चुनें पट्टिका, उसके बाद चुनो डेटा रैंगलर फ़्लो सहेजें. डेटा रैंगलर स्वचालित रूप से प्रत्येक 60 सेकंड में आपके डेटा प्रवाह को सहेजता है।
- डेटा रैंगलर इंस्टेंस को बंद करने के लिए, स्टूडियो में, चुनें रनिंग इंस्टेंस और कर्नेल.
- के अंतर्गत ऐप्स चालू हैं, सेजमेकर-डेटा-रैंगलर-1.0 ऐप के आगे शटडाउन आइकन चुनें।
- चुनें सब बंद करो पुष्टि करने के लिए।
डेटा रैंगलर ml.m5.4xबड़े उदाहरण पर चलता है। यह उदाहरण गायब हो जाता है चल रहे उदाहरण जब आप डेटा रैंगलर ऐप को बंद करते हैं।
डेटा रैंगलर ऐप को बंद करने के बाद, अगली बार जब आप डेटा रैंगलर फ़्लो फ़ाइल खोलते हैं, तो उसे पुनरारंभ करना होगा। इसमें कुछ मिनट लग सकते हैं।
निष्कर्ष
इस पोस्ट में, हमने डेटा रैंगलर में रीफिट प्रशिक्षित पैरामीटर सुविधा का अवलोकन प्रदान किया। इस नई सुविधा के साथ, आप डेटा रैंगलर प्रवाह में प्रशिक्षित पैरामीटर्स को स्टोर कर सकते हैं, और डेटा प्रोसेसिंग जॉब्स बड़े डेटासेट्स या रीइन्फोर्समेंट डेटासेट्स पर सीखे गए परिवर्तनों को लागू करने के लिए प्रशिक्षित पैरामीटर्स का उपयोग करते हैं। आप इस विकल्प को पाठ सुविधाओं, संख्यात्मक डेटा, और आउटलेयर को संभालने के लिए लागू कर सकते हैं।
एमएल जीवनचक्र के डेटा प्रोसेसिंग के दौरान प्रशिक्षित मापदंडों को संरक्षित करना डेटा प्रोसेसिंग चरणों को सरल और कम करता है, मजबूत फीचर इंजीनियरिंग का समर्थन करता है, और नए डेटा पर मॉडल प्रशिक्षण और सुदृढीकरण प्रशिक्षण का समर्थन करता है।
हम आपको आपकी डेटा प्रोसेसिंग आवश्यकताओं के लिए इस नई सुविधा को आज़माने के लिए प्रोत्साहित करते हैं।
लेखक के बारे में
हरिहरन सुरेश AWS में एक वरिष्ठ समाधान वास्तुकार हैं। उन्हें डेटाबेस, मशीन लर्निंग और नए समाधानों को डिजाइन करने का शौक है। AWS में शामिल होने से पहले, हरिहरन एक उत्पाद वास्तुकार, कोर बैंकिंग कार्यान्वयन विशेषज्ञ और डेवलपर थे, और उन्होंने BFSI संगठनों के साथ 11 वर्षों तक काम किया। तकनीक से इतर उन्हें पैराग्लाइडिंग और साइकिल चलाने में मजा आता है।
संतोष कुलकर्णी Amazon वेब सर्विसेज में एंटरप्राइज सॉल्यूशंस आर्किटेक्ट हैं जो ऑस्ट्रेलिया में खेल ग्राहकों के साथ काम करते हैं। उन्हें एआई/एमएल, बिग डेटा और सॉफ्टवेयर विकास में अपने ज्ञान का उपयोग करके व्यावसायिक समस्याओं को हल करने के लिए बड़े पैमाने पर वितरित एप्लिकेशन बनाने का शौक है।
विशाल कपूर एडब्ल्यूएस एआई के साथ एक वरिष्ठ अनुप्रयुक्त वैज्ञानिक हैं। उन्हें डेटा रैंगलर में ग्राहकों को उनके डेटा को समझने में मदद करने का शौक है। अपने खाली समय में, वह माउंटेन बाइक, स्नोबोर्ड और अपने परिवार के साथ समय बिताते हैं।
अनिकेत मंजूनाथ Amazon SageMaker में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह अमेज़ॅन सैजमेकर डेटा रैंगलर का समर्थन करने में मदद करता है और वितरित मशीन लर्निंग सिस्टम के बारे में भावुक है। काम से बाहर, उन्हें लंबी पैदल यात्रा करना, फिल्में देखना और क्रिकेट खेलना पसंद है।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न SageMaker
- अमेज़न SageMaker डेटा रैंगलर
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- इंटरमीडिएट (200)
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट