अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

अमेज़ॅन सेजमेकर डेटा रैंगलर का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से करें

अमेज़न SageMaker डेटा रैंगलर आपको एक दृश्य इंटरफ़ेस से मशीन लर्निंग (एमएल) के लिए डेटा को समझने, एकत्र करने, बदलने और तैयार करने में मदद करता है। इसमें 300 से अधिक बिल्ट-इन डेटा ट्रांसफ़ॉर्मेशन शामिल हैं ताकि आप बिना कोई कोड लिखे सुविधाओं को जल्दी से सामान्य, रूपांतरित और संयोजित कर सकें।

डेटा विज्ञान व्यवसायी व्यावसायिक समस्याओं को हल करने के लिए डेटा उत्पन्न, निरीक्षण और संसाधित करते हैं, जहाँ उन्हें डेटासेट से सुविधाओं को बदलने और निकालने की आवश्यकता होती है। क्रमिक एन्कोडिंग या वन-हॉट एन्कोडिंग जैसे रूपांतरण आपके डेटासेट पर एन्कोडिंग सीखते हैं। इन एन्कोडेड आउटपुट को प्रशिक्षित पैरामीटर के रूप में संदर्भित किया जाता है। जैसे-जैसे समय के साथ डेटासेट बदलते हैं, आपके डेटा के लिए परिवर्तन प्रवाह को प्रासंगिक बनाए रखने के लिए पहले अनदेखे डेटा पर एन्कोडिंग को फिर से भरना आवश्यक हो सकता है।

हम रिफिट प्रशिक्षित पैरामीटर फीचर की घोषणा करते हुए उत्साहित हैं, जो आपको पिछले प्रशिक्षित पैरामीटर का उपयोग करने और उन्हें इच्छानुसार रीफिट करने की अनुमति देता है। इस पोस्ट में, हम प्रदर्शित करते हैं कि इस सुविधा का उपयोग कैसे करें।

डेटा रैंगलर रिफिट सुविधा का अवलोकन

रिफिट प्रशिक्षित पैरामीटर फीचर की बारीकियों में गोता लगाने से पहले, हम बताते हैं कि यह सुविधा निम्नलिखित उदाहरण के साथ कैसे काम करती है।

मान लें कि आपके ग्राहक डेटासेट में श्रेणीबद्ध सुविधा है country जैसे तार के रूप में प्रतिनिधित्व किया Australia और Singapore. एमएल एल्गोरिदम को संख्यात्मक इनपुट की आवश्यकता होती है; इसलिए, इन श्रेणीबद्ध मानों को सांख्यिक मानों में एन्कोड किया जाना चाहिए। एन्कोडिंग श्रेणीबद्ध डेटा श्रेणियों के लिए एक संख्यात्मक प्रतिनिधित्व बनाने की प्रक्रिया है। उदाहरण के लिए, यदि आपकी श्रेणी देश में मान हैं Australia और Singapore, आप इस जानकारी को दो वैक्टर में एन्कोड कर सकते हैं: [1, 0] प्रतिनिधित्व करने के लिए Australia और [0, 1] प्रतिनिधित्व करने के लिए Singapore. यहां उपयोग किया जाने वाला परिवर्तन एक-हॉट एन्कोडिंग है और नया एन्कोडेड आउटपुट प्रशिक्षित मापदंडों को दर्शाता है।

मॉडल को प्रशिक्षित करने के बाद, समय के साथ आपके ग्राहक बढ़ सकते हैं और देश सूची में आपके पास अधिक विशिष्ट मूल्य हैं। नए डेटासेट में दूसरी श्रेणी हो सकती है, India, जो मूल डेटासेट का हिस्सा नहीं था, जो मॉडल की सटीकता को प्रभावित कर सकता है। इसलिए, समय के साथ एकत्र किए गए नए डेटा के साथ अपने मॉडल को फिर से प्रशिक्षित करना आवश्यक है।

इस समस्या को दूर करने के लिए, आपको नई श्रेणी को शामिल करने के लिए एन्कोडिंग को ताज़ा करना होगा और अपने नवीनतम डेटासेट के अनुसार वेक्टर प्रतिनिधित्व को अपडेट करना होगा। हमारे उदाहरण में, एन्कोडिंग को के लिए नई श्रेणी को प्रतिबिंबित करना चाहिए countryहै, जो है India. हम आम तौर पर रिफिट ऑपरेशन के रूप में एन्कोडिंग को रीफ्रेश करने की इस प्रक्रिया को संदर्भित करते हैं। आपके द्वारा रिफिट ऑपरेशन करने के बाद, आपको नया एन्कोडिंग मिलता है: Australia: [1, 0, 0], Singapore: [0, 1, 0], और India: [0, 0, 1]। एक-हॉट एन्कोडिंग को रिफिट करने और फिर नए डेटासेट पर मॉडल को फिर से प्रशिक्षित करने से बेहतर गुणवत्ता वाले पूर्वानुमान मिलते हैं।

डेटा रैंगलर की रिफिट प्रशिक्षित पैरामीटर विशेषता निम्नलिखित मामलों में उपयोगी है:

  • डेटासेट में नया डेटा जोड़ा जाता है - जब डेटासेट नए डेटा से समृद्ध होता है, तो एमएल मॉडल को फिर से प्रशिक्षित करना आवश्यक है। इष्टतम परिणाम प्राप्त करने के लिए, हमें नए डेटासेट पर प्रशिक्षित मापदंडों को फिर से भरना होगा।
  • नमूना डेटा पर फीचर इंजीनियरिंग करने के बाद पूर्ण डेटासेट पर प्रशिक्षण - एक बड़े डेटासेट के लिए, प्रशिक्षित मापदंडों को सीखने के लिए डेटासेट के एक नमूने पर विचार किया जाता है, जो आपके संपूर्ण डेटासेट का प्रतिनिधित्व नहीं कर सकता है। हमें संपूर्ण डेटासेट पर प्रशिक्षित मापदंडों को पुनः प्राप्त करने की आवश्यकता है।

रिफिट प्रशिक्षित पैरामीटर विकल्प से लाभान्वित होने वाले डेटासेट पर किए गए कुछ सबसे सामान्य डेटा रैंगलर रूपांतरण निम्नलिखित हैं:

डेटा रैंगलर में परिवर्तन के बारे में अधिक जानकारी के लिए देखें डेटा ट्रांसफ़ॉर्म करें.

इस पोस्ट में, हम दिखाते हैं कि डेटा रैंगलर का उपयोग करके डेटासेट पर इन प्रशिक्षित मापदंडों को कैसे संसाधित किया जाए। आप उत्पादन कार्यों में डेटा रैंगलर प्रवाह का उपयोग अपने डेटा के बढ़ने और बदलने पर उसे पुन: संसाधित करने के लिए कर सकते हैं।

समाधान अवलोकन

इस पोस्ट के लिए, हम प्रदर्शित करते हैं कि सार्वजनिक रूप से उपलब्ध डेटासेट के साथ डेटा रैंगलर के रिफिट प्रशिक्षित पैरामीटर सुविधा का उपयोग कैसे करें Kaggle: ज़िलो से यूएस हाउसिंग डेटा, संयुक्त राज्य अमेरिका में बिक्री के लिए गुण। इसमें घरों के विभिन्न भू-वितरणों में घरेलू बिक्री मूल्य हैं।

निम्न आरेख रीफिट प्रशिक्षित पैरामीटर सुविधा का उपयोग करके डेटा रैंगलर के उच्च-स्तरीय आर्किटेक्चर को दिखाता है। हम रिफिट प्रशिक्षित पैरामीटर के बिना डेटा गुणवत्ता पर प्रभाव भी दिखाते हैं और अंत में परिणामों की तुलना करते हैं।

वर्कफ़्लो में निम्न चरण शामिल हैं:

  1. खोजपूर्ण डेटा विश्लेषण करें - खोजपूर्ण डेटा विश्लेषण (ईडीए) शुरू करने के लिए डेटा रैंगलर पर एक नया प्रवाह बनाएं। प्रशिक्षण के लिए अपने डेटा को समझने, साफ करने, एकत्र करने, बदलने और तैयार करने के लिए व्यावसायिक डेटा आयात करें। को देखें नमूना डेटासेट के साथ अमेज़ॅन सेजमेकर डेटा रैंगलर क्षमताओं का अन्वेषण करें डेटा रैंगलर के साथ EDA करने के बारे में अधिक जानकारी के लिए।
  2. डेटा प्रोसेसिंग जॉब बनाएं - यह चरण आपके द्वारा डेटासेट पर किए गए सभी परिवर्तनों को कॉन्फ़िगर में संग्रहीत प्रवाह फ़ाइल के रूप में निर्यात करता है अमेज़न सरल भंडारण सेवा (अमेज़न S3) स्थान। डेटा रैंगलर द्वारा उत्पन्न प्रवाह फ़ाइल के साथ डेटा प्रोसेसिंग कार्य आपके डेटासेट पर सीखे गए रूपांतरणों और प्रशिक्षित मापदंडों को लागू करता है। जब डेटा प्रोसेसिंग का काम पूरा हो जाता है, तो आउटपुट फाइल को डेस्टिनेशन नोड में कॉन्फ़िगर किए गए Amazon S3 लोकेशन पर अपलोड कर दिया जाता है। ध्यान दें कि रिफिट विकल्प डिफ़ॉल्ट रूप से बंद है। प्रसंस्करण कार्य को तुरंत निष्पादित करने के विकल्प के रूप में, आप भी कर सकते हैं एक प्रसंस्करण कार्य निर्धारित करें डेटा रैंगलर का उपयोग करते हुए कुछ ही क्लिक में - विशिष्ट समय पर चलने के लिए जॉब बनाएं।
  3. रीफिट प्रशिक्षित पैरामीटर सुविधा के साथ डेटा प्रोसेसिंग जॉब बनाएं - अपने पूर्ण या प्रबलित डेटासेट पर अपने प्रशिक्षित मापदंडों को फिर से लागू करने के लिए नौकरी बनाते समय नई रीफिट प्रशिक्षित पैरामीटर सुविधा का चयन करें। फ्लो फाइल को स्टोर करने के लिए Amazon S3 लोकेशन कॉन्फ़िगरेशन के अनुसार, डेटा प्रोसेसिंग जॉब नई फ्लो फाइल बनाता या अपडेट करता है। यदि आप चरण 3 के समान Amazon S2 स्थान को कॉन्फ़िगर करते हैं, तो डेटा प्रोसेसिंग कार्य चरण 2 में उत्पन्न प्रवाह फ़ाइल को अपडेट करता है, जिसका उपयोग आपके डेटा के लिए आपके प्रवाह को प्रासंगिक बनाए रखने के लिए किया जा सकता है। प्रसंस्करण कार्य पूरा होने पर, आउटपुट फ़ाइलें गंतव्य नोड कॉन्फ़िगर किए गए S3 बकेट पर अपलोड की जाती हैं। आप उत्पादन कार्यप्रवाह के लिए अपने संपूर्ण डेटासेट पर अद्यतन प्रवाह का उपयोग कर सकते हैं।

.. पूर्वापेक्षाएँ

आरंभ करने से पहले, डेटासेट को S3 बकेट में अपलोड करें, फिर इसे डेटा रैंगलर में आयात करें। निर्देशों के लिए, देखें Amazon S3 से डेटा आयात करें.

आइए अब आर्किटेक्चर आरेख में वर्णित चरणों के माध्यम से चलते हैं।

डेटा रैंगलर में EDA करें

रिफिट प्रशिक्षित पैरामीटर सुविधा को आज़माने के लिए, डेटा रैंगलर में निम्नलिखित विश्लेषण और परिवर्तन सेट अप करें। EDA की स्थापना के अंत में, डेटा रैंगलर डेटासेट से प्रशिक्षित मापदंडों के साथ कैप्चर की गई एक फ़्लो फ़ाइल बनाता है।

  1. अन्वेषणात्मक डेटा विश्लेषण के लिए Amazon SageMaker Data Wrangler में एक नया प्रवाह बनाएँ।
  2. आपके द्वारा अपलोड किए गए व्यवसाय डेटा को Amazon S3 पर आयात करें।
  3. आप फ़ाइल प्रकार, सीमांकक, नमूनाकरण, इत्यादि चुनने के लिए डेटा और विकल्पों का पूर्वावलोकन कर सकते हैं। इस उदाहरण के लिए, हम उपयोग करते हैं पहले के डेटा रैंगलर द्वारा डेटासेट से पहले 50,000 रिकॉर्ड आयात करने के लिए नमूनाकरण विकल्प प्रदान किया गया।
  4. चुनें आयात.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. डेटा रैंगलर द्वारा लागू किए गए डेटा प्रकार मिलान की जांच करने के बाद, एक नया विश्लेषण जोड़ें।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
  2. चुनें बनाएं.

डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट के साथ, आपको सामान्य जानकारी के साथ डेटासेट का एक संक्षिप्त सारांश मिलता है जैसे कि अनुपलब्ध मान, अमान्य मान, सुविधा प्रकार, बाहरी गणना, और बहुत कुछ। आप सुविधाएँ चुन सकते हैं property_type और city रिफिट प्रशिक्षित पैरामीटर सुविधा को समझने के लिए डेटासेट पर परिवर्तन लागू करने के लिए।

आइए फीचर पर ध्यान दें property_type डेटासेट से। रिपोर्ट में फ़ीचर विवरण अनुभाग, आप देख सकते हैं property_type, जो कि एक स्पष्ट विशेषता है, और डेटा रैंगलर द्वारा 50,000 सैंपल किए गए डेटासेट से प्राप्त छह अद्वितीय मूल्य हैं। संपूर्ण डेटासेट में सुविधा के लिए अधिक श्रेणियां हो सकती हैं property_type. कई अद्वितीय मूल्यों वाली सुविधा के लिए, आप क्रमसूचक एन्कोडिंग पसंद कर सकते हैं। यदि सुविधा में कुछ विशिष्ट मान हैं, तो एक-हॉट एन्कोडिंग दृष्टिकोण का उपयोग किया जा सकता है। इस उदाहरण के लिए, हम एक-हॉट एन्कोडिंग ऑन चुनते हैं property_type.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

इसी प्रकार, के लिए city सुविधा, जो एक टेक्स्ट डेटा प्रकार है जिसमें बड़ी संख्या में अद्वितीय मान हैं, आइए इस सुविधा के लिए क्रमिक एन्कोडिंग लागू करें।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. डेटा रैंगलर प्रवाह पर नेविगेट करें, धन चिह्न चुनें, और चुनें परिवर्तन जोड़ें.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. चुनना सांकेतिक शब्दों में बदलना श्रेणीबद्ध सुविधाओं को बदलने के लिए विकल्प।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट से, फ़ीचर property_type छह अनूठी श्रेणियां दिखाता है: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY, तथा TOWNHOUSE.

  1. के लिए बदालना, चुनें एक गर्म सांकेतिक शब्दों में बदलना.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

फीचर पर वन-हॉट एनकोडिंग लगाने के बाद property_type, आप नए कॉलम के रूप में जोड़ी गई अलग-अलग सुविधाओं के रूप में सभी छह श्रेणियों का पूर्वावलोकन कर सकते हैं। ध्यान दें कि इस पूर्वावलोकन को उत्पन्न करने के लिए आपके डेटासेट से 50,000 रिकॉर्ड का नमूना लिया गया था। इस प्रवाह के साथ डेटा रैंगलर प्रोसेसिंग जॉब चलाते समय, ये परिवर्तन आपके संपूर्ण डेटासेट पर लागू होते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. एक नया परिवर्तन जोड़ें और चुनें सांकेतिक शब्दों में बदलना श्रेणीबद्ध सुविधा पर परिवर्तन लागू करने के लिए city, जिसमें बड़ी संख्या में विशिष्ट श्रेणीबद्ध टेक्स्ट मान हैं।
  2. इस सुविधा को सांख्यिक प्रतिनिधित्व में एन्कोड करने के लिए, चुनें साधारण सांकेतिक शब्दों में बदलना एसटी बदालना.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. इस परिवर्तन पर पूर्वावलोकन चुनें।

आप देख सकते हैं कि श्रेणीबद्ध विशेषता city आउटपुट कॉलम में क्रमिक मानों के लिए मैप किया गया है e_city.

  1. इस चरण को चुनकर जोड़ें अपडेट.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. CSV फ़ाइल के रूप में आउटपुट उत्पन्न करने के लिए डेटासेट पर लागू परिवर्तनों को संग्रहीत करने के लिए आप गंतव्य को Amazon S3 पर सेट कर सकते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

डेटा रैंगलर आपके द्वारा उपयोगकर्ता इंटरफ़ेस में परिभाषित वर्कफ़्लो को फ़्लो फ़ाइल के रूप में संग्रहीत करता है और कॉन्फ़िगर किए गए डेटा प्रोसेसिंग कार्य के Amazon S3 स्थान पर अपलोड करता है। इस फ़्लो फ़ाइल का उपयोग तब किया जाता है जब आप बड़े डेटासेट पर ट्रांसफ़ॉर्म लागू करने के लिए डेटा रैंगलर प्रोसेसिंग जॉब बनाते हैं, या मॉडल को फिर से प्रशिक्षित करने के लिए नए रीइन्फोर्समेंट डेटा को ट्रांसफ़ॉर्म करते हैं।

रीफिट सक्षम किए बिना डेटा रैंगलर डेटा प्रोसेसिंग कार्य लॉन्च करें

अब आप देख सकते हैं कि कैसे रिफिट विकल्प नए डेटासेट पर प्रशिक्षित मापदंडों का उपयोग करता है। इस प्रदर्शन के लिए, हम एक ही डेटा पर काम कर रहे दो डेटा रैंगलर प्रोसेसिंग जॉब को परिभाषित करते हैं। पहला संसाधन कार्य रीफिट को सक्षम नहीं करेगा; दूसरी प्रोसेसिंग जॉब के लिए, हम रिफिट का उपयोग करते हैं। हम अंत में प्रभावों की तुलना करते हैं।

  1. चुनें नौकरी पैदा करो डेटा रैंगलर के साथ डेटा प्रोसेसिंग कार्य आरंभ करने के लिए।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. के लिए कार्य नाम, नाम डालें।
  2. के अंतर्गत प्रशिक्षित पैरामीटर, चयन न करें मरम्मत.
  3. चुनें कार्य कॉन्फ़िगर करें.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. आउटपुट फ्लो फाइल को स्टोर करने के लिए जॉब पैरामीटर्स जैसे इंस्टेंस टाइप, वॉल्यूम साइज और Amazon S3 लोकेशन को कॉन्फ़िगर करें।
  2. डेटा रैंगलर प्रवाह फ़ाइल S3 स्थान में एक प्रवाह फ़ाइल बनाता है। प्रवाह मापदंडों को प्रशिक्षित करने के लिए परिवर्तनों का उपयोग करता है, और हम बाद में इन मापदंडों को फिर से प्रशिक्षित करने के लिए रीफिट विकल्प का उपयोग करते हैं।
  3. चुनें बनाएं.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

गंतव्य नोड में कॉन्फ़िगर किए गए S3 बकेट में रूपांतरित डेटा देखने के लिए डेटा प्रोसेसिंग कार्य पूरा होने तक प्रतीक्षा करें।

रीफिट सक्षम के साथ डेटा रैंगलर डेटा प्रोसेसिंग कार्य लॉन्च करें

आइए रीफिट प्रशिक्षित पैरामीटर सुविधा सक्षम के साथ सक्षम एक और प्रोसेसिंग जॉब बनाएं। यह विकल्प संपूर्ण डेटासेट पर पुन: सीखे गए प्रशिक्षित मापदंडों को लागू करता है। जब यह डेटा प्रोसेसिंग कार्य पूरा हो जाता है, तो एक फ़्लो फ़ाइल बनाई जाती है या कॉन्फ़िगर किए गए Amazon S3 स्थान पर अपडेट की जाती है।

  1. चुनें नौकरी पैदा करो.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. के लिए कार्य नाम, नाम डालें।
  2. के लिए प्रशिक्षित पैरामीटर, चुनते हैं मरम्मत.
  3. आप चुनते हैं सभी उत्पाद दिखाएं, आप सभी प्रशिक्षित मापदंडों की समीक्षा कर सकते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. चुनें कार्य कॉन्फ़िगर करें.
  2. Amazon S3 प्रवाह फ़ाइल स्थान दर्ज करें।
  3. चुनें बनाएं.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

डाटा प्रोसेसिंग कार्य पूरा होने की प्रतीक्षा करें।

परिभाषित रूपांतरणों को चलाने वाले डेटा प्रोसेसिंग कार्य द्वारा उत्पन्न डेटा को देखने के लिए गंतव्य नोड में कॉन्फ़िगर किए गए S3 बकेट का संदर्भ लें।

डेटा रैंगलर प्रोसेसिंग जॉब चलाने के लिए पायथन कोड को निर्यात करें

डेटा रैंगलर में क्रिएट जॉब विकल्प का उपयोग करके प्रोसेसिंग जॉब शुरू करने के विकल्प के रूप में, आप डेटा रैंगलर फ्लो को ज्यूपिटर नोटबुक में निर्यात करके डेटा प्रोसेसिंग जॉब को ट्रिगर कर सकते हैं। डेटा रैंगलर इनपुट, आउटपुट, प्रोसेसिंग जॉब कॉन्फ़िगरेशन और जॉब स्टेटस चेक के लिए कोड के साथ एक ज्यूपिटर नोटबुक बनाता है। आप अपनी डेटा परिवर्तन आवश्यकताओं के अनुसार पैरामीटर को बदल या अपडेट कर सकते हैं।

  1. फाइनल के आगे धन चिह्न चुनें बदालना नोड।
  2. चुनें निर्यात के लिए और अमेज़न S3 (ज्यूपिटर नोटबुक के माध्यम से).

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

आप इनपुट, आउटपुट, प्रोसेसिंग जॉब कॉन्फ़िगरेशन और जॉब स्टेटस चेक के लिए कोड के साथ खुली एक ज्यूपिटर नोटबुक देख सकते हैं।

  1. कोड के माध्यम से रिफिट प्रशिक्षित पैरामीटर विकल्प को लागू करने के लिए, सेट करें refit करने के लिए पैरामीटर True.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.डाटा प्रोसेसिंग नौकरी के परिणामों की तुलना करें

डेटा रैंगलर प्रोसेसिंग कार्य पूर्ण होने के बाद, आपको कॉन्फ़िगर किए गए Amazon S3 गंतव्य में संग्रहीत डेटा प्रोसेसिंग जॉब द्वारा उत्पन्न आउटपुट के साथ दो नए डेटा रैंगलर प्रवाह बनाने होंगे।

डेटा प्रोसेसिंग जॉब्स के आउटपुट की समीक्षा करने के लिए आप Amazon S3 डेस्टिनेशन फोल्डर में कॉन्फ़िगर किए गए स्थान का उल्लेख कर सकते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

प्रसंस्करण कार्य परिणामों का निरीक्षण करने के लिए, परिवर्तन परिणामों की तुलना करने के लिए डेटा गुणवत्ता और इनसाइट्स रिपोर्ट का उपयोग करके दो नए डेटा रैंगलर प्रवाह बनाएँ।

  1. अमेज़ॅन सेजमेकर डेटा रैंगलर में एक नया प्रवाह बनाएं।
  2. Amazon S3 से रीफिट सक्षम आउटपुट फ़ाइल के बिना डेटा प्रोसेसिंग कार्य आयात करें।
  3. एक नया विश्लेषण जोड़ें।
  4. के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
  5. चुनें बनाएं.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.
अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

उपरोक्त चरणों को दोहराएं और रीफिट सक्षम के साथ डेटा प्रोसेसिंग जॉब आउटपुट का विश्लेषण करने के लिए नया डेटा रैंगलर प्रवाह बनाएं।

अब आइए फीचर के लिए प्रोसेसिंग जॉब्स के आउटपुट देखें property_type डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट का उपयोग करना। डेटा और इनसाइट्स रिपोर्ट लिस्टिंग पर फीचर विवरण तक स्क्रॉल करें feature_type.

रिफिट प्रशिक्षित पैरामीटर प्रोसेसिंग जॉब ने पूरे डेटासेट पर प्रशिक्षित पैरामीटर को रिफिट किया है और नए मान को एन्कोड किया है APARTMENT पूर्ण डेटासेट पर सात अलग-अलग मानों के साथ।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

सामान्य प्रसंस्करण कार्य ने नमूना डेटासेट प्रशिक्षित मापदंडों को लागू किया, जिसके लिए केवल छह अलग-अलग मान हैं property_type विशेषता। डेटा के लिए feature_type APARTMENT, अमान्य हैंडलिंग रणनीति स्किप लागू है और डेटा प्रोसेसिंग जॉब इस नई श्रेणी को नहीं सीखता है। एक-हॉट एन्कोडिंग ने नए डेटा पर मौजूद इस नई श्रेणी को छोड़ दिया है, और एन्कोडिंग श्रेणी को छोड़ देती है APARTMENT.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

आइए अब एक और फीचर पर ध्यान दें, city. रिफिट प्रशिक्षित पैरामीटर प्रोसेसिंग जॉब ने इसके लिए उपलब्ध सभी मूल्यों को फिर से सीख लिया है city सुविधा, नए डेटा को देखते हुए।

में दिखाया गया है फ़ीचर सारांश रिपोर्ट का अनुभाग, नया एन्कोडेड फीचर कॉलम e_city रिफिट प्रशिक्षित पैरामीटर सुविधा का उपयोग करके 100% वैध पैरामीटर हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

इसके विपरीत, नए एन्कोडेड फीचर कॉलम में सामान्य प्रोसेसिंग जॉब में 82.4% लापता मान हैं e_city. यह घटना इसलिए है क्योंकि पूरे डेटासेट पर केवल सीखे गए प्रशिक्षित मापदंडों का नमूना सेट लागू किया जाता है और डेटा प्रोसेसिंग कार्य द्वारा कोई रीफिटिंग लागू नहीं की जाती है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

निम्नलिखित हिस्टोग्राम क्रमिक एन्कोडेड फीचर को दर्शाते हैं e_city. पहला हिस्टोग्राम रिफिट विकल्प के साथ रूपांतरित फीचर का है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

अगला हिस्टोग्राम बिना रिफिट विकल्प के रूपांतरित फीचर का है। नारंगी कॉलम डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट में अनुपलब्ध मान (NaN) दिखाता है। डेटा रैंगलर UI में कॉन्फ़िगर किए गए नए मान जो नमूना डेटासेट से नहीं सीखे गए हैं, उन्हें नॉट ए नंबर (NaN) के रूप में बदल दिया गया है अमान्य हैंडलिंग रणनीति.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

रिफिट प्रशिक्षित पैरामीटर के साथ डाटा प्रोसेसिंग जॉब ने पुनः सीखा property_type और city संपूर्ण डेटासेट से नए मानों पर विचार करने वाली सुविधाएँ। रिफिट प्रशिक्षित पैरामीटर के बिना, डेटा प्रोसेसिंग जॉब केवल सैंपल किए गए डेटासेट के पूर्व-सीखा प्रशिक्षित पैरामीटर का उपयोग करता है। फिर यह उन्हें नए डेटा पर लागू करता है, लेकिन एन्कोडिंग के लिए नए मानों पर विचार नहीं किया जाता है। इसका मॉडल सटीकता पर प्रभाव पड़ेगा।

क्लीन अप

जब आप डेटा रैंगलर का उपयोग नहीं कर रहे हैं, तो अतिरिक्त शुल्क से बचने के लिए उस इंस्टेंस को बंद करना महत्वपूर्ण है जिस पर वह चलता है।

काम खोने से बचने के लिए, डेटा रैंगलर को बंद करने से पहले अपने डेटा प्रवाह को बचाएं।

  1. अपने डेटा प्रवाह को बचाने के लिए अमेज़ॅन सैजमेकर स्टूडियो, चुनें पट्टिका, उसके बाद चुनो डेटा रैंगलर फ़्लो सहेजें. डेटा रैंगलर स्वचालित रूप से प्रत्येक 60 सेकंड में आपके डेटा प्रवाह को सहेजता है।
  2. डेटा रैंगलर इंस्टेंस को बंद करने के लिए, स्टूडियो में, चुनें रनिंग इंस्टेंस और कर्नेल.
  3. के अंतर्गत ऐप्स चालू हैं, सेजमेकर-डेटा-रैंगलर-1.0 ऐप के आगे शटडाउन आइकन चुनें।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

  1. चुनें सब बंद करो पुष्टि करने के लिए।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.

डेटा रैंगलर ml.m5.4xबड़े उदाहरण पर चलता है। यह उदाहरण गायब हो जाता है चल रहे उदाहरण जब आप डेटा रैंगलर ऐप को बंद करते हैं।

डेटा रैंगलर ऐप को बंद करने के बाद, अगली बार जब आप डेटा रैंगलर फ़्लो फ़ाइल खोलते हैं, तो उसे पुनरारंभ करना होगा। इसमें कुछ मिनट लग सकते हैं।

निष्कर्ष

इस पोस्ट में, हमने डेटा रैंगलर में रीफिट प्रशिक्षित पैरामीटर सुविधा का अवलोकन प्रदान किया। इस नई सुविधा के साथ, आप डेटा रैंगलर प्रवाह में प्रशिक्षित पैरामीटर्स को स्टोर कर सकते हैं, और डेटा प्रोसेसिंग जॉब्स बड़े डेटासेट्स या रीइन्फोर्समेंट डेटासेट्स पर सीखे गए परिवर्तनों को लागू करने के लिए प्रशिक्षित पैरामीटर्स का उपयोग करते हैं। आप इस विकल्प को पाठ सुविधाओं, संख्यात्मक डेटा, और आउटलेयर को संभालने के लिए लागू कर सकते हैं।

एमएल जीवनचक्र के डेटा प्रोसेसिंग के दौरान प्रशिक्षित मापदंडों को संरक्षित करना डेटा प्रोसेसिंग चरणों को सरल और कम करता है, मजबूत फीचर इंजीनियरिंग का समर्थन करता है, और नए डेटा पर मॉडल प्रशिक्षण और सुदृढीकरण प्रशिक्षण का समर्थन करता है।

हम आपको आपकी डेटा प्रोसेसिंग आवश्यकताओं के लिए इस नई सुविधा को आज़माने के लिए प्रोत्साहित करते हैं।


लेखक के बारे में

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ. हरिहरन सुरेश AWS में एक वरिष्ठ समाधान वास्तुकार हैं। उन्हें डेटाबेस, मशीन लर्निंग और नए समाधानों को डिजाइन करने का शौक है। AWS में शामिल होने से पहले, हरिहरन एक उत्पाद वास्तुकार, कोर बैंकिंग कार्यान्वयन विशेषज्ञ और डेवलपर थे, और उन्होंने BFSI संगठनों के साथ 11 वर्षों तक काम किया। तकनीक से इतर उन्हें पैराग्लाइडिंग और साइकिल चलाने में मजा आता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.संतोष कुलकर्णी Amazon वेब सर्विसेज में एंटरप्राइज सॉल्यूशंस आर्किटेक्ट हैं जो ऑस्ट्रेलिया में खेल ग्राहकों के साथ काम करते हैं। उन्हें एआई/एमएल, बिग डेटा और सॉफ्टवेयर विकास में अपने ज्ञान का उपयोग करके व्यावसायिक समस्याओं को हल करने के लिए बड़े पैमाने पर वितरित एप्लिकेशन बनाने का शौक है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.विशाल कपूर एडब्ल्यूएस एआई के साथ एक वरिष्ठ अनुप्रयुक्त वैज्ञानिक हैं। उन्हें डेटा रैंगलर में ग्राहकों को उनके डेटा को समझने में मदद करने का शौक है। अपने खाली समय में, वह माउंटेन बाइक, स्नोबोर्ड और अपने परिवार के साथ समय बिताते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके बड़े डेटासेट पर प्रशिक्षित मापदंडों को फिर से फिट करें। लंबवत खोज. ऐ.अनिकेत मंजूनाथ Amazon SageMaker में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह अमेज़ॅन सैजमेकर डेटा रैंगलर का समर्थन करने में मदद करता है और वितरित मशीन लर्निंग सिस्टम के बारे में भावुक है। काम से बाहर, उन्हें लंबी पैदल यात्रा करना, फिल्में देखना और क्रिकेट खेलना पसंद है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

बुंडेसलीगा मैच फैक्ट विन प्रोबेबिलिटी: एडब्ल्यूएस पर मशीन लर्निंग का उपयोग करके जीतने के अवसरों पर इन-गेम इवेंट्स के प्रभाव की मात्रा निर्धारित करना

स्रोत नोड: 1709670
समय टिकट: सितम्बर 30, 2022