अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

Amazon SageMaker डेटा रैंगलर के साथ Github नमूने का उपयोग करें

अमेज़न SageMakeआर डेटा रैंगलर एक यूआई-आधारित डेटा तैयारी उपकरण है जो डेटा विश्लेषण, प्रीप्रोसेसिंग और विज़ुअलाइज़ेशन को साफ़ करने, बदलने और डेटा को तेज़ी से तैयार करने की सुविधाओं के साथ करने में मदद करता है। डेटा रैंगलर प्री-बिल्ट फ्लो टेम्प्लेट डेटा वैज्ञानिकों और मशीन लर्निंग (एमएल) प्रैक्टिशनरों के लिए डेटा तैयार करने में मदद करते हैं, जिससे आपको सामान्य डेटासेट का उपयोग करके डेटा प्रवाह के लिए सर्वोत्तम अभ्यास पैटर्न को तेज करने और समझने में मदद मिलती है।

आप निम्न कार्य करने के लिए डेटा रैंगलर प्रवाह का उपयोग कर सकते हैं:

  • डेटा विज़ुअलाइज़ेशन - डेटासेट में प्रत्येक कॉलम के लिए सांख्यिकीय गुणों की जांच करना, हिस्टोग्राम बनाना, आउटलेर्स का अध्ययन करना
  • डेटा की सफाई - डुप्लीकेट हटाना, गायब मानों के साथ प्रविष्टियों को छोड़ना या भरना, आउटलेर्स को हटाना removing
  • डेटा संवर्धन और फीचर इंजीनियरिंग - अधिक अभिव्यंजक सुविधाओं के निर्माण के लिए प्रसंस्करण कॉलम, प्रशिक्षण के लिए सुविधाओं के सबसेट का चयन

यह पोस्ट आपको निम्न नमूना पूर्व-निर्मित प्रवाह का उपयोग करके डेटा रैंगलर को समझने में मदद करेगी GitHub. भंडार सारणीबद्ध डेटा परिवर्तन, समय श्रृंखला डेटा परिवर्तन, और सम्मिलित डेटासेट परिवर्तन दिखाता है। प्रत्येक को अपनी मूल प्रकृति के कारण भिन्न प्रकार के परिवर्तनों की आवश्यकता होती है। मानक सारणीबद्ध या क्रॉस-अनुभागीय डेटा एक विशिष्ट समय पर एकत्र किया जाता है। इसके विपरीत, समय-श्रृंखला डेटा समय के साथ बार-बार कैप्चर किया जाता है, प्रत्येक क्रमिक डेटा बिंदु अपने पिछले मूल्यों पर निर्भर करता है।

आइए एक उदाहरण देखें कि हम सारणीबद्ध डेटा के लिए नमूना डेटा प्रवाह का उपयोग कैसे कर सकते हैं।

.. पूर्वापेक्षाएँ

डेटा रैंगलर एक है अमेज़न SageMaker के भीतर उपलब्ध सुविधा अमेज़ॅन सैजमेकर स्टूडियो, इसलिए हमें स्टूडियो वातावरण और नोटबुक को स्पिन करने के लिए स्टूडियो ऑनबोर्डिंग प्रक्रिया का पालन करने की आवश्यकता है। यद्यपि आप कुछ प्रमाणीकरण विधियों में से चुन सकते हैं, स्टूडियो डोमेन बनाने का सबसे आसान तरीका निम्नलिखित का पालन करना है जल्दी शुरू निर्देश। क्विक स्टार्ट उसी डिफ़ॉल्ट सेटिंग्स का उपयोग करता है जैसे मानक स्टूडियो सेटअप. आप का उपयोग करके जहाज पर जाना भी चुन सकते हैं एडब्ल्यूएस आईएएम पहचान केंद्र (एडब्ल्यूएस सिंगल साइन-ऑन के उत्तराधिकारी) प्रमाणीकरण के लिए (देखें IAM पहचान केंद्र का उपयोग करके Amazon SageMaker डोमेन पर ऑनबोर्ड).

स्टूडियो का उपयोग करके डेटासेट आयात करें और फ़ाइलों को डेटा रैंगलर में प्रवाहित करें

डेटा रैंगलर द्वारा उपभोग किए जाने के लिए सेजमेकर में डेटा आयात करने के तरीके की रूपरेखा निम्न चरणों में दी गई है:

स्टूडियो यूआई के माध्यम से डेटा रैंगलर को इनिशियलाइज़ करें नया डेटा प्रवाह.

क्लोन किया गया गीथहब रेपो अपने स्टूडियो परिवेश में प्रवाह फ़ाइलें डाउनलोड करने के लिए।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

जब क्लोन पूरा हो जाता है, तो आपको बाएँ फलक में रिपॉजिटरी सामग्री देखने में सक्षम होना चाहिए।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

फ़ाइल चुनें होटल-बुकिंग-वर्गीकरण.प्रवाह प्रवाह फ़ाइल को डेटा रैंगलर में आयात करने के लिए।

यदि आप समय श्रृंखला का उपयोग करते हैं या डेटा प्रवाह में शामिल होते हैं, तो प्रवाह एक अलग नाम के रूप में दिखाई देगा। प्रवाह के आयात होने के बाद, आपको निम्न स्क्रीनशॉट देखना चाहिए। यह हमें त्रुटियां दिखाता है क्योंकि हमें यह सुनिश्चित करने की आवश्यकता है कि प्रवाह फ़ाइल सही डेटा स्रोत की ओर इशारा करती है अमेज़न सरल भंडारण सेवा (अमेज़न S3)।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

चुनें डेटासेट संपादित करें अपने सभी S3 बाल्टी लाने के लिए। इसके बाद, डेटासेट चुनें hotel_bookings.csv के माध्यम से चलने के लिए अपने S3 बाल्टी से सारणीबद्ध डेटा प्रवाह.

ध्यान दें कि यदि आप का उपयोग कर रहे हैं शामिल डेटा प्रवाह, आपको डेटा रैंगलर में कई डेटासेट आयात करने पड़ सकते हैंअमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

दाएँ फलक में, सुनिश्चित करें अनुच्छेद सीमांकक के रूप में चुना जाता है और सैम्पलिंग इसके लिए सेट है पहले के. हमारा डेटासेट इतना छोटा है कि पूरे डेटासेट पर डेटा रैंगलर ट्रांसफ़ॉर्मेशन चला सकता है, लेकिन हम इस बात पर प्रकाश डालना चाहते थे कि आप डेटासेट कैसे आयात कर सकते हैं। यदि आपके पास एक बड़ा डेटासेट है, तो नमूने का उपयोग करने पर विचार करें। चुनना आयात इस डेटासेट को डेटा रैंगलर में आयात करने के लिए।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

डेटासेट आयात होने के बाद, डेटा रैंगलर स्वचालित रूप से डेटासेट को मान्य करता है और डेटा प्रकारों का पता लगाता है। आप देख सकते हैं कि त्रुटियां दूर हो गई हैं क्योंकि हम सही डेटासेट की ओर इशारा कर रहे हैं। फ्लो एडिटर अब दो ब्लॉक दिखाता है कि डेटा एक स्रोत से आयात किया गया था और डेटा प्रकारों को मान्यता दी गई थी। यदि आवश्यक हो तो आप डेटा प्रकारों को संपादित भी कर सकते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

निम्न स्क्रीनशॉट हमारे डेटा प्रकार दिखाता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

आइए इस सारणीबद्ध प्रवाह के एक भाग के रूप में किए गए कुछ परिवर्तनों को देखें। यदि आप का उपयोग कर रहे हैं समय श्रृंखला or में शामिल हो गए डेटा प्रवाह, कुछ सामान्य परिवर्तनों की जाँच करें गीथहब रेपो. हमने डेटा अंतर्दृष्टि रिपोर्ट का उपयोग करते हुए कुछ बुनियादी खोजपूर्ण डेटा विश्लेषण का प्रदर्शन किया, जो डेटासेट, तालिका सारांश विश्लेषण और त्वरित मॉडलिंग क्षमता में लक्ष्य रिसाव और सुविधा समरूपता का अध्ययन करता है। पर चरणों का अन्वेषण करें गीथहब रेपो.

अब हम डेटा अंतर्दृष्टि और गुणवत्ता रिपोर्ट द्वारा प्रदान की गई अनुशंसाओं के आधार पर कॉलम छोड़ते हैं।

  • लक्ष्य रिसाव के लिए, ड्रॉप आरक्षण_स्थिति.
  • निरर्थक कॉलम के लिए, ड्रॉप दिन_इन_प्रतीक्षा_सूची, होटल, आरक्षित_कक्ष_प्रकार, आगमन_दिनांक_माह, आरक्षण_स्थिति_तिथि, बच्चे, और आगमन_दिनांक_दिन_की_माह.
  • रैखिक सहसंबंध परिणामों के आधार पर, कॉलम ड्रॉप करें आगमन_दिनांक_सप्ताह_संख्या और आगमन_दिनांक_वर्ष क्योंकि इन सुविधा (स्तंभ) युग्मों के लिए सहसंबंध मान 0.90 की अनुशंसित सीमा से अधिक हैं।
  • गैर-रैखिक सहसंबंध परिणामों के आधार पर, ड्रॉप आरक्षण_स्थिति. लक्ष्य रिसाव विश्लेषण के आधार पर इस कॉलम को पहले से ही गिराए जाने के लिए चिह्नित किया गया था।
  • प्रक्रिया संख्यात्मक मान (न्यूनतम-अधिकतम स्केलिंग) के लिए लीड_टाइम, स्टे_इन_वीकेंड_नाइट्स, स्टे_इन_वीकडे_नाइट्स, is_repeated_guest, prev_cancellations, prev_bookings_not_canceled, Booking_changes, adr, total_of_specical_requests, और आवश्यक_कार_पार्किंग_स्पेस.
  • एक-गर्म सांकेतिक शब्दों में बदलना श्रेणीबद्ध चर जैसे भोजन, is_repeated_guest, market_segment, नियत_रूम_प्रकार, जमा_प्रकार, और ग्राहक प्रकार.
  • लक्ष्य चर को संतुलित करें वर्ग असंतुलन के लिए रैंडम ओवरसैंपल। आउटलेर्स और लापता मूल्यों को संभालने के लिए त्वरित मॉडलिंग क्षमता का उपयोग करें।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

अमेज़न S3 को निर्यात करें

अब हम विभिन्न परिवर्तनों से गुजर चुके हैं और Amazon S3 को डेटा निर्यात करने के लिए तैयार हैं। यह विकल्प एक सेजमेकर प्रोसेसिंग जॉब बनाता है, जो डेटा रैंगलर प्रोसेसिंग फ्लो को चलाता है और परिणामी डेटासेट को एक निर्दिष्ट S3 बकेट में सहेजता है। Amazon S3 को निर्यात सेट करने के लिए अगले चरणों का पालन करें:

परिवर्तन तत्वों के संग्रह के आगे धन चिह्न चुनें और चुनें गंतव्य जोड़ें, तो अमेज़न S3.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

  • के लिए दातासेट नाम, नए डेटासेट के लिए एक नाम दर्ज करें, उदाहरण के लिए NYC_export.
  • के लिए फ़ाइल प्रकार, चुनें CSV.
  • के लिए सीमान्तक, चुनें अल्पविराम.
  • के लिए संपीड़न, चुनें कोई नहीं.
  • के लिए अमेज़न S3 स्थान, उसी बकेट नाम का उपयोग करें जिसे हमने पहले बनाया था।
  • चुनें गंतव्य जोड़ें.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

चुनें नौकरी पैदा करो.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

के लिए कार्य नाम, एक नाम दर्ज करें या ऑटोजेनरेटेड विकल्प रखें और चुनें गंतव्य. हमारी एक ही मंजिल है, S3:testingtabulardata, लेकिन आपके वर्कफ़्लो में विभिन्न चरणों से आपके कई गंतव्य हो सकते हैं। छुट्टी KMS कुंजी ARN फ़ील्ड खाली और चुनें अगला.

अब आपको नौकरी के लिए गणना क्षमता को कॉन्फ़िगर करना होगा। आप इस उदाहरण के लिए सभी डिफ़ॉल्ट मान रख सकते हैं।

  • के लिए उदाहरण प्रकार, ml.m5.4xlarge का उपयोग करें।
  • के लिए उदाहरण की गिनती, 2 का प्रयोग करें।
  • आप एक्सप्लोर कर सकते हैं अतिरिक्त विन्यास, लेकिन डिफ़ॉल्ट सेटिंग्स रखें।
  • चुनें रन.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

अब आपका काम शुरू हो गया है, और हमारे डेटा रैंगलर प्रोसेसिंग फ्लो के अनुसार 6 जीबी डेटा को प्रोसेस करने में कुछ समय लगता है। इस कार्य की लागत लगभग $2 USD होगी, क्योंकि ml.m5.4xlarge की लागत $0.922 USD प्रति घंटा है और हम उनमें से दो का उपयोग कर रहे हैं।

यदि आप कार्य का नाम चुनते हैं, तो आपको कार्य विवरण के साथ एक नई विंडो पर पुनर्निर्देशित किया जाता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

कार्य विवरण पृष्ठ पर, आप पिछले चरणों के सभी पैरामीटर देख सकते हैं।

जब कार्य की स्थिति पूर्ण में बदल जाती है, तो आप यह भी देख सकते हैं प्रसंस्करण समय (सेकंड) मूल्य। इस प्रोसेसिंग कार्य को पूरा होने में लगभग 5-10 मिनट का समय लगता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

जब कार्य पूरा हो जाता है, तो ट्रेन और परीक्षण आउटपुट फ़ाइलें संबंधित S3 आउटपुट फ़ोल्डर में उपलब्ध होती हैं। आप प्रोसेसिंग जॉब कॉन्फ़िगरेशन से आउटपुट स्थान पा सकते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

डेटा रैंगलर प्रसंस्करण कार्य पूरा होने के बाद, हम अपने S3 बकेट में सहेजे गए परिणामों की जांच कर सकते हैं। अपडेट करना न भूलें job_name आपके नौकरी के नाम के साथ परिवर्तनीय।

अब आप इस निर्यात किए गए डेटा का उपयोग ML मॉडल चलाने के लिए कर सकते हैं।

क्लीन अप

अपनी S3 बकेट हटाएं आपके और डेटा रैंगलर प्रवाह प्रयोग समाप्त करने के बाद अंतर्निहित संसाधनों को हटाने और अवांछित लागतों को रोकने के लिए।

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि कैसे आप डेटा रैंगलर में टेबल प्री-बिल्ट डेटा फ्लो को इम्पोर्ट कर सकते हैं, इसे हमारे डेटासेट के खिलाफ प्लग कर सकते हैं और रिजल्ट को Amazon S3 में एक्सपोर्ट कर सकते हैं। यदि आपके उपयोग के मामलों में आपको समय श्रृंखला डेटा में हेरफेर करने या कई डेटासेट में शामिल होने की आवश्यकता होती है, तो आप अन्य पूर्व-निर्मित नमूना प्रवाहों के माध्यम से जा सकते हैं गीथहब रेपो.

आपके द्वारा पूर्व-निर्मित डेटा प्रस्तुत करने का कार्यप्रवाह आयात करने के बाद, आप इसे Amazon SageMaker प्रसंस्करण के साथ एकीकृत कर सकते हैं, अमेज़न SageMaker पाइपलाइन, तथा अमेज़न SageMaker फ़ीचर स्टोर एमएल प्रशिक्षण डेटा को संसाधित करने, साझा करने और संग्रहीत करने के कार्य को सरल बनाने के लिए। आप इस नमूना डेटा प्रवाह को एक पायथन स्क्रिप्ट में भी निर्यात कर सकते हैं और एक कस्टम एमएल डेटा प्रीप पाइपलाइन बना सकते हैं, जिससे आपके रिलीज वेग में तेजी आ सकती है।

हम आपको हमारी जांच करने के लिए प्रोत्साहित करते हैं गिटहब भंडार व्यावहारिक अभ्यास प्राप्त करने और मॉडल सटीकता में सुधार करने के नए तरीके खोजने के लिए! सेजमेकर के बारे में अधिक जानने के लिए, देखें अमेज़न सेजमेकर डेवलपर गाइड.


लेखक के बारे में

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.ईशा दुआ सैन फ्रांसिस्को खाड़ी क्षेत्र में स्थित एक वरिष्ठ समाधान वास्तुकार है। वह एडब्ल्यूएस एंटरप्राइज ग्राहकों को उनके लक्ष्यों और चुनौतियों को समझकर आगे बढ़ने में मदद करती है, और उन्हें यह सुनिश्चित करने के लिए मार्गदर्शन करती है कि वे अपने अनुप्रयोगों को क्लाउड-नेटिव तरीके से कैसे तैयार कर सकते हैं, जबकि यह सुनिश्चित करते हैं कि वे लचीले और स्केलेबल हैं। वह मशीन लर्निंग तकनीकों और पर्यावरणीय स्थिरता के बारे में भावुक है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सेजमेकर भू-स्थानिक क्षमताओं का उपयोग करके अंतर्दृष्टि प्राप्त करने के लिए गतिशीलता डेटा का उपयोग करें अमेज़न वेब सेवाएँ

स्रोत नोड: 1938140
समय टिकट: जनवरी 17, 2024