Amazon SageMaker डेटा रैंगलर के साथ Github नमूने का उपयोग करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़न SageMake आर डेटा रैंगलर एक यूआई-आधारित डेटा तैयारी उपकरण है जो डेटा विश्लेषण, प्रीप्रोसेसिंग और विज़ुअलाइज़ेशन को साफ़ करने, बदलने और डेटा को तेज़ी से तैयार करने की सुविधाओं के साथ करने में मदद करता है। डेटा रैंगलर प्री-बिल्ट फ्लो टेम्प्लेट डेटा वैज्ञानिकों और मशीन लर्निंग (एमएल) प्रैक्टिशनरों के लिए डेटा तैयार करने में मदद करते हैं, जिससे आपको सामान्य डेटासेट का उपयोग करके डेटा प्रवाह के लिए सर्वोत्तम अभ्यास पैटर्न को तेज करने और समझने में मदद मिलती है।

आप निम्न कार्य करने के लिए डेटा रैंगलर प्रवाह का उपयोग कर सकते हैं:

डेटा विज़ुअलाइज़ेशन - डेटासेट में प्रत्येक कॉलम के लिए सांख्यिकीय गुणों की जांच करना, हिस्टोग्राम बनाना, आउटलेर्स का अध्ययन करना
डेटा की सफाई - डुप्लीकेट हटाना, गायब मानों के साथ प्रविष्टियों को छोड़ना या भरना, आउटलेर्स को हटाना removing
डेटा संवर्धन और फीचर इंजीनियरिंग - अधिक अभिव्यंजक सुविधाओं के निर्माण के लिए प्रसंस्करण कॉलम, प्रशिक्षण के लिए सुविधाओं के सबसेट का चयन

यह पोस्ट आपको निम्न नमूना पूर्व-निर्मित प्रवाह का उपयोग करके डेटा रैंगलर को समझने में मदद करेगी GitHub. भंडार सारणीबद्ध डेटा परिवर्तन, समय श्रृंखला डेटा परिवर्तन, और सम्मिलित डेटासेट परिवर्तन दिखाता है। प्रत्येक को अपनी मूल प्रकृति के कारण भिन्न प्रकार के परिवर्तनों की आवश्यकता होती है। मानक सारणीबद्ध या क्रॉस-अनुभागीय डेटा एक विशिष्ट समय पर एकत्र किया जाता है। इसके विपरीत, समय-श्रृंखला डेटा समय के साथ बार-बार कैप्चर किया जाता है, प्रत्येक क्रमिक डेटा बिंदु अपने पिछले मूल्यों पर निर्भर करता है।

आइए एक उदाहरण देखें कि हम सारणीबद्ध डेटा के लिए नमूना डेटा प्रवाह का उपयोग कैसे कर सकते हैं।

.. पूर्वापेक्षाएँ

डेटा रैंगलर एक है अमेज़न SageMaker के भीतर उपलब्ध सुविधा अमेज़ॅन सैजमेकर स्टूडियो, इसलिए हमें स्टूडियो वातावरण और नोटबुक को स्पिन करने के लिए स्टूडियो ऑनबोर्डिंग प्रक्रिया का पालन करने की आवश्यकता है। यद्यपि आप कुछ प्रमाणीकरण विधियों में से चुन सकते हैं, स्टूडियो डोमेन बनाने का सबसे आसान तरीका निम्नलिखित का पालन करना है जल्दी शुरू निर्देश। क्विक स्टार्ट उसी डिफ़ॉल्ट सेटिंग्स का उपयोग करता है जैसे मानक स्टूडियो सेटअप. आप का उपयोग करके जहाज पर जाना भी चुन सकते हैं एडब्ल्यूएस आईएएम पहचान केंद्र (एडब्ल्यूएस सिंगल साइन-ऑन के उत्तराधिकारी) प्रमाणीकरण के लिए (देखें IAM पहचान केंद्र का उपयोग करके Amazon SageMaker डोमेन पर ऑनबोर्ड).

स्टूडियो का उपयोग करके डेटासेट आयात करें और फ़ाइलों को डेटा रैंगलर में प्रवाहित करें

डेटा रैंगलर द्वारा उपभोग किए जाने के लिए सेजमेकर में डेटा आयात करने के तरीके की रूपरेखा निम्न चरणों में दी गई है:

स्टूडियो यूआई के माध्यम से डेटा रैंगलर को इनिशियलाइज़ करें नया डेटा प्रवाह.

क्लोन किया गया गीथहब रेपो अपने स्टूडियो परिवेश में प्रवाह फ़ाइलें डाउनलोड करने के लिए।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

जब क्लोन पूरा हो जाता है, तो आपको बाएँ फलक में रिपॉजिटरी सामग्री देखने में सक्षम होना चाहिए।

फ़ाइल चुनें होटल-बुकिंग-वर्गीकरण.प्रवाह प्रवाह फ़ाइल को डेटा रैंगलर में आयात करने के लिए।

यदि आप समय श्रृंखला का उपयोग करते हैं या डेटा प्रवाह में शामिल होते हैं, तो प्रवाह एक अलग नाम के रूप में दिखाई देगा। प्रवाह के आयात होने के बाद, आपको निम्न स्क्रीनशॉट देखना चाहिए। यह हमें त्रुटियां दिखाता है क्योंकि हमें यह सुनिश्चित करने की आवश्यकता है कि प्रवाह फ़ाइल सही डेटा स्रोत की ओर इशारा करती है अमेज़न सरल भंडारण सेवा (अमेज़न S3)।

चुनें डेटासेट संपादित करें अपने सभी S3 बाल्टी लाने के लिए। इसके बाद, डेटासेट चुनें hotel_bookings.csv के माध्यम से चलने के लिए अपने S3 बाल्टी से सारणीबद्ध डेटा प्रवाह.

ध्यान दें कि यदि आप का उपयोग कर रहे हैं शामिल डेटा प्रवाह, आपको डेटा रैंगलर में कई डेटासेट आयात करने पड़ सकते हैं अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ जीथब नमूने का उपयोग करें। लंबवत खोज. ऐ.

दाएँ फलक में, सुनिश्चित करें अनुच्छेद सीमांकक के रूप में चुना जाता है और सैम्पलिंग इसके लिए सेट है पहले के. हमारा डेटासेट इतना छोटा है कि पूरे डेटासेट पर डेटा रैंगलर ट्रांसफ़ॉर्मेशन चला सकता है, लेकिन हम इस बात पर प्रकाश डालना चाहते थे कि आप डेटासेट कैसे आयात कर सकते हैं। यदि आपके पास एक बड़ा डेटासेट है, तो नमूने का उपयोग करने पर विचार करें। चुनना आयात इस डेटासेट को डेटा रैंगलर में आयात करने के लिए।

डेटासेट आयात होने के बाद, डेटा रैंगलर स्वचालित रूप से डेटासेट को मान्य करता है और डेटा प्रकारों का पता लगाता है। आप देख सकते हैं कि त्रुटियां दूर हो गई हैं क्योंकि हम सही डेटासेट की ओर इशारा कर रहे हैं। फ्लो एडिटर अब दो ब्लॉक दिखाता है कि डेटा एक स्रोत से आयात किया गया था और डेटा प्रकारों को मान्यता दी गई थी। यदि आवश्यक हो तो आप डेटा प्रकारों को संपादित भी कर सकते हैं।

निम्न स्क्रीनशॉट हमारे डेटा प्रकार दिखाता है।

आइए इस सारणीबद्ध प्रवाह के एक भाग के रूप में किए गए कुछ परिवर्तनों को देखें। यदि आप का उपयोग कर रहे हैं समय श्रृंखला or में शामिल हो गए डेटा प्रवाह, कुछ सामान्य परिवर्तनों की जाँच करें गीथहब रेपो. हमने डेटा अंतर्दृष्टि रिपोर्ट का उपयोग करते हुए कुछ बुनियादी खोजपूर्ण डेटा विश्लेषण का प्रदर्शन किया, जो डेटासेट, तालिका सारांश विश्लेषण और त्वरित मॉडलिंग क्षमता में लक्ष्य रिसाव और सुविधा समरूपता का अध्ययन करता है। पर चरणों का अन्वेषण करें गीथहब रेपो.

अब हम डेटा अंतर्दृष्टि और गुणवत्ता रिपोर्ट द्वारा प्रदान की गई अनुशंसाओं के आधार पर कॉलम छोड़ते हैं।

लक्ष्य रिसाव के लिए, ड्रॉप आरक्षण_स्थिति.
निरर्थक कॉलम के लिए, ड्रॉप दिन_इन_प्रतीक्षा_सूची, होटल, आरक्षित_कक्ष_प्रकार, आगमन_दिनांक_माह, आरक्षण_स्थिति_तिथि, बच्चे, और आगमन_दिनांक_दिन_की_माह.
रैखिक सहसंबंध परिणामों के आधार पर, कॉलम ड्रॉप करें आगमन_दिनांक_सप्ताह_संख्या और आगमन_दिनांक_वर्ष क्योंकि इन सुविधा (स्तंभ) युग्मों के लिए सहसंबंध मान 0.90 की अनुशंसित सीमा से अधिक हैं।
गैर-रैखिक सहसंबंध परिणामों के आधार पर, ड्रॉप आरक्षण_स्थिति. लक्ष्य रिसाव विश्लेषण के आधार पर इस कॉलम को पहले से ही गिराए जाने के लिए चिह्नित किया गया था।
प्रक्रिया संख्यात्मक मान (न्यूनतम-अधिकतम स्केलिंग) के लिए लीड_टाइम, स्टे_इन_वीकेंड_नाइट्स, स्टे_इन_वीकडे_नाइट्स, is_repeated_guest, prev_cancellations, prev_bookings_not_canceled, Booking_changes, adr, total_of_specical_requests, और आवश्यक_कार_पार्किंग_स्पेस.
एक-गर्म सांकेतिक शब्दों में बदलना श्रेणीबद्ध चर जैसे भोजन, is_repeated_guest, market_segment, नियत_रूम_प्रकार, जमा_प्रकार, और ग्राहक प्रकार.
लक्ष्य चर को संतुलित करें वर्ग असंतुलन के लिए रैंडम ओवरसैंपल। आउटलेर्स और लापता मूल्यों को संभालने के लिए त्वरित मॉडलिंग क्षमता का उपयोग करें।

अमेज़न S3 को निर्यात करें

अब हम विभिन्न परिवर्तनों से गुजर चुके हैं और Amazon S3 को डेटा निर्यात करने के लिए तैयार हैं। यह विकल्प एक सेजमेकर प्रोसेसिंग जॉब बनाता है, जो डेटा रैंगलर प्रोसेसिंग फ्लो को चलाता है और परिणामी डेटासेट को एक निर्दिष्ट S3 बकेट में सहेजता है। Amazon S3 को निर्यात सेट करने के लिए अगले चरणों का पालन करें:

परिवर्तन तत्वों के संग्रह के आगे धन चिह्न चुनें और चुनें गंतव्य जोड़ें, तो अमेज़न S3.

के लिए दातासेट नाम, नए डेटासेट के लिए एक नाम दर्ज करें, उदाहरण के लिए NYC_export.
के लिए फ़ाइल प्रकार, चुनें CSV.
के लिए सीमान्तक, चुनें अल्पविराम.
के लिए संपीड़न, चुनें कोई नहीं.
के लिए अमेज़न S3 स्थान, उसी बकेट नाम का उपयोग करें जिसे हमने पहले बनाया था।
चुनें गंतव्य जोड़ें.

चुनें नौकरी पैदा करो.

के लिए कार्य नाम, एक नाम दर्ज करें या ऑटोजेनरेटेड विकल्प रखें और चुनें गंतव्य. हमारी एक ही मंजिल है, S3:testingtabulardata, लेकिन आपके वर्कफ़्लो में विभिन्न चरणों से आपके कई गंतव्य हो सकते हैं। छुट्टी KMS कुंजी ARN फ़ील्ड खाली और चुनें अगला.

अब आपको नौकरी के लिए गणना क्षमता को कॉन्फ़िगर करना होगा। आप इस उदाहरण के लिए सभी डिफ़ॉल्ट मान रख सकते हैं।

के लिए उदाहरण प्रकार, ml.m5.4xlarge का उपयोग करें।
के लिए उदाहरण की गिनती, 2 का प्रयोग करें।
आप एक्सप्लोर कर सकते हैं अतिरिक्त विन्यास, लेकिन डिफ़ॉल्ट सेटिंग्स रखें।
चुनें रन.

अब आपका काम शुरू हो गया है, और हमारे डेटा रैंगलर प्रोसेसिंग फ्लो के अनुसार 6 जीबी डेटा को प्रोसेस करने में कुछ समय लगता है। इस कार्य की लागत लगभग $2 USD होगी, क्योंकि ml.m5.4xlarge की लागत $0.922 USD प्रति घंटा है और हम उनमें से दो का उपयोग कर रहे हैं।

यदि आप कार्य का नाम चुनते हैं, तो आपको कार्य विवरण के साथ एक नई विंडो पर पुनर्निर्देशित किया जाता है।

कार्य विवरण पृष्ठ पर, आप पिछले चरणों के सभी पैरामीटर देख सकते हैं।

जब कार्य की स्थिति पूर्ण में बदल जाती है, तो आप यह भी देख सकते हैं प्रसंस्करण समय (सेकंड) मूल्य। इस प्रोसेसिंग कार्य को पूरा होने में लगभग 5-10 मिनट का समय लगता है।

जब कार्य पूरा हो जाता है, तो ट्रेन और परीक्षण आउटपुट फ़ाइलें संबंधित S3 आउटपुट फ़ोल्डर में उपलब्ध होती हैं। आप प्रोसेसिंग जॉब कॉन्फ़िगरेशन से आउटपुट स्थान पा सकते हैं।

डेटा रैंगलर प्रसंस्करण कार्य पूरा होने के बाद, हम अपने S3 बकेट में सहेजे गए परिणामों की जांच कर सकते हैं। अपडेट करना न भूलें job_name आपके नौकरी के नाम के साथ परिवर्तनीय।

अब आप इस निर्यात किए गए डेटा का उपयोग ML मॉडल चलाने के लिए कर सकते हैं।

क्लीन अप

अपनी S3 बकेट हटाएं आपके और डेटा रैंगलर प्रवाह प्रयोग समाप्त करने के बाद अंतर्निहित संसाधनों को हटाने और अवांछित लागतों को रोकने के लिए।

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि कैसे आप डेटा रैंगलर में टेबल प्री-बिल्ट डेटा फ्लो को इम्पोर्ट कर सकते हैं, इसे हमारे डेटासेट के खिलाफ प्लग कर सकते हैं और रिजल्ट को Amazon S3 में एक्सपोर्ट कर सकते हैं। यदि आपके उपयोग के मामलों में आपको समय श्रृंखला डेटा में हेरफेर करने या कई डेटासेट में शामिल होने की आवश्यकता होती है, तो आप अन्य पूर्व-निर्मित नमूना प्रवाहों के माध्यम से जा सकते हैं गीथहब रेपो.

आपके द्वारा पूर्व-निर्मित डेटा प्रस्तुत करने का कार्यप्रवाह आयात करने के बाद, आप इसे Amazon SageMaker प्रसंस्करण के साथ एकीकृत कर सकते हैं, अमेज़न SageMaker पाइपलाइन, तथा अमेज़न SageMaker फ़ीचर स्टोर एमएल प्रशिक्षण डेटा को संसाधित करने, साझा करने और संग्रहीत करने के कार्य को सरल बनाने के लिए। आप इस नमूना डेटा प्रवाह को एक पायथन स्क्रिप्ट में भी निर्यात कर सकते हैं और एक कस्टम एमएल डेटा प्रीप पाइपलाइन बना सकते हैं, जिससे आपके रिलीज वेग में तेजी आ सकती है।

हम आपको हमारी जांच करने के लिए प्रोत्साहित करते हैं गिटहब भंडार व्यावहारिक अभ्यास प्राप्त करने और मॉडल सटीकता में सुधार करने के नए तरीके खोजने के लिए! सेजमेकर के बारे में अधिक जानने के लिए, देखें अमेज़न सेजमेकर डेवलपर गाइड.

लेखक के बारे में

ईशा दुआ सैन फ्रांसिस्को खाड़ी क्षेत्र में स्थित एक वरिष्ठ समाधान वास्तुकार है। वह एडब्ल्यूएस एंटरप्राइज ग्राहकों को उनके लक्ष्यों और चुनौतियों को समझकर आगे बढ़ने में मदद करती है, और उन्हें यह सुनिश्चित करने के लिए मार्गदर्शन करती है कि वे अपने अनुप्रयोगों को क्लाउड-नेटिव तरीके से कैसे तैयार कर सकते हैं, जबकि यह सुनिश्चित करते हैं कि वे लचीले और स्केलेबल हैं। वह मशीन लर्निंग तकनीकों और पर्यावरणीय स्थिरता के बारे में भावुक है।