डेटा तैयार करने के लिए Amazon SageMaker डेटा रैंगलर और ML के साथ सीखने और प्रयोग करने के लिए स्टूडियो लैब का उपयोग करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़ॅन सेजमेकर स्टूडियो लैब एडब्ल्यूएस एमएल कंप्यूट संसाधनों का उपयोग करके एमएल के साथ सीखने और प्रयोग करने के लिए ओपन-सोर्स जुपिटरलैब पर आधारित एक मुफ्त मशीन लर्निंग (एमएल) विकास वातावरण है। यह उसी आर्किटेक्चर और यूजर इंटरफेस पर आधारित है जैसे अमेज़ॅन सैजमेकर स्टूडियो, लेकिन स्टूडियो क्षमताओं के सबसेट के साथ।

जब आप एमएल पहल पर काम करना शुरू करते हैं, तो आपको मॉडल निर्माण के साथ आगे बढ़ने से पहले खोजपूर्ण डेटा विश्लेषण (ईडीए) या डेटा तैयार करने की आवश्यकता होती है। अमेज़न SageMaker डेटा रैंगलर की क्षमता है अमेज़न SageMaker जो डेटा वैज्ञानिकों और इंजीनियरों के लिए विज़ुअल इंटरफ़ेस के माध्यम से एमएल अनुप्रयोगों के लिए डेटा तैयार करना तेज़ बनाता है। डेटा रैंगलर एमएल के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों कर देता है।

डेटा रैंगलर में फीचर तैयार करने का एक प्रमुख त्वरक है डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट. यह रिपोर्ट डेटा की गुणवत्ता की जांच करती है और आपके डेटा में असामान्यताओं का पता लगाने में मदद करती है, ताकि आप अपने डेटासेट को ठीक करने के लिए आवश्यक डेटा इंजीनियरिंग कर सकें। आप अपने डेटा का विश्लेषण करने के लिए डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट का उपयोग कर सकते हैं ताकि आपके डेटासेट में अंतर्दृष्टि प्राप्त हो सके जैसे लापता मानों की संख्या और आउटलेर्स की संख्या। यदि आपको अपने डेटा के साथ समस्या है, जैसे लक्ष्य रिसाव या असंतुलन, तो अंतर्दृष्टि रिपोर्ट उन मुद्दों को आपके ध्यान में ला सकती है और आपको डेटा तैयार करने के चरणों की पहचान करने में मदद कर सकती है जिन्हें आपको निष्पादित करने की आवश्यकता है।

स्टूडियो लैब उपयोगकर्ता डेटा रैंगलर से लाभ उठा सकते हैं क्योंकि डेटा गुणवत्ता और फीचर इंजीनियरिंग आपके मॉडल के अनुमानित प्रदर्शन के लिए महत्वपूर्ण हैं। डेटा रैंगलर डेटा गुणवत्ता के मुद्दों में अंतर्दृष्टि देकर और कम-कोड यूआई का उपयोग करके तेजी से फीचर पुनरावृत्ति और इंजीनियरिंग को आसानी से सक्षम करके डेटा गुणवत्ता और फीचर इंजीनियरिंग में मदद करता है।

इस पोस्ट में, हम आपको दिखाते हैं कि कैसे खोजपूर्ण डेटा विश्लेषण करना है, डेटा रैंगलर का उपयोग करके डेटा तैयार करना और बदलना है, और मॉडल निर्माण के लिए स्टूडियो लैब को रूपांतरित और तैयार डेटा निर्यात करना है।

समाधान अवलोकन

समाधान में निम्नलिखित उच्च-स्तरीय चरण शामिल हैं:

AWS खाता और व्यवस्थापक उपयोगकर्ता बनाएँ। यह एक शर्त है
डेटासेट डाउनलोड करें मंथन.सीएसवी.
डेटासेट को इसमें लोड करें अमेज़न सरल भंडारण सेवा (अमेज़न S3)।
सेजमेकर स्टूडियो डोमेन बनाएं और डेटा रैंगलर लॉन्च करें।
डेटासेट को Amazon S3 से डेटा रैंगलर प्रवाह में आयात करें।
डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट बनाएं और आवश्यक फीचर इंजीनियरिंग पर निष्कर्ष निकालें।
डेटा रैंगलर में आवश्यक डेटा ट्रांसफ़ॉर्म करें।
डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट और रूपांतरित डेटासेट डाउनलोड करें।
मॉडल प्रशिक्षण के लिए डेटा को स्टूडियो लैब प्रोजेक्ट में अपलोड करें।

निम्न आरेख इस वर्कफ़्लो को दिखाता है।

.. पूर्वापेक्षाएँ

डेटा रैंगलर और स्टूडियो लैब का उपयोग करने के लिए, आपको निम्नलिखित पूर्वापेक्षाएँ चाहिए:

डेटा रैंगलर के साथ डेटा तैयारी वर्कफ़्लो बनाएँ

आरंभ करने के लिए, निम्नलिखित चरणों को पूरा करें:

अपने डेटासेट को Amazon S3 पर अपलोड करें।
SageMaker कंसोल पर, के तहत नियंत्रण कक्ष नेविगेशन फलक में, चुनें स्टूडियो.
पर ऐप लांच करें अपने उपयोगकर्ता प्रोफ़ाइल के आगे मेनू, चुनें स्टूडियो.

स्टूडियो में सफलतापूर्वक लॉग इन करने के बाद, आपको निम्न स्क्रीनशॉट की तरह एक विकास वातावरण देखना चाहिए।
एक नया डेटा रैंगलर वर्कफ़्लो बनाने के लिए, पर पट्टिका मेनू, चुनें नया, उसके बाद चुनो डेटा रैंगलर फ्लो.

डेटा रैंगलर में पहला कदम है: आयात आपका डेटा। आप कई डेटा स्रोतों से डेटा आयात कर सकते हैं, जैसे कि Amazon S3, अमेज़न एथेना, अमेज़न रेडशिफ्ट, हिमपात का एक खंड, तथा डाटब्रिक्स. इस उदाहरण में, हम Amazon S3 का उपयोग करते हैं। यदि आप केवल यह देखना चाहते हैं कि डेटा रैंगलर कैसे काम करता है, तो आप हमेशा चुन सकते हैं नमूना डेटासेट का उपयोग करें.
चुनें आयात आंकड़ा.
चुनें अमेज़न S3.
आपके द्वारा अपलोड किया गया डेटासेट चुनें और चुनें आयात.

डेटा रैंगलर आपको या तो संपूर्ण डेटासेट आयात करने या उसके एक हिस्से का नमूना लेने में सक्षम बनाता है।
डेटासेट पर तुरंत जानकारी प्राप्त करने के लिए, चुनें पहले के एसटी सैम्पलिंग और 50000 के लिए दर्ज करें नमूने का आकार.

डेटा की गुणवत्ता को समझें और जानकारी प्राप्त करें

आइए डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट का उपयोग उस डेटा का विश्लेषण करने के लिए करें जिसे हमने डेटा रैंगलर में आयात किया था। आप रिपोर्ट का उपयोग यह समझने के लिए कर सकते हैं कि अपने डेटा को साफ और संसाधित करने के लिए आपको कौन से कदम उठाने होंगे। यह रिपोर्ट लापता मूल्यों की संख्या और आउटलेर्स की संख्या जैसी जानकारी प्रदान करती है। यदि आपको अपने डेटा के साथ समस्या है, जैसे लक्ष्य रिसाव या असंतुलन, तो अंतर्दृष्टि रिपोर्ट उन मुद्दों को आपके ध्यान में ला सकती है।

के आगे धन चिह्न चुनें जानकारी का प्रकार और चुनें डेटा जानकारी प्राप्त करें.
के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
के लिए लक्ष्य स्तंभ, चुनें मंथन?.
के लिए समस्या प्रकारचुनते हैं वर्गीकरण.
चुनें बनाएं.

आपको एक विस्तृत रिपोर्ट के साथ प्रस्तुत किया जाता है जिसे आप समीक्षा और डाउनलोड कर सकते हैं। रिपोर्ट में त्वरित मॉडल, फीचर सारांश, फीचर सहसंबंध और डेटा अंतर्दृष्टि जैसे कई खंड शामिल हैं। निम्नलिखित स्क्रीनशॉट इन अनुभागों के उदाहरण प्रदान करते हैं।

रिपोर्ट से अवलोकन

रिपोर्ट से, हम निम्नलिखित अवलोकन कर सकते हैं:

कोई डुप्लिकेट पंक्तियाँ नहीं मिलीं।
RSI State कॉलम काफी समान रूप से वितरित प्रतीत होता है, इसलिए डेटा राज्य की आबादी के संदर्भ में संतुलित है।
RSI Phone कॉलम किसी भी व्यावहारिक उपयोग के लिए बहुत से अद्वितीय मूल्य प्रस्तुत करता है। बहुत अधिक अद्वितीय मान इस कॉलम को उपयोगी नहीं बनाते हैं। हम गिरा सकते हैं Phone हमारे परिवर्तन में स्तंभ।
रिपोर्ट के फीचर सहसंबंध अनुभाग के आधार पर, Mins और Charge अत्यधिक सहसंबद्ध हैं। हम उनमें से एक को हटा सकते हैं।

परिवर्तन

अपनी टिप्पणियों के आधार पर, हम निम्नलिखित परिवर्तन करना चाहते हैं:

हटा Phone कॉलम क्योंकि इसमें कई अद्वितीय मूल्य हैं।
हम कई विशेषताएं भी देखते हैं जिनका अनिवार्य रूप से एक दूसरे के साथ 100% संबंध है। कुछ एमएल एल्गोरिदम में इन फीचर जोड़े को शामिल करने से अवांछित समस्याएं पैदा हो सकती हैं, जबकि अन्य में यह केवल मामूली अतिरेक और पूर्वाग्रह का परिचय देगा। आइए प्रत्येक अत्यधिक सहसंबद्ध जोड़े से एक विशेषता को हटा दें: Day Charge के साथ जोड़ी से Day Mins, Night Charge के साथ जोड़ी से Night Mins, तथा Intl Charge के साथ जोड़ी से Intl Mins.
में कनवर्ट करना True or False में Churn कॉलम 1 या 0 का संख्यात्मक मान होना चाहिए।

डेटा प्रवाह पर वापस लौटें और के आगे धन चिह्न चुनें जानकारी का प्रकार.
चुनें परिवर्तन जोड़ें.
चुनें चरण जोड़ें.
आप जिस रूपांतरण की तलाश कर रहे हैं उसे आप खोज सकते हैं (हमारे मामले में, कॉलम प्रबंधित करें)।
चुनें कॉलम प्रबंधित करें.
के लिए बदालनाचुनें स्तंभ छोड़ें.
के लिए छोड़ने के लिए कॉलमचुनें Phone, Day Charge, Eve Charge, Night Charge, तथा Intl Charge.
चुनें पूर्वावलोकन, उसके बाद चुनो अपडेट.

आइए एक श्रेणीबद्ध सांकेतिक शब्दों में बदलना करने के लिए एक और परिवर्तन जोड़ें Churn? स्तंभ.
परिवर्तन चुनें सांकेतिक शब्दों में बदलना.
के लिए बदालना, चुनें साधारण सांकेतिक शब्दों में बदलना.
के लिए इनपुट कॉलम, चुनना Churn? स्तंभ.
के लिए अमान्य हैंडलिंग रणनीति, चुनें NaN . से बदलें.
चुनें पूर्वावलोकन, उसके बाद चुनो अपडेट.

अभी True और False क्रमशः 1 और 0 में परिवर्तित हो जाते हैं।

अब जब हमें डेटा की अच्छी समझ हो गई है और मॉडल निर्माण के लिए डेटा तैयार और रूपांतरित कर दिया है, तो हम डेटा को मॉडल निर्माण के लिए स्टूडियो लैब में स्थानांतरित कर सकते हैं।

स्टूडियो लैब में डेटा अपलोड करें

स्टूडियो लैब में डेटा का उपयोग शुरू करने के लिए, निम्न चरणों को पूरा करें:

चुनें निर्यात जानकारी सेवा मेरे निर्यात एक S3 बाल्टी के लिए।
के लिए अमेज़न S3 स्थान, अपना S3 पथ दर्ज करें।
फ़ाइल प्रकार निर्दिष्ट करें।
चुनें निर्यात जानकारी.
डेटा निर्यात करने के बाद, आप डेटा को S3 बकेट से अपने स्थानीय कंप्यूटर पर डाउनलोड कर सकते हैं।
अब आप स्टूडियो लैब में जा सकते हैं और फाइल को स्टूडियो लैब में अपलोड कर सकते हैं।

वैकल्पिक रूप से, आप स्टूडियो लैब से Amazon S3 से जुड़ सकते हैं। अधिक जानकारी के लिए देखें Amazon SageMaker Studio Lab में बाहरी संसाधनों का उपयोग करें.
आइए सेजमेकर स्थापित करें और पंडों को आयात करें।
आवश्यकतानुसार सभी पुस्तकालयों को आयात करें।
अब हम CSV फाइल को पढ़ सकते हैं।
आइए प्रिंट करें churn यह पुष्टि करने के लिए कि डेटासेट सही है।

अब जब आपके पास स्टूडियो लैब में संसाधित डेटासेट है, तो आप मॉडल निर्माण के लिए आवश्यक अन्य कदम उठा सकते हैं।

डेटा रैंगलर मूल्य निर्धारण

आप इस पोस्ट में डेटा रैंगलर के भीतर EDA या डेटा तैयार करने के लिए सभी चरणों का पालन कर सकते हैं और वेतन उपयोग या खपत के आधार पर साधारण उदाहरण, नौकरियों और भंडारण मूल्य निर्धारण के लिए। कोई अग्रिम या लाइसेंस शुल्क की आवश्यकता नहीं है।

क्लीन अप

जब आप डेटा रैंगलर का उपयोग नहीं कर रहे हैं, तो अतिरिक्त शुल्क से बचने के लिए उस इंस्टेंस को बंद करना महत्वपूर्ण है जिस पर वह चलता है। काम खोने से बचने के लिए, डेटा रैंगलर को बंद करने से पहले अपने डेटा प्रवाह को बचाएं।

स्टूडियो में अपना डेटा प्रवाह सहेजने के लिए, चुनें पट्टिका, उसके बाद चुनो डेटा रैंगलर फ़्लो सहेजें.
डेटा रैंगलर हर 60 सेकंड में आपके डेटा प्रवाह को स्वचालित रूप से सहेजता है।
डेटा रैंगलर इंस्टेंस को बंद करने के लिए, स्टूडियो में, चुनें रनिंग इंस्टेंस और कर्नेल.
के अंतर्गत ऐप्स चालू हैं, के आगे शटडाउन आइकन चुनें sagemaker-data-wrangler-1.0 app.
चुनें सब बंद करो पुष्टि करने के लिए।

डेटा रैंगलर ml.m5.4xबड़े उदाहरण पर चलता है। यह उदाहरण गायब हो जाता है चल रहे उदाहरण जब आप डेटा रैंगलर ऐप को बंद करते हैं।

डेटा रैंगलर ऐप को बंद करने के बाद, अगली बार जब आप डेटा रैंगलर फ़्लो फ़ाइल खोलते हैं, तो उसे पुनरारंभ करना होगा। इसमें कुछ मिनट लग सकते हैं।

निष्कर्ष

इस पोस्ट में, हमने देखा कि आप अपने डेटासेट में अंतर्दृष्टि कैसे प्राप्त कर सकते हैं, खोजपूर्ण डेटा विश्लेषण कर सकते हैं, स्टूडियो के भीतर डेटा रैंगलर का उपयोग करके डेटा तैयार और रूपांतरित कर सकते हैं, और रूपांतरित और तैयार डेटा को स्टूडियो लैब में निर्यात कर सकते हैं और मॉडल निर्माण और अन्य चरणों को पूरा कर सकते हैं।

सेजमेकर डेटा रैंगलर के साथ, आप डेटा तैयार करने और फीचर इंजीनियरिंग की प्रक्रिया को सरल बना सकते हैं, और डेटा तैयार करने के वर्कफ़्लो के प्रत्येक चरण को पूरा कर सकते हैं, जिसमें डेटा चयन, सफाई, अन्वेषण और एकल विज़ुअल इंटरफ़ेस से विज़ुअलाइज़ेशन शामिल है।

लेखक के बारे में

राजकुमार संपतकुमार AWS में एक प्रधान तकनीकी खाता प्रबंधक है, जो ग्राहकों को व्यवसाय-प्रौद्योगिकी संरेखण पर मार्गदर्शन प्रदान करता है और उनके क्लाउड ऑपरेशन मॉडल और प्रक्रियाओं के पुनर्निवेश का समर्थन करता है। उन्हें क्लाउड और मशीन लर्निंग का शौक है। राज एक मशीन लर्निंग विशेषज्ञ भी है और एडब्ल्यूएस ग्राहकों के साथ उनके एडब्ल्यूएस वर्कलोड और आर्किटेक्चर को डिजाइन, तैनात और प्रबंधित करने के लिए काम करता है।

मीनाक्षीसुंदरम थंडावरायण मानव-केंद्रित डेटा और एनालिटिक्स अनुभवों को डिज़ाइन करने, बनाने और बढ़ावा देने के जुनून के साथ एक वरिष्ठ एआई / एमएल विशेषज्ञ हैं। वह डेटा संचालित संगठन के प्रति उनके परिवर्तन पर एडब्ल्यूएस रणनीतिक ग्राहकों का समर्थन करता है।

जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ समाधान वास्तुकार हैं। ग्राहकों को एआई/एमएल समाधान डिजाइन और निर्माण में मदद करना। जेम्स के काम में एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला शामिल है, जिसमें प्राथमिक रुचि कंप्यूटर विज़न, डीप लर्निंग और पूरे उद्यम में एमएल स्केलिंग है। एडब्ल्यूएस में शामिल होने से पहले, जेम्स इंजीनियरिंग में 10 साल और मार्केटिंग और विज्ञापन उद्योगों में 6 साल सहित 4 से अधिक वर्षों के लिए एक वास्तुकार, डेवलपर और प्रौद्योगिकी नेता थे।

समय टिकट: सितम्बर 15, 2022सितम्बर 15, 2022

समय टिकट: मार्च 4, 2024

डेटा तैयार करने के लिए Amazon SageMaker डेटा रैंगलर और ML के साथ सीखने और प्रयोग करने के लिए स्टूडियो लैब्स का उपयोग करें

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

.. पूर्वापेक्षाएँ

डेटा रैंगलर के साथ डेटा तैयारी वर्कफ़्लो बनाएँ

डेटा की गुणवत्ता को समझें और जानकारी प्राप्त करें

रिपोर्ट से अवलोकन

परिवर्तन

स्टूडियो लैब में डेटा अपलोड करें

डेटा रैंगलर मूल्य निर्धारण

क्लीन अप

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

एक्सेंचर AWS जनरेटिव AI सेवाओं का उपयोग करके एक नियामक दस्तावेज़ संलेखन समाधान बनाता है अमेज़न वेब सेवाएँ

अमेज़ॅन कॉम्प्रिहेंड टारगेटेड सेंटीमेंट सिंक्रोनस सपोर्ट जोड़ता है

Amazon SageMaker का उपयोग करके BigBasket ने अपने भौतिक स्टोर पर AI-सक्षम चेकआउट को कैसे बेहतर बनाया | अमेज़न वेब सेवाएँ

Amazon SageMaker Studio जीवनचक्र कॉन्फ़िगरेशन को परिनियोजित करने के लिए AWS CDK का उपयोग करें अमेज़न वेब सेवाएँ

Amazon Kendra के लिए अपडेटेड Salesforce कनेक्टर (V2) की घोषणा

बीएमसी एएमआई जेडएडवाइजर एंटरप्राइज और अमेज़ॅन बेडरॉक के साथ डेवऑप्स परिपक्वता हासिल करें अमेज़न वेब सेवाएँ

इनोवेशन को अनलॉक करना: AWS और एंथ्रोपिक ने जेनरेटिव AI की सीमाओं को एक साथ आगे बढ़ाया | अमेज़न वेब सेवाएँ

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा