अमेज़ॅन सेजमेकर स्टूडियो लैब एडब्ल्यूएस एमएल कंप्यूट संसाधनों का उपयोग करके एमएल के साथ सीखने और प्रयोग करने के लिए ओपन-सोर्स जुपिटरलैब पर आधारित एक मुफ्त मशीन लर्निंग (एमएल) विकास वातावरण है। यह उसी आर्किटेक्चर और यूजर इंटरफेस पर आधारित है जैसे अमेज़ॅन सैजमेकर स्टूडियो, लेकिन स्टूडियो क्षमताओं के सबसेट के साथ।
जब आप एमएल पहल पर काम करना शुरू करते हैं, तो आपको मॉडल निर्माण के साथ आगे बढ़ने से पहले खोजपूर्ण डेटा विश्लेषण (ईडीए) या डेटा तैयार करने की आवश्यकता होती है। अमेज़न SageMaker डेटा रैंगलर की क्षमता है अमेज़न SageMaker जो डेटा वैज्ञानिकों और इंजीनियरों के लिए विज़ुअल इंटरफ़ेस के माध्यम से एमएल अनुप्रयोगों के लिए डेटा तैयार करना तेज़ बनाता है। डेटा रैंगलर एमएल के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों कर देता है।
डेटा रैंगलर में फीचर तैयार करने का एक प्रमुख त्वरक है डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट. यह रिपोर्ट डेटा की गुणवत्ता की जांच करती है और आपके डेटा में असामान्यताओं का पता लगाने में मदद करती है, ताकि आप अपने डेटासेट को ठीक करने के लिए आवश्यक डेटा इंजीनियरिंग कर सकें। आप अपने डेटा का विश्लेषण करने के लिए डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट का उपयोग कर सकते हैं ताकि आपके डेटासेट में अंतर्दृष्टि प्राप्त हो सके जैसे लापता मानों की संख्या और आउटलेर्स की संख्या। यदि आपको अपने डेटा के साथ समस्या है, जैसे लक्ष्य रिसाव या असंतुलन, तो अंतर्दृष्टि रिपोर्ट उन मुद्दों को आपके ध्यान में ला सकती है और आपको डेटा तैयार करने के चरणों की पहचान करने में मदद कर सकती है जिन्हें आपको निष्पादित करने की आवश्यकता है।
स्टूडियो लैब उपयोगकर्ता डेटा रैंगलर से लाभ उठा सकते हैं क्योंकि डेटा गुणवत्ता और फीचर इंजीनियरिंग आपके मॉडल के अनुमानित प्रदर्शन के लिए महत्वपूर्ण हैं। डेटा रैंगलर डेटा गुणवत्ता के मुद्दों में अंतर्दृष्टि देकर और कम-कोड यूआई का उपयोग करके तेजी से फीचर पुनरावृत्ति और इंजीनियरिंग को आसानी से सक्षम करके डेटा गुणवत्ता और फीचर इंजीनियरिंग में मदद करता है।
इस पोस्ट में, हम आपको दिखाते हैं कि कैसे खोजपूर्ण डेटा विश्लेषण करना है, डेटा रैंगलर का उपयोग करके डेटा तैयार करना और बदलना है, और मॉडल निर्माण के लिए स्टूडियो लैब को रूपांतरित और तैयार डेटा निर्यात करना है।
समाधान अवलोकन
समाधान में निम्नलिखित उच्च-स्तरीय चरण शामिल हैं:
- AWS खाता और व्यवस्थापक उपयोगकर्ता बनाएँ। यह एक शर्त है
- डेटासेट डाउनलोड करें मंथन.सीएसवी.
- डेटासेट को इसमें लोड करें अमेज़न सरल भंडारण सेवा (अमेज़न S3)।
- सेजमेकर स्टूडियो डोमेन बनाएं और डेटा रैंगलर लॉन्च करें।
- डेटासेट को Amazon S3 से डेटा रैंगलर प्रवाह में आयात करें।
- डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट बनाएं और आवश्यक फीचर इंजीनियरिंग पर निष्कर्ष निकालें।
- डेटा रैंगलर में आवश्यक डेटा ट्रांसफ़ॉर्म करें।
- डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट और रूपांतरित डेटासेट डाउनलोड करें।
- मॉडल प्रशिक्षण के लिए डेटा को स्टूडियो लैब प्रोजेक्ट में अपलोड करें।
निम्न आरेख इस वर्कफ़्लो को दिखाता है।
.. पूर्वापेक्षाएँ
डेटा रैंगलर और स्टूडियो लैब का उपयोग करने के लिए, आपको निम्नलिखित पूर्वापेक्षाएँ चाहिए:
डेटा रैंगलर के साथ डेटा तैयारी वर्कफ़्लो बनाएँ
आरंभ करने के लिए, निम्नलिखित चरणों को पूरा करें:
- अपने डेटासेट को Amazon S3 पर अपलोड करें।
- SageMaker कंसोल पर, के तहत नियंत्रण कक्ष नेविगेशन फलक में, चुनें स्टूडियो.
- पर ऐप लांच करें अपने उपयोगकर्ता प्रोफ़ाइल के आगे मेनू, चुनें स्टूडियो.
स्टूडियो में सफलतापूर्वक लॉग इन करने के बाद, आपको निम्न स्क्रीनशॉट की तरह एक विकास वातावरण देखना चाहिए। - एक नया डेटा रैंगलर वर्कफ़्लो बनाने के लिए, पर पट्टिका मेनू, चुनें नया, उसके बाद चुनो डेटा रैंगलर फ्लो.
डेटा रैंगलर में पहला कदम है: आयात आपका डेटा। आप कई डेटा स्रोतों से डेटा आयात कर सकते हैं, जैसे कि Amazon S3, अमेज़न एथेना, अमेज़न रेडशिफ्ट, हिमपात का एक खंड, तथा डाटब्रिक्स. इस उदाहरण में, हम Amazon S3 का उपयोग करते हैं। यदि आप केवल यह देखना चाहते हैं कि डेटा रैंगलर कैसे काम करता है, तो आप हमेशा चुन सकते हैं नमूना डेटासेट का उपयोग करें. - चुनें आयात आंकड़ा.
- चुनें अमेज़न S3.
- आपके द्वारा अपलोड किया गया डेटासेट चुनें और चुनें आयात.
डेटा रैंगलर आपको या तो संपूर्ण डेटासेट आयात करने या उसके एक हिस्से का नमूना लेने में सक्षम बनाता है। - डेटासेट पर तुरंत जानकारी प्राप्त करने के लिए, चुनें पहले के एसटी सैम्पलिंग और 50000 के लिए दर्ज करें नमूने का आकार.
डेटा की गुणवत्ता को समझें और जानकारी प्राप्त करें
आइए डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट का उपयोग उस डेटा का विश्लेषण करने के लिए करें जिसे हमने डेटा रैंगलर में आयात किया था। आप रिपोर्ट का उपयोग यह समझने के लिए कर सकते हैं कि अपने डेटा को साफ और संसाधित करने के लिए आपको कौन से कदम उठाने होंगे। यह रिपोर्ट लापता मूल्यों की संख्या और आउटलेर्स की संख्या जैसी जानकारी प्रदान करती है। यदि आपको अपने डेटा के साथ समस्या है, जैसे लक्ष्य रिसाव या असंतुलन, तो अंतर्दृष्टि रिपोर्ट उन मुद्दों को आपके ध्यान में ला सकती है।
- के आगे धन चिह्न चुनें जानकारी का प्रकार और चुनें डेटा जानकारी प्राप्त करें.
- के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
- के लिए लक्ष्य स्तंभ, चुनें मंथन?.
- के लिए समस्या प्रकारचुनते हैं वर्गीकरण.
- चुनें बनाएं.
आपको एक विस्तृत रिपोर्ट के साथ प्रस्तुत किया जाता है जिसे आप समीक्षा और डाउनलोड कर सकते हैं। रिपोर्ट में त्वरित मॉडल, फीचर सारांश, फीचर सहसंबंध और डेटा अंतर्दृष्टि जैसे कई खंड शामिल हैं। निम्नलिखित स्क्रीनशॉट इन अनुभागों के उदाहरण प्रदान करते हैं।
रिपोर्ट से अवलोकन
रिपोर्ट से, हम निम्नलिखित अवलोकन कर सकते हैं:
- कोई डुप्लिकेट पंक्तियाँ नहीं मिलीं।
- RSI
State
कॉलम काफी समान रूप से वितरित प्रतीत होता है, इसलिए डेटा राज्य की आबादी के संदर्भ में संतुलित है। - RSI
Phone
कॉलम किसी भी व्यावहारिक उपयोग के लिए बहुत से अद्वितीय मूल्य प्रस्तुत करता है। बहुत अधिक अद्वितीय मान इस कॉलम को उपयोगी नहीं बनाते हैं। हम गिरा सकते हैंPhone
हमारे परिवर्तन में स्तंभ। - रिपोर्ट के फीचर सहसंबंध अनुभाग के आधार पर,
Mins
औरCharge
अत्यधिक सहसंबद्ध हैं। हम उनमें से एक को हटा सकते हैं।
परिवर्तन
अपनी टिप्पणियों के आधार पर, हम निम्नलिखित परिवर्तन करना चाहते हैं:
- हटा
Phone
कॉलम क्योंकि इसमें कई अद्वितीय मूल्य हैं। - हम कई विशेषताएं भी देखते हैं जिनका अनिवार्य रूप से एक दूसरे के साथ 100% संबंध है। कुछ एमएल एल्गोरिदम में इन फीचर जोड़े को शामिल करने से अवांछित समस्याएं पैदा हो सकती हैं, जबकि अन्य में यह केवल मामूली अतिरेक और पूर्वाग्रह का परिचय देगा। आइए प्रत्येक अत्यधिक सहसंबद्ध जोड़े से एक विशेषता को हटा दें:
Day Charge
के साथ जोड़ी सेDay Mins
,Night Charge
के साथ जोड़ी सेNight Mins
, तथाIntl Charge
के साथ जोड़ी सेIntl Mins
. - में कनवर्ट करना
True
orFalse
मेंChurn
कॉलम 1 या 0 का संख्यात्मक मान होना चाहिए।
- डेटा प्रवाह पर वापस लौटें और के आगे धन चिह्न चुनें जानकारी का प्रकार.
- चुनें परिवर्तन जोड़ें.
- चुनें चरण जोड़ें.
- आप जिस रूपांतरण की तलाश कर रहे हैं उसे आप खोज सकते हैं (हमारे मामले में, कॉलम प्रबंधित करें)।
- चुनें कॉलम प्रबंधित करें.
- के लिए बदालनाचुनें स्तंभ छोड़ें.
- के लिए छोड़ने के लिए कॉलमचुनें
Phone
,Day Charge
,Eve Charge
,Night Charge
, तथाIntl Charge
. - चुनें पूर्वावलोकन, उसके बाद चुनो अपडेट.
आइए एक श्रेणीबद्ध सांकेतिक शब्दों में बदलना करने के लिए एक और परिवर्तन जोड़ेंChurn?
स्तंभ. - परिवर्तन चुनें सांकेतिक शब्दों में बदलना.
- के लिए बदालना, चुनें साधारण सांकेतिक शब्दों में बदलना.
- के लिए इनपुट कॉलम, चुनना
Churn?
स्तंभ. - के लिए अमान्य हैंडलिंग रणनीति, चुनें NaN . से बदलें.
- चुनें पूर्वावलोकन, उसके बाद चुनो अपडेट.
अभी True
और False
क्रमशः 1 और 0 में परिवर्तित हो जाते हैं।
अब जब हमें डेटा की अच्छी समझ हो गई है और मॉडल निर्माण के लिए डेटा तैयार और रूपांतरित कर दिया है, तो हम डेटा को मॉडल निर्माण के लिए स्टूडियो लैब में स्थानांतरित कर सकते हैं।
स्टूडियो लैब में डेटा अपलोड करें
स्टूडियो लैब में डेटा का उपयोग शुरू करने के लिए, निम्न चरणों को पूरा करें:
- चुनें निर्यात जानकारी सेवा मेरे निर्यात एक S3 बाल्टी के लिए।
- के लिए अमेज़न S3 स्थान, अपना S3 पथ दर्ज करें।
- फ़ाइल प्रकार निर्दिष्ट करें।
- चुनें निर्यात जानकारी.
- डेटा निर्यात करने के बाद, आप डेटा को S3 बकेट से अपने स्थानीय कंप्यूटर पर डाउनलोड कर सकते हैं।
- अब आप स्टूडियो लैब में जा सकते हैं और फाइल को स्टूडियो लैब में अपलोड कर सकते हैं।
वैकल्पिक रूप से, आप स्टूडियो लैब से Amazon S3 से जुड़ सकते हैं। अधिक जानकारी के लिए देखें Amazon SageMaker Studio Lab में बाहरी संसाधनों का उपयोग करें. - आइए सेजमेकर स्थापित करें और पंडों को आयात करें।
- आवश्यकतानुसार सभी पुस्तकालयों को आयात करें।
- अब हम CSV फाइल को पढ़ सकते हैं।
- आइए प्रिंट करें
churn
यह पुष्टि करने के लिए कि डेटासेट सही है।
अब जब आपके पास स्टूडियो लैब में संसाधित डेटासेट है, तो आप मॉडल निर्माण के लिए आवश्यक अन्य कदम उठा सकते हैं।
डेटा रैंगलर मूल्य निर्धारण
आप इस पोस्ट में डेटा रैंगलर के भीतर EDA या डेटा तैयार करने के लिए सभी चरणों का पालन कर सकते हैं और वेतन उपयोग या खपत के आधार पर साधारण उदाहरण, नौकरियों और भंडारण मूल्य निर्धारण के लिए। कोई अग्रिम या लाइसेंस शुल्क की आवश्यकता नहीं है।
क्लीन अप
जब आप डेटा रैंगलर का उपयोग नहीं कर रहे हैं, तो अतिरिक्त शुल्क से बचने के लिए उस इंस्टेंस को बंद करना महत्वपूर्ण है जिस पर वह चलता है। काम खोने से बचने के लिए, डेटा रैंगलर को बंद करने से पहले अपने डेटा प्रवाह को बचाएं।
- स्टूडियो में अपना डेटा प्रवाह सहेजने के लिए, चुनें पट्टिका, उसके बाद चुनो डेटा रैंगलर फ़्लो सहेजें.
डेटा रैंगलर हर 60 सेकंड में आपके डेटा प्रवाह को स्वचालित रूप से सहेजता है। - डेटा रैंगलर इंस्टेंस को बंद करने के लिए, स्टूडियो में, चुनें रनिंग इंस्टेंस और कर्नेल.
- के अंतर्गत ऐप्स चालू हैं, के आगे शटडाउन आइकन चुनें
sagemaker-data-wrangler-1.0 app
. - चुनें सब बंद करो पुष्टि करने के लिए।
डेटा रैंगलर ml.m5.4xबड़े उदाहरण पर चलता है। यह उदाहरण गायब हो जाता है चल रहे उदाहरण जब आप डेटा रैंगलर ऐप को बंद करते हैं।
डेटा रैंगलर ऐप को बंद करने के बाद, अगली बार जब आप डेटा रैंगलर फ़्लो फ़ाइल खोलते हैं, तो उसे पुनरारंभ करना होगा। इसमें कुछ मिनट लग सकते हैं।
निष्कर्ष
इस पोस्ट में, हमने देखा कि आप अपने डेटासेट में अंतर्दृष्टि कैसे प्राप्त कर सकते हैं, खोजपूर्ण डेटा विश्लेषण कर सकते हैं, स्टूडियो के भीतर डेटा रैंगलर का उपयोग करके डेटा तैयार और रूपांतरित कर सकते हैं, और रूपांतरित और तैयार डेटा को स्टूडियो लैब में निर्यात कर सकते हैं और मॉडल निर्माण और अन्य चरणों को पूरा कर सकते हैं।
सेजमेकर डेटा रैंगलर के साथ, आप डेटा तैयार करने और फीचर इंजीनियरिंग की प्रक्रिया को सरल बना सकते हैं, और डेटा तैयार करने के वर्कफ़्लो के प्रत्येक चरण को पूरा कर सकते हैं, जिसमें डेटा चयन, सफाई, अन्वेषण और एकल विज़ुअल इंटरफ़ेस से विज़ुअलाइज़ेशन शामिल है।
लेखक के बारे में
राजकुमार संपतकुमार AWS में एक प्रधान तकनीकी खाता प्रबंधक है, जो ग्राहकों को व्यवसाय-प्रौद्योगिकी संरेखण पर मार्गदर्शन प्रदान करता है और उनके क्लाउड ऑपरेशन मॉडल और प्रक्रियाओं के पुनर्निवेश का समर्थन करता है। उन्हें क्लाउड और मशीन लर्निंग का शौक है। राज एक मशीन लर्निंग विशेषज्ञ भी है और एडब्ल्यूएस ग्राहकों के साथ उनके एडब्ल्यूएस वर्कलोड और आर्किटेक्चर को डिजाइन, तैनात और प्रबंधित करने के लिए काम करता है।
मीनाक्षीसुंदरम थंडावरायण मानव-केंद्रित डेटा और एनालिटिक्स अनुभवों को डिज़ाइन करने, बनाने और बढ़ावा देने के जुनून के साथ एक वरिष्ठ एआई / एमएल विशेषज्ञ हैं। वह डेटा संचालित संगठन के प्रति उनके परिवर्तन पर एडब्ल्यूएस रणनीतिक ग्राहकों का समर्थन करता है।
जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ समाधान वास्तुकार हैं। ग्राहकों को एआई/एमएल समाधान डिजाइन और निर्माण में मदद करना। जेम्स के काम में एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला शामिल है, जिसमें प्राथमिक रुचि कंप्यूटर विज़न, डीप लर्निंग और पूरे उद्यम में एमएल स्केलिंग है। एडब्ल्यूएस में शामिल होने से पहले, जेम्स इंजीनियरिंग में 10 साल और मार्केटिंग और विज्ञापन उद्योगों में 6 साल सहित 4 से अधिक वर्षों के लिए एक वास्तुकार, डेवलपर और प्रौद्योगिकी नेता थे।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न SageMaker
- अमेज़न SageMaker डेटा रैंगलर
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट