अमेज़न SageMaker डेटा रैंगलर मशीन लर्निंग (एमएल) के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों में कर देता है अमेज़ॅन सैजमेकर स्टूडियोएमएल के लिए पहला पूर्णतः एकीकृत विकास वातावरण (आईडीई)। डेटा रैंगलर के साथ, आप डेटा तैयारी और फीचर इंजीनियरिंग की प्रक्रिया को सरल बना सकते हैं, और डेटा चयन, सफाई, अन्वेषण और विज़ुअलाइज़ेशन सहित डेटा तैयारी वर्कफ़्लो के प्रत्येक चरण को एक ही विज़ुअल इंटरफ़ेस से पूरा कर सकते हैं। आप कई डेटा स्रोतों से डेटा आयात कर सकते हैं जैसे कि अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न रेडशिफ्ट, हिमपात का एक खंड, तथा 26 फ़ेडरेटेड क्वेरी डेटा स्रोत द्वारा समर्थित अमेज़न एथेना.
आज से, एथेना डेटा स्रोतों से डेटा आयात करते समय, आप डेटा रैंगलर में डेटा आयात करने के लिए S3 क्वेरी आउटपुट स्थान और डेटा अवधारण अवधि को कॉन्फ़िगर कर सकते हैं ताकि यह नियंत्रित किया जा सके कि एथेना मध्यस्थ डेटा को कहां और कितनी देर तक संग्रहीत करता है। इस पोस्ट में, हम आपको इस नई सुविधा के बारे में बताते हैं।
समाधान अवलोकन
एथेना एक इंटरैक्टिव क्वेरी सेवा है जो ब्राउज़ करना आसान बनाती है एडब्ल्यूएस गोंद डेटा कैटलॉग, और मानक SQL का उपयोग करके अमेज़ॅन S3 और 26 फ़ेडरेटेड क्वेरी डेटा स्रोतों में डेटा का विश्लेषण करें। जब आप डेटा आयात करने के लिए एथेना का उपयोग करते हैं, तो आप एथेना क्वेरी आउटपुट के लिए डेटा रैंगलर के डिफ़ॉल्ट S3 स्थान का उपयोग कर सकते हैं, या कस्टम S3 स्थान को लागू करने के लिए एथेना कार्यसमूह निर्दिष्ट कर सकते हैं। पहले, आपको इस मध्यस्थ डेटा को हटाने के लिए क्लीनअप वर्कफ़्लो लागू करना पड़ता था, या भंडारण लागत को नियंत्रित करने और अपने संगठन की डेटा सुरक्षा आवश्यकताओं को पूरा करने के लिए मैन्युअल रूप से S3 जीवनचक्र कॉन्फ़िगरेशन सेट करना पड़ता था। यह एक बड़ा ऑपरेशनल ओवरहेड है, और स्केलेबल नहीं है।
डेटा रैंगलर अब आपके एथेना क्वेरी आउटपुट के लिए कस्टम S3 स्थानों और डेटा अवधारण अवधि का समर्थन करता है। इस नई सुविधा के साथ, आप एथेना क्वेरी आउटपुट स्थान को कस्टम S3 बकेट में बदल सकते हैं। अब आपके पास एथेना क्वेरी आउटपुट के लिए 5 दिनों की डिफ़ॉल्ट डेटा प्रतिधारण नीति है, और आप अपने संगठन की डेटा सुरक्षा आवश्यकताओं को पूरा करने के लिए इसे बदल सकते हैं। अवधारण अवधि के आधार पर, S3 बकेट में एथेना क्वेरी आउटपुट स्वचालित रूप से साफ़ हो जाता है। डेटा आयात करने के बाद, आप इस डेटासेट पर खोजपूर्ण डेटा विश्लेषण कर सकते हैं और साफ़ डेटा को वापस अमेज़न S3 में संग्रहीत कर सकते हैं।
निम्नलिखित चित्र इस वास्तुकला को दर्शाता है।
हमारे उपयोग के मामले में, हम समाधान के माध्यम से चलने के लिए एक नमूना बैंक डेटासेट का उपयोग करते हैं। वर्कफ़्लो में निम्नलिखित चरण शामिल हैं:
- डाउनलोड नमूना डेटासेट और इसे S3 बकेट में अपलोड करें।
- AWS गोंद स्थापित करें क्रॉलर स्कीमा को क्रॉल करने और मेटाडेटा स्कीमा को AWS ग्लू डेटा कैटलॉग में संग्रहीत करने के लिए।
- S3 बकेट से डेटा क्वेरी करने के लिए डेटा कैटलॉग तक पहुंचने के लिए एथेना का उपयोग करें।
- एथेना से कनेक्ट करने के लिए एक नया डेटा रैंगलर प्रवाह बनाएं।
- कनेक्शन बनाते समय, डेटासेट के लिए रिटेंशन टीटीएल सेट करें।
- वर्कफ़्लो में इस कनेक्शन का उपयोग करें और साफ़ डेटा को अन्य S3 बकेट में संग्रहीत करें।
सरलता के लिए, हम मानते हैं कि आपने एथेना वातावरण पहले ही स्थापित कर लिया है (चरण 1-3)। हम इस पोस्ट में आगे के चरणों का विवरण देंगे।
.. पूर्वापेक्षाएँ
एथेना पर्यावरण स्थापित करने के लिए, देखें उपयोगकर्ता गाइड चरण-दर-चरण निर्देशों के लिए, और पिछले अनुभाग में बताए अनुसार चरण 1-3 को पूरा करें।
एथेना से डेटा रैंगलर में अपना डेटा आयात करें
अपना डेटा आयात करने के लिए, निम्न चरणों को पूरा करें:
- स्टूडियो कंसोल पर, चुनें उपयुक्त संसाधन चुनें नेविगेशन फलक में आइकन।
- चुनें डेटा रैंगलर ड्रॉप-डाउन मेनू पर।
- चुनें नया प्रवाह.
- पर आयात टैब चुनें अमेज़न एथेना.
एक विवरण पृष्ठ खुलता है जहां आप एथेना से जुड़ सकते हैं और डेटाबेस से आयात करने के लिए एक SQL क्वेरी लिख सकते हैं। - अपने कनेक्शन के लिए एक नाम दर्ज करें.
- विस्तार उन्नत विन्यास.
एथेना से कनेक्ट होने पर, डेटा रैंगलर पूछे गए डेटा को चरणबद्ध करने के लिए अमेज़ॅन S3 का उपयोग करता है। डिफ़ॉल्ट रूप से, यह डेटा S3 स्थान पर चरणबद्ध होता हैs3://sagemaker-{region}-{account_id}/athena/
5 दिनों की अवधारण अवधि के साथ. - के लिए क्वेरी परिणामों का अमेज़ॅन S3 स्थान, अपना S3 स्थान दर्ज करें।
- चुनते हैं डेटा प्रतिधारण अवधि और डेटा अवधारण अवधि निर्धारित करें (इस पोस्ट के लिए, 1 दिन)।
यदि आप इस विकल्प को अचयनित करते हैं, तो डेटा अनिश्चित काल तक बना रहेगा।पर्दे के पीछे, डेटा रैंगलर स्वचालित रूप से साफ़ करने के लिए उस S3 स्थान पर एक S3 जीवनचक्र कॉन्फ़िगरेशन नीति संलग्न करता है। निम्नलिखित उदाहरण नीति देखें:आप की जरूरत है
s3:GetLifecycleConfiguration
औरs3:PutLifecycleConfiguration
आपकी सेजमेकर निष्पादन भूमिका के लिए जीवनचक्र कॉन्फ़िगरेशन नीतियों को सही ढंग से लागू करने के लिए। इन अनुमतियों के बिना, जब आप डेटा आयात करने का प्रयास करते हैं तो आपको त्रुटि संदेश मिलते हैं।निम्न त्रुटि संदेश गुम होने का एक उदाहरण है
GetLifecycleConfiguration
अनुमति।निम्न त्रुटि संदेश गुम होने का एक उदाहरण है
PutLifecycleConfiguration
अनुमति। - वैकल्पिक रूप से, के लिए कार्यसमूह, आप एथेना कार्यसमूह निर्दिष्ट कर सकते हैं।
एथेना कार्यसमूह उपयोगकर्ताओं, टीमों, अनुप्रयोगों या कार्यभार को समूहों में अलग करता है, प्रत्येक की अपनी अनुमतियाँ और कॉन्फ़िगरेशन सेटिंग्स होती हैं। जब आप एक कार्यसमूह निर्दिष्ट करते हैं, तो डेटा रैंगलर एथेना में परिभाषित कार्यसमूह सेटिंग प्राप्त करता है। उदाहरण के लिए, यदि किसी कार्यसमूह में क्वेरी परिणामों को संग्रहीत करने और सक्षम करने के लिए एक S3 स्थान परिभाषित है ग्राहक पक्ष को ओवरराइड करें सेटिंग्स, आप S3 क्वेरी परिणाम स्थान को संपादित नहीं कर सकते।डिफ़ॉल्ट रूप से, डेटा रैंगलर आपके लिए एथेना कनेक्शन भी सहेजता है। इसे एक नई एथेना टाइल के रूप में प्रदर्शित किया गया है आयात टैब। आप क्वेरी के लिए उस कनेक्शन को कभी भी दोबारा खोल सकते हैं और डेटा रैंगलर में अलग-अलग डेटा ला सकते हैं। - अचयनित कनेक्शन सहेजें यदि आप कनेक्शन सहेजना नहीं चाहते हैं.
- एथेना कनेक्शन को कॉन्फ़िगर करने के लिए, चुनें कोई नहीं एसटी सैम्पलिंग संपूर्ण डेटासेट आयात करने के लिए.
बड़े डेटासेट के लिए, डेटा रैंगलर आपको अपने परिवर्तन वर्कफ़्लो को बनाने के लिए अपने डेटा का एक सबसेट आयात करने की अनुमति देता है, और जब आप तैयार होते हैं तो केवल पूरे डेटासेट को संसाधित करते हैं। यह पुनरावृत्ति चक्र को गति देता है और प्रसंस्करण समय और लागत बचाता है। उपलब्ध विभिन्न डेटा नमूनाकरण विकल्पों के बारे में अधिक जानने के लिए, पर जाएँ अमेज़ॅन सेजमेकर डेटा रैंगलर अब यादृच्छिक नमूनाकरण और स्तरीकृत नमूनाकरण का समर्थन करता है. - के लिए डेटा कैटलॉगचुनें AwsDataCatalog.
- के लिए डाटाबेस, अपना डेटाबेस चुनें।
डेटा रैंगलर उपलब्ध तालिकाएँ प्रदर्शित करता है। आप स्कीमा की जांच करने और डेटा का पूर्वावलोकन करने के लिए प्रत्येक तालिका चुन सकते हैं। - क्वेरी फ़ील्ड में निम्नलिखित कोड दर्ज करें:
- चुनें रन डेटा का पूर्वावलोकन करने के लिए।
- यदि सब कुछ अच्छा लगे तो चुनें आयात.
- डेटासेट नाम दर्ज करें और चुनें अपने डेटा रैंगलर कार्यक्षेत्र में डेटा आयात करने के लिए।
डेटा रैंगलर के साथ डेटा का विश्लेषण और प्रसंस्करण करें
डेटा रैंगलर में डेटा लोड करने के बाद, आप खोजपूर्ण डेटा विश्लेषण (ईडीए) कर सकते हैं और मशीन लर्निंग के लिए डेटा तैयार कर सकते हैं।
- के आगे धन चिह्न चुनें
bank-data
डेटा प्रवाह में डेटासेट, और चुनें विश्लेषण जोड़ें.
डेटा रैंगलर अंतर्निहित विश्लेषण प्रदान करता है, जिसमें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट, डेटा सहसंबंध, एक पूर्व-प्रशिक्षण पूर्वाग्रह रिपोर्ट, आपके डेटासेट का सारांश और विज़ुअलाइज़ेशन (जैसे हिस्टोग्राम और स्कैटर प्लॉट) शामिल हैं। इसके अतिरिक्त, आप अपना स्वयं का कस्टम विज़ुअलाइज़ेशन बना सकते हैं। - के लिए विश्लेषण प्रकारचुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
यह स्वचालित रूप से विज़ुअलाइज़ेशन उत्पन्न करता है, डेटा गुणवत्ता के मुद्दों की पहचान करने के लिए विश्लेषण करता है, और आपके डेटासेट के लिए आवश्यक सही परिवर्तनों के लिए सिफारिशें करता है। - के लिए लक्ष्य स्तंभ, चुनें Y.
- क्योंकि यह एक वर्गीकरण समस्या कथन है समस्या प्रकार, चुनते हैं वर्गीकरण.
- चुनें बनाएं.
डेटा रैंगलर आपके डेटासेट पर एक विस्तृत रिपोर्ट बनाता है। आप रिपोर्ट को अपनी स्थानीय मशीन पर भी डाउनलोड कर सकते हैं। - डेटा तैयार करने के लिए, डेटा प्रवाह में बैंक-डेटा डेटासेट के आगे धन चिह्न चुनें और चुनें परिवर्तन जोड़ें.
- चुनें चरण जोड़ें अपने परिवर्तनों का निर्माण शुरू करने के लिए।
इस लेखन के समय, डेटा रैंगलर 300 से अधिक अंतर्निहित परिवर्तन प्रदान करता है। आप पांडा या पायस्पार्क का उपयोग करके अपने स्वयं के परिवर्तन भी लिख सकते हैं।
अब आप अपनी व्यावसायिक आवश्यकताओं के आधार पर अपने परिवर्तन और विश्लेषण बनाना शुरू कर सकते हैं।
क्लीन अप
चल रही लागतों से बचने के लिए, काम पूरा होने पर नीचे दिए गए चरणों का उपयोग करके डेटा रैंगलर संसाधनों को हटा दें।
- रनिंग इंस्टेंसेस और कर्नेल आइकन का चयन करें।
- रनिंग ऐप्स के अंतर्गत, के आगे शटडाउन आइकन पर क्लिक करें
sagemaker-data-wrangler-1.0 app
. - पुष्टि करने के लिए सभी बंद करें चुनें।
निष्कर्ष
इस पोस्ट में, हमने आपके S3 स्थान को अनुकूलित करने और एथेना से डेटा रैंगलर में डेटा आयात करने के लिए S3 जीवनचक्र कॉन्फ़िगरेशन को सक्षम करने का एक अवलोकन प्रदान किया है। इस सुविधा के साथ, आप मध्यस्थ डेटा को एक सुरक्षित S3 स्थान पर संग्रहीत कर सकते हैं, और डेटा तक अनधिकृत पहुंच के जोखिम को कम करने के लिए अवधारण अवधि के बाद डेटा कॉपी को स्वचालित रूप से हटा सकते हैं। हम आपको इस नई सुविधा को आज़माने के लिए प्रोत्साहित करते हैं। शुभ भवन!
एथेना और सेजमेकर के बारे में अधिक जानने के लिए, यहां जाएं एथेना उपयोगकर्ता गाइड और अमेज़ॅन सेजमेकर दस्तावेज़ीकरण.
लेखक के बारे में
मीनाक्षीसुंदरम थंडावरायण एडब्ल्यूएस के साथ एक वरिष्ठ एआई/एमएल विशेषज्ञ हैं। वह उनकी AI और ML यात्रा में हाई-टेक रणनीतिक खातों की मदद करता है। वह डेटा-संचालित एआई के बारे में बहुत भावुक है।
हरीश राजगोपालन Amazon वेब सर्विसेज में सीनियर सॉल्यूशन आर्किटेक्ट हैं। हरीश एंटरप्राइज ग्राहकों के साथ काम करता है और उनकी क्लाउड यात्रा में उनकी मदद करता है।
जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ समाधान वास्तुकार हैं। ग्राहकों को एआई/एमएल समाधान डिजाइन और निर्माण में मदद करना। जेम्स के काम में एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला शामिल है, जिसमें प्राथमिक रुचि कंप्यूटर विज़न, डीप लर्निंग और पूरे उद्यम में एमएल स्केलिंग है। एडब्ल्यूएस में शामिल होने से पहले, जेम्स इंजीनियरिंग में 10 साल और मार्केटिंग और विज्ञापन उद्योगों में 6 साल सहित 4 से अधिक वर्षों के लिए एक वास्तुकार, डेवलपर और प्रौद्योगिकी नेता थे।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न एथेना
- अमेज़न SageMaker
- अमेज़न SageMaker डेटा रैंगलर
- अमेज़न सिंपल स्टोरेज सर्विस (S3)
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट