डेटा-संचालित संस्कृति की ओर बढ़ने वाले संगठन निर्णय लेने में डेटा और मशीन लर्निंग (एमएल) के उपयोग को अपनाते हैं। डेटा से एमएल-आधारित निर्णय लेने के लिए, आपको एमएल मॉडल को प्रशिक्षित करने के लिए अपने डेटा को उपलब्ध, सुलभ, स्वच्छ और सही प्रारूप में रखना होगा। मल्टी-अकाउंट आर्किटेक्चर वाले संगठन उन स्थितियों से बचना चाहते हैं जहां उन्हें डेटा तैयारी गतिविधियों के लिए एक खाते से डेटा निकालना होगा और इसे दूसरे खाते में लोड करना होगा। अलग-अलग खातों में अलग-अलग एक्सट्रेक्ट, ट्रांसफॉर्म और लोड (ईटीएल) नौकरियों को मैन्युअल रूप से बनाने और बनाए रखने से जटिलता और लागत बढ़ जाती है, और आपके डेटा को सुरक्षित रखने के लिए शासन, अनुपालन और सुरक्षा सर्वोत्तम प्रथाओं को बनाए रखना अधिक कठिन हो जाता है।
अमेज़न रेडशिफ्ट एक तेज़, पूरी तरह से प्रबंधित क्लाउड डेटा वेयरहाउस है। अमेज़ॅन रेडशिफ्ट क्रॉस-अकाउंट डेटा शेयरिंग सुविधा आपके अमेज़ॅन रेडशिफ्ट डेटा वेयरहाउस में विभिन्न एडब्ल्यूएस खातों में किसी भी संख्या में हितधारकों के साथ ताज़ा, पूर्ण और सुसंगत डेटा साझा करने का एक सरल और सुरक्षित तरीका प्रदान करती है। अमेज़न SageMaker डेटा रैंगलर की क्षमता है अमेज़न SageMaker जो डेटा वैज्ञानिकों और इंजीनियरों के लिए विज़ुअल इंटरफ़ेस का उपयोग करके एमएल अनुप्रयोगों के लिए डेटा तैयार करना तेज़ बनाता है। डेटा रैंगलर आपको अमेज़ॅन रेडशिफ्ट डेटाशेयर से कनेक्ट करके एमएल के लिए डेटा का पता लगाने और बदलने की अनुमति देता है।
इस पोस्ट में, हम अमेज़ॅन रेडशिफ्ट डेटाशेयर का उपयोग करके एक क्रॉस-अकाउंट एकीकरण स्थापित करने और डेटा रैंगलर का उपयोग करके डेटा तैयार करने के बारे में बात करेंगे।
समाधान अवलोकन
हम दो AWS खातों से शुरू करते हैं: Amazon Redshift डेटा वेयरहाउस के साथ एक निर्माता खाता, और SageMaker ML उपयोग मामलों के लिए एक उपभोक्ता खाता। इस पोस्ट के लिए, हम इसका उपयोग करते हैं बैंकिंग डेटासेट. आगे बढ़ने के लिए, डेटासेट को अपनी स्थानीय मशीन पर डाउनलोड करें। वर्कफ़्लो का उच्च-स्तरीय अवलोकन निम्नलिखित है:
- निर्माता खाते में Amazon Redshift RA3 क्लस्टर को इंस्टेंट करें और डेटासेट लोड करें।
- निर्माता खाते में एक अमेज़ॅन रेडशिफ्ट डेटाशेयर बनाएं और उपभोक्ता खाते को डेटा तक पहुंचने की अनुमति दें।
- उपभोक्ता खाते में अमेज़ॅन रेडशिफ्ट डेटाशेयर तक पहुंचें।
- उपभोक्ता खाते में डेटा रैंगलर के साथ डेटा का विश्लेषण और प्रसंस्करण करें और अपना डेटा तैयारी वर्कफ़्लो बनाएं।
के प्रति जागरूक रहें विचार Amazon Redshift डेटा शेयरिंग के साथ काम करने के लिए:
- एकाधिक AWS खाते - आपको कम से कम दो AWS खाते चाहिए: एक निर्माता खाता और एक उपभोक्ता खाता।
- क्लस्टर प्रकार - RA3 क्लस्टर प्रकार में डेटा शेयरिंग समर्थित है। अमेज़ॅन रेडशिफ्ट क्लस्टर को इंस्टेंट करते समय, RA3 क्लस्टर प्रकार चुनना सुनिश्चित करें।
- कूटलेखन - डेटा साझा करने के काम के लिए, निर्माता और उपभोक्ता क्लस्टर दोनों को एन्क्रिप्ट किया जाना चाहिए और एक ही AWS क्षेत्र में होना चाहिए।
- क्षेत्र - क्रॉस-अकाउंट डेटा शेयरिंग सभी अमेज़ॅन रेडशिफ्ट के लिए उपलब्ध है RA3 नोड प्रकार यूएस ईस्ट (एन. वर्जीनिया), यूएस ईस्ट (ओहियो), यूएस वेस्ट (एन. कैलिफोर्निया), यूएस वेस्ट (ओरेगन), एशिया पैसिफिक (मुंबई), एशिया पैसिफिक (सियोल), एशिया पैसिफिक (सिंगापुर), एशिया पैसिफिक ( सिडनी), एशिया प्रशांत (टोक्यो), कनाडा (मध्य), यूरोप (फ्रैंकफर्ट), यूरोप (आयरलैंड), यूरोप (लंदन), यूरोप (पेरिस), यूरोप (स्टॉकहोम), और दक्षिण अमेरिका (साओ पाउलो)।
- मूल्य निर्धारण - क्रॉस-अकाउंट डेटा शेयरिंग उन समूहों में उपलब्ध है जो एक ही क्षेत्र में हैं। डेटा साझा करने की कोई कीमत नहीं है. आप केवल अमेज़ॅन रेडशिफ्ट क्लस्टर के लिए भुगतान करते हैं जो साझाकरण में भाग लेते हैं।
क्रॉस-अकाउंट डेटा साझाकरण दो चरणों वाली प्रक्रिया है। सबसे पहले, एक निर्माता क्लस्टर प्रशासक एक डेटाशेयर बनाता है, ऑब्जेक्ट जोड़ता है, और उपभोक्ता खाते तक पहुंच प्रदान करता है। फिर निर्माता खाता व्यवस्थापक निर्दिष्ट उपभोक्ता के लिए डेटा साझा करने को अधिकृत करता है। आप इसे Amazon Redshift कंसोल से कर सकते हैं।
निर्माता खाते में Amazon Redshift डेटाशेयर बनाएं
अपना डेटाशेयर बनाने के लिए, निम्नलिखित चरणों को पूरा करें:
- Amazon Redshift कंसोल पर, Amazon Redshift क्लस्टर बनाएं।
- निर्दिष्ट करें उत्पादन और RA3 नोड प्रकार चुनें।
- के अंतर्गत अतिरिक्त विन्यास, चयन रद्द करें डिफ़ॉल्ट का उपयोग करें.
- के अंतर्गत डेटाबेस विन्यास, अपने क्लस्टर के लिए एन्क्रिप्शन सेट करें।
- क्लस्टर बनाने के बाद, डायरेक्ट मार्केटिंग बैंक डेटासेट आयात करें। आप निम्न URL से डाउनलोड कर सकते हैं: https://sagemaker-sample-data-us-west-2.s3-us-west-2.amazonaws.com/autopilot/direct_marketing/bank-additional.zip.
- अपलोड
bank-additional-full.csv
एक को अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बकेट तक आपके क्लस्टर की पहुंच है। - Amazon Redshift क्वेरी संपादक का उपयोग करें और Amazon Redshift में डेटा कॉपी करने के लिए निम्नलिखित SQL क्वेरी चलाएँ:
- क्लस्टर विवरण पृष्ठ और पर नेविगेट करें डेटाशेयर टैब चुनें डेटाशेयर बनाएं.
- के लिए डेटाशेयर नाम, नाम डालें।
- के लिए डेटाबेस नाम, एक डेटाबेस चुनें।
- में डेटाशेयर ऑब्जेक्ट जोड़ें अनुभाग, उस डेटाबेस से ऑब्जेक्ट चुनें जिसे आप डेटाशेयर में शामिल करना चाहते हैं।
आप दूसरों के साथ जो साझा करना चाहते हैं उसका विस्तृत नियंत्रण आपके पास होता है। सरलता के लिए, हम सभी तालिकाएँ साझा करते हैं। व्यवहार में, आप एक या अधिक तालिकाएँ, दृश्य या उपयोगकर्ता-परिभाषित फ़ंक्शन चुन सकते हैं। - चुनें .
- डेटा उपभोक्ताओं को जोड़ने के लिए, चुनें डेटाशेयर में AWS खाते जोड़ें और अपनी द्वितीयक AWS खाता आईडी जोड़ें।
- चुनें डेटाशेयर बनाएं.
- आपके द्वारा अभी बनाए गए डेटा उपभोक्ता को अधिकृत करने के लिए, पर जाएँ डेटाशेयर अमेज़ॅन रेडशिफ्ट कंसोल पर पेज और नया डेटाशेयर चुनें।
- डेटा उपभोक्ता का चयन करें और चुनें अधिकृत करें.
से उपभोक्ता की स्थिति बदल जाती है Pending authorization
सेवा मेरे Authorized
.
उपभोक्ता AWS खाते में Amazon Redshift क्रॉस-अकाउंट डेटाशेयर तक पहुंचें
अब जब डेटाशेयर सेट हो गया है, तो डेटाशेयर का उपभोग करने के लिए अपने उपभोक्ता AWS खाते पर स्विच करें। सुनिश्चित करें कि आपके उपभोक्ता खाते में कम से कम एक अमेज़ॅन रेडशिफ्ट क्लस्टर बनाया गया है। क्लस्टर को एन्क्रिप्ट किया जाना चाहिए और स्रोत के समान क्षेत्र में होना चाहिए।
- Amazon Redshift कंसोल पर, चुनें डेटाशेयर नेविगेशन फलक में
- पर अन्य खातों से टैब, आपके द्वारा बनाए गए डेटाशेयर का चयन करें और चुनें सहयोगी.
- आप डेटाशेयर को इस खाते में एक या अधिक क्लस्टर के साथ जोड़ सकते हैं या डेटाशेयर को पूरे खाते से जोड़ सकते हैं ताकि उपभोक्ता खाते में वर्तमान और भविष्य के क्लस्टर को इस शेयर तक पहुंच मिल सके।
- अपना कनेक्शन विवरण निर्दिष्ट करें और चुनें जुडिये.
- चुनें डेटाशेयर से डेटाबेस बनाएं और अपने नए डेटाबेस के लिए एक नाम दर्ज करें।
- डेटाशेयर का परीक्षण करने के लिए, क्वेरी संपादक पर जाएं और नए डेटाबेस के विरुद्ध क्वेरी चलाएं ताकि यह सुनिश्चित हो सके कि सभी ऑब्जेक्ट डेटाशेयर के हिस्से के रूप में उपलब्ध हैं।
डेटा रैंगलर के साथ डेटा का विश्लेषण और प्रसंस्करण करें
अब आप Amazon Redshift में डेटाशेयर के रूप में बनाए गए क्रॉस-अकाउंट डेटा तक पहुंचने के लिए डेटा रैंगलर का उपयोग कर सकते हैं।
- प्रारंभिक अमेज़ॅन सैजमेकर स्टूडियो.
- पर पट्टिका मेनू, चुनें नया और डेटा रैंगलर फ्लो.
- पर आयात टैब चुनें डेटा स्रोत जोड़ें और अमेज़न रेडशिफ्ट.
- डेटाशेयर के लिए उपभोक्ता खाते में आपके द्वारा अभी बनाए गए अमेज़ॅन रेडशिफ्ट क्लस्टर का कनेक्शन विवरण दर्ज करें।
- चुनें जुडिये.
- उपयोग AWS पहचान और अभिगम प्रबंधन (IAM) भूमिका जिसका उपयोग आपने अपने Amazon Redshift क्लस्टर के लिए किया था।
ध्यान दें कि भले ही डेटाशेयर अमेज़ॅन रेडशिफ्ट क्लस्टर में एक नया डेटाबेस है, आप इसे सीधे डेटा रैंगलर से कनेक्ट नहीं कर सकते हैं।
सही तरीका यह है कि पहले डिफ़ॉल्ट क्लस्टर डेटाबेस से कनेक्ट करें, और फिर डेटाशेयर डेटाबेस को क्वेरी करने के लिए SQL का उपयोग करें। डिफ़ॉल्ट क्लस्टर डेटाबेस से कनेक्ट करने के लिए आवश्यक जानकारी प्रदान करें। ध्यान दें कि ए AWS प्रमुख प्रबंधन सेवा कनेक्ट करने के लिए (AWS KMS) कुंजी आईडी की आवश्यकता नहीं है।
डेटा रैंगलर अब अमेज़न रेडशिफ्ट इंस्टेंस से जुड़ा है।
- SQL संपादक का उपयोग करके Amazon Redshift डेटाशेयर डेटाबेस में डेटा को क्वेरी करें।
- चुनें आयात डेटा रैंगलर में डेटासेट आयात करने के लिए।
- डेटासेट के लिए एक नाम दर्ज करें और चुनें .
अब आप पर प्रवाह देख सकते हैं डाटा प्रवाह डेटा रैंगलर का टैब।
डेटा रैंगलर में डेटा लोड करने के बाद, आप खोजपूर्ण डेटा विश्लेषण कर सकते हैं और एमएल के लिए डेटा तैयार कर सकते हैं।
- धन चिह्न चुनें और चुनें विश्लेषण जोड़ें.
डेटा रैंगलर अंतर्निहित विश्लेषण प्रदान करता है। इनमें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट, डेटा सहसंबंध, पूर्व-प्रशिक्षण पूर्वाग्रह रिपोर्ट, आपके डेटासेट का सारांश और विज़ुअलाइज़ेशन (जैसे हिस्टोग्राम और स्कैटर प्लॉट) शामिल हैं, लेकिन इन्हीं तक सीमित नहीं हैं। आप अपना स्वयं का कस्टम विज़ुअलाइज़ेशन भी बना सकते हैं.
आप डेटा गुणवत्ता के मुद्दों की पहचान करने और अपने डेटासेट के लिए आवश्यक सही परिवर्तन की अनुशंसा करने के लिए स्वचालित रूप से विज़ुअलाइज़ेशन और विश्लेषण उत्पन्न करने के लिए डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट का उपयोग कर सकते हैं।
- चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट, और चुनें लक्ष्य स्तंभ as y.
- क्योंकि यह एक वर्गीकरण समस्या कथन है समस्या प्रकार, चुनते हैं वर्गीकरण.
- चुनें बनाएं.
डेटा रैंगलर आपके डेटासेट पर एक विस्तृत रिपोर्ट बनाता है। आप रिपोर्ट को अपनी स्थानीय मशीन पर भी डाउनलोड कर सकते हैं।
- डेटा तैयार करने के लिए, प्लस चिह्न चुनें और चुनें विश्लेषण जोड़ें.
- चुनें चरण जोड़ें अपने परिवर्तनों का निर्माण शुरू करने के लिए।
इस लेखन के समय, डेटा रैंगलर 300 से अधिक अंतर्निहित परिवर्तन प्रदान करता है। आप पांडा या पायस्पार्क का उपयोग करके अपने स्वयं के परिवर्तन भी लिख सकते हैं।
अब आप अपनी व्यावसायिक आवश्यकता के आधार पर अपने परिवर्तन और विश्लेषण का निर्माण शुरू कर सकते हैं।
निष्कर्ष
इस पोस्ट में, हमने मैन्युअल रूप से डेटा डाउनलोड और अपलोड किए बिना अमेज़ॅन रेडशिफ्ट डेटाशेयर का उपयोग करके खातों में डेटा साझा करने का पता लगाया। हमने डेटा रैंगलर का उपयोग करके साझा किए गए डेटा तक पहुंचने और आपके एमएल उपयोग मामलों के लिए डेटा तैयार करने के तरीके के बारे में जाना। अमेज़ॅन रेडशिफ्ट डेटाशेयर और डेटा रैंगलर की यह नो-कोड/लो-कोड क्षमता प्रशिक्षण डेटा तैयारी में तेजी लाती है और तेजी से पुनरावृत्त डेटा तैयारी के साथ डेटा इंजीनियरों और डेटा वैज्ञानिकों की चपलता बढ़ाती है।
अमेज़ॅन रेडशिफ्ट और सेजमेकर के बारे में अधिक जानने के लिए, देखें अमेज़ॅन रेडशिफ्ट डेटाबेस डेवलपर गाइड और अमेज़ॅन सेजमेकर दस्तावेज़ीकरण.
लेखक के बारे में
मीनाक्षीसुंदरम थंडावरायण एडब्ल्यूएस के साथ एक वरिष्ठ एआई/एमएल विशेषज्ञ हैं। वह उनकी AI और ML यात्रा में हाई-टेक रणनीतिक खातों की मदद करता है। वह डेटा-संचालित एआई के बारे में बहुत भावुक है।
जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ समाधान वास्तुकार हैं। ग्राहकों को एआई/एमएल समाधान डिजाइन और निर्माण में मदद करना। जेम्स के काम में एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला शामिल है, जिसमें प्राथमिक रुचि कंप्यूटर विज़न, डीप लर्निंग और पूरे उद्यम में एमएल स्केलिंग है। एडब्ल्यूएस में शामिल होने से पहले, जेम्स इंजीनियरिंग में 10 साल और मार्केटिंग और विज्ञापन उद्योगों में 6 साल सहित 4 से अधिक वर्षों के लिए एक वास्तुकार, डेवलपर और प्रौद्योगिकी नेता थे।
- कॉइनस्मार्ट। यूरोप का सर्वश्रेष्ठ बिटकॉइन और क्रिप्टो एक्सचेंज।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। नि: शुल्क प्रवेश।
- क्रिप्टोहॉक। Altcoin रडार। मुफ्त परीक्षण।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/import-data-from-cross-account-amazon-redshift-in-amazon-sagemaker-data-wrangler-for-exploratory-data-analysis- और-डेटा-तैयारी/
- "
- &
- 10
- 100
- 11
- 7
- a
- About
- पहुँच
- सुलभ
- लेखा
- के पार
- गतिविधियों
- विज्ञापन
- के खिलाफ
- AI
- सब
- की अनुमति देता है
- वीरांगना
- अमेरिका
- विश्लेषण
- अन्य
- अनुप्रयोगों
- स्थापत्य
- एशिया
- एशिया प्रशांत
- सहयोगी
- स्वतः
- उपलब्ध
- एडब्ल्यूएस
- बैंक
- BEST
- सर्वोत्तम प्रथाओं
- सीमा
- निर्माण
- इमारत
- में निर्मित
- व्यापार
- कैलिफ़ोर्निया
- अभियान
- कनाडा
- मामलों
- केंद्रीय
- चुनें
- वर्गीकरण
- बादल
- पूरा
- अनुपालन
- कंप्यूटर
- जुडिये
- जुड़ा हुआ
- कनेक्ट कर रहा है
- संबंध
- संगत
- कंसोल
- उपभोग
- उपभोक्ता
- उपभोक्ताओं
- संपर्क करें
- नियंत्रण
- बनाना
- बनाया
- बनाता है
- साख
- संस्कृति
- वर्तमान
- रिवाज
- ग्राहक
- तिथि
- डेटा विश्लेषण
- डेटा साझा करना
- डाटाबेस
- निर्णय
- गहरा
- डिज़ाइन
- विस्तृत
- विवरण
- डेवलपर
- विभिन्न
- मुश्किल
- प्रत्यक्ष
- सीधे
- डाउनलोड
- संपादक
- शिक्षा
- आलिंगन
- एन्क्रिप्शन
- अभियांत्रिकी
- इंजीनियर्स
- दर्ज
- उद्यम
- यूरोप
- का पता लगाने
- फास्ट
- और तेज
- Feature
- प्रथम
- प्रवाह
- का पालन करें
- निम्नलिखित
- प्रारूप
- ताजा
- से
- कार्यों
- भविष्य
- उत्पन्न
- शासन
- होने
- मदद
- मदद करता है
- आवासन
- कैसे
- How To
- HTTPS
- पहचान करना
- पहचान
- शामिल
- सहित
- उद्योगों
- करें-
- अंतर्दृष्टि
- उदाहरण
- एकीकरण
- ब्याज
- इंटरफेस
- आयरलैंड
- मुद्दों
- IT
- काम
- नौकरियां
- शामिल होने
- यात्रा
- रखना
- कुंजी
- नेता
- जानें
- सीख रहा हूँ
- सीमित
- भार
- स्थानीय
- स्थान
- लंडन
- मशीन
- यंत्र अधिगम
- बनाए रखना
- बनाना
- बनाता है
- कामयाब
- प्रबंध
- मैन्युअल
- विपणन (मार्केटिंग)
- हो सकता है
- ML
- मॉडल
- महीना
- अधिक
- चलती
- मुंबई
- पथ प्रदर्शन
- संख्या
- ओहियो
- आदेश
- ओरेगन
- संगठनों
- अन्य
- अपना
- पसिफ़िक
- पेरिस
- भाग
- भाग लेना
- आवेशपूर्ण
- वेतन
- पीडीएफ
- अभ्यास
- तैयार करना
- पिछला
- प्राथमिक
- मुसीबत
- प्रक्रिया
- उत्पादक
- प्रदान करना
- प्रदान करता है
- गुणवत्ता
- रेंज
- की सिफारिश
- क्षेत्र
- रिपोर्ट
- अपेक्षित
- भूमिका
- रन
- सुरक्षित
- वही
- स्केलिंग
- वैज्ञानिकों
- माध्यमिक
- सुरक्षित
- सुरक्षा
- सियोल
- सेट
- की स्थापना
- Share
- साझा
- बांटने
- हस्ताक्षर
- सरल
- सिंगापुर
- So
- ठोस
- समाधान
- समाधान ढूंढे
- दक्षिण
- विशेषज्ञ
- प्रारंभ
- कथन
- स्थिति
- भंडारण
- सामरिक
- समर्थित
- स्विच
- सिडनी
- टेक्नोलॉजी
- परीक्षण
- RSI
- स्रोत
- यहाँ
- पहर
- टोक्यो
- की ओर
- प्रशिक्षण
- बदालना
- परिवर्तन
- परिवर्तनों
- us
- उपयोग
- वर्जीनिया
- दृष्टि
- दृश्य
- पश्चिम
- क्या
- बिना
- काम
- workflows
- काम कर रहे
- लिख रहे हैं
- साल
- आपका