पिछले साल, हमने की सामान्य उपलब्धता की घोषणा की थी अमेज़न सेजमेकर पर RStudio, क्लाउड में उद्योग का पहला पूरी तरह से प्रबंधित RStudio कार्यक्षेत्र एकीकृत विकास वातावरण (IDE)। आप जल्दी से परिचित RStudio IDE लॉन्च कर सकते हैं और अपने काम को बाधित किए बिना अंतर्निहित कंप्यूट संसाधनों को डायल और डाउन कर सकते हैं, जिससे मशीन लर्निंग (ML) और एनालिटिक्स सॉल्यूशंस को R में बड़े पैमाने पर बनाना आसान हो जाता है।
SageMaker के कई RStudio उपयोगकर्ता भी इसके उपयोगकर्ता हैं अमेज़न रेडशिफ्ट, डेटा भंडारण और विश्लेषणात्मक वर्कलोड के लिए पूरी तरह से प्रबंधित, पेटाबाइट-स्केल, बड़े पैमाने पर समानांतर डेटा वेयरहाउस। यह मानक एसक्यूएल और आपके मौजूदा बिजनेस इंटेलिजेंस (बीआई) टूल्स का उपयोग करके आपके सभी डेटा का विश्लेषण करने के लिए तेज़, सरल और लागत प्रभावी बनाता है। उपयोगकर्ता ODBC, JDBC, या Amazon Redshift Data API के साथ डेटा के साथ इंटरैक्ट भी कर सकते हैं।
क्लाउड में बड़े डेटा सेट पर कुशलतापूर्वक विश्लेषण करने के लिए सेजमेकर और अमेज़ॅन रेडशिफ्ट पर RStudio का उपयोग सहायक हो सकता है। हालाँकि, क्लाउड में डेटा के साथ काम करना चुनौतियाँ पेश कर सकता है, जैसे संगठनात्मक डेटा साइलो को हटाने, सुरक्षा और अनुपालन बनाए रखने और टूलिंग को मानकीकृत करके जटिलता को कम करने की आवश्यकता। AWS इन चुनौतियों से निपटने में मदद करने के लिए SageMaker और Amazon Redshift पर RStudio जैसे टूल ऑफ़र करता है।
इस ब्लॉग पोस्ट में, हम आपको दिखाएंगे कि ऊपर उल्लिखित चुनौतियों का समाधान करते हुए क्लाउड में बड़े पैमाने पर डेटा सेट पर कुशलतापूर्वक विश्लेषण करने के लिए इन दोनों सेवाओं का एक साथ उपयोग कैसे करें। यह ब्लॉग व्यापार विश्लेषकों, डेटा इंजीनियरों, डेटा वैज्ञानिकों और सभी डेवलपर्स के साथ Amazon SageMaker भाषा पर Rstudio पर ध्यान केंद्रित करता है, जो लक्षित दर्शकों के रूप में R Language और Amazon Redshift का उपयोग करते हैं।
यदि आप अमेज़न रेडशिफ्ट के साथ पारंपरिक सेजमेकर स्टूडियो अनुभव का उपयोग करना चाहते हैं, तो इसे देखें Amazon SageMaker Jupyter नोटबुक से इंटरैक्ट करने के लिए Amazon Redshift Data API का उपयोग करना.
समाधान अवलोकन
आज के ब्लॉग में, हम निम्नलिखित चरणों को क्रियान्वित करेंगे:
- आवश्यक पैकेजों के साथ नमूना रिपॉजिटरी की क्लोनिंग।
- एक सुरक्षित ओडीबीसी कनेक्शन के साथ अमेज़न रेडशिफ्ट से जुड़ना (RStudio के लिए ODBC पसंदीदा प्रोटोकॉल है).
- SageMaker पर RStudio के माध्यम से Amazon Redshift Serverless के भीतर डेटा पर क्वेरीज़ और SageMaker API क्रियाएँ चलाना
इस प्रक्रिया को निम्नलिखित समाधान वास्तुकला में दर्शाया गया है:
समाधान वॉकथ्रू
.. पूर्वापेक्षाएँ
आरंभ करने से पहले, सुनिश्चित करें कि Amazon SageMaker और Amazon Redshift Serverless पर RStudio की स्थापना के लिए आपके पास सभी आवश्यकताएं हैं, जैसे:
आवश्यक आधारभूत संरचना उत्पन्न करने के लिए हम क्लाउडफॉर्मेशन स्टैक का उपयोग करेंगे।
नोट: यदि आपके पास पहले से RStudio डोमेन और Amazon Redshift क्लस्टर है, तो आप इस चरण को छोड़ सकते हैं
इस स्टैक को लॉन्च करने से निम्नलिखित संसाधन बनते हैं:
- 3 निजी सबनेट
- 1 सार्वजनिक सबनेट
- 1 एनएटी गेटवे
- इंटरनेट का प्रवेश द्वार
- अमेज़न रेडशिफ्ट सर्वर रहित क्लस्टर
- RStudio के साथ SageMaker डोमेन
- SageMaker RStudio उपयोगकर्ता प्रोफ़ाइल
- SageMaker RStudio डोमेन निष्पादन के लिए IAM सेवा भूमिका
- SageMaker RStudio उपयोगकर्ता प्रोफ़ाइल निष्पादन के लिए IAM सेवा भूमिका
यह टेम्प्लेट एक क्षेत्र में काम करने के लिए डिज़ाइन किया गया है (उदा। us-east-1
, us-west-2
) तीन उपलब्धता क्षेत्रों के साथ, SageMaker पर RStudio, और Amazon Redshift Serverless। सुनिश्चित करें कि आपके क्षेत्र के पास उन संसाधनों तक पहुंच है, या तदनुसार टेम्प्लेट संशोधित करें।
प्रेस स्टैक लॉन्च करें ढेर बनाने के लिए बटन।
- पर स्टैक बनाएँ पृष्ठ, चुनें अगला.
- पर स्टैक विवरण निर्दिष्ट करें पृष्ठ, अपने स्टैक के लिए एक नाम प्रदान करें और शेष विकल्पों को डिफ़ॉल्ट के रूप में छोड़ दें, फिर चुनें अगला.
- पर स्टैक विकल्प कॉन्फ़िगर करें पेज, विकल्पों को डिफ़ॉल्ट के रूप में छोड़ दें और दबाएं अगला.
- पर समीक्षा पृष्ठका चयन करें
- मैं स्वीकार करता हूं कि AWS CloudFormation कस्टम नाम के साथ IAM संसाधन बना सकता है
- मैं स्वीकार करता हूं कि AWS CloudFormation को निम्नलिखित क्षमता की आवश्यकता हो सकती है: CAPABILITY_AUTO_EXPANDचेकबॉक्स और चुनें सब्मिट.
टेम्पलेट पाँच ढेर उत्पन्न करेगा।
एक बार ढेर की स्थिति है बनाएं_पूरा करें, Amazon Redshift सर्वर रहित कंसोल पर नेविगेट करें। यह एक नई क्षमता है जो किसी भी पैमाने पर उच्च प्रदर्शन के साथ क्लाउड में एनालिटिक्स चलाना बेहद आसान बनाती है। बस अपना डेटा लोड करें और क्वेरी करना प्रारंभ करें। क्लस्टर स्थापित करने और प्रबंधित करने की कोई आवश्यकता नहीं है।
नोट: अमेज़ॅन सैजमेकर पर अमेज़ॅन रेडशिफ्ट और आरस्टूडियो को एकीकृत करने वाले इस ब्लॉग में प्रदर्शित पैटर्न अमेज़ॅन रेडशिफ्ट परिनियोजन पैटर्न (सर्वर रहित या पारंपरिक क्लस्टर) की परवाह किए बिना समान होगा।
Amazon Redshift Serverless में डेटा लोड हो रहा है
CloudFormation स्क्रिप्ट ने एक डेटाबेस बनाया, जिसे कहा जाता है sagemaker
. आइए इस डेटाबेस को RStudio उपयोगकर्ता द्वारा क्वेरी करने के लिए तालिकाओं के साथ पॉप्युलेट करें। एक SQL संपादक टैब बनाएँ और सुनिश्चित करें कि sagemaker
डेटाबेस चुना गया है। हम प्रयोग करेंगे सिंथेटिक क्रेडिट कार्ड लेनदेन डेटा हमारे डेटाबेस में टेबल बनाने के लिए। यह डेटा SageMaker नमूना सारणीबद्ध डेटासेट का हिस्सा है s3://sagemaker-sample-files/datasets/tabular/synthetic_credit_card_transactions
.
हम क्वेरी एडिटर में निम्नलिखित क्वेरी को निष्पादित करने जा रहे हैं। यह तीन तालिकाएँ उत्पन्न करेगा, कार्ड, लेनदेन, और उपयोगकर्ताओं.
आप क्वेरी संपादक के बाएँ हाथ के फलक में तीन तालिकाओं को देखकर सत्यापित कर सकते हैं कि क्वेरी सफलतापूर्वक चली।
एक बार जब सभी तालिकाएँ आबाद हो जाती हैं, तो SageMaker RStudio पर नेविगेट करें और एक ml.m5.xlarge उदाहरण पर RSession आधार छवि के साथ एक नया सत्र शुरू करें।
सत्र शुरू होने के बाद, हम इस कोड को अपने Amazon Redshift सर्वर रहित डेटाबेस से कनेक्शन बनाने के लिए चलाएंगे।
सिंथेटिक स्कीमा में तालिकाओं को देखने के लिए, आपको क्वेरी संपादक के माध्यम से अमेज़ॅन रेडशिफ्ट में पहुंच प्रदान करने की आवश्यकता होगी।
द आरस्टूडियो कनेक्शन फलक को दिखाना चाहिए sagemaker
स्कीमा सिंथेटिक और टेबल कार्ड, लेनदेन, उपयोगकर्ताओं के साथ डेटाबेस।
आप 1,000 रिकॉर्ड देखने के लिए टेबल के बगल में स्थित टेबल आइकन पर क्लिक कर सकते हैं।
नोट: हमने एक पूर्व-निर्मित आर मार्कडाउन फ़ाइल बनाई है जिसमें सभी कोड-ब्लॉक पूर्व-निर्मित हैं जो परियोजना में पाए जा सकते हैं गीथहब रेपो.
अब प्रयोग करते हैं DBI
पैकेज समारोह dbListTables()
मौजूदा तालिकाओं को देखने के लिए।
डेटाबेस में SQL क्वेरी पास करने के लिए dbGetQuery() का उपयोग करें।
हम भी उपयोग कर सकते हैं dbplyr
और dplyr
संकुल डेटाबेस में प्रश्नों को निष्पादित करने के लिए। के जाने count()
लेन-देन तालिका में कितने लेन-देन हैं। लेकिन पहले, हमें इन पैकेजों को स्थापित करने की जरूरत है।
उपयोग tbl()
स्कीमा निर्दिष्ट करते समय कार्य करें।
आइए प्रत्येक तालिका के लिए पंक्तियों की संख्या की गणना करें।
तो हमारे पास 2,000 उपयोगकर्ता हैं; 6,146 कार्ड; और 24,386,900 लेनदेन। हम कंसोल में टेबल भी देख सकते हैं।
transactions_tbl
हम भी क्या देख सकते हैं dplyr
क्रिया हुड के नीचे कर रहे हैं।
आइए दृष्टिगत रूप से वर्ष के अनुसार लेन-देन की संख्या का अन्वेषण करें।
हम डेटाबेस में डेटा को संक्षेप में निम्नानुसार भी कर सकते हैं:
मान लीजिए हम कार्ड की जानकारी का उपयोग करके धोखाधड़ी देखना चाहते हैं। हमें केवल तालिकाओं में शामिल होने और फिर उन्हें विशेषता द्वारा समूहित करने की आवश्यकता है।
अब एक डेटासेट तैयार करते हैं जिसका उपयोग मशीन लर्निंग के लिए किया जा सकता है। चलो लेन-देन डेटा को केवल कॉलम के सबसेट को रखते हुए केवल डिस्कवर क्रेडिट कार्ड शामिल करने के लिए फ़िल्टर करते हैं।
और अब निम्नलिखित परिवर्तनों का उपयोग करके कुछ सफाई करते हैं:
- में कनवर्ट करना
is_fraud
बाइनरी विशेषता के लिए - से लेन-देन स्ट्रिंग निकालें
use_chip
और इसे टाइप करने के लिए नाम बदलें - वर्ष, माह और दिन को एक डेटा ऑब्जेक्ट में संयोजित करें
- राशि से $ निकालें और एक संख्यात्मक डेटा प्रकार में बदलें
अब जब हमने अपने डेटासेट को फ़िल्टर और साफ़ कर लिया है, तो हम इस डेटासेट को स्थानीय RAM में एकत्रित करने के लिए तैयार हैं।
अब हमारे पास फीचर और फिटिंग मॉडल बनाना शुरू करने के लिए एक कार्यशील डेटासेट है। हम उन चरणों को इस ब्लॉग में शामिल नहीं करेंगे, लेकिन यदि आप SageMaker पर RStudio में मॉडल बनाने के बारे में अधिक जानना चाहते हैं तो देखें डेटा वैज्ञानिकों के लिए Amazon SageMaker पर पूरी तरह से प्रबंधित RStudio की घोषणा.
साफ - सफाई
आवर्ती लागतों से बचने के लिए किसी भी संसाधन को साफ करने के लिए, रूट CloudFormation टेम्प्लेट को हटा दें। बनाए गए सभी EFS माउंट और बनाए गए किसी भी S3 बकेट और ऑब्जेक्ट को भी हटा दें।
निष्कर्ष
क्लाउड में बड़े डेटासेट के साथ काम करते समय डेटा विश्लेषण और मॉडलिंग चुनौतीपूर्ण हो सकता है। अमेज़न रेडशिफ्ट एक लोकप्रिय डेटा वेयरहाउस है जो उपयोगकर्ताओं को इन कार्यों को करने में मदद कर सकता है। RStudio, डेटा विश्लेषण के लिए सबसे व्यापक रूप से उपयोग किए जाने वाले एकीकृत विकास वातावरण (IDEs) में से एक है, जिसका उपयोग अक्सर R भाषा के साथ किया जाता है। इस ब्लॉग पोस्ट में, हमने बड़े पैमाने पर डेटासेट पर कुशलता से विश्लेषण करने के लिए SageMaker पर Amazon Redshift और RStudio का एक साथ उपयोग करने का तरीका दिखाया। SageMaker पर RStudio का उपयोग करके, उपयोगकर्ता SageMaker की पूरी तरह से प्रबंधित अवसंरचना, अभिगम नियंत्रण, नेटवर्किंग और सुरक्षा क्षमताओं का लाभ उठा सकते हैं, जबकि Amazon Redshift के साथ एकीकरण को भी सरल बना सकते हैं। यदि आप इन दो उपकरणों का एक साथ उपयोग करने के बारे में अधिक जानना चाहते हैं, तो हमारे अन्य ब्लॉग पोस्ट और संसाधन देखें। आप अपने लिए SageMaker और Amazon Redshift पर RStudio का उपयोग करने का प्रयास कर सकते हैं और देख सकते हैं कि वे आपके डेटा विश्लेषण और मॉडलिंग कार्यों में आपकी सहायता कैसे कर सकते हैं।
कृपया इस ब्लॉग पर अपनी प्रतिक्रिया जोड़ें, या पर एक पुल अनुरोध बनाएँ GitHub.
लेखक के बारे में
रयान गार्नर AWS प्रोफेशनल सर्विसेज के साथ डेटा साइंटिस्ट हैं। वह AWS ग्राहकों को उनकी डेटा साइंस और मशीन लर्निंग समस्याओं को हल करने के लिए R का उपयोग करने में मदद करने के लिए भावुक हैं।
राज पाठक वित्तीय सेवाओं (बीमा, बैंकिंग, पूंजी बाजार) और मशीन लर्निंग में विशेषज्ञता रखने वाला एक वरिष्ठ समाधान वास्तुकार और टेक्नोलॉजिस्ट है। वह प्राकृतिक भाषा प्रसंस्करण (एनएलपी), बड़े भाषा मॉडल (एलएलएम) और मशीन लर्निंग इंफ्रास्ट्रक्चर और ऑपरेशंस प्रोजेक्ट्स (एमएलओपीएस) में माहिर हैं।
अदिति रजनीश वाटरलू विश्वविद्यालय में सॉफ्टवेयर इंजीनियरिंग का द्वितीय वर्ष का छात्र है। उनकी रुचियों में कंप्यूटर विजन, नेचुरल लैंग्वेज प्रोसेसिंग और एज कंप्यूटिंग शामिल हैं। वह समुदाय-आधारित एसटीईएम आउटरीच और वकालत के बारे में भी भावुक हैं। अपने खाली समय में, वह रॉक क्लाइम्बिंग, पियानो बजाते हुए, या सही स्कोन बेक करना सीखते हुए पाई जा सकती हैं।
सैतेजा पुडी डलास, टेक्सास में स्थित एडब्ल्यूएस में एक समाधान वास्तुकार है। वह 3 साल से अधिक समय से AWS के साथ हैं, ग्राहकों को उनके विश्वसनीय सलाहकार बनकर AWS की वास्तविक क्षमता प्राप्त करने में मदद करते हैं। वह एक एप्लिकेशन डेवलपमेंट बैकग्राउंड से आता है, जिसकी दिलचस्पी डेटा साइंस और मशीन लर्निंग में है।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न रेडशिफ्ट
- अमेज़न SageMaker
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- विशेषज्ञ (400)
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- तकनीकी
- जेफिरनेट