आर एक लोकप्रिय विश्लेषणात्मक प्रोग्रामिंग भाषा है जिसका उपयोग डेटा वैज्ञानिकों और विश्लेषकों द्वारा डेटा प्रोसेसिंग करने, सांख्यिकीय विश्लेषण करने, डेटा विज़ुअलाइज़ेशन बनाने और मशीन लर्निंग (एमएल) मॉडल बनाने के लिए किया जाता है। RStudio, R के लिए एकीकृत विकास वातावरण, टीमों को अपने संगठन में अपने काम को विकसित करने और साझा करने के लिए ओपन-सोर्स टूल और एंटरप्राइज़-तैयार पेशेवर सॉफ़्टवेयर प्रदान करता है।
AWS में RStudio वातावरण को लागू करने से वह लोच और मापनीयता मिलती है जो आपके पास ऑन-प्रिमाइसेस करते समय नहीं होती है, जिससे उस बुनियादी ढांचे के प्रबंधन की आवश्यकता समाप्त हो जाती है। आप प्रसंस्करण आवश्यकताओं के आधार पर वांछित गणना और मेमोरी का चयन कर सकते हैं और बिना किसी अग्रिम निवेश के विभिन्न आकारों के विश्लेषणात्मक और एमएल वर्कलोड के साथ काम करने के लिए ऊपर या नीचे भी बढ़ा सकते हैं। इससे आप नए डेटा स्रोतों और कोड के साथ शीघ्रता से प्रयोग कर सकते हैं, और संगठन के बाकी हिस्सों में नई विश्लेषिकी प्रक्रियाओं और एमएल मॉडल को रोल आउट कर सकते हैं। आप अपने डेटा लेक संसाधनों को डेवलपर्स और डेटा वैज्ञानिकों के लिए उपलब्ध कराने के लिए मूल रूप से एकीकृत कर सकते हैं और पंक्ति-स्तर और कॉलम-स्तरीय एक्सेस नियंत्रणों का उपयोग करके डेटा को सुरक्षित कर सकते हैं। AWS झील निर्माण.
यह पोस्ट डेटा लेक में संग्रहीत डेटा तक पहुँचने के लिए AWS पर RStudio को आसानी से परिनियोजित करने और चलाने के दो तरीके प्रस्तुत करता है:
- पूरी तरह से प्रबंधित अमेज़न SageMaker
- स्व-होस्ट किया गया अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेजन EC2)
- आप EC2 होस्टेड दृष्टिकोण का उपयोग करके RStudio के ओपन-सोर्स संस्करण को परिनियोजित करना चुन सकते हैं जिसका वर्णन हम इस पोस्ट में भी करेंगे। स्व-होस्ट किए गए विकल्प के लिए व्यवस्थापक को EC2 इंस्टेंस बनाने और मैन्युअल रूप से RStudio स्थापित करने या a . का उपयोग करने की आवश्यकता होती है एडब्ल्यूएस CloudFormation इस विकल्प में उपयोगकर्ता-पहुंच नियंत्रणों को लागू करने के लिए कम लचीलापन भी है क्योंकि इस प्रकार के कार्यान्वयन में सभी उपयोगकर्ताओं के पास समान पहुंच स्तर है।
अमेज़न सेजमेकर पर RStudio
आप सेजमेकर के एक साधारण क्लिक से RStudio वर्कबेंच लॉन्च कर सकते हैं। सेजमेकर के साथ ग्राहकों को RStudio के निर्माण, स्थापना, सुरक्षा, स्केलिंग और रखरखाव का परिचालन खर्च नहीं उठाना पड़ता है, उन्हें लगातार चल रहे RStudio सर्वर के लिए भुगतान नहीं करना पड़ता है (यदि वे t3.medium का उपयोग कर रहे हैं) और वे केवल भुगतान करते हैं जब वे इसका उपयोग करते हैं तो RSession गणना के लिए। RStudio उपयोगकर्ताओं के पास ऑन-द-फ्लाई इंस्टेंस स्विच करके गतिशील रूप से गणना करने के लिए लचीलापन होगा। SageMaker पर RStudio चलाने के लिए सेजमेकर डोमेन और संबद्ध उपयोगकर्ता प्रोफाइल स्थापित करने के लिए एक व्यवस्थापक की आवश्यकता होती है। आपको एक उपयुक्त RStudio लाइसेंस की भी आवश्यकता है
सेजमेकर के भीतर, आप अलग-अलग अनुमतियों के साथ RStudio व्यवस्थापक और RStudio उपयोगकर्ता स्तर पर पहुंच प्रदान कर सकते हैं। इन दो भूमिकाओं में से केवल एक उपयोगकर्ता प्रोफाइल को ही सेजमेकर में RStudio तक पहुंच प्राप्त हो सकती है। SageMaker पर RStudio की स्थापना के लिए व्यवस्थापक कार्यों के बारे में अधिक जानकारी के लिए, देखें Amazon SageMaker पर RStudio के साथ शुरुआत करें. वह पोस्ट प्रत्येक सत्र के लिए EC2 इंस्टेंस को चुनने की प्रक्रिया को भी दिखाता है, और कैसे व्यवस्थापक RStudio उपयोगकर्ताओं के लिए EC2 इंस्टेंस विकल्पों को प्रतिबंधित कर सकता है।
लेक फॉर्मेशन पंक्ति-स्तर और स्तंभ-स्तरीय सुरक्षा पहुँच का उपयोग करें
अपनी टीम को सेजमेकर पर RStudio सत्र शुरू करने की अनुमति देने के अलावा, आप लेक फॉर्मेशन से पंक्ति-स्तर और स्तंभ-स्तरीय एक्सेस नियंत्रणों का उपयोग करके डेटा झील को भी सुरक्षित कर सकते हैं। अधिक जानकारी के लिए देखें AWS लेक फॉर्मेशन का उपयोग करके प्रभावी डेटा लेक, भाग 4: सेल-लेवल और रो-लेवल सुरक्षा को लागू करना.
लेक फॉर्मेशन सुरक्षा नियंत्रणों के माध्यम से, आप यह सुनिश्चित कर सकते हैं कि प्रत्येक व्यक्ति के पास डेटा लेक में डेटा तक सही पहुंच है। सेजमेकर डोमेन में निम्नलिखित दो उपयोगकर्ता प्रोफाइल पर विचार करें, जिनमें से प्रत्येक की एक अलग निष्पादन भूमिका है:
उपयोगकर्ता प्रोफ़ाइल | निष्पादन भूमिका |
rstudiouser-fullaccess |
AmazonSageMaker-ExecutionRole-FullAccess |
rstudiouser-limitedaccess |
AmazonSageMaker-ExecutionRole-LimitedAccess |
निम्न स्क्रीनशॉट दिखाता है rstudiouser-limitedaccess
प्रोफ़ाइल विवरण।
निम्न स्क्रीनशॉट दिखाता है rstudiouser-fullaccess
प्रोफ़ाइल विवरण।
इस पोस्ट के लिए इस्तेमाल किया गया डेटासेट एक है COVID-19 सार्वजनिक डेटासेट. निम्न स्क्रीनशॉट डेटा का एक उदाहरण दिखाता है:
उपयोगकर्ता प्रोफ़ाइल बनाने और उसे उपयुक्त भूमिका सौंपने के बाद, आप डेटा को क्रॉल करने के लिए लेक फॉर्मेशन तक पहुँच सकते हैं एडब्ल्यूएस गोंद, मेटाडेटा और तालिका बनाएं, और तालिका डेटा तक पहुंच प्रदान करें। के लिए AmazonSageMaker-ExecutionRole-FullAccess
भूमिका, आप तालिका के सभी स्तंभों तक पहुँच प्रदान करते हैं, और इसके लिए AmazonSageMaker-ExecutionRole-LimitedAccess
, आप डेटा फ़िल्टर का उपयोग करके पहुंच प्रदान करते हैं USA_Filter
. हम इस फ़िल्टर का उपयोग पंक्ति-स्तर और सेल-स्तरीय स्तंभ अनुमतियाँ प्रदान करने के लिए करते हैं (देखें संसाधन निम्नलिखित स्क्रीनशॉट में कॉलम)।
जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है, दूसरी भूमिका की सीमित पहुंच है। इस भूमिका से जुड़े उपयोगकर्ता केवल इस तक पहुंच सकते हैं continent
, date
, total_cases
, total_deaths
, new_cases
, new_deaths
, तथा iso_codecolumns
.
प्रत्येक उपयोगकर्ता प्रोफ़ाइल से जुड़ी भूमिका अनुमतियों के साथ, हम देख सकते हैं कि लेक फॉर्मेशन कैसे उपयुक्त पंक्ति-स्तर और स्तंभ-स्तरीय अनुमतियों को लागू करता है। आप से RStudio कार्यक्षेत्र खोल सकते हैं ऐप लांच करें बनाई गई उपयोगकर्ता सूची में ड्रॉप-डाउन मेनू, और चुनें RStudio.
निम्नलिखित स्क्रीनशॉट में, हम ऐप को के रूप में लॉन्च करते हैं rstudiouser-limitedaccess user
.
आप RStudio वर्कबेंच होम पेज और सत्रों, परियोजनाओं और प्रकाशित सामग्री की सूची देख सकते हैं।
सेजमेकर में सत्र शुरू करने के लिए सत्र का नाम चुनें। Paws स्थापित करें (इस पोस्ट में पहले मार्गदर्शन देखें) ताकि आप उपयुक्त AWS सेवाओं तक पहुँच सकें। अब आप डेटासेट से सभी फ़ील्ड खींचने के लिए एक क्वेरी चला सकते हैं अमेज़न एथेना, कमांड का उपयोग करना “SELECT * FROM "databasename.tablename"
, और क्वेरी आउटपुट को a . में स्टोर करें अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
निम्न स्क्रीनशॉट S3 बकेट में आउटपुट फ़ाइलों को दिखाता है।
निम्न स्क्रीनशॉट इन आउटपुट फ़ाइलों में डेटा का उपयोग करके दिखाता है अमेज़न S3 चुनें.
केवल यूएसए डेटा और कॉलम महाद्वीप, तिथि, total_cases
, total_deaths
, new_cases
, new_deaths
, तथा iso_code
के परिणाम में दिखाया गया है rstudiouser-limitedaccess
उपयोगकर्ता.
आइए के लिए समान चरणों को दोहराएं rstudiouser-fullaccess
उपयोगकर्ता.
आप RStudio वर्कबेंच होम पेज और सत्रों, परियोजनाओं और प्रकाशित सामग्री की सूची देख सकते हैं।
आइए एक ही क्वेरी चलाते हैं “SELECT * FROM "databasename.tablename"
एथेना का उपयोग करना।
निम्न स्क्रीनशॉट S3 बकेट में आउटपुट फ़ाइलों को दिखाता है।
निम्न स्क्रीनशॉट इन आउटपुट फ़ाइलों में डेटा का उपयोग करके दिखाता है अमेज़न S3 चुनें.
जैसा कि इस उदाहरण में दिखाया गया है, rstudiouser-fullaccess
उपयोगकर्ता के पास डेटासेट के सभी कॉलम और पंक्तियों तक पहुंच है।
Amazon EC2 पर स्वयं-होस्ट किया गया
यदि आप AWS पर RStudio के ओपन-सोर्स संस्करण के साथ प्रयोग करना शुरू करना चाहते हैं, तो आप EC2 इंस्टेंस पर Rstudio स्थापित कर सकते हैं। इस पोस्ट में प्रदान किया गया यह CloudFormation टेम्प्लेट EC2 इंस्टेंस का प्रावधान करता है और उपयोगकर्ता डेटा स्क्रिप्ट का उपयोग करके RStudio को स्थापित करता है। आप आवश्यकतानुसार कई RStudio इंस्टेंस को प्रोविज़न करने के लिए टेम्प्लेट को कई बार चला सकते हैं, और आप इसे किसी भी AWS क्षेत्र में उपयोग कर सकते हैं। आपके द्वारा CloudFormation टेम्पलेट परिनियोजित करने के बाद, यह आपको एक वेब ब्राउज़र से RStudio तक पहुँचने के लिए एक URL प्रदान करता है। Amazon EC2 आपको डेटा आकार में परिवर्तन और आपके विश्लेषण को चलाने के लिए आवश्यक गणना क्षमता को संभालने के लिए ऊपर या नीचे स्केल करने में सक्षम बनाता है।
सुरक्षित पहुंच के लिए की-वैल्यू पेयर बनाएं
AWS आपके EC2 उदाहरण के लिए लॉगिन जानकारी को सुरक्षित करने के लिए सार्वजनिक-कुंजी क्रिप्टोग्राफ़ी का उपयोग करता है। आप कुंजी युग्म का नाम निर्दिष्ट करते हैं KeyPair
जब आप CloudFormation टेम्पलेट लॉन्च करते हैं तो पैरामीटर। फिर आप उसी कुंजी का उपयोग बाद में यदि आवश्यक हो तो प्रावधानित EC2 इंस्टेंस में लॉग इन करने के लिए कर सकते हैं।
CloudFormation टेम्प्लेट चलाने से पहले, सुनिश्चित करें कि आपके पास AWS खाते में Amazon EC2 कुंजी जोड़ी है जिसका आप उपयोग करने की योजना बना रहे हैं। यदि नहीं, तो देखें Amazon EC2 का उपयोग करके एक प्रमुख जोड़ी बनाएं एक बनाने के निर्देश के लिए।
CloudFormation टेम्पलेट लॉन्च करें में CloudFormation कंसोल में साइन इन करें us-east-1
क्षेत्र और लॉन्च स्टैक चुनें।
आपको CloudFormation टेम्पलेट में कई पैरामीटर दर्ज करने होंगे:
- प्रारंभिक उपयोगकर्ता और प्रारंभिक पासवर्ड - उपयोगकर्ता नाम और पासवर्ड जिसका उपयोग आप RStudio सत्र में लॉग इन करने के लिए करते हैं। डिफ़ॉल्ट मान हैं
rstudio
औरRstudio@123
, क्रमशः। - इंस्टेंस टाइप - EC2 इंस्टेंस प्रकार जिस पर RStudio सर्वर परिनियोजित करना है। टेम्प्लेट वर्तमान में t2, m4, c4, r4, g2, p2, और g3 इंस्टेंस परिवारों में सभी उदाहरणों को स्वीकार करता है, और अन्य इंस्टेंस परिवारों को आसानी से शामिल कर सकता है। डिफ़ॉल्ट मान t2.micro है।
- कुंजीयुग्म - EC2 इंस्टेंस में लॉग इन करने के लिए आपके द्वारा उपयोग की जाने वाली प्रमुख जोड़ी।
- VpcId और SubnetId - अमेज़न वर्चुअल प्राइवेट क्लाउड (अमेज़न VPC) और सबनेट जिसमें इंस्टेंस लॉन्च करना है।
इन पैरामीटरों को दर्ज करने के बाद, CloudFormation टेम्पलेट परिनियोजित करें। जब यह पूरा हो जाता है, तो निम्नलिखित संसाधन उपलब्ध होते हैं:
- RStudio के साथ एक EC2 इंस्टेंस उस पर स्थापित है।
- अन्य AWS सेवाओं से जुड़ने के लिए आवश्यक अनुमतियों के साथ IAM भूमिका।
- RStudio सर्वर के लिए पोर्ट 8787 खोलने के नियमों के साथ एक सुरक्षा समूह।
RStudio में लॉग इन करें
अब आप RStudio का उपयोग करने के लिए तैयार हैं! के पास जाओ आउटपुट CloudFormation स्टैक के लिए टैब और RStudio URL मान की प्रतिलिपि बनाएँ (यह प्रारूप में है http://ec2-XX-XX-XXX-XX.compute-1.amazonaws.com:8787/
) वेब ब्राउज़र में उस URL को दर्ज करें। यह आपका RStudio सत्र खोलता है, जिसे आप उसी उपयोगकर्ता नाम और पासवर्ड का उपयोग करके लॉग इन कर सकते हैं जो आपने CloudFormation टेम्पलेट चलाते समय प्रदान किया था।
RStudio से AWS सेवाओं तक पहुँचें
RStudio सत्र में प्रवेश करने के बाद, आपको AWS (Paws) के लिए R पैकेज स्थापित करना चाहिए। यह आपको आपके डेटा लेक में सेवाओं और संसाधनों सहित कई AWS सेवाओं से जुड़ने देता है। Paws स्थापित करने के लिए, निम्नलिखित R कोड दर्ज करें और चलाएँ:
एडब्ल्यूएस सेवा का उपयोग करने के लिए, क्लाइंट बनाएं और उस क्लाइंट से सेवा के संचालन तक पहुंचें। एडब्ल्यूएस एपीआई एक्सेस करते समय, आपको अपनी साख और क्षेत्र प्रदान करना होगा। Paws AWS प्रमाणीकरण श्रृंखला का उपयोग करके क्रेडेंशियल और क्षेत्र की खोज करता है:
- स्पष्ट रूप से प्रदान की गई एक्सेस कुंजी, गुप्त कुंजी, सत्र टोकन, प्रोफ़ाइल या क्षेत्र
- आर पर्यावरण चर
- ऑपरेटिंग सिस्टम पर्यावरण चर
- AWS ने क्रेडेंशियल और कॉन्फ़िगरेशन फ़ाइलें साझा कीं
.aws/credentials
और.aws/config
- कंटेनर आईएएम भूमिका
- उदाहरण आईएएम भूमिका
चूंकि आप संलग्न IAM भूमिका के साथ EC2 इंस्टेंस पर चल रहे हैं, Paws स्वचालित रूप से AWS API अनुरोधों को प्रमाणित करने के लिए आपके IAM भूमिका क्रेडेंशियल का उपयोग करता है।
उत्पादन वातावरण के लिए, हम में उल्लिखित स्केलेबल Rstudio समाधान का उपयोग करने की सलाह देते हैं इस ब्लॉग.
निष्कर्ष
आपने अपने RStudio परिवेश को AWS में परिनियोजित करने का तरीका सीखा। हमने Amazon SageMaker पर RStudio का उपयोग करने के फायदे और आप कैसे शुरुआत कर सकते हैं, इसका प्रदर्शन किया। आपने यह भी सीखा कि Amazon EC2 का उपयोग करके स्वयं-होस्ट किए गए इंस्टॉलेशन का उपयोग करके RStudio के ओपन-सोर्स संस्करण के साथ जल्दी से प्रयोग कैसे शुरू करें। हमने यह भी प्रदर्शित किया कि RStudio को आपके डेटा लेक आर्किटेक्चर में कैसे एकीकृत किया जाए और लेक फॉर्मेशन की पंक्ति-स्तर और सेल-स्तरीय सुरक्षा सुविधा का उपयोग करके डेटा लेक टेबल पर बढ़िया एक्सेस कंट्रोल को लागू किया जाए।
अपनी अगली पोस्ट में, हम प्रदर्शित करेंगे कि R स्क्रिप्ट को कैसे कंटेनरीकृत किया जाए और उनका उपयोग करके चलाया जाए AWS लाम्बा.
लेखक के बारे में
वेंकट कम्पाना एडब्ल्यूएस स्वास्थ्य और मानव सेवा टीम में एक वरिष्ठ समाधान वास्तुकार है और सैक्रामेंटो, सीए में स्थित है। उस भूमिका में, वह सार्वजनिक क्षेत्र के ग्राहकों को AWS पर सुव्यवस्थित समाधानों के साथ अपने मिशन के उद्देश्यों को प्राप्त करने में मदद करते हैं।
डॉ डॉन हेसी-ग्रोव Amazon Web Services की राज्य और स्थानीय सरकार की टीम के लिए पब्लिक हेल्थ एनालिटिक्स लीडर है। इस भूमिका में, वह राज्य और स्थानीय सार्वजनिक स्वास्थ्य एजेंसियों को रचनात्मक रूप से सोचने में मदद करने के लिए जिम्मेदार है कि उनकी विश्लेषण चुनौतियों और दीर्घकालिक लक्ष्यों को कैसे प्राप्त किया जाए। उसने अपना करियर सार्वजनिक स्वास्थ्य निगरानी और अनुसंधान का समर्थन करने के लिए मौजूदा या नए डेटा का उपयोग करने के नए तरीके खोजने में बिताया है।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न SageMaker
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट