पिछले साल, हमने की सामान्य उपलब्धता की घोषणा की थी अमेज़न सेजमेकर पर RStudio, क्लाउड में उद्योग का पहला पूरी तरह से प्रबंधित RStudio कार्यक्षेत्र एकीकृत विकास वातावरण (IDE)। आप जल्दी से परिचित RStudio IDE लॉन्च कर सकते हैं, और अपने काम को बाधित किए बिना अंतर्निहित कंप्यूट संसाधनों को डायल अप और डाउन कर सकते हैं, जिससे मशीन लर्निंग (एमएल) और एनालिटिक्स सॉल्यूशंस को बड़े पैमाने पर R में बनाना आसान हो जाता है।
लगातार बढ़ते डेटा वॉल्यूम के साथ, एमएल और सांख्यिकीय विश्लेषण के लिए उपयोग किए जाने वाले डेटासेट एक साथ बढ़ रहे हैं। इसके साथ विकास के समय में वृद्धि और बुनियादी ढांचे के प्रबंधन की गणना की चुनौतियां आती हैं। इन चुनौतियों को हल करने के लिए, डेटा वैज्ञानिकों ने समानांतर डेटा प्रोसेसिंग तकनीकों को लागू करने पर ध्यान दिया है। समानांतर डेटा प्रोसेसिंग, या डेटा समानांतरकरण, बड़े मौजूदा डेटासेट लेता है और उन्हें एक साथ डेटा पर संचालित करने के लिए कई प्रोसेसर या नोड्स में वितरित करता है। यह गणना पर अनुकूलित उपयोग के साथ-साथ बड़े डेटासेट के तेजी से प्रसंस्करण समय की अनुमति दे सकता है। यह एमएल प्रैक्टिशनर्स को डेटासेट जनरेशन के लिए पुन: प्रयोज्य पैटर्न बनाने में मदद कर सकता है, और कंप्यूट इंफ्रास्ट्रक्चर लोड और लागत को कम करने में भी मदद कर सकता है।
समाधान अवलोकन
अंदर अमेज़न SageMaker, कई ग्राहक उपयोग करते हैं SageMaker प्रसंस्करण समानांतर डेटा प्रोसेसिंग को लागू करने में मदद करने के लिए। सेजमेकर प्रोसेसिंग के साथ, आप अपने डेटा प्रोसेसिंग वर्कलोड, जैसे फीचर इंजीनियरिंग, डेटा सत्यापन, मॉडल मूल्यांकन और मॉडल व्याख्या को चलाने के लिए सेजमेकर पर एक सरलीकृत, प्रबंधित अनुभव का उपयोग कर सकते हैं। यह कई लाभ लाता है क्योंकि प्रबंधन के लिए कोई लंबे समय तक चलने वाला बुनियादी ढांचा नहीं है- जब कार्य पूरा हो जाता है तो प्रसंस्करण उदाहरण कम हो जाते हैं, कंटेनर के माध्यम से वातावरण को मानकीकृत किया जा सकता है, डेटा के भीतर अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) इंस्टेंस में मूल रूप से वितरित किया जाता है, और मेमोरी, कंप्यूट और स्टोरेज के मामले में इंफ्रास्ट्रक्चर सेटिंग्स लचीली होती हैं।
सेजमेकर प्रोसेसिंग डेटा वितरित करने के तरीके के लिए विकल्प प्रदान करता है। समानांतर डेटा प्रोसेसिंग के लिए, आपको इसका उपयोग करना चाहिए S3DataDistributionType के लिए ShardedByS3Key विकल्प. जब यह पैरामीटर चुना जाता है, तो सेजमेकर प्रोसेसिंग प्रदान करता है n उदाहरण और वस्तुओं को वितरित करें 1/n उदाहरणों में इनपुट डेटा स्रोत से ऑब्जेक्ट। उदाहरण के लिए, यदि चार डेटा ऑब्जेक्ट के साथ दो इंस्टेंस प्रदान किए जाते हैं, तो प्रत्येक इंस्टेंस को दो ऑब्जेक्ट प्राप्त होते हैं।
सेजमेकर प्रोसेसिंग को प्रोसेसिंग जॉब चलाने के लिए तीन घटकों की आवश्यकता होती है:
- एक कंटेनर छवि जिसमें आपके डेटा प्रोसेसिंग वर्कलोड को चलाने के लिए आपका कोड और निर्भरताएं होती हैं
- Amazon S3 के भीतर इनपुट डेटा स्रोत का पथ
- Amazon S3 के भीतर आउटपुट डेटा स्रोत का पथ
प्रक्रिया को निम्नलिखित आरेख में दर्शाया गया है।
इस पोस्ट में, हम आपको दिखाते हैं कि SageMaker पर RStudio का उपयोग कैसे करें, SageMaker प्रसंस्करण नौकरियों की एक श्रृंखला के साथ इंटरफेस करने के लिए एक समानांतर डेटा प्रोसेसिंग पाइपलाइन बनाने के लिए आर प्रोग्रामिंग भाषा।
समाधान में निम्नलिखित चरण होते हैं:
- RStudio प्रोजेक्ट सेट करें।
- प्रसंस्करण कंटेनर छवि बनाएं और पंजीकृत करें।
- दो-चरणीय प्रसंस्करण पाइपलाइन चलाएँ:
- पहला चरण कई डेटा फ़ाइलों को लेता है और उन्हें प्रसंस्करण कार्यों की एक श्रृंखला में संसाधित करता है।
- दूसरा चरण आउटपुट फ़ाइलों को जोड़ता है और उन्हें ट्रेन, परीक्षण और सत्यापन डेटासेट में विभाजित करता है।
.. पूर्वापेक्षाएँ
निम्नलिखित पूर्वापेक्षाएँ पूरी करें:
- सेजमेकर वर्कबेंच पर RStudio सेट करें। अधिक जानकारी के लिए देखें डेटा वैज्ञानिकों के लिए Amazon SageMaker पर पूरी तरह से प्रबंधित RStudio की घोषणा.
- उपयुक्त एक्सेस अनुमतियों के साथ SageMaker पर RStudio के साथ एक उपयोगकर्ता बनाएँ।
RStudio प्रोजेक्ट सेट करें
RStudio प्रोजेक्ट सेट करने के लिए, निम्न चरणों को पूरा करें:
- अपने नेविगेट करें अमेज़ॅन सैजमेकर स्टूडियो सेजमेकर कंसोल पर कंट्रोल पैनल।
- RStudio परिवेश में अपना ऐप लॉन्च करें।
- एक नया RStudio सत्र प्रारंभ करें।
- के लिए सत्र का नाम, नाम डालें।
- के लिए उदाहरण प्रकार और छवि, डिफ़ॉल्ट सेटिंग्स का उपयोग करें।
- चुनें सत्र प्रारंभ करें.
- सत्र में नेविगेट करें।
- चुनें नई परियोजना, संस्करण नियंत्रण, और फिर गिट का चयन करें.
- के लिए रिपोजिटरी यूआरएल, दर्ज
https://github.com/aws-samples/aws-parallel-data-processing-r.git
- शेष विकल्पों को डिफ़ॉल्ट के रूप में छोड़ दें और चुनें प्रोजेक्ट बनाएं.
आप पर नेविगेट कर सकते हैं aws-parallel-data-processing-R
पर निर्देशिका फ़ाइलें भंडार देखने के लिए टैब। रिपॉजिटरी में निम्नलिखित फाइलें हैं:
Container_Build.rmd
/dataset
bank-additional-full-data1.csv
bank-additional-full-data2.csv
bank-additional-full-data3.csv
bank-additional-full-data4.csv
/docker
Dockerfile-Processing
Parallel_Data_Processing.rmd
/preprocessing
filter.R
process.R
कंटेनर बनाएँ
इस चरण में, हम अपनी प्रोसेसिंग कंटेनर इमेज बनाते हैं और इसे आगे बढ़ाते हैं अमेज़ॅन इलास्टिक कंटेनर रजिस्ट्री (अमेज़ॅन ईसीआर)। निम्नलिखित चरणों को पूरा करें:
- पर नेविगेट करें
Container_Build.rmd
फ़ाइल. - स्थापित करें सेजमेकर स्टूडियो इमेज बिल्ड सीएलआई निम्नलिखित सेल चलाकर। सुनिश्चित करें कि इस चरण को पूरा करने से पहले आपके पास आवश्यक अनुमतियां हैं, यह एक सीएलआई है जिसे स्टूडियो के भीतर कंटेनर छवियों को पुश और पंजीकृत करने के लिए डिज़ाइन किया गया है।
- हमारे प्रोसेसिंग कंटेनर को बनाने और पंजीकृत करने के लिए अगला सेल चलाएँ:
कार्य सफलतापूर्वक चलने के बाद, आपको निम्न जैसा दिखने वाला आउटपुट प्राप्त होता है:
प्रसंस्करण पाइपलाइन चलाएँ
कंटेनर बनाने के बाद, पर नेविगेट करें Parallel_Data_Processing.rmd
फ़ाइल। इस फ़ाइल में चरणों की एक श्रृंखला है जो हमें सेजमेकर प्रोसेसिंग का उपयोग करके समानांतर डेटा प्रोसेसिंग पाइपलाइन बनाने में मदद करती है। निम्नलिखित आरेख पाइपलाइन के उन चरणों को दर्शाता है जिन्हें हम पूरा करते हैं।
पैकेज आयात चरण चलाकर प्रारंभ करें। SageMaker SDK के साथ आवश्यक RStudio पैकेज आयात करें:
अब अपनी सेजमेकर निष्पादन भूमिका और पर्यावरण विवरण सेट करें:
उस कंटेनर को प्रारंभ करें जिसे हमने पहले चरण में बनाया और पंजीकृत किया था:
यहां से हम प्रत्येक प्रसंस्करण चरण में अधिक विस्तार से गोता लगाते हैं।
डेटासेट अपलोड करें
हमारे उदाहरण के लिए, हम उपयोग करते हैं यूसीआई से बैंक मार्केटिंग डेटासेट. हमने पहले ही डेटासेट को कई छोटी फाइलों में विभाजित कर दिया है। Amazon S3 पर फ़ाइलें अपलोड करने के लिए निम्न कोड चलाएँ:
फ़ाइलें अपलोड होने के बाद, अगले चरण पर जाएँ।
समानांतर डेटा प्रोसेसिंग करें
इस चरण में, हम डेटा फ़ाइलें लेते हैं और कुछ स्तंभों को फ़िल्टर करने के लिए फ़ीचर इंजीनियरिंग करते हैं। यह कार्य प्रसंस्करण उदाहरणों की एक श्रृंखला में वितरित किया जाता है (हमारे उदाहरण के लिए, हम दो का उपयोग करते हैं)।
हम उपयोग filter.R
डेटा को संसाधित करने के लिए फ़ाइल, और कार्य को निम्नानुसार कॉन्फ़िगर करें:
जैसा कि पहले उल्लेख किया गया है, समानांतर डेटा प्रोसेसिंग कार्य चलाते समय, आपको इनपुट पैरामीटर को इस बात के साथ समायोजित करना होगा कि डेटा कैसे शार्प किया जाएगा, और डेटा का प्रकार। इसलिए, हम शार्डिंग विधि प्रदान करते हैं S3Prefix
:
आपके द्वारा इन मापदंडों को सम्मिलित करने के बाद, सेजमेकर प्रोसेसिंग चयनित उदाहरणों की संख्या में डेटा को समान रूप से वितरित करेगा।
आवश्यकतानुसार मापदंडों को समायोजित करें, और फिर कार्य को तत्काल करने के लिए कक्ष चलाएँ।
प्रशिक्षण, परीक्षण और सत्यापन डेटासेट उत्पन्न करें
इस चरण में, हम संसाधित डेटा फ़ाइलों को लेते हैं, उन्हें जोड़ते हैं, और उन्हें परीक्षण, ट्रेन और सत्यापन डेटासेट में विभाजित करते हैं। यह हमें अपने मॉडल के निर्माण के लिए डेटा का उपयोग करने की अनुमति देता है।
हम उपयोग process.R
डेटा को संसाधित करने के लिए फ़ाइल, और कार्य को निम्नानुसार कॉन्फ़िगर करें:
मापदंडों को समायोजित करना आवश्यक है, और फिर कार्य को त्वरित करने के लिए कक्ष को चलाएँ।
पाइपलाइन चलाएं
सभी चरणों के तत्काल होने के बाद, निम्न कक्ष चलाकर प्रत्येक चरण को चलाने के लिए प्रसंस्करण पाइपलाइन प्रारंभ करें:
इनमें से प्रत्येक कार्य में लगने वाला समय इंस्टेंस आकार और चयनित गणना के आधार पर अलग-अलग होगा।
अपने सभी प्रसंस्करण कार्य देखने के लिए सेजमेकर कंसोल पर नेविगेट करें।
हम फ़िल्टरिंग कार्य से शुरू करते हैं, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।
जब यह पूरा हो जाता है, तो पाइपलाइन डेटा प्रोसेसिंग कार्य में चली जाती है।
जब दोनों कार्य पूरे हो जाएं, तो अपने S3 बकेट पर नेविगेट करें। के भीतर देखो sagemaker-rstudio-example
फ़ोल्डर, के तहत processed
. आप ट्रेन, परीक्षण और सत्यापन डेटासेट के लिए फ़ाइलें देख सकते हैं।
निष्कर्ष
अधिक से अधिक परिष्कृत मॉडल बनाने के लिए आवश्यक डेटा की बढ़ी हुई मात्रा के साथ, हमें डेटा को संसाधित करने के तरीके के बारे में अपना दृष्टिकोण बदलने की आवश्यकता है। समांतर डेटा प्रोसेसिंग डेटासेट पीढ़ी को तेज करने में एक कुशल तरीका है, और अगर आधुनिक क्लाउड वातावरण और टूलिंग जैसे कि सेजमेकर और सेजमेकर प्रोसेसिंग पर आरस्टूडियो के साथ मिलकर, बुनियादी ढांचे के प्रबंधन, बॉयलरप्लेट कोड पीढ़ी और पर्यावरण प्रबंधन के अविभाजित भारी भारोत्तोलन को हटा सकता है। इस पोस्ट में, हमने देखा कि आप SageMaker पर RStudio के भीतर समानांतर डेटा प्रोसेसिंग को कैसे लागू कर सकते हैं। हम आपको GitHub रिपॉजिटरी को क्लोन करके इसे आज़माने के लिए प्रोत्साहित करते हैं, और यदि आपके पास अनुभव को बेहतर बनाने के बारे में सुझाव हैं, तो कृपया कोई समस्या या पुल अनुरोध सबमिट करें।
इस समाधान में उपयोग की जाने वाली सुविधाओं और सेवाओं के बारे में अधिक जानने के लिए, देखें अमेज़न सेजमेकर पर RStudio और अमेज़न SageMaker प्रसंस्करण.
लेखक के बारे में
राज पाठक कनाडा और संयुक्त राज्य अमेरिका में फॉर्च्यून 50 और मध्यम आकार के एफएसआई (बैंकिंग, बीमा, पूंजी बाजार) ग्राहकों के लिए एक समाधान वास्तुकार और तकनीकी सलाहकार है। राज दस्तावेज़ निष्कर्षण, संपर्क केंद्र परिवर्तन और कंप्यूटर विजन में अनुप्रयोगों के साथ मशीन लर्निंग में माहिर हैं।
जेक वेनो एमएल प्रशिक्षण और प्राकृतिक भाषा प्रसंस्करण के जुनून के साथ एडब्ल्यूएस में एक समाधान वास्तुकार है। जेक स्मॉल मीडियम बिजनेस ग्राहकों को डिजाइन और विचारशील नेतृत्व के साथ बड़े पैमाने पर एप्लिकेशन बनाने और तैनात करने में मदद करता है। काम के बाहर, वह लंबी पैदल यात्रा का आनंद लेता है।
अदिति रजनीश वाटरलू विश्वविद्यालय में प्रथम वर्ष का सॉफ्टवेयर इंजीनियरिंग का छात्र है। उनकी रुचियों में कंप्यूटर विज़न, प्राकृतिक भाषा प्रसंस्करण और एज कंप्यूटिंग शामिल हैं। वह समुदाय-आधारित एसटीईएम आउटरीच और वकालत के बारे में भी भावुक है। अपने खाली समय में, उसे रॉक क्लाइम्बिंग करते, पियानो बजाते हुए, या परफेक्ट स्कोन बेक करना सीखते हुए देखा जा सकता है।
शॉन मॉर्गन एडब्ल्यूएस में एआई/एमएल सॉल्यूशंस आर्किटेक्ट हैं। उनके पास सेमीकंडक्टर और अकादमिक अनुसंधान क्षेत्रों में अनुभव है, और ग्राहकों को एडब्ल्यूएस पर अपने लक्ष्यों तक पहुंचने में मदद करने के लिए अपने अनुभव का उपयोग करते हैं। अपने खाली समय में, शॉन एक सक्रिय ओपन-सोर्स योगदानकर्ता और अनुरक्षक है, और TensorFlow ऐड-ऑन के लिए विशेष रुचि समूह लीड है।
पॉल वू टेक्सास में एडब्ल्यूएस 'ग्रीनफील्ड बिजनेस में काम कर रहे एक समाधान वास्तुकार है। उनकी विशेषज्ञता के क्षेत्रों में कंटेनर और पलायन शामिल हैं।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न SageMaker
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट