अमेज़ॅन सेजमेकर डेटा रैंगलर और अपाचे हाइव की शक्ति के साथ अंतर्दृष्टि के समय में तेजी लाएं

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

अमेज़न SageMaker डेटा रैंगलर Amazon SageMaker Studio में मशीन लर्निंग (ML) के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों में कर देता है। डेटा रैंगलर आपको विभिन्न प्रकार के लोकप्रिय स्रोतों से डेटा एक्सेस करने में सक्षम बनाता है (अमेज़न S3, अमेज़न एथेना, अमेज़न रेडशिफ्ट, अमेज़ॅन ईएमआर और स्नोफ्लेक) और 40 से अधिक अन्य तृतीय-पक्ष स्रोत। आज से आप जुड़ सकते हैं अमेज़ॅन ईएमआर एमएल के लिए बड़े डेटासेट लाने के लिए एक बड़े डेटा क्वेरी इंजन के रूप में हाइव।

बड़ी मात्रा में डेटा एकत्र करना और तैयार करना एमएल वर्कफ़्लो का एक महत्वपूर्ण हिस्सा है। डेटा वैज्ञानिक और डेटा इंजीनियर बड़े पैमाने पर डेटा प्रोसेसिंग के लिए Amazon EMR पर चलने वाले Apache Spark, Apache Hive और Presto का उपयोग करते हैं। यह ब्लॉग पोस्ट इस बारे में जानेगी कि हाइव एंडपॉइंट्स के साथ मौजूदा अमेज़ॅन ईएमआर क्लस्टर्स का पता लगाने और उनसे कनेक्ट करने के लिए डेटा पेशेवर किस तरह सेजमेकर डेटा रैंगलर के विज़ुअल इंटरफ़ेस का उपयोग कर सकते हैं। मॉडलिंग या रिपोर्टिंग के लिए तैयार होने के लिए, वे एमएल डेटासेट बनाने के लिए डेटाबेस, टेबल, स्कीमा और लेखक हाइव प्रश्नों का नेत्रहीन विश्लेषण कर सकते हैं। फिर, वे डेटा की गुणवत्ता, विसंगतियों और लापता या गलत डेटा का मूल्यांकन करने के लिए डेटा रैंगलर विज़ुअल इंटरफ़ेस का उपयोग करके डेटा को जल्दी से प्रोफाइल कर सकते हैं और इन समस्याओं से निपटने के तरीके के बारे में सलाह ले सकते हैं। वे अधिक लोकप्रिय और एमएल-संचालित बिल्ट-इन विश्लेषणों और स्पार्क द्वारा समर्थित 300+ बिल्ट-इन ट्रांसफॉर्मेशन का लाभ उठा सकते हैं, कोड की एक भी लाइन लिखे बिना सुविधाओं का विश्लेषण, सफाई और इंजीनियर कर सकते हैं। अंत में, वे मॉडल को प्रशिक्षित और तैनात भी कर सकते हैं सेजमेकर ऑटोपायलट, शेड्यूल जॉब, या डेटा रैंगलर के विज़ुअल इंटरफ़ेस से सेजमेकर पाइपलाइन में डेटा तैयार करना।

समाधान अवलोकन

SageMaker Studio सेटअप के साथ, डेटा पेशेवर मौजूदा EMR समूहों की तुरंत पहचान कर सकते हैं और उनसे जुड़ सकते हैं। इसके अलावा, डेटा पेशेवर EMR क्लस्टर से खोज सकते हैं SageMaker स्टूडियो पूर्वनिर्धारित टेम्प्लेट का उपयोग कर रहा है कुछ ही क्लिक में मांग पर। ग्राहक SageMaker Studio यूनिवर्सल नोटबुक का उपयोग कर सकते हैं और इसमें कोड लिख सकते हैं अपाचे स्पार्क, करंड, हाथ की सफ़ाई or पाइस्पार्क पैमाने पर डेटा तैयार करने के लिए। हालाँकि, सभी डेटा पेशेवर डेटा तैयार करने के लिए स्पार्क कोड लिखने से परिचित नहीं हैं क्योंकि इसमें सीखने की अवस्था शामिल है। Amazon SageMaker Data Wrangler के लिए Amazon EMR एक डेटा स्रोत होने के कारण अब वे कोड की एक भी लाइन लिखे बिना Amazon EMR से जल्दी और आसानी से जुड़ सकते हैं।

निम्न आरेख इस समाधान में प्रयुक्त विभिन्न घटकों का प्रतिनिधित्व करता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर और अपाचे हाइव प्लेटोब्लॉकचेन डेटा इंटेलिजेंस की शक्ति के साथ अंतर्दृष्टि के समय में तेजी लाएं। लंबवत खोज. ऐ.

हम दो प्रमाणीकरण विकल्प प्रदर्शित करते हैं जिनका उपयोग ईएमआर क्लस्टर से कनेक्शन स्थापित करने के लिए किया जा सकता है। प्रत्येक विकल्प के लिए, हम का एक अनूठा ढेर तैनात करते हैं एडब्ल्यूएस CloudFormation टेम्पलेट्स।

जब प्रत्येक विकल्प का चयन किया जाता है तो CloudFormation टेम्प्लेट निम्नलिखित क्रियाएं करता है:

वीपीसी-ओनली मोड में एक स्टूडियो डोमेन बनाता है, साथ ही नामित उपयोगकर्ता प्रोफ़ाइल भी studio-user.
उदाहरणों को सफलतापूर्वक चलाने के लिए VPC, समापन बिंदु, सबनेट, सुरक्षा समूह, EMR क्लस्टर और अन्य आवश्यक संसाधनों सहित बिल्डिंग ब्लॉक बनाता है।
EMR क्लस्टर के लिए, EMR हाइव और प्रेस्टो के मेटास्टोर के रूप में AWS ग्लू डेटा कैटलॉग को जोड़ता है, EMR में एक हाइव टेबल बनाता है, और इसे डेटा से भरता है यूएस एयरपोर्ट डेटासेट.
एलडीएपी क्लाउडफॉर्मेशन टेम्पलेट के लिए, एक बनाता है अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (Amazon EC2) हाइव और प्रेस्टो LDAP उपयोगकर्ता को प्रमाणित करने के लिए LDAP सर्वर को होस्ट करने का उदाहरण।

विकल्प 1: लाइटवेट एक्सेस डायरेक्टरी प्रोटोकॉल

LDAP प्रमाणीकरण CloudFormation टेम्प्लेट के लिए, हम LDAP सर्वर के साथ Amazon EC2 उदाहरण का प्रावधान करते हैं और प्रमाणीकरण के लिए इस सर्वर का उपयोग करने के लिए EMR क्लस्टर को कॉन्फ़िगर करते हैं। यह टीएलएस सक्षम है।

विकल्प 2: नहीं-प्रामाणिक

No-Auth प्रमाणीकरण CloudFormation टेम्प्लेट में, हम एक मानक EMR क्लस्टर का उपयोग करते हैं जिसमें कोई प्रमाणीकरण सक्षम नहीं है।

AWS CloudFormation के साथ संसाधनों को परिनियोजित करें

पर्यावरण को तैनात करने के लिए निम्नलिखित चरणों को पूरा करें:

में साइन इन करें एडब्ल्यूएस प्रबंधन कंसोल एक के रूप में AWS पहचान और अभिगम प्रबंधन (IAM) उपयोगकर्ता, अधिमानतः एक व्यवस्थापक उपयोगकर्ता।
चुनें स्टैक लॉन्च करें उपयुक्त प्रमाणीकरण परिदृश्य के लिए CloudFormation टेम्प्लेट लॉन्च करने के लिए। सुनिश्चित करें कि क्लाउडफॉर्मेशन स्टैक को तैनात करने के लिए उपयोग किए जाने वाले क्षेत्र में कोई मौजूदा स्टूडियो डोमेन नहीं है। यदि आपके पास पहले से ही एक क्षेत्र में स्टूडियो डोमेन है, तो आप एक अलग क्षेत्र चुन सकते हैं।

एलडीएपी

कोई प्रामाणिक नहीं
चुनें अगला.
के लिए ढेर का नाम, स्टैक के लिए एक नाम दर्ज करें (उदाहरण के लिए, dw-emr-hive-blog).
अन्य मानों को डिफ़ॉल्ट के रूप में छोड़ दें।
जारी रखने के लिए, चुनें अगला स्टैक विवरण पृष्ठ और स्टैक विकल्प से।
LDAP स्टैक निम्नलिखित क्रेडेंशियल्स का उपयोग करता है।
- उपयोगकर्ता नाम: david
- पासवर्ड: welcome123
समीक्षा पृष्ठ पर, AWS CloudFormation संसाधन बनाने की पुष्टि करने के लिए चेक बॉक्स का चयन करें।
चुनें स्टैक बनाएँ. स्टैक की स्थिति से बदलने तक प्रतीक्षा करें CREATE_IN_PROGRESS सेवा मेरे CREATE_COMPLETE। आमतौर पर प्रक्रिया में 10-15 मिनट लगते हैं।

Amazon EMR को डेटा रैंगलर में डेटा स्रोत के रूप में सेट करें

इस खंड में, हम डेटा रैंगलर में डेटा स्रोत के रूप में क्लाउडफॉर्मेशन टेम्पलेट के माध्यम से बनाए गए मौजूदा अमेज़ॅन ईएमआर क्लस्टर से कनेक्ट करने को कवर करते हैं।

एक नया डेटा प्रवाह बनाएं

अपना डेटा प्रवाह बनाने के लिए, निम्न चरणों को पूरा करें:

SageMaker कंसोल पर क्लिक करें डोमेन, फिर पर क्लिक करें स्टूडियोडोमेन CloudFormation टेम्प्लेट के ऊपर चलाकर बनाया गया।
चुनते हैं स्टूडियो-उपयोगकर्ता उपयोगकर्ता प्रोफ़ाइल और लॉन्च स्टूडियो।
चुनें खुला स्टूडियो.
स्टूडियो होम कंसोल में, चुनें डेटा को विज़ुअल रूप से आयात और तैयार करें. वैकल्पिक रूप से, पर पट्टिका ड्रॉपडाउन, चुनें नया, उसके बाद चुनो डेटा रैंगलर फ्लो.
नया फ़्लो बनाने में कुछ मिनट लग सकते हैं. प्रवाह बनने के बाद, आप देखते हैं आयात आंकड़ा इस पृष्ठ पर ज़ूम कई वीडियो ट्यूटोरियल और अन्य साहायक साधन प्रदान करता है।
डेटा रैंगलर में डेटा स्रोत के रूप में Amazon EMR जोड़ें। पर डेटा स्रोत जोड़ें मेनू, चुनें अमेज़न ईएमआर.

आप उन सभी EMR समूहों को ब्राउज़ कर सकते हैं जिन्हें देखने के लिए आपकी स्टूडियो निष्पादन भूमिका के पास अनुमतियाँ हैं। क्लस्टर से जुड़ने के लिए आपके पास दो विकल्प हैं; एक इंटरएक्टिव यूआई के माध्यम से है, और दूसरा पहले है AWS सीक्रेट मैनेजर का उपयोग करके एक रहस्य बनाएँ EMR क्लस्टर जानकारी सहित JDBC URL के साथ, और फिर Hive से कनेक्ट करने के लिए UI में संग्रहीत AWS गुप्त ARN प्रदान करें। इस ब्लॉग में, हम पहले विकल्प का अनुसरण करते हैं।

निम्न में से एक क्लस्टर का चयन करें जिसका आप उपयोग करना चाहते हैं। पर क्लिक करें अगला, और अंतिम बिंदुओं का चयन करें।
चुनते हैं छत्ता, Amazon EMR से कनेक्ट करें, अपने कनेक्शन की पहचान करने के लिए एक नाम बनाएं और क्लिक करें अगला.
या तो प्रमाणीकरण प्रकार चुनें लाइटवेट डायरेक्ट्री एक्सेस प्रोटोकॉल (एलडीएपी) or कोई प्रमाणीकरण नहीं.

लाइटवेट डायरेक्ट्री एक्सेस प्रोटोकॉल (एलडीएपी) के लिए, विकल्प चुनें और क्लिक करें अगला, क्लस्ट में लॉगिन करेंr, फिर प्रमाणित करने के लिए उपयोगकर्ता नाम और पासवर्ड प्रदान करें और कनेक्ट पर क्लिक करें।

बिना प्रमाणीकरण के, आप VPC के भीतर उपयोगकर्ता क्रेडेंशियल्स प्रदान किए बिना EMR हाइव से जुड़े रहेंगे। EMR के लिए डेटा रैंगलर का SQL एक्सप्लोरर पेज दर्ज करें।

एक बार कनेक्ट होने के बाद, आप डेटाबेस ट्री और टेबल प्रीव्यू या स्कीमा को अंतःक्रियात्मक रूप से देख सकते हैं। आप EMR से डेटा को क्वेरी, एक्सप्लोर और विज़ुअलाइज़ भी कर सकते हैं। पूर्वावलोकन के लिए, आपको डिफ़ॉल्ट रूप से 100 रिकॉर्ड की सीमा दिखाई देगी. एक बार जब आप क्वेरी संपादक बॉक्स में SQL कथन प्रदान करते हैं और क्लिक करें रन बटन, डेटा का पूर्वावलोकन करने के लिए क्वेरी को EMR के हाइव इंजन पर निष्पादित किया जाएगा।

RSI क्वेरी रद्द करें बटन चालू प्रश्नों को रद्द करने की अनुमति देता है यदि वे असामान्य रूप से लंबा समय ले रहे हैं।

अंतिम चरण आयात करना है। एक बार जब आप क्वेरी किए गए डेटा के साथ तैयार हो जाते हैं, तो आपके पास डेटा रैंगलर में डेटा आयात करने के लिए नमूना प्रकार (फर्स्टके, रैंडम, या स्तरीकृत) और नमूना आकार के अनुसार डेटा चयन के लिए नमूना सेटिंग्स को अपडेट करने के विकल्प होते हैं।

क्लिक करें आयात. तैयार पृष्ठ लोड किया जाएगा, जिससे आप डेटासेट में विभिन्न परिवर्तन और आवश्यक विश्लेषण जोड़ सकेंगे।

पर जाए डेटा प्रवाह शीर्ष स्क्रीन से और परिवर्तन और विश्लेषण के लिए आवश्यकतानुसार प्रवाह में और चरण जोड़ें। आप ए चला सकते हैं डेटा अंतर्दृष्टि रिपोर्ट डेटा गुणवत्ता के मुद्दों की पहचान करने और उन मुद्दों को ठीक करने के लिए सिफारिशें प्राप्त करने के लिए। आइए रूपांतरणों के कुछ उदाहरण देखें।
में डेटा प्रवाह देखें, आपको यह देखना चाहिए कि हम हाइव कनेक्टर का उपयोग करके EMR को डेटा स्रोत के रूप में उपयोग कर रहे हैं।
आइए क्लिक करें + के दाईं ओर बटन जानकारी का प्रकार का चयन करें और परिवर्तन जोड़ें. जब आप ऐसा करते हैं, तो आप पर वापस चले जाएंगे जानकारी राय।

आइए डेटा का अन्वेषण करें। हम देखते हैं कि इसमें कई विशेषताएं हैं जैसे iata_code, हवाई अड्डे, शहर, राज्य, देश, अक्षांश, तथा देशान्तर. हम देख सकते हैं कि संपूर्ण डेटासेट एक देश में स्थित है, जो कि यूएस है, और इसमें लापता मान हैं अक्षांश और देशान्तर. लापता डेटा मापदंडों के अनुमान में पूर्वाग्रह पैदा कर सकता है, और यह नमूनों की प्रतिनिधित्व क्षमता को कम कर सकता है, इसलिए हमें कुछ प्रदर्शन करने की आवश्यकता है इलज़ाम और हमारे डेटासेट में लापता मानों को संभालें।

आइए क्लिक करें स्टेप जोड़ें दाईं ओर नेविगेशन बार पर बटन। चुनना हैंडल गायब. कॉन्फ़िगरेशन को निम्न स्क्रीनशॉट में देखा जा सकता है।

के अंतर्गत रूपांतरण, चयन मढ़ना। को चुनिए स्तंभ प्रकार as सांख्यिक और इनपुट कॉलम नामों अक्षांश और देशांतर हम अनुमानित औसत मूल्य का उपयोग करके लापता मूल्यों को लागू करेंगे।

सबसे पहले पर क्लिक करें पूर्वावलोकन लापता मान देखने के लिए और फिर परिवर्तन जोड़ने के लिए अद्यतन पर क्लिक करें।
अमेज़ॅन सेजमेकर डेटा रैंगलर और अपाचे हाइव प्लेटोब्लॉकचेन डेटा इंटेलिजेंस की शक्ति के साथ अंतर्दृष्टि के समय में तेजी लाएं। लंबवत खोज. ऐ. अमेज़ॅन सेजमेकर डेटा रैंगलर और अपाचे हाइव प्लेटोब्लॉकचेन डेटा इंटेलिजेंस की शक्ति के साथ अंतर्दृष्टि के समय में तेजी लाएं। लंबवत खोज. ऐ.

आइए अब एक और उदाहरण रूपांतर देखें। एमएल मॉडल बनाते समय, कॉलम हटा दिए जाते हैं यदि वे अनावश्यक हैं या आपके मॉडल की मदद नहीं करते हैं। किसी कॉलम को हटाने का सबसे आम तरीका उसे छोड़ना है। हमारे डेटासेट में, सुविधा देश छोड़ा जा सकता है क्योंकि डेटासेट विशेष रूप से यूएस एयरपोर्ट डेटा के लिए है। कॉलम प्रबंधित करने के लिए, पर क्लिक करें चरण जोड़ें दाईं ओर नेविगेशन बार पर बटन और चयन करें कॉलम प्रबंधित करें. कॉन्फ़िगरेशन को निम्न स्क्रीनशॉट में देखा जा सकता है। नीचे बदालना, चुनते हैं स्तंभ छोड़ें, और नीचे छोड़ने के लिए कॉलम, चुनते हैं देश.
पर क्लिक करें पूर्वावलोकन और फिर अपडेट कॉलम गिराने के लिए।
फ़ीचर स्टोर एमएल मॉडल के लिए सुविधाओं को स्टोर करने, साझा करने और प्रबंधित करने के लिए एक रिपॉजिटरी है। आइए क्लिक करें + के दाईं ओर बटन स्तंभ छोड़ें. चयन को निर्यात और चुनें SageMaker फ़ीचर स्टोर (ज्यूपिटर नोटबुक के माध्यम से).
चयन करके SageMaker फ़ीचर स्टोर गंतव्य के रूप में, आप सुविधाओं को मौजूदा सुविधा समूह में सहेज सकते हैं या एक नया बना सकते हैं।

हमने अब डेटा रैंगलर के साथ सुविधाएँ बनाई हैं और उन सुविधाओं को फ़ीचर स्टोर में आसानी से संग्रहीत किया है। हमने डेटा रैंगलर यूआई में फीचर इंजीनियरिंग के लिए एक उदाहरण कार्यप्रवाह दिखाया। फिर हमने एक नया फीचर समूह बनाकर उन सुविधाओं को डेटा रैंगलर से सीधे फ़ीचर स्टोर में सहेजा। अंत में, हमने फीचर स्टोर में उन सुविधाओं को शामिल करने के लिए एक प्रसंस्करण कार्य चलाया। डेटा रैंगलर और फ़ीचर स्टोर ने मिलकर हमें न्यूनतम आवश्यक कोडिंग के साथ हमारे डेटा तैयारी कार्यों को कारगर बनाने के लिए स्वचालित और दोहराने योग्य प्रक्रियाओं का निर्माण करने में मदद की। डेटा रैंगलर हमें समान डेटा तैयारी प्रवाह का उपयोग करके स्वचालित करने के लिए लचीलापन भी प्रदान करता है अनुसूचित नौकरियां. हम स्वचालित रूप से भी कर सकते हैं सैजमेकर ऑटोपायलट का उपयोग करके मॉडल को प्रशिक्षित और तैनात करें डेटा रैंगलर के विज़ुअल इंटरफ़ेस से, या सैजमेकर पाइपलाइनों (ज्यूपिटर नोटबुक के माध्यम से) के साथ प्रशिक्षण या फीचर इंजीनियरिंग पाइपलाइन बनाएं और सेजमेकर इन्वेंशन पाइपलाइन (जुपिटर नोटबुक के माध्यम से) के साथ इंफेरेंस एंडपॉइंट पर तैनात करें।

क्लीन अप

यदि डेटा रैंगलर के साथ आपका काम पूरा हो गया है, तो निम्नलिखित चरण आपको अतिरिक्त शुल्क लगाने से बचने के लिए बनाए गए संसाधनों को हटाने में मदद करेंगे।

सेजमेकर स्टूडियो को बंद करें।

SageMaker Studio के भीतर से, सभी टैब बंद करें, फिर चुनें पट्टिका फिर शट डाउन. एक बार संकेत दिया चयन करें शटडाउन ऑल.

अमेज़ॅन सेजमेकर डेटा रैंगलर और अपाचे हाइव प्लेटोब्लॉकचेन डेटा इंटेलिजेंस की शक्ति के साथ अंतर्दृष्टि के समय में तेजी लाएं। लंबवत खोज. ऐ.
अमेज़ॅन सेजमेकर डेटा रैंगलर और अपाचे हाइव प्लेटोब्लॉकचेन डेटा इंटेलिजेंस की शक्ति के साथ अंतर्दृष्टि के समय में तेजी लाएं। लंबवत खोज. ऐ.
उदाहरण के प्रकार के आधार पर शटडाउन में कुछ मिनट लग सकते हैं। सुनिश्चित करें कि उपयोगकर्ता प्रोफ़ाइल से जुड़े सभी ऐप्स हटा दिए गए हैं। यदि उन्हें हटाया नहीं गया था, तो उपयोगकर्ता प्रोफ़ाइल के अंतर्गत संबद्ध ऐप को मैन्युअल रूप से हटा दें।

CloudFormation लॉन्च से बनाए गए किसी भी S3 बकेट को खाली करें।

AWS कंसोल सर्च में S3 को खोजकर Amazon S3 पेज खोलें। क्लस्टर का प्रावधान करते समय बनाए गए किसी भी S3 बकेट को खाली करें। बाल्टी प्रारूप की होगी dw-emr-hive-blog-.

सेजमेकर स्टूडियो ईएफएस को हटाएं।

AWS कंसोल सर्च में EFS की खोज करके EFS पेज खोलें।

SageMaker द्वारा बनाए गए फ़ाइल सिस्टम का पता लगाएँ। आप पर क्लिक करके इसकी पुष्टि कर सकते हैं फ़ाइल सिस्टम आईडी और टैग की पुष्टि करना ManagedByAmazonSageMakerResource पर टैग टैब.

CloudFormation स्टैक हटाएं। AWS कंसोल से CloudFormation सेवा को खोजकर और खोलकर CloudFormation खोलें।

से शुरू होने वाले टेम्पलेट का चयन करें डीडब्ल्यू- जैसा कि निम्न स्क्रीन में दिखाया गया है और पर क्लिक करके स्टैक को हटा दें मिटाना बटन.

यह अपेक्षित है और हम इस पर वापस आएंगे और बाद के चरणों में इसे साफ करेंगे।

CloudFormation स्टैक पूर्ण होने में विफल होने के बाद VPC को हटा दें। सबसे पहले AWS कंसोल से VPC खोलें।
इसके बाद, SageMaker Studio CloudFormation द्वारा बनाए गए VPC की पहचान करें, जिसका शीर्षक है dw-emr-, और फिर VPC को हटाने के लिए संकेतों का पालन करें।
क्लाउडफॉर्मेशन स्टैक हटाएं।

CloudFormation पर वापस लौटें और इसके लिए स्टैक हटाने का पुनः प्रयास करें dw-emr-hive-blog.

पूरा! इस ब्लॉग पोस्ट में वर्णित CloudFormation टेम्प्लेट द्वारा प्रदान किए गए सभी संसाधनों को अब आपके खाते से हटा दिया जाएगा।

निष्कर्ष

इस पोस्ट में, हमने डेटा रैंगलर में डेटा स्रोत के रूप में Amazon EMR को कैसे सेट अप किया जाए, डेटासेट को कैसे रूपांतरित और विश्लेषण किया जाए, और ज्यूपिटर नोटबुक में उपयोग के लिए परिणामों को डेटा प्रवाह में कैसे निर्यात किया जाए, इस पर चर्चा की। डेटा रैंगलर की अंतर्निहित विश्लेषणात्मक विशेषताओं का उपयोग करके हमारे डेटासेट की कल्पना करने के बाद, हमने अपने डेटा प्रवाह को और बढ़ाया। तथ्य यह है कि हमने कोड की एक भी पंक्ति लिखे बिना डेटा तैयारी पाइपलाइन बनाई है, महत्वपूर्ण है।

डेटा रैंगलर के साथ आरंभ करने के लिए, देखें अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें और पर नवीनतम जानकारी देखें डेटा रैंगलर उत्पाद पृष्ठ और एडब्ल्यूएस तकनीकी दस्तावेज.

लेखक के बारे में

अजय गोविंदराम AWS में एक वरिष्ठ समाधान वास्तुकार हैं। वह रणनीतिक ग्राहकों के साथ काम करता है जो जटिल व्यावसायिक समस्याओं को हल करने के लिए एआई/एमएल का उपयोग कर रहे हैं। उनका अनुभव तकनीकी दिशा प्रदान करने के साथ-साथ बड़े पैमाने पर एआई/एमएल अनुप्रयोग परिनियोजन के लिए डिजाइन सहायता प्रदान करने में निहित है। उनका ज्ञान एप्लिकेशन आर्किटेक्चर से लेकर बिग डेटा, एनालिटिक्स और मशीन लर्निंग तक है। उन्हें आराम करते हुए संगीत सुनना, बाहर का अनुभव करना और अपने प्रियजनों के साथ समय बिताना अच्छा लगता है।

ईशा दुआ सैन फ्रांसिस्को खाड़ी क्षेत्र में स्थित एक वरिष्ठ समाधान वास्तुकार है। वह AWS एंटरप्राइज़ ग्राहकों को उनके लक्ष्यों और चुनौतियों को समझकर बढ़ने में मदद करती हैं, और उनका मार्गदर्शन करती हैं कि कैसे वे लचीलापन और मापनीयता सुनिश्चित करते हुए क्लाउड-नेटिव तरीके से अपने एप्लिकेशन को आर्किटेक्ट कर सकते हैं। वह मशीन लर्निंग तकनीकों और पर्यावरणीय स्थिरता के बारे में भावुक है।

वरुण मेहता एडब्ल्यूएस में समाधान वास्तुकार हैं। उन्हें एडब्ल्यूएस क्लाउड पर एंटरप्राइज़-स्केल वेल-आर्किटेकेटेड समाधान बनाने में ग्राहकों की मदद करने का जुनून है। वह रणनीतिक ग्राहकों के साथ काम करता है जो जटिल व्यावसायिक समस्याओं को हल करने के लिए एआई/एमएल का उपयोग कर रहे हैं।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/accelerate-time-to-insight-with-amazon-sagemaker-data-wrangler-and-the-power-of-apache-hive/

समय टिकट: मार्च २०,२०२१

समय टिकट: सितम्बर 13, 2023

प्लेटो द्वारा पुनर्प्रकाशित

फॉर्च्यूना का परिचय: अनिश्चितता मात्रा का ठहराव के लिए एक पुस्तकालय

Amazon SageMaker में सिंथेटिक डेटा का उपयोग करके धोखाधड़ी के लेन-देन को बढ़ाएं

Amazon SageMaker जम्पस्टार्ट मॉडल और एल्गोरिदम अब API के माध्यम से उपलब्ध हैं

वास्तविक उपयोग के मामलों के माध्यम से किनारे पर मशीन सीखने को नष्ट करना

Amazon QuickSight | में वर्ड क्लाउड के साथ Amazon Comprehend विश्लेषण की कल्पना करें अमेज़न वेब सेवाएँ

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा

एलडीएपी
कोई प्रामाणिक नहीं