इस पोस्ट में, हम दिखाते हैं कि उपयोग करने के लिए एक नई OAuth-आधारित प्रमाणीकरण सुविधा को कैसे कॉन्फ़िगर करें हिमपात का एक खंड in अमेज़न SageMaker डेटा रैंगलर. स्नोफ्लेक एक क्लाउड डेटा प्लेटफ़ॉर्म है जो डेटा वेयरहाउसिंग से लेकर डेटा साइंस तक डेटा समाधान प्रदान करता है। स्नोफ्लेक एक है एडब्ल्यूएस पार्टनर मशीन लर्निंग (एमएल), खुदरा, और डेटा और एनालिटिक्स में एडब्ल्यूएस दक्षताओं सहित कई एडब्ल्यूएस प्रमाणन के साथ।
डेटा रैंगलर डेटा तैयार करने और फीचर इंजीनियरिंग प्रक्रिया को सरल बनाता है, डेटा वैज्ञानिकों को डेटा का चयन करने और साफ करने, सुविधाओं को बनाने और बिना किसी कोड को लिखे एमएल वर्कफ्लो में डेटा तैयारी को स्वचालित करने के लिए एक दृश्य इंटरफ़ेस प्रदान करके हफ्तों से लेकर मिनटों तक का समय कम करता है। आप कई डेटा स्रोतों से डेटा आयात कर सकते हैं, जैसे अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, अमेज़ॅन ईएमआर, और स्नोफ्लेक। इस नई सुविधा के साथ, आप अपने स्वयं के पहचान प्रदाता (IdP) का उपयोग कर सकते हैं जैसे OKTA, Azure ADया, पिंग संघ डेटा रैंगलर के माध्यम से स्नोफ्लेक से जुड़ने के लिए।
समाधान अवलोकन
निम्नलिखित अनुभागों में, हम एक व्यवस्थापक के लिए IdP, स्नोफ्लेक और स्टूडियो सेट अप करने के चरण प्रदान करते हैं। हम डेटा प्रवाह को कॉन्फ़िगर करने, डेटा गुणवत्ता का विश्लेषण करने और डेटा ट्रांसफ़ॉर्मेशन जोड़ने के लिए डेटा वैज्ञानिकों द्वारा उठाए जा सकने वाले कदमों का भी विवरण देते हैं। अंत में, हम दिखाते हैं कि डेटा प्रवाह को कैसे निर्यात किया जाए और मॉडल का उपयोग करके कैसे प्रशिक्षित किया जाए सेजमेकर ऑटोपायलट.
.. पूर्वापेक्षाएँ
इस पूर्वाभ्यास के लिए, आपके पास निम्नलिखित शर्तें होनी चाहिए:
- व्यवस्थापक के लिए:
- एक स्नोफ्लेक उपयोगकर्ता जिसके पास स्नोफ्लेक में भंडारण एकीकरण और सुरक्षा एकीकरण बनाने की अनुमति है।
- बनाने की अनुमति के साथ एक AWS खाता AWS पहचान और अभिगम प्रबंधन (आईएएम) नीतियां और भूमिकाएं।
- डेटा रैंगलर एप्लिकेशन को पंजीकृत करने और प्राधिकरण सर्वर या एपीआई सेट करने के लिए आईडीपी को कॉन्फ़िगर करने के लिए एक्सेस और अनुमतियां।
- डेटा वैज्ञानिक के लिए:
व्यवस्थापक सेटअप
अपने उपयोगकर्ताओं को डेटा रैंगलर में सीधे अपने स्नोफ्लेक क्रेडेंशियल्स दर्ज करने के बजाय, आप उन्हें स्नोफ्लेक तक पहुंचने के लिए एक IdP का उपयोग करने के लिए कह सकते हैं।
स्नोफ्लेक के लिए डेटा रैंगलर OAuth एक्सेस को सक्षम करने के लिए निम्नलिखित चरण शामिल हैं:
- आईडीपी कॉन्फ़िगर करें।
- स्नोफ्लेक कॉन्फ़िगर करें।
- सेजमेकर स्टूडियो को कॉन्फ़िगर करें।
आईडीपी कॉन्फ़िगर करें
अपना IdP सेट करने के लिए, आपको डेटा रैंगलर एप्लिकेशन को पंजीकृत करना होगा और अपना प्राधिकरण सर्वर या API सेट अप करना होगा।
IdP के भीतर डेटा रैंगलर एप्लिकेशन को पंजीकृत करें
डेटा रैंगलर द्वारा समर्थित IdPs के लिए निम्नलिखित दस्तावेज़ देखें:
अपने डेटा रैंगलर एप्लिकेशन को पंजीकृत करने के लिए अपने IdP द्वारा प्रदान किए गए दस्तावेज़ों का उपयोग करें। इस खंड की जानकारी और प्रक्रियाएं आपको यह समझने में मदद करती हैं कि आपके IdP द्वारा प्रदान किए गए दस्तावेज़ों का सही तरीके से उपयोग कैसे किया जाए।
संबंधित गाइड में चरणों के अतिरिक्त विशिष्ट अनुकूलन को उपखंडों में कहा जाता है।
- कॉन्फ़िगरेशन का चयन करें जो डेटा रैंगलर को एक एप्लिकेशन के रूप में पंजीकृत करने की प्रक्रिया शुरू करता है।
- IdP के भीतर उपयोगकर्ताओं को डेटा रैंगलर तक पहुँच प्रदान करें।
- क्लाइंट क्रेडेंशियल्स को सीक्रेट मैनेजर सीक्रेट के तौर पर स्टोर करके OAuth क्लाइंट ऑथेंटिकेशन चालू करें.
- निम्न प्रारूप का उपयोग करके रीडायरेक्ट URL निर्दिष्ट करें:
https://domain-ID.studio.AWS Region.sagemaker.aws/jupyter/default/lab
.
आप SageMaker डोमेन आईडी और AWS क्षेत्र निर्दिष्ट कर रहे हैं जिसका उपयोग आप डेटा रैंगलर चलाने के लिए कर रहे हैं। आपको प्रत्येक डोमेन और क्षेत्र के लिए एक URL दर्ज करना होगा जहाँ आप डेटा रैंगलर चला रहे हैं। किसी डोमेन और क्षेत्र के उपयोगकर्ता जिनके पास उनके लिए सेट किए गए रीडायरेक्ट URL नहीं हैं, वे स्नोफ़्लेक कनेक्शन तक पहुँचने के लिए IdP के साथ प्रमाणित नहीं कर पाएंगे।
- सुनिश्चित करें कि आपके डेटा रैंगलर एप्लिकेशन के लिए प्राधिकरण कोड और ताज़ा टोकन अनुदान प्रकार की अनुमति है।
आईडीपी के भीतर प्राधिकरण सर्वर या एपीआई सेट अप करें
अपने IdP के भीतर, आपको एक प्राधिकरण सर्वर या एक एप्लिकेशन प्रोग्रामिंग इंटरफ़ेस (API) सेट अप करना होगा। प्रत्येक उपयोगकर्ता के लिए, प्राधिकरण सर्वर या एपीआई डेटा रैंगलर को स्नोफ्लेक के साथ दर्शकों के रूप में टोकन भेजता है।
स्नोफ्लेक की अवधारणा का उपयोग करता है भूमिकाओं जो AWS में प्रयुक्त IAM भूमिकाओं से भिन्न हैं। स्नोफ्लेक खाते से जुड़ी डिफ़ॉल्ट भूमिका का उपयोग करने के लिए आपको किसी भी भूमिका का उपयोग करने के लिए IdP को कॉन्फ़िगर करना होगा। उदाहरण के लिए, यदि किसी उपयोगकर्ता के पास है systems administrator
उनके स्नोफ्लेक प्रोफाइल में डिफ़ॉल्ट भूमिका के रूप में, डेटा रैंगलर से स्नोफ्लेक तक कनेक्शन का उपयोग करता है systems administrator
भूमिका के रूप में।
अपने IdP में प्राधिकरण सर्वर या API सेट अप करने के लिए निम्न प्रक्रिया का उपयोग करें:
- अपने IdP से, सर्वर या API को सेट करने की प्रक्रिया शुरू करें।
- प्राधिकरण कोड का उपयोग करने और टोकन अनुदान प्रकारों को ताज़ा करने के लिए प्राधिकरण सर्वर को कॉन्फ़िगर करें।
- एक्सेस टोकन का जीवनकाल निर्दिष्ट करें।
- रीफ्रेश टोकन निष्क्रिय टाइमआउट सेट करें।
निष्क्रिय टाइमआउट वह समय है जब रीफ्रेश टोकन का उपयोग नहीं होने पर समाप्त हो जाता है। यदि आप डेटा रैंगलर में जॉब शेड्यूल कर रहे हैं, तो हम सुझाव देते हैं कि निष्क्रिय टाइमआउट समय को प्रोसेसिंग जॉब की आवृत्ति से अधिक करें। अन्यथा, कुछ प्रसंस्करण कार्य विफल हो सकते हैं क्योंकि ताज़ा टोकन चलने से पहले ही समाप्त हो गया। जब रिफ्रेश टोकन की समय सीमा समाप्त हो जाती है, तो उपयोगकर्ता को डेटा रैंगलर के माध्यम से स्नोफ्लेक से किए गए कनेक्शन तक पहुंचकर फिर से प्रमाणित करना होगा।
ध्यान दें कि डेटा रैंगलर रोटेटिंग रिफ्रेश टोकन का समर्थन नहीं करता है। रोटेटिंग रिफ्रेश टोकन का उपयोग करने से पहुंच विफल हो सकती है या उपयोगकर्ताओं को बार-बार लॉग इन करने की आवश्यकता हो सकती है।
यदि रीफ़्रेश टोकन की समय सीमा समाप्त हो जाती है, तो आपके उपयोगकर्ताओं को डेटा रैंगलर के माध्यम से स्नोफ़्लेक से किए गए कनेक्शन को एक्सेस करके पुनः प्रमाणित करना होगा।
- निर्दिष्ट करें
session:role-any
नए दायरे के रूप में।
Azure AD के लिए, आपको कार्यक्षेत्र के लिए एक अद्वितीय पहचानकर्ता भी निर्दिष्ट करना होगा।
आपके द्वारा OAuth प्रदाता सेट करने के बाद, आप डेटा रैंगलर को वह जानकारी प्रदान करते हैं जिसकी आवश्यकता उसे प्रदाता से कनेक्ट करने के लिए होती है। आप निम्न फ़ील्ड के मान प्राप्त करने के लिए अपने IdP से दस्तावेज़ीकरण का उपयोग कर सकते हैं:
- टोकन यूआरएल - टोकन का URL जो IdP डेटा रैंगलर को भेजता है
- प्राधिकरण यूआरएल - IdP के प्राधिकरण सर्वर का URL
- ग्राहक आईडी - आईडीपी की आईडी
- ग्राहक रहस्य - वह रहस्य जिसे केवल प्राधिकरण सर्वर या एपीआई ही पहचानता है
- OAuth दायरा – यह केवल Azure AD के लिए है
स्नोफ्लेक कॉन्फ़िगर करें
स्नोफ्लेक को कॉन्फ़िगर करने के लिए, निर्देशों को पूरा करें स्नोफ्लेक से डेटा आयात करें.
स्नोफ्लेक में बाहरी OAuth एकीकरण स्थापित करने के लिए अपने IdP के लिए स्नोफ्लेक प्रलेखन का उपयोग करें। पिछला भाग देखें IdP के भीतर डेटा रैंगलर एप्लिकेशन को पंजीकृत करें बाहरी OAuth एकीकरण कैसे सेट अप करें, इस बारे में अधिक जानकारी के लिए।
जब आप स्नोफ्लेक में सुरक्षा एकीकरण स्थापित कर रहे हों, तो सुनिश्चित करें कि आप सक्रिय हैं external_oauth_any_role_mode
.
सेजमेकर स्टूडियो को कॉन्फ़िगर करें
आप फ़ील्ड और मानों को एक गुप्त प्रबंधक गुप्त में संग्रहीत करते हैं और इसे स्टूडियो लाइफसाइकिल कॉन्फ़िगरेशन में जोड़ते हैं जिसका उपयोग आप डेटा रैंगलर के लिए कर रहे हैं। एक जीवनचक्र कॉन्फ़िगरेशन एक शेल स्क्रिप्ट है जो उपयोगकर्ता द्वारा स्टूडियो में लॉग इन करने पर गुप्त रूप से संग्रहीत क्रेडेंशियल्स को स्वचालित रूप से लोड करता है। रहस्य बनाने के बारे में जानकारी के लिए देखें हार्डकोड किए गए रहस्यों को AWS सीक्रेट मैनेजर में ले जाएं. स्टूडियो में जीवनचक्र विन्यास का उपयोग करने के बारे में जानकारी के लिए, देखें Amazon SageMaker Studio के साथ जीवनचक्र कॉन्फ़िगरेशन का उपयोग करें.
स्नोफ्लेक क्रेडेंशियल्स के लिए एक रहस्य बनाएँ
स्नोफ्लेक क्रेडेंशियल्स के लिए अपना रहस्य बनाने के लिए, निम्न चरणों को पूरा करें:
- गोपनीयता प्रबंधक कंसोल पर, चुनें एक नया रहस्य संग्रहित करें.
- के लिए गुप्त प्रकार, चुनते हैं अन्य प्रकार का रहस्य.
- कुंजी-मूल्य जोड़े के रूप में अपने रहस्य का विवरण निर्दिष्ट करें।
केस सेंसिटिविटी के कारण मुख्य नामों में लोअरकेस अक्षरों की आवश्यकता होती है। यदि आप इनमें से किसी को भी गलत तरीके से दर्ज करते हैं तो डेटा रैंगलर चेतावनी देता है। यदि आप चाहें तो गुप्त मानों को की-वैल्यू पेयर की/वैल्यू के रूप में इनपुट करें या उपयोग करें सादे पाठ विकल्प.
ओक्टा के लिए प्रयुक्त रहस्य का प्रारूप निम्नलिखित है। यदि आप Azure AD का उपयोग कर रहे हैं, तो आपको जोड़ने की आवश्यकता है datasource_oauth_scope
खेत।
- अपनी पसंद के IdP और आवेदन पंजीकरण के बाद एकत्रित की गई जानकारी के साथ पूर्ववर्ती मानों को अपडेट करें।
- चुनें अगला.
- के लिए गुप्त नाम, उपसर्ग जोड़ें
AmazonSageMaker
(उदाहरण के लिए, हमारा रहस्य हैAmazonSageMaker-DataWranglerSnowflakeCreds
). - में टैग अनुभाग, कुंजी के साथ एक टैग जोड़ें
SageMaker
और मूल्यtrue
. - चुनें अगला.
- शेष फ़ील्ड वैकल्पिक हैं; चुनें अगला जब तक आपके पास चुनने का विकल्प न हो दुकान रहस्य स्टोर करने के लिए।
सीक्रेट स्टोर करने के बाद, आप सीक्रेट्स मैनेजर कंसोल पर वापस आ जाते हैं।
- आपके द्वारा अभी-अभी बनाया गया रहस्य चुनें, फिर गुप्त ARN को पुनः प्राप्त करें।
- जब आप डेटा रैंगलर डेटा स्रोत बनाते हैं तो बाद में उपयोग के लिए इसे अपने पसंदीदा टेक्स्ट एडिटर में स्टोर करें।
एक स्टूडियो जीवनचक्र विन्यास बनाएँ
स्टूडियो में एक जीवनचक्र विन्यास बनाने के लिए, निम्नलिखित चरणों को पूरा करें:
- SageMaker कंसोल पर, चुनें जीवनचक्र विन्यास नेविगेशन फलक में
- चुनें कॉन्फ़िगरेशन बनाएँ.
- चुनें ज्यूपिटर सर्वर ऐप.
- एक नया जीवनचक्र विन्यास बनाएँ या निम्नलिखित सामग्री के साथ एक मौजूदा को जोड़ें:
कॉन्फ़िगरेशन नाम के साथ एक फ़ाइल बनाता है ".snowflake_identity_provider_oauth_config"
, जिसमें उपयोगकर्ता के होम फोल्डर में रहस्य शामिल है।
- चुनें कॉन्फ़िगरेशन बनाएँ.
डिफ़ॉल्ट जीवनचक्र कॉन्फ़िगरेशन सेट करें
आपके द्वारा अभी-अभी बनाए गए जीवनचक्र कॉन्फ़िगरेशन को डिफ़ॉल्ट के रूप में सेट करने के लिए निम्न चरणों को पूरा करें:
- SageMaker कंसोल पर, चुनें डोमेन नेविगेशन फलक में
- इस उदाहरण के लिए आप जिस स्टूडियो डोमेन का उपयोग करेंगे, उसे चुनें।
- पर वातावरण टैब में व्यक्तिगत स्टूडियो ऐप्स के लिए जीवनचक्र विन्यास अनुभाग चुनते हैं, जोड़ना.
- के लिए स्रोत, चुनते हैं मौजूदा विन्यास.
- आपके द्वारा अभी बनाया गया कॉन्फ़िगरेशन चुनें, फिर चुनें डोमेन से अटैच करें.
- नया कॉन्फ़िगरेशन चुनें और चुनें डिफ़ॉल्ट रूप में सेट करें, उसके बाद चुनो डिफ़ॉल्ट रूप में सेट करें फिर से पॉप-अप संदेश में।
आपकी नई सेटिंग्स अब नीचे दिखाई देनी चाहिए व्यक्तिगत स्टूडियो ऐप्स के लिए जीवनचक्र विन्यास जैसे अकरण।
- परिवर्तनों को प्रभावी करने के लिए स्टूडियो ऐप को बंद करें और पुन: लॉन्च करें।
डेटा वैज्ञानिक अनुभव
इस खंड में, हम कवर करते हैं कि कैसे डेटा वैज्ञानिक डेटा रैंगलर में डेटा स्रोत के रूप में स्नोफ्लेक से जुड़ सकते हैं और एमएल के लिए डेटा तैयार कर सकते हैं।
एक नया डेटा प्रवाह बनाएं
अपना डेटा प्रवाह बनाने के लिए, निम्न चरणों को पूरा करें:
- SageMaker कंसोल पर, चुनें अमेज़ॅन सैजमेकर स्टूडियो नेविगेशन फलक में
- चुनें स्टूडियो खोलें.
- स्टूडियो पर होम पृष्ठ, चुनें डेटा को विज़ुअल रूप से आयात और तैयार करें. वैकल्पिक रूप से, पर पट्टिका ड्रॉप-डाउन, चुनें नया, उसके बाद चुनो सेजमेकर डेटा रैंगलर फ्लो.
नया फ़्लो बनाने में कुछ मिनट लग सकते हैं.
- पर आयात आंकड़ा पृष्ठ, चुनें कनेक्शन बनाएं.
- चुनें हिमपात का एक खंड डेटा स्रोतों की सूची से।
- के लिए प्रमाणन विधि, चुनें OAuth.
यदि आप OAuth नहीं देखते हैं, तो पूर्ववर्ती जीवनचक्र कॉन्फ़िगरेशन चरणों को सत्यापित करें।
- के लिए विवरण दर्ज करें स्नोफ्लेक खाता नाम और भंडारण एकीकरण.
- एक कनेक्शन नाम दर्ज करें और चुनें जुडिये.
आपको एक IdP प्रमाणीकरण पृष्ठ पर पुनर्निर्देशित किया गया है। इस उदाहरण के लिए, हम ओक्टा का उपयोग कर रहे हैं।
- अपना उपयोगकर्ता नाम और पासवर्ड दर्ज करें, फिर चुनें में साइन इन करें.
प्रमाणीकरण सफल होने के बाद, आपको स्टूडियो डेटा फ़्लो पेज पर रीडायरेक्ट कर दिया जाता है।
- पर स्नोफ्लेक से डेटा आयात करें पृष्ठ, डेटाबेस ऑब्जेक्ट ब्राउज़ करें, या लक्षित डेटा के लिए क्वेरी चलाएँ।
- क्वेरी संपादक में, एक क्वेरी दर्ज करें और परिणामों का पूर्वावलोकन करें।
निम्नलिखित उदाहरण में, हम लोड करते हैं ऋण डेटा और 5,000 पंक्तियों से सभी कॉलम पुनर्प्राप्त करें।
- चुनें आयात.
- एक डेटासेट नाम दर्ज करें (इस पोस्ट के लिए, हम उपयोग करते हैं
snowflake_loan_dataset
) और चुनें .
आप पर पुनर्निर्देशित हैं तैयार करना पृष्ठ, जहां आप डेटा में परिवर्तन और विश्लेषण जोड़ सकते हैं।
डेटा रैंगलर डेटा को निगलना और डेटा तैयार करने के कार्यों जैसे खोजपूर्ण डेटा विश्लेषण, फ़ीचर चयन और फ़ीचर इंजीनियरिंग को करना आसान बनाता है। हमने इस पोस्ट में डेटा तैयारी पर डेटा रैंगलर की केवल कुछ क्षमताओं को कवर किया है; आप अधिक उन्नत डेटा विश्लेषण के लिए डेटा रैंगलर का उपयोग कर सकते हैं जैसे कि सुविधा महत्व, लक्ष्य रिसाव, और एक आसान और सहज उपयोगकर्ता इंटरफ़ेस का उपयोग करके मॉडल व्याख्यात्मकता।
डेटा गुणवत्ता का विश्लेषण करें
उपयोग डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट आपके द्वारा डेटा रैंगलर में आयात किए गए डेटा का विश्लेषण करने के लिए। डेटा रैंगलर सैंपल किए गए डेटा से रिपोर्ट बनाता है।
- डेटा रैंगलर प्रवाह पृष्ठ पर, इसके आगे धन चिह्न चुनें जानकारी का प्रकार, उसके बाद चुनो डेटा जानकारी प्राप्त करें.
- चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट एसटी विश्लेषण प्रकार.
- के लिए लक्ष्य स्तंभ, अपना लक्ष्य कॉलम चुनें।
- के लिए समस्या प्रकार, चुनते हैं वर्गीकरण.
- चुनें बनाएं.
अंतर्दृष्टि रिपोर्ट में डेटा का एक संक्षिप्त सारांश होता है, जिसमें सामान्य जानकारी जैसे लापता मान, अमान्य मान, विशेषता प्रकार, बाहरी गणना और बहुत कुछ शामिल होता है। आप या तो रिपोर्ट डाउनलोड कर सकते हैं या इसे ऑनलाइन देख सकते हैं।
डेटा में परिवर्तन जोड़ें
डेटा रैंगलर में 300 से अधिक अंतर्निर्मित परिवर्तन हैं। इस खंड में, हम एमएल मॉडल के लिए डेटासेट तैयार करने के लिए इनमें से कुछ परिवर्तनों का उपयोग करते हैं।
- डेटा रैंगलर प्रवाह पृष्ठ पर, धन चिह्न चुनें, फिर चुनें परिवर्तन जोड़ें.
यदि आप पोस्ट में दिए गए चरणों का पालन कर रहे हैं, तो आपको अपना डेटासेट जोड़ने के बाद स्वचालित रूप से यहां निर्देशित कर दिया जाएगा।
- कॉलम के डेटा प्रकार को सत्यापित और संशोधित करें।
स्तंभों को देखते हुए, हम पहचानते हैं कि MNTHS_SINCE_LAST_DELINQ
और MNTHS_SINCE_LAST_RECORD
सबसे अधिक संभावना स्ट्रिंग के बजाय संख्या प्रकार के रूप में प्रदर्शित की जानी चाहिए।
- परिवर्तनों को लागू करने और चरण जोड़ने के बाद, आप सत्यापित कर सकते हैं कि कॉलम डेटा प्रकार फ्लोट में बदल गया है।
डेटा को देखते हुए, हम देख सकते हैं कि फ़ील्ड EMP_TITLE
, URL
, DESCRIPTION
, तथा TITLE
संभवतः हमारे उपयोग के मामले में हमारे मॉडल को मूल्य प्रदान नहीं करेगा, इसलिए हम उन्हें छोड़ सकते हैं।
- चुनें स्टेप जोड़ें, उसके बाद चुनो कॉलम प्रबंधित करें.
- के लिए बदालना, चुनें स्तंभ छोड़ें.
- के लिए ड्रॉप करने के लिए कॉलम, उल्लिखित करना
EMP_TITLE
,URL
,DESCRIPTION
, तथाTITLE
. - चुनें पूर्वावलोकन और .
इसके बाद, हम अपने डेटासेट में श्रेणीबद्ध डेटा देखना चाहते हैं। डेटा रैंगलर में ऑर्डिनल और वन-हॉट एन्कोडिंग दोनों का उपयोग करके श्रेणीबद्ध डेटा को एन्कोड करने के लिए एक अंतर्निहित कार्यक्षमता है। हमारे डेटासेट को देखते हुए, हम देख सकते हैं कि TERM
, HOME_OWNERSHIP
, तथा PURPOSE
कॉलम सभी प्रकृति में स्पष्ट प्रतीत होते हैं।
- एक और चरण जोड़ें और चुनें सांकेतिक शब्दों में बदलना.
- के लिए बदालना, चुनें एक गर्म सांकेतिक शब्दों में बदलना.
- के लिए इनपुट कॉलम, चुनें
TERM
. - के लिए आउटपुट शैली, चुनें स्तंभ.
- अन्य सभी सेटिंग्स को डिफ़ॉल्ट के रूप में छोड़ दें, फिर चुनें पूर्वावलोकन और .
RSI HOME_OWNERSHIP
स्तंभ के चार संभावित मान हैं: RENT
, MORTGAGE
, OWN
, और दूसरा।
- इन मानों पर एक-हॉट एन्कोडिंग दृष्टिकोण लागू करने के लिए पिछले चरणों को दोहराएँ।
अन्त में, PURPOSE
कॉलम में कई संभावित मान हैं। इस डेटा के लिए, हम वन-हॉट एन्कोडिंग दृष्टिकोण का भी उपयोग करते हैं, लेकिन हम आउटपुट को कॉलम के बजाय वेक्टर पर सेट करते हैं।
- के लिए बदालना, चुनें एक गर्म सांकेतिक शब्दों में बदलना.
- के लिए इनपुट कॉलम, चुनें
PURPOSE
. - के लिए आउटपुट शैली, चुनें वेक्टर.
- के लिए आउटपुट कॉलम, हम इस कॉलम को कहते हैं
PURPOSE_VCTR
.
यह मूल रखता है PURPOSE
कॉलम, अगर हम इसे बाद में उपयोग करने का निर्णय लेते हैं।
- अन्य सभी सेटिंग्स को डिफ़ॉल्ट के रूप में छोड़ दें, फिर चुनें पूर्वावलोकन और .
डेटा प्रवाह निर्यात करें
अंत में, हम इस पूरे डेटा प्रवाह को एक सैजमेकर प्रोसेसिंग जॉब के साथ एक फीचर स्टोर में निर्यात करते हैं, जो पहले से भरे हुए कोड के साथ एक ज्यूपिटर नोटबुक बनाता है।
- डेटा प्रवाह पृष्ठ पर, धन चिह्न और चुनें को निर्यात.
- चुनें कि कहां निर्यात करना है। हमारे उपयोग के मामले के लिए, हम चुनते हैं SageMaker फ़ीचर स्टोर.
निर्यात की गई नोटबुक अब चलने के लिए तैयार है।
डेटा निर्यात करें और ऑटोपायलट के साथ एक मॉडल को प्रशिक्षित करें
अब हम प्रयोग करके मॉडल को प्रशिक्षित कर सकते हैं अमेज़ॅन सैजमेकर ऑटोपायलट.
- डेटा प्रवाह पृष्ठ पर, चुनें प्रशिक्षण टैब.
- के लिए अमेज़न S3 स्थान, सहेजे जाने वाले डेटा के लिए एक स्थान दर्ज करें।
- चुनें निर्यात और ट्रेन.
- में सेटिंग्स निर्दिष्ट करें लक्ष्य और सुविधाएँ, प्रशिक्षण विधि, परिनियोजन और अग्रिम सेटिंग्स, तथा समीक्षा करें और बनाएं वर्गों.
- चुनें प्रयोग बनाएं अपनी समस्या के लिए सबसे अच्छा मॉडल खोजने के लिए।
क्लीन अप
अगर डेटा रैंगलर के साथ आपका काम पूरा हो गया है, अपना डेटा रैंगलर इंस्टेंस बंद करें अतिरिक्त शुल्क लेने से बचने के लिए।
निष्कर्ष
इस पोस्ट में, हमने कनेक्ट करने का प्रदर्शन किया OAuth का उपयोग करके डेटा रैंगलर से स्नोफ्लेक, डेटासेट को बदलना और उसका विश्लेषण करना, और अंत में इसे डेटा प्रवाह में निर्यात करना ताकि इसका उपयोग ज्यूपिटर नोटबुक में किया जा सके। सबसे विशेष रूप से, हमने बिना किसी कोड को लिखे डेटा तैयार करने के लिए एक पाइपलाइन बनाई।
डेटा रैंगलर के साथ आरंभ करने के लिए, देखें अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें.
लेखक के बारे में
अजय गोविंदराम AWS में एक वरिष्ठ समाधान वास्तुकार हैं। वह रणनीतिक ग्राहकों के साथ काम करता है जो जटिल व्यावसायिक समस्याओं को हल करने के लिए एआई/एमएल का उपयोग कर रहे हैं। उनका अनुभव तकनीकी दिशा प्रदान करने के साथ-साथ बड़े पैमाने पर एआई/एमएल अनुप्रयोग परिनियोजन के लिए डिजाइन सहायता प्रदान करने में निहित है। उनका ज्ञान एप्लिकेशन आर्किटेक्चर से लेकर बिग डेटा, एनालिटिक्स और मशीन लर्निंग तक है। उन्हें आराम करते हुए संगीत सुनना, बाहर का अनुभव करना और अपने प्रियजनों के साथ समय बिताना अच्छा लगता है।
बॉस्को अल्बुकर्क AWS में एक सीनियर पार्टनर सॉल्यूशन आर्किटेक्ट हैं और उनके पास एंटरप्राइज़ डेटाबेस वेंडर्स और क्लाउड प्रोवाइडर्स के डेटाबेस और एनालिटिक्स उत्पादों के साथ काम करने का 20 से अधिक वर्षों का अनुभव है। उन्होंने बड़ी प्रौद्योगिकी कंपनियों को डेटा एनालिटिक्स समाधान डिजाइन करने में मदद की है और डेटा एनालिटिक्स प्लेटफॉर्म और डेटा उत्पादों को डिजाइन करने और लागू करने में इंजीनियरिंग टीमों का नेतृत्व किया है।
मैट मार्ज़िलो स्नोफ्लेक में सीनियर पार्टनर सेल्स इंजीनियर हैं। उनके पास परामर्श और उद्योग संगठनों दोनों में डेटा साइंस और मशीन लर्निंग भूमिकाओं में 10 वर्षों का अनुभव है। मैट को विपणन, बिक्री, संचालन, नैदानिक और वित्त जैसे क्षेत्रों में कई अलग-अलग संगठनों में एआई और एमएल मॉडल विकसित करने और तैनात करने के साथ-साथ सलाहकार भूमिकाओं में सलाह देने का अनुभव है।
हुआंग गुयेन AWS में Amazon SageMaker Data Wrangler के लिए प्रोडक्ट लीडर है। उनके पास उद्यम और उपभोक्ता दोनों जगहों के लिए ग्राहक-केंद्रित और डेटा-संचालित उत्पाद बनाने का 15 साल का अनुभव है। अपने खाली समय में, वह ऑडियो किताबें, बागवानी, लंबी पैदल यात्रा और अपने परिवार और दोस्तों के साथ समय बिताना पसंद करती हैं।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/access-snowflake-data-using-oauth-based-authentication-in-amazon-sagemaker-data-wrangler/
- :है
- $यूपी
- 000
- 10
- 100
- 15 साल
- 20 साल
- 7
- 8
- 9
- a
- योग्य
- About
- पहुँच
- डेटा तक पहुंच
- तक पहुँचने
- लेखा
- के पार
- Ad
- इसके अलावा
- अतिरिक्त
- व्यवस्थापक
- उन्नत
- उन्नत
- सलाह दे
- बाद
- AI
- ऐ / एमएल
- सब
- वीरांगना
- अमेज़न SageMaker
- अमेज़न SageMaker डेटा रैंगलर
- का विश्लेषण करती है
- विश्लेषण
- विश्लेषिकी
- विश्लेषण करें
- का विश्लेषण
- और
- अन्य
- एपीआई
- अनुप्रयोग
- दिखाई देते हैं
- आवेदन
- लागू करें
- लागू
- दृष्टिकोण
- क्षुधा
- स्थापत्य
- हैं
- क्षेत्रों के बारे में जानकारी का उपयोग करके ट्रेडिंग कर सकते हैं।
- AS
- सहायता
- जुड़े
- At
- संलग्न करना
- दर्शक
- ऑडियो
- प्रमाणित
- प्रमाणीकरण
- प्राधिकरण
- को स्वचालित रूप से
- स्वतः
- एडब्ल्यूएस
- नीला
- BE
- क्योंकि
- से पहले
- शुरू करना
- BEST
- बड़ा
- बड़ा डेटा
- परिवर्तन
- पुस्तकें
- में निर्मित
- व्यापार
- by
- कॉल
- बुलाया
- कर सकते हैं
- क्षमताओं
- मामला
- कैट
- परिवर्तन
- चुनाव
- चुनें
- ग्राहक
- क्लिनिकल
- बादल
- कोड
- स्तंभ
- स्तंभ
- कंपनियों
- पूरा
- जटिल
- संकल्पना
- विन्यास
- जुडिये
- कनेक्ट कर रहा है
- संबंध
- कंसोल
- परामर्श
- उपभोक्ता
- सामग्री
- सका
- आवरण
- कवर
- बनाना
- बनाया
- बनाता है
- बनाना
- साख
- ग्राहक
- तिथि
- डेटा विश्लेषण
- डेटा विश्लेषण
- डेटा प्लेटफार्म
- डेटा तैयारी
- डेटा विज्ञान
- आँकड़े वाला वैज्ञानिक
- डेटा पर ही आधारित
- डाटाबेस
- तय
- चूक
- साबित
- तैनाती
- तैनाती
- डिज़ाइन
- डिज़ाइन बनाना
- विस्तार
- विवरण
- विकासशील
- विभिन्न
- दिशा
- सीधे
- अलग
- दस्तावेज़ीकरण
- नहीं करता है
- डोमेन
- dont
- नीचे
- डाउनलोड
- बूंद
- से प्रत्येक
- संपादक
- प्रभाव
- भी
- सक्षम
- इंजीनियर
- अभियांत्रिकी
- दर्ज
- उद्यम
- वातावरण
- उदाहरण
- मौजूदा
- अनुभव
- सामना
- अन्वेषणात्मक डेटा विश्लेषण
- निर्यात
- बाहरी
- असफल
- परिवार
- Feature
- विशेषताएं
- फीस
- कुछ
- खेत
- फ़ील्ड
- पट्टिका
- अंत में
- वित्त
- खोज
- नाव
- प्रवाह
- निम्नलिखित
- के लिए
- प्रारूप
- आवृत्ति
- अक्सर
- मित्रों
- से
- कार्यक्षमता
- सामान्य जानकारी
- मिल
- देता है
- अनुदान
- अधिक से अधिक
- मार्गदर्शिकाएँ
- है
- होने
- मदद
- मदद की
- यहाँ उत्पन्न करें
- होम
- कैसे
- How To
- एचटीएमएल
- http
- HTTPS
- ID
- पहचानकर्ता
- पहचान करना
- पहचान
- निष्क्रिय
- कार्यान्वयन
- आयात
- महत्व
- in
- शामिल
- सहित
- गलत रूप से
- उद्योग
- करें-
- निवेश
- अन्तर्दृष्टि
- अंतर्दृष्टि
- निर्देश
- एकीकरण
- एकीकरण
- इंटरफेस
- सहज ज्ञान युक्त
- शामिल
- IT
- काम
- नौकरियां
- जेपीजी
- कुंजी
- ज्ञान
- बड़ा
- बड़े पैमाने पर
- नेता
- सीख रहा हूँ
- नेतृत्व
- झूठ
- जीवन चक्र
- जीवनकाल
- पसंद
- संभावित
- सूची
- सुनना
- भार
- भार
- स्थान
- देखिए
- देख
- प्यार करता था
- मशीन
- यंत्र अधिगम
- बनाया गया
- बनाना
- बनाता है
- निर्माण
- प्रबंधक
- बहुत
- विपणन (मार्केटिंग)
- message
- हो सकता है
- मिनटों
- लापता
- ML
- आदर्श
- मॉडल
- संशोधित
- अधिक
- अधिकांश
- विभिन्न
- संगीत
- नाम
- नामों
- प्रकृति
- पथ प्रदर्शन
- आवश्यकता
- ज़रूरत
- की जरूरत है
- नया
- अगला
- विशेष रूप से
- नोटबुक
- संख्या
- OAuth
- वस्तुओं
- of
- ओकटा
- on
- ONE
- ऑनलाइन
- संचालन
- विकल्प
- संगठनों
- मूल
- अन्य
- अन्यथा
- सड़क पर
- उत्पादन
- अपना
- पृष्ठ
- जोड़े
- फलक
- साथी
- पासवर्ड
- निष्पादन
- अनुमतियाँ
- स्टाफ़
- पाइपलाइन
- मंच
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- प्लस
- नीतियाँ
- पॉप - अप
- संभव
- पद
- वरीय
- तैयार करना
- आवश्यक शर्तें
- पूर्वावलोकन
- पिछला
- मुसीबत
- समस्याओं
- प्रक्रिया
- प्रक्रिया
- प्रसंस्करण
- एस्ट्रो मॉल
- उत्पाद
- प्रोफाइल
- प्रोग्रामिंग
- अच्छी तरह
- प्रदान करना
- बशर्ते
- प्रदाता
- प्रदाताओं
- प्रदान करता है
- प्रदान कर
- गुणवत्ता
- बल्कि
- तैयार
- की सिफारिश
- अनुप्रेषित
- को कम करने
- क्षेत्र
- रजिस्टर
- पंजीकरण
- पंजीकरण
- फिर से लॉन्च
- रिपोर्ट
- प्रतिनिधित्व
- की आवश्यकता होती है
- कि
- बाकी
- परिणाम
- परिणाम
- खुदरा
- भूमिका
- भूमिकाओं
- रन
- दौड़ना
- sagemaker
- विक्रय
- समयबद्धन
- विज्ञान
- वैज्ञानिक
- वैज्ञानिकों
- क्षेत्र
- गुप्त
- अनुभाग
- वर्गों
- सुरक्षा
- चयन
- वरिष्ठ
- संवेदनशीलता
- सेट
- की स्थापना
- सेटिंग्स
- कई
- खोल
- चाहिए
- दिखाना
- हस्ताक्षर
- सरल
- एक
- So
- समाधान ढूंढे
- हल
- कुछ
- स्रोत
- सूत्रों का कहना है
- रिक्त स्थान
- खर्च
- शुरू
- शुरू होता है
- कदम
- कदम
- भंडारण
- की दुकान
- संग्रहित
- भंडारण
- सामरिक
- तार
- स्टूडियो
- सफल
- ऐसा
- सारांश
- समर्थन
- समर्थन करता है
- टैग
- लेना
- लेता है
- लक्ष्य
- लक्षित
- कार्य
- टीमों
- तकनीकी
- टेक्नोलॉजी
- प्रौद्योगिकी कंपनियों
- कि
- RSI
- जानकारी
- लेकिन हाल ही
- उन
- इन
- यहाँ
- पहर
- सेवा मेरे
- टोकन
- टोकन
- रेलगाड़ी
- बदालना
- परिवर्तनों
- बदलने
- प्रकार
- के अंतर्गत
- समझना
- अद्वितीय
- अपडेट
- यूआरएल
- उपयोग
- उदाहरण
- उपयोगकर्ता
- यूजर इंटरफेस
- उपयोगकर्ताओं
- मूल्य
- मान
- विक्रेताओं
- सत्यापित
- के माध्यम से
- देखें
- दिखाई
- walkthrough
- चेतावनी
- सप्ताह
- कुंआ
- कौन कौन से
- जब
- कौन
- पूरा का पूरा
- मर्जी
- साथ में
- अंदर
- बिना
- काम
- workflows
- काम कर रहे
- कार्य
- लिखना
- लिख रहे हैं
- साल
- आप
- आपका
- जेफिरनेट