अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

अमेज़ॅन सेजमेकर डेटा रैंगलर का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें

डेटा विज्ञान और डेटा इंजीनियरिंग टीमें अपने समय का एक महत्वपूर्ण हिस्सा मशीन लर्निंग (एमएल) जीवनचक्र के डेटा तैयारी चरण में डेटा चयन, सफाई और परिवर्तन चरणों को निष्पादित करने में बिताती हैं। सार्थक अंतर्दृष्टि और भविष्यवाणियां उत्पन्न करने के लिए यह किसी भी एमएल वर्कफ़्लो का एक आवश्यक और महत्वपूर्ण कदम है, क्योंकि खराब या निम्न-गुणवत्ता वाला डेटा प्राप्त अंतर्दृष्टि की प्रासंगिकता को बहुत कम कर देता है।

डेटा इंजीनियरिंग टीमें पारंपरिक रूप से डाउनस्ट्रीम खपत के लिए कच्चे डेटा के अंतर्ग्रहण, समेकन और परिवर्तन के लिए जिम्मेदार हैं। डेटा वैज्ञानिकों को अक्सर प्राकृतिक भाषा और समय श्रृंखला जैसे डोमेन-विशिष्ट एमएल उपयोग मामलों के लिए डेटा पर अतिरिक्त प्रसंस्करण करने की आवश्यकता होती है। उदाहरण के लिए, कुछ एमएल एल्गोरिदम लापता मूल्यों, विरल सुविधाओं या आउटलेर्स के प्रति संवेदनशील हो सकते हैं और विशेष विचार की आवश्यकता होती है। यहां तक ​​कि ऐसे मामलों में जहां डेटासेट अच्छी स्थिति में है, डेटा वैज्ञानिक मॉडल से प्राप्त अंतर्दृष्टि को अधिकतम करने के लिए फीचर वितरण को बदलना या नई सुविधाएं बनाना चाह सकते हैं। इन उद्देश्यों को प्राप्त करने के लिए, डेटा वैज्ञानिकों को अनुरोधित परिवर्तनों को समायोजित करने के लिए डेटा इंजीनियरिंग टीमों पर निर्भर रहना पड़ता है, जिसके परिणामस्वरूप मॉडल विकास प्रक्रिया में निर्भरता और देरी होती है। वैकल्पिक रूप से, डेटा विज्ञान टीमें विभिन्न प्रोग्रामिंग प्रतिमानों का उपयोग करके आंतरिक रूप से डेटा तैयारी और फीचर इंजीनियरिंग करना चुन सकती हैं। हालाँकि, इसके लिए पुस्तकालयों और रूपरेखाओं की स्थापना और कॉन्फ़िगरेशन में समय और प्रयास के निवेश की आवश्यकता होती है, जो आदर्श नहीं है क्योंकि उस समय को मॉडल प्रदर्शन को अनुकूलित करने में बेहतर ढंग से खर्च किया जा सकता है।

अमेज़न SageMaker डेटा रैंगलर डेटा तैयार करने और फीचर इंजीनियरिंग प्रक्रिया को सरल बनाता है, डेटा वैज्ञानिकों को उनके डेटासेट का चयन करने, साफ़ करने और अन्वेषण करने के लिए एकल विज़ुअल इंटरफ़ेस प्रदान करके एमएल के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों में कर देता है। डेटा रैंगलर बिना कोई कोड लिखे सुविधाओं को सामान्य बनाने, बदलने और संयोजित करने में मदद करने के लिए 300 से अधिक अंतर्निहित डेटा परिवर्तनों की पेशकश करता है। आप अनेक डेटा स्रोतों से डेटा आयात कर सकते हैं, जैसे अमेज़ॅन सिंपल स्टोरेज सर्विस (अमेज़ॅन एस 3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, तथा हिमपात का एक खंड. अब आप भी उपयोग कर सकते हैं डाटब्रिक्स एमएल के लिए आसानी से डेटा तैयार करने के लिए डेटा रैंगलर में डेटा स्रोत के रूप में।

डेटाब्रिक्स लेकहाउस प्लेटफ़ॉर्म डेटा लेक के खुलेपन, लचीलेपन और मशीन लर्निंग समर्थन के साथ डेटा वेयरहाउस की विश्वसनीयता, मजबूत प्रशासन और प्रदर्शन प्रदान करने के लिए डेटा लेक और डेटा वेयरहाउस के सर्वोत्तम तत्वों को जोड़ता है। डेटा रैंगलर के लिए डेटा स्रोत के रूप में डेटाब्रिक्स के साथ, अब आप डेटाब्रिक्स से जल्दी और आसानी से जुड़ सकते हैं, SQL का उपयोग करके डेटाब्रिक्स में संग्रहीत डेटा को इंटरैक्टिव रूप से क्वेरी कर सकते हैं, और आयात करने से पहले डेटा का पूर्वावलोकन कर सकते हैं। इसके अतिरिक्त, आप अपने एमएल उपयोग के मामले के लिए सही डेटासेट बनाने के लिए अमेज़ॅन एस 3 में संग्रहीत डेटा और अमेज़ॅन एथेना, अमेज़ॅन रेडशिफ्ट और स्नोफ्लेक के माध्यम से पूछे गए डेटा के साथ डेटाब्रिक्स में अपने डेटा को जोड़ सकते हैं।

इस पोस्ट में, हम एमएल मॉडल प्रशिक्षण में उपयोग के लिए अमेज़ॅन सेजमेकर डेटा रैंगलर का उपयोग करके लेंडिंग क्लब लोन डेटासेट को बदलते हैं।

समाधान अवलोकन

निम्नलिखित चित्र हमारे समाधान वास्तुकला को दर्शाता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

लेंडिंग क्लब लोन डेटासेट में 2007-2011 के दौरान जारी किए गए सभी ऋणों का संपूर्ण ऋण डेटा शामिल है, जिसमें वर्तमान ऋण स्थिति और नवीनतम भुगतान जानकारी शामिल है। इसमें 39,717 पंक्तियाँ, 22 फीचर कॉलम और 3 लक्ष्य लेबल हैं।

डेटा रैंगलर का उपयोग करके अपने डेटा को बदलने के लिए, हम निम्नलिखित उच्च-स्तरीय चरणों को पूरा करते हैं:

  1. डेटासेट डाउनलोड करें और विभाजित करें.
  2. डेटा रैंगलर प्रवाह बनाएं.
  3. डेटाब्रिक्स से डेटा रैंगलर में डेटा आयात करें।
  4. Amazon S3 से डेटा रैंगलर में डेटा आयात करें।
  5. डेटा से जुड़ें.
  6. परिवर्तन लागू करें.
  7. डेटासेट निर्यात करें.

.. पूर्वापेक्षाएँ

पोस्ट मानती है कि आपके पास एक चालू डेटाब्रिक्स क्लस्टर है। यदि आपका क्लस्टर AWS पर चल रहा है, तो सत्यापित करें कि आपने निम्नलिखित कॉन्फ़िगर किया है:

डेटाब्रिक्स सेटअप

का पालन करें इंस्टेंस प्रोफाइल का उपयोग करके S3 बकेट तक सुरक्षित पहुंच आवश्यक के लिए AWS पहचान और अभिगम प्रबंधन (IAM) भूमिकाएँ, S3 बकेट नीति, और डेटाब्रिक्स क्लस्टर कॉन्फ़िगरेशन। सुनिश्चित करें कि डेटाब्रिक्स क्लस्टर उचित के साथ कॉन्फ़िगर किया गया है Instance Profile, वांछित S3 बकेट तक पहुंचने के लिए, उन्नत विकल्पों के अंतर्गत चयनित।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

डेटाब्रिक्स क्लस्टर के चालू होने और Amazon S3 तक आवश्यक पहुंच के साथ चलने के बाद, आप इसे प्राप्त कर सकते हैं JDBC URL आपके डेटाब्रिक्स क्लस्टर से डेटा रैंगलर द्वारा इसे कनेक्ट करने के लिए उपयोग किया जाएगा।

जेडीबीसी यूआरएल प्राप्त करें

जेडीबीसी यूआरएल लाने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. डेटाब्रिक्स में, क्लस्टर यूआई पर नेविगेट करें।
  2. अपना क्लस्टर चुनें।
  3. पर विन्यास टैब चुनें उन्नत विकल्प.
  4. के अंतर्गत उन्नत विकल्प, चुनना जेडीबीसी/ओडीबीसी टैब.
  5. जेडीबीसी यूआरएल कॉपी करें।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

अपनी व्यक्तिगत पहुंच को प्रतिस्थापित करना सुनिश्चित करें टोकन यूआरएल में.

डेटा रैंगलर सेटअप

यह चरण मानता है कि आपके पास Amazon SageMaker तक पहुंच है, जिसका एक उदाहरण है अमेज़ॅन सैजमेकर स्टूडियो, और एक स्टूडियो उपयोगकर्ता।

डेटा रैंगलर से डेटाब्रिक्स जेडीबीसी कनेक्शन तक पहुंच की अनुमति देने के लिए, स्टूडियो उपयोगकर्ता को निम्नलिखित अनुमति की आवश्यकता होती है:

  • secretsmanager:PutResourcePolicy

IAM प्रशासनिक उपयोगकर्ता के रूप में उपरोक्त अनुमति वाले स्टूडियो उपयोगकर्ता को सौंपी गई IAM निष्पादन भूमिका को अद्यतन करने के लिए नीचे दिए गए चरणों का पालन करें।

  1. IAM कंसोल पर, चुनें भूमिकाओं नेविगेशन फलक में
  2. अपने स्टूडियो उपयोगकर्ता को सौंपी गई भूमिका चुनें।
  3. चुनें अनुमतियाँ जोड़ें.
  4. चुनें इनलाइन नीति बनाएं.
  5. सेवा के लिए, चुनें राज प्रबंधक.
  6. On क्रियाएँ, चुनें पहुंच स्तर.
  7. चुनें अनुमतियाँ प्रबंधन.
  8. चुनें पुट रिसोर्स पॉलिसी.
  9. के लिए उपयुक्त संसाधन चुनें , चुनें विशिष्ट का चयन करें और इस खाते में कोई भी.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

डेटासेट डाउनलोड करें और विभाजित करें

आप द्वारा शुरू कर सकते हैं डेटासेट डाउनलोड करना. प्रदर्शन उद्देश्यों के लिए, हम फीचर कॉलम की प्रतिलिपि बनाकर डेटासेट को विभाजित करते हैं id, emp_title, emp_length, home_owner, तथा annual_inc दूसरा बनाने के लिए ऋण_2.सीएसवी फ़ाइल। हम मूल ऋण फ़ाइल से उपरोक्त कॉलम को छोड़कर हटा देते हैं id कॉलम बनाएं और मूल फ़ाइल का नाम बदलें ऋण_1.सीएसवी. अपलोड करें ऋण_1.सीएसवी फ़ाइल डाटब्रिक्स एक तालिका बनाने के लिए loans_1 और ऋण_2.सीएसवी एक S3 बाल्टी में.

डेटा रैंगलर प्रवाह बनाएं

डेटा रैंगलर पूर्व-आवश्यकताओं पर जानकारी के लिए देखें डेटा रैंगलर के साथ शुरुआत करें.

आइए एक नया डेटा प्रवाह बनाकर शुरुआत करें।

  1. स्टूडियो कंसोल पर, पर पट्टिका मेनू, चुनें नया.
  2. चुनें डेटा रैंगलर प्रवाह.
  3. इच्छानुसार प्रवाह का नाम बदलें।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

वैकल्पिक रूप से, आप लॉन्चर से एक नया डेटा प्रवाह बना सकते हैं।

  • स्टूडियो कंसोल पर, चुनें अमेज़ॅन सैजमेकर स्टूडियो नेविगेशन फलक में
  • चुनें नया डेटा प्रवाह.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

नया प्रवाह बनाने में कुछ मिनट लग सकते हैं। प्रवाह निर्मित होने के बाद, आप देखें आयात आंकड़ा इस पृष्ठ पर ज़ूम कई वीडियो ट्यूटोरियल और अन्य साहायक साधन प्रदान करता है।

डेटाब्रिक्स से डेटा रैंगलर में डेटा आयात करें

इसके बाद, हम डेटा रैंगलर में डेटा स्रोत के रूप में डेटाब्रिक्स (जेडीबीसी) स्थापित करते हैं। डेटाब्रिक्स से डेटा आयात करने के लिए, हमें सबसे पहले डेटाब्रिक्स को डेटा स्रोत के रूप में जोड़ना होगा।

  1. पर आयात आंकड़ा अपने डेटा रैंगलर प्रवाह का टैब चुनें डेटा स्रोत जोड़ें.
  2. ड्रॉप-डाउन मेनू पर, चुनें डेटाब्रिक्स (जेडीबीसी).
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

पर डेटाब्रिक्स से डेटा आयात करें पेज, आप अपना क्लस्टर विवरण दर्ज करें।

  1. के लिए दातासेट नाम, वह नाम दर्ज करें जिसे आप प्रवाह फ़ाइल में उपयोग करना चाहते हैं।
  2. के लिए चालक, ड्राइवर चुनें com.simba.spark.jdbc.Driver.
  3. के लिए जेडीबीसी यूआरएल, पहले प्राप्त अपने डेटाब्रिक्स क्लस्टर का यूआरएल दर्ज करें।

यूआरएल निम्न प्रारूप जैसा होना चाहिए jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

  1. SQL क्वेरी संपादक में, निम्नलिखित SQL SELECT कथन निर्दिष्ट करें:
    select * from loans_1

यदि आपने डेटाब्रिक्स पर डेटा अपलोड करते समय एक अलग तालिका नाम चुना है, तो उपरोक्त SQL क्वेरी में ऋण_1 को तदनुसार बदलें।

में SQL क्वेरी डेटा रैंगलर में अनुभाग, आप जेडीबीसी डेटाब्रिक्स डेटाबेस से जुड़ी किसी भी तालिका से पूछताछ कर सकते हैं। पूर्व चयनित नमूनाकरण सक्षम करें सेटिंग आपके डेटासेट की पहली 50,000 पंक्तियों को डिफ़ॉल्ट रूप से पुनर्प्राप्त करती है। डेटासेट के आकार के आधार पर, अचयनित करना नमूनाकरण सक्षम करें परिणामस्वरूप आयात में अधिक समय लग सकता है।

  1. चुनें रन.

क्वेरी चलाने से सीधे डेटा रैंगलर में आपके डेटाब्रिक्स डेटासेट का पूर्वावलोकन मिलता है।
अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

  1. चुनें आयात.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

डेटा रैंगलर आवश्यकता पड़ने पर एक डेटाब्रिक्स क्लस्टर या एकाधिक क्लस्टर में एकाधिक समवर्ती कनेक्शन स्थापित करने की सुविधा प्रदान करता है, जिससे संयुक्त डेटासेट पर विश्लेषण और तैयारी सक्षम हो जाती है।

Amazon S3 से डेटा रैंगलर में डेटा आयात करें

अगला, आइए आयात करें loan_2.csv अमेज़ॅन S3 से फ़ाइल।

  1. आयात टैब पर, चुनें अमेज़न S3 डेटा स्रोत के रूप में।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.
  2. के लिए S3 बकेट पर नेविगेट करें loan_2.csv फ़ाइल.

जब आप CSV फ़ाइल चुनते हैं, तो आप डेटा का पूर्वावलोकन कर सकते हैं।

  1. में विवरण फलक, चुनें उन्नत विन्यास सुनिश्चित करना नमूनाकरण सक्षम करें चुना गया है और अनुच्छेद के लिए चुना गया है सीमान्तक.
  2. चुनें आयात.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

के बाद loans_2.csv डेटासेट सफलतापूर्वक आयात किया गया है, डेटा प्रवाह इंटरफ़ेस डेटाब्रिक्स जेडीबीसी और अमेज़ॅन एस3 डेटा स्रोतों दोनों को प्रदर्शित करता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

डेटा से जुड़ें

अब जब हमने डेटाब्रिक्स और अमेज़ॅन एस3 से डेटा आयात कर लिया है, तो आइए एक सामान्य विशिष्ट पहचानकर्ता कॉलम का उपयोग करके डेटासेट में शामिल हों।

  1. पर डेटा प्रवाह टैब, के लिए जानकारी का प्रकार, के लिए धन चिह्न चुनें loans_1.
  2. चुनें जुडें.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.
  3. चुनना loans_2.csv के रूप में फ़ाइल करें सही डाटासेट।
  4. चुनें कॉन्फ़िगर ज्वाइन मानदंड स्थापित करने के लिए।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.
  5. के लिए नाम, शामिल होने के लिए एक नाम दर्ज करें।
  6. के लिए सम्मिलित प्रकार, चुनें आंतरिक इस पोस्ट के लिए।
  7. चुनना id शामिल होने के लिए कॉलम.
  8. चुनें लागू करें सम्मिलित डेटासेट का पूर्वावलोकन करने के लिए।
  9. चुनें इसे डेटा प्रवाह में जोड़ने के लिए।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

परिवर्तन लागू करें

डेटा रैंगलर 300 से अधिक अंतर्निहित परिवर्तनों के साथ आता है, जिनके लिए किसी कोडिंग की आवश्यकता नहीं होती है। आइए डेटासेट तैयार करने के लिए अंतर्निहित ट्रांसफ़ॉर्म का उपयोग करें।

स्तंभ छोड़ें

सबसे पहले हम अनावश्यक आईडी कॉलम को हटा देते हैं।

  1. जुड़े हुए नोड पर, प्लस चिह्न चुनें।
  2. चुनें परिवर्तन जोड़ें.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.
  3. के अंतर्गत परिवर्तन, चुनें + चरण जोड़ें.
  4. चुनें कॉलम प्रबंधित करें.
  5. के लिए बदालना, चुनें स्तंभ छोड़ें.
  6. के लिए छोड़ने के लिए कॉलम, कॉलम चुनें id_0.
  7. चुनें पूर्वावलोकन.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.
  8. चुनें .

प्रारूप स्ट्रिंग

आइए प्रतिशत चिह्न को हटाने के लिए स्ट्रिंग फ़ॉर्मेटिंग लागू करें int_rate और revol_util कॉलम।

  1. पर जानकारी टैब, के तहत रूपांतरण, चुनें + चरण जोड़ें.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.
  2. चुनें प्रारूप स्ट्रिंग.
  3. के लिए बदालना, चुनें दाईं ओर से अक्षर अलग करें.

डेटा रैंगलर आपको अपने चुने हुए परिवर्तन को एक साथ कई कॉलमों पर लागू करने की अनुमति देता है।

  1. के लिए इनपुट कॉलम, चुनें int_rate और revol_util.
  2. के लिए हटाने योग्य अक्षर, दर्ज %.
  3. चुनें पूर्वावलोकन.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.
  4. चुनें .

पाठ को विशेषीकृत करें

आइए अब सदिशीकरण करें verification_status, एक टेक्स्ट फीचर कॉलम। जैसा कि नीचे बताया गया है, हम काउंट वेक्टराइज़र और एक मानक टोकनाइज़र लागू करके टेक्स्ट कॉलम को टर्म फ़्रीक्वेंसी-इनवर्स दस्तावेज़ फ़्रीक्वेंसी (टीएफ-आईडीएफ) वैक्टर में परिवर्तित करते हैं। यदि वांछित हो तो डेटा रैंगलर अपना स्वयं का टोकननाइज़र लाने का विकल्प भी प्रदान करता है।

  1. के अंतर्गत ट्रान्सफ़ॉर्मर, चुनें + चरण जोड़ें.
  2. चुनें पाठ को विशेषीकृत करें.
  3. के लिए बदालना, चुनें वेक्टर करना.
  4. के लिए इनपुट कॉलम, चुनें verification_status.
  5. चुनें पूर्वावलोकन.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.
  6. चुनें .

डेटासेट निर्यात करें

टेक्स्ट, श्रेणीबद्ध और संख्यात्मक सहित विभिन्न कॉलम प्रकारों पर कई परिवर्तन लागू करने के बाद, हम एमएल मॉडल प्रशिक्षण के लिए रूपांतरित डेटासेट का उपयोग करने के लिए तैयार हैं। अंतिम चरण रूपांतरित डेटासेट को Amazon S3 में निर्यात करना है। डेटा रैंगलर में, आपके पास परिवर्तनों की डाउनस्ट्रीम खपत के लिए चुनने के लिए कई विकल्प हैं:

इस पोस्ट में, हम इसका लाभ उठाते हैं निर्यात जानकारी में विकल्प बदालना रूपांतरित डेटासेट को सीधे Amazon S3 पर निर्यात करने के लिए देखें।

  1. चुनें निर्यात जानकारी.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.
  2. के लिए S3 स्थान, चुनें ब्राउज और अपनी S3 बाल्टी चुनें।
  3. चुनें निर्यात जानकारी.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.

क्लीन अप

अगर डेटा रैंगलर के साथ आपका काम पूरा हो गया है, अपना डेटा रैंगलर इंस्टेंस बंद करें अतिरिक्त शुल्क लेने से बचने के लिए।

निष्कर्ष

इस पोस्ट में, हमने कवर किया है कि आप डेटाब्रिक्स को डेटा रैंगलर में डेटा स्रोत के रूप में कैसे जल्दी और आसानी से सेट और कनेक्ट कर सकते हैं, SQL का उपयोग करके डेटाब्रिक्स में संग्रहीत डेटा को इंटरैक्टिव रूप से क्वेरी कर सकते हैं, और आयात करने से पहले डेटा का पूर्वावलोकन कर सकते हैं। इसके अतिरिक्त, हमने देखा कि आप डेटाब्रिक्स में अपने डेटा को Amazon S3 में संग्रहीत डेटा के साथ कैसे जोड़ सकते हैं। फिर हमने डेटा तैयारी पाइपलाइन बनाने के लिए संयुक्त डेटासेट पर डेटा परिवर्तन लागू किया। लक्ष्य रिसाव और पूर्वाग्रह रिपोर्ट निर्माण सहित अधिक डेटा रैंगलर की विश्लेषण क्षमताओं का पता लगाने के लिए, निम्नलिखित ब्लॉग पोस्ट देखें मधुमेह रोगी के पुन: प्रवेश की भविष्यवाणी के लिए अमेज़ॅन सेजमेकर डेटा रैंगलर का उपयोग करके डेटा तैयारी में तेजी लाएं.

डेटा रैंगलर के साथ आरंभ करने के लिए, देखें अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें, और डेटा रैंगलर पर नवीनतम जानकारी देखें उत्पाद पृष्ठ.


लेखक के बारे में

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.रूप बैंस एआई/एमएल पर ध्यान केंद्रित करते हुए एडब्ल्यूएस में एक समाधान वास्तुकार है। वह आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग का उपयोग करके ग्राहकों को नवाचार करने और उनके व्यावसायिक उद्देश्यों को प्राप्त करने में मदद करने के लिए भावुक है। अपने खाली समय में रूप को पढ़ना और लंबी पैदल यात्रा करना पसंद है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.इगोर अलेक्सेव डेटा और एनालिटिक्स में AWS में पार्टनर सॉल्यूशन आर्किटेक्ट हैं। इगोर रणनीतिक भागीदारों के साथ काम करता है जिससे उन्हें जटिल, एडब्ल्यूएस-अनुकूलित आर्किटेक्चर बनाने में मदद मिलती है। AWS में शामिल होने से पहले, एक डेटा/समाधान आर्किटेक्ट के रूप में, उन्होंने Hadoop पारिस्थितिकी तंत्र में कई डेटा झीलों सहित बिग डेटा में कई परियोजनाओं को लागू किया। डेटा इंजीनियर के रूप में, वह धोखाधड़ी का पता लगाने और कार्यालय स्वचालन के लिए AI/ML को लागू करने में शामिल था। इगोर की परियोजनाएं संचार, वित्त, सार्वजनिक सुरक्षा, विनिर्माण और स्वास्थ्य देखभाल सहित विभिन्न उद्योगों में थीं। इससे पहले, इगोर ने फुल स्टैक इंजीनियर/टेक लीड के रूप में काम किया था।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.हुआंग गुयेन AWS में सीनियर प्रोडक्ट मैनेजर है। वह SageMaker Studio के लिए उपयोगकर्ता अनुभव का नेतृत्व कर रहा है। उसे एंटरप्राइज और कंज्यूमर स्पेस दोनों के लिए ग्राहक-प्रेरित और डेटा-संचालित उत्पाद बनाने का 13 साल का अनुभव है। अपने खाली समय में, उसे पढ़ना, प्रकृति में रहना और अपने परिवार के साथ समय बिताना अच्छा लगता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके मशीन लर्निंग के लिए डेटाब्रिक्स से डेटा तैयार करें। लंबवत खोज. ऐ.हेनरी वांग AWS में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह हाल ही में यूसी डेविस से स्नातक होने के बाद डेटा रैंगलर टीम में शामिल हुए। उन्हें डेटा साइंस और मशीन लर्निंग में रुचि है और वह शौक के तौर पर 3डी प्रिंटिंग करते हैं।

समय टिकट:

से अधिक AWS मशीन लर्निंग

पहचान दस्तावेजों पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर

स्रोत नोड: 1587681
समय टिकट: जुलाई 8, 2022