NLTK और SciPy का उपयोग करके Amazon SageMaker Data Wrangler में कस्टम परिवर्तनों को संलेखित करना

NLTK और SciPy का उपयोग करके Amazon SageMaker Data Wrangler में कस्टम परिवर्तनों को संलेखित करना

"कोड पर ध्यान केंद्रित करने के बजाय, कंपनियों को विश्वसनीय, कुशल और व्यवस्थित तरीके से डेटा में सुधार के लिए व्यवस्थित इंजीनियरिंग प्रथाओं को विकसित करने पर ध्यान देना चाहिए। दूसरे शब्दों में, कंपनियों को मॉडल-केंद्रित दृष्टिकोण से डेटा-केंद्रित दृष्टिकोण की ओर बढ़ने की आवश्यकता है।" — एंड्रयू एनजी

डेटा-केंद्रित एआई दृष्टिकोण में डेटा तैयार करने और फीचर इंजीनियरिंग से जुड़े गुणवत्ता वाले डेटा के साथ एआई सिस्टम का निर्माण शामिल है। यह डेटा संग्रह, खोज, प्रोफाइलिंग, सफाई, संरचना, रूपांतरण, समृद्ध, मान्य करने और डेटा को सुरक्षित रूप से संग्रहीत करने वाला एक कठिन कार्य हो सकता है।

अमेज़न SageMaker डेटा रैंगलर में एक सेवा है अमेज़ॅन सैजमेकर स्टूडियो जो कम से कम कोडिंग का उपयोग करके डेटा को आयात करने, तैयार करने, रूपांतरित करने, फीचर करने और विश्लेषण करने के लिए एंड-टू-एंड समाधान प्रदान करता है। आप डेटा प्रीप्रोसेसिंग और फीचर इंजीनियरिंग को आसान बनाने के लिए डेटा रैंगलर डेटा तैयारी प्रवाह को अपने मशीन लर्निंग (एमएल) वर्कफ़्लो में एकीकृत कर सकते हैं, डेटा तैयार करने के लिए PySpark कोड लेखक की आवश्यकता के बिना तेज़ी से उत्पादन कर सकते हैं, Apache Spark स्थापित कर सकते हैं, या क्लस्टर्स को स्पिन कर सकते हैं।

ऐसे परिदृश्यों के लिए जहां आपको डेटा परिवर्तन के लिए अपनी स्वयं की कस्टम स्क्रिप्ट जोड़ने की आवश्यकता होती है, आप अपने परिवर्तन तर्क को पांडा, पायस्पार्क, पायस्पार्क एसक्यूएल में लिख सकते हैं। डेटा रैंगलर अब ML के लिए टेक्स्ट डेटा तैयार करने और कंस्ट्रेंट ऑप्टिमाइज़ेशन करने के लिए कस्टम ट्रांसफ़ॉर्मेशन लिखने के लिए NLTK और SciPy लाइब्रेरी का समर्थन करता है।

आप ऐसे परिदृश्यों में भाग सकते हैं जहाँ आपको डेटा परिवर्तन के लिए अपनी स्वयं की कस्टम स्क्रिप्ट जोड़नी होगी। डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म क्षमता के साथ, आप अपने परिवर्तन तर्क को पांडा, पायस्पार्क, पायस्पार्क एसक्यूएल में लिख सकते हैं।

इस पोस्ट में, हम चर्चा करते हैं कि आप एमएल के लिए टेक्स्ट डेटा तैयार करने के लिए एनएलटीके में अपना कस्टम परिवर्तन कैसे लिख सकते हैं। हम अन्य सामान्य ढाँचों जैसे NLTK, NumPy, SciPy, और scikit-learn के साथ-साथ AWS AI सेवाओं का उपयोग करके कुछ उदाहरण कस्टम कोड ट्रांसफ़ॉर्म भी साझा करेंगे। इस अभ्यास के प्रयोजन के लिए, हम उपयोग करते हैं टाइटैनिक डेटासेटएमएल समुदाय में एक लोकप्रिय डेटासेट, जिसे अब एक के रूप में जोड़ा गया है नमूना डेटासेट डेटा रैंगलर के भीतर।

समाधान अवलोकन

डेटा रैंगलर डेटा आयात करने के लिए 40 से अधिक बिल्ट-इन कनेक्टर प्रदान करता है। डेटा आयात करने के बाद, आप 300 से अधिक बिल्ट-इन ट्रांसफ़ॉर्मेशन का उपयोग करके अपना डेटा विश्लेषण और ट्रांसफ़ॉर्मेशन बना सकते हैं। फिर आप सुविधाओं को आगे बढ़ाने के लिए औद्योगिक पाइपलाइनें तैयार कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3) या अमेज़न SageMaker फ़ीचर स्टोर. निम्नलिखित आरेख एंड-टू-एंड उच्च-स्तरीय वास्तुकला दिखाता है।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

.. पूर्वापेक्षाएँ

डेटा रैंगलर एक सेजमेकर सुविधा है जो इसके भीतर उपलब्ध है अमेज़ॅन सैजमेकर स्टूडियो. आप अनुसरण कर सकते हैं स्टूडियो ऑनबोर्डिंग प्रक्रिया स्टूडियो वातावरण और नोटबुक्स को स्पिन करने के लिए। हालांकि आप कुछ प्रमाणीकरण विधियों में से चुन सकते हैं, स्टूडियो डोमेन बनाने का सबसे आसान तरीका निम्न का पालन करना है त्वरित निर्देश. त्वरित प्रारंभ मानक स्टूडियो सेटअप के समान डिफ़ॉल्ट सेटिंग्स का उपयोग करता है। आप ऑनबोर्ड का उपयोग करके भी चुन सकते हैं एडब्ल्यूएस आईएएम पहचान केंद्र (एडब्ल्यूएस सिंगल साइन-ऑन के उत्तराधिकारी) प्रमाणीकरण के लिए (देखें IAM पहचान केंद्र का उपयोग करके Amazon SageMaker डोमेन पर ऑनबोर्ड).

टाइटैनिक डेटासेट आयात करें

अपना स्टूडियो वातावरण प्रारंभ करें और एक नया बनाएँ डेटा रैंगलर प्रवाह. आप या तो अपने स्वयं के डेटासेट आयात कर सकते हैं या एक नमूना डेटासेट (टाइटैनिक) का उपयोग कर सकते हैं जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है। डेटा रैंगलर आपको विभिन्न डेटा स्रोतों से डेटासेट आयात करने की अनुमति देता है। हमारे उपयोग के मामले में, हम S3 बकेट से नमूना डेटासेट आयात करते हैं।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

एक बार आयात हो जाने के बाद, आप डेटा प्रवाह में दो नोड (स्रोत नोड और डेटा प्रकार नोड) देखेंगे। डेटा रैंगलर स्वचालित रूप से डेटासेट में सभी कॉलम के लिए डेटा प्रकार की पहचान करता है।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

एनएलटीके के साथ कस्टम परिवर्तन

डेटा रैंगलर के साथ डेटा तैयार करने और फीचर इंजीनियरिंग के लिए, आप 300 से अधिक बिल्ट-इन ट्रांसफॉर्मेशन का उपयोग कर सकते हैं या अपने स्वयं के कस्टम ट्रांसफॉर्मेशन का निर्माण कर सकते हैं। कस्टम परिवर्तन डेटा रैंगलर के भीतर अलग-अलग चरणों के रूप में लिखा जा सकता है। वे डेटा रैंगलर के भीतर .flow फ़ाइल का हिस्सा बन जाते हैं। कस्टम ट्रांस्फ़ॉर्म फीचर कोड स्निपेट्स में विभिन्न चरणों के रूप में पायथन, पायस्पार्क और एसक्यूएल का समर्थन करता है। .flow फ़ाइल से नोटबुक फ़ाइलें (.ipynb) उत्पन्न होने के बाद या .flow फ़ाइल को व्यंजनों के रूप में उपयोग किया जाता है, कस्टम ट्रांसफ़ॉर्म कोड स्निपेट बिना किसी बदलाव की आवश्यकता के बने रहते हैं। डेटा रैंगलर का यह डिज़ाइन कस्टम ट्रांसफ़ॉर्मेशन को कस्टम ट्रांसफ़ॉर्मेशन के साथ बड़े डेटासेट को प्रोसेस करने के लिए SageMaker प्रोसेसिंग जॉब का हिस्सा बनने की अनुमति देता है।

टाइटैनिक डेटासेट में कुछ विशेषताएं (नाम और home.dest) हैं जिनमें टेक्स्ट जानकारी होती है। हम उपयोग करते हैं एनएलटीके नाम कॉलम को विभाजित करने और अंतिम नाम निकालने के लिए, और अंतिम नामों की आवृत्ति को प्रिंट करने के लिए। एनएलटीके मानव भाषा डेटा के साथ काम करने के लिए पायथन प्रोग्राम बनाने का एक प्रमुख मंच है। यह उपयोग में आसान इंटरफेस प्रदान करता है 50 से अधिक कॉर्पोरा और लेक्सिकल संसाधन जैसे वर्डनेट, वर्गीकरण, टोकननाइजेशन, स्टेमिंग, टैगिंग, पार्सिंग और सिमेंटिक रीजनिंग के लिए टेक्स्ट प्रोसेसिंग लाइब्रेरी के सूट के साथ-साथ इंडस्ट्रियल-स्ट्रेंथ नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) लाइब्रेरी के लिए रैपर।

नया परिवर्तन जोड़ने के लिए, निम्न चरणों को पूरा करें:

  1. धन चिह्न चुनें और चुनें परिवर्तन जोड़ें.
  2. चुनें स्टेप जोड़ें और चुनें कस्टम परिवर्तन.

आप पंडों, पायस्पार्क, पायथन यूजर-डिफ़ाइंड फ़ंक्शंस और एसक्यूएल पायस्पार्क का उपयोग करके एक कस्टम परिवर्तन बना सकते हैं।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

  1. चुनें अजगर (पंडों) और नाम कॉलम से अंतिम नाम निकालने के लिए निम्न कोड जोड़ें:
    import nltk
    nltk.download('punkt')
    tokens = [nltk.word_tokenize(name) for name in df['Name']] # Extract the last names of the passengers
    df['last_name'] = [token[0] for token in tokens]

  2. चुनें पूर्वावलोकन परिणामों की समीक्षा करने के लिए।

निम्न स्क्रीनशॉट दिखाता है last_name स्तंभ निकाला गया।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

  1. निम्नलिखित कोड का उपयोग करते हुए, अंतिम नामों के आवृत्ति वितरण की पहचान करने के लिए एक अन्य कस्टम परिवर्तन चरण जोड़ें:
    import nltk
    fd = nltk.FreqDist(df["last_name"])
    print(fd.most_common(10))

  2. चुनें पूर्वावलोकन आवृत्ति के परिणामों की समीक्षा करने के लिए।एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

AWS AI सेवाओं के साथ कस्टम परिवर्तन

AWS पूर्व-प्रशिक्षित AI सेवाएँ आपके अनुप्रयोगों और कार्यप्रवाहों के लिए रेडी-मेड इंटेलिजेंस प्रदान करती हैं। कई सामान्य उपयोग मामलों को संबोधित करने के लिए AWS AI सेवाएं आसानी से आपके एप्लिकेशन के साथ एकीकृत हो जाती हैं। अब आप डेटा रैंगलर में कस्टम ट्रांसफ़ॉर्म चरण के रूप में AWS AI सेवाओं की क्षमताओं का उपयोग कर सकते हैं।

Amazon Comprehend दस्तावेजों की सामग्री के बारे में अंतर्दृष्टि निकालने के लिए एनएलपी का उपयोग करता है। यह एक दस्तावेज़ में संस्थाओं, प्रमुख वाक्यांशों, भाषा, भावनाओं और अन्य सामान्य तत्वों को पहचान कर अंतर्दृष्टि विकसित करता है।

हम नाम कॉलम से संस्थाओं को निकालने के लिए Amazon Comprehend का उपयोग करते हैं। निम्नलिखित चरणों को पूरा करें:

  1. एक कस्टम परिवर्तन कदम जोड़ें।
  2. चुनें अजगर (पंडों).
  3. संस्थाओं को निकालने के लिए निम्नलिखित कोड दर्ज करें:
    import boto3
    comprehend = boto3.client("comprehend") response = comprehend.detect_entities(LanguageCode = 'en', Text = df['name'].iloc[0]) for entity in response['Entities']:
    print(entity['Type'] + ":" + entity["Text"])

  4. चुनें पूर्वावलोकन और परिणामों की कल्पना करें।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

हमने अब डेटा रैंगलर में तीन कस्टम रूपांतरण जोड़े हैं।

  1. चुनें डाटा प्रवाह एंड-टू-एंड डेटा प्रवाह की कल्पना करने के लिए।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

NumPy और SciPy के साथ कस्टम परिवर्तन

Numpy व्यापक गणितीय कार्यों, यादृच्छिक संख्या जनरेटर, रैखिक बीजगणित दिनचर्या, फूरियर रूपांतरण, और बहुत कुछ प्रदान करने वाले पायथन के लिए एक ओपन-सोर्स लाइब्रेरी है। SciPy वैज्ञानिक कंप्यूटिंग और तकनीकी कंप्यूटिंग के लिए उपयोग किया जाने वाला एक ओपन-सोर्स पायथन लाइब्रेरी है, जिसमें अनुकूलन, रैखिक बीजगणित, एकीकरण, प्रक्षेप, विशेष कार्य, फास्ट फूरियर ट्रांसफॉर्म (FFT), सिग्नल और इमेज प्रोसेसिंग, सॉल्वर, और बहुत कुछ शामिल हैं।

डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म आपको Python, PySpark और SQL को अलग-अलग चरणों के रूप में संयोजित करने की अनुमति देता है। निम्नलिखित डेटा रैंगलर प्रवाह में, टाइटैनिक डेटासेट पर पायथन पैकेज, NumPy और SciPy के विभिन्न कार्यों को कई चरणों के रूप में लागू किया जाता है।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

NumPy परिवर्तन

टाइटैनिक डेटासेट के किराया कॉलम में विभिन्न यात्रियों के बोर्डिंग किराए हैं। अंतिम बिन को छोड़कर, किराया कॉलम का हिस्टोग्राम समान वितरण दिखाता है। लॉग या वर्गमूल जैसे NumPy परिवर्तनों को लागू करके, हम वितरण को बदल सकते हैं (जैसा कि वर्गमूल परिवर्तन द्वारा दिखाया गया है)।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ. एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

निम्नलिखित कोड देखें:

import pandas as pd
import numpy as np
df["fare_log"] = np.log(df["fare_interpolate"])
df["fare_sqrt"] = np.sqrt(df["fare_interpolate"])
df["fare_cbrt"] = np.cbrt(df["fare_interpolate"])

SciPy परिवर्तन

माध्य और मानक विचलन के साथ किराया वितरण को मानकीकृत करने के लिए कस्टम परिवर्तन के हिस्से के रूप में जेड-स्कोर जैसे SciPy फ़ंक्शंस लागू किए जाते हैं।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

निम्नलिखित कोड देखें:

df["fare_zscore"] = zscore(df["fare_interpolate"])
from scipy.stats import zscore

NumPy और SciPy के साथ कंस्ट्रेंट ऑप्टिमाइज़ेशन

डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म उन्नत ट्रांसफ़ॉर्मेशन को संभाल सकता है जैसे कि SciPy ऑप्टिमाइज़ फ़ंक्शंस को लागू करने और NumPy के साथ SciPy को संयोजित करने के लिए बाधा अनुकूलन। निम्नलिखित उदाहरण में, आयु के फलन के रूप में किराया कोई प्रत्यक्ष रुझान नहीं दिखाता है। हालाँकि, बाधा अनुकूलन उम्र के कार्य के रूप में किराया बदल सकता है। इस मामले में बाधा शर्त यह है कि नया कुल किराया पुराने कुल किराए के समान ही रहता है। डेटा रैंगलर कस्टम ट्रांस्फ़ॉर्म आपको इष्टतम गुणांक निर्धारित करने के लिए SciPy ऑप्टिमाइज़ फ़ंक्शन चलाने की अनुमति देता है जो बाधा स्थितियों के तहत किराए को उम्र के फ़ंक्शन के रूप में बदल सकता है।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ. एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

SciPy और NumPy का उपयोग करके डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म में बाधा अनुकूलन तैयार करते समय अनुकूलन परिभाषा, उद्देश्य परिभाषा और कई बाधाओं का उल्लेख विभिन्न कार्यों के रूप में किया जा सकता है। कस्टम ट्रांस्फ़ॉर्म विभिन्न सॉल्वर विधियाँ भी ला सकते हैं जो SciPy ऑप्टिमाइज़ पैकेज के भाग के रूप में उपलब्ध हैं। मूल कॉलम के साथ इष्टतम गुणांक को गुणा करके और डेटा रैंगलर के मौजूदा कॉलम में जोड़कर एक नया रूपांतरित चर उत्पन्न किया जा सकता है। निम्न कोड देखें:

import numpy as np
import scipy.optimize as opt
import pandas as pd df2 = pd.DataFrame({"Y":df["fare_interpolate"], "X1":df["age_interpolate"]}) # optimization defination
def main(df2):
x0 = [0.1]
res = opt.minimize(fun=obj, x0=x0, args=(df2), method="SLSQP", bounds=[(0,50)], constraints=cons)
return res # objective function
def obj(x0, df2):
sumSquares = np.sum(df2["Y"] - x0*df2["X1"])
return sumSquares # constraints
def constraint1(x0):
sum_cons1 = np.sum(df2["Y"] - x0*df2["X1"]) - 0
return sum_cons1
con1 = {'type': 'eq', 'fun': constraint1}
cons = ([con1]) print(main(df2)) df["new_fare_age_optimized"]=main(df2).x*df2["X1"]

डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म फ़ीचर में SciPy ऑप्टिमाइज़ फ़ंक्शंस के परिणाम दिखाने के लिए UI क्षमता है, जैसे इष्टतम गुणांक (या एकाधिक गुणांक) का मान।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

स्किकिट-लर्न के साथ कस्टम रूपांतरण

scikit सीखने SciPy के शीर्ष पर निर्मित मशीन लर्निंग के लिए एक पायथन मॉड्यूल है। यह एक ओपन-सोर्स एमएल लाइब्रेरी है जो पर्यवेक्षित और अनुपयोगी शिक्षा का समर्थन करती है। यह मॉडल फिटिंग, डेटा प्रीप्रोसेसिंग, मॉडल चयन, मॉडल मूल्यांकन और कई अन्य उपयोगिताओं के लिए विभिन्न उपकरण भी प्रदान करता है।

विवेक

विवेक (अन्यथा के रूप में जाना जाता है परिमाणीकरण or द्विज) असतत मूल्यों में निरंतर सुविधाओं को विभाजित करने का एक तरीका प्रदान करता है। निरंतर सुविधाओं वाले कुछ डेटासेट विवेकीकरण से लाभान्वित हो सकते हैं, क्योंकि विवेक केवल नाममात्र विशेषताओं वाले निरंतर विशेषताओं के डेटासेट को बदल सकता है। व्याख्यात्मकता को बनाए रखते हुए, एक-हॉट एन्कोडेड विखंडित विशेषताएं एक मॉडल को अधिक अभिव्यंजक बना सकती हैं। उदाहरण के लिए, डिस्क्रीटाइज़र के साथ प्रीप्रोसेसिंग रैखिक मॉडल के लिए गैर-रेखीयता का परिचय दे सकता है।

निम्नलिखित कोड में, हम उपयोग करते हैं KBinsDiscretizer आयु कॉलम को 10 डिब्बे में विभाजित करने के लिए:

# Table is available as variable `df`
from sklearn.preprocessing import KBinsDiscretizer
import numpy as np
# discretization transform the raw data
df = df.dropna()
kbins = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='uniform')
ages = np.array(df["age"]).reshape(-1, 1)
df["age"] = kbins.fit_transform(ages)
print(kbins.bin_edges_)

आप निम्न स्क्रीनशॉट में बिन किनारों को प्रिंटेड देख सकते हैं।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

एक गर्म एन्कोडिंग

आरंभ किए गए कॉलम में मान श्रेणीबद्ध मान हैं। इसलिए, हमें अपने मॉडल के साथ वर्गीकरण करने के लिए इन स्ट्रिंग्स को संख्यात्मक मानों के रूप में प्रस्तुत करना होगा। हम एक-हॉट एन्कोडिंग रूपांतरण का उपयोग करके भी ऐसा कर सकते हैं।

Embarked के लिए तीन मान हैं: S, C, और Q. हम इन्हें संख्याओं के साथ दर्शाते हैं। निम्नलिखित कोड देखें:

# Table is available as variable `df`
from sklearn.preprocessing import LabelEncoder le_embarked = LabelEncoder()
le_embarked.fit(df["embarked"]) encoded_embarked_training = le_embarked.transform(df["embarked"])
df["embarked"] = encoded_embarked_training

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

क्लीन अप

जब आप डेटा रैंगलर का उपयोग नहीं कर रहे हैं, तो अतिरिक्त शुल्क से बचने के लिए उस इंस्टेंस को बंद करना महत्वपूर्ण है जिस पर वह चलता है।

डेटा रैंगलर स्वचालित रूप से प्रत्येक 60 सेकंड में आपके डेटा प्रवाह को सहेजता है। काम खोने से बचने के लिए, डेटा रैंगलर को बंद करने से पहले अपने डेटा प्रवाह को बचाएं।

  1. स्टूडियो में अपना डेटा प्रवाह सहेजने के लिए, चुनें पट्टिका, उसके बाद चुनो डेटा रैंगलर फ़्लो सहेजें.
  2. डेटा रैंगलर इंस्टेंस को बंद करने के लिए, स्टूडियो में, चुनें रनिंग इंस्टेंस और कर्नेल.
  3. के अंतर्गत ऐप्स चालू हैं, सेजमेकर-डेटा-रैंगलर-1.0 ऐप के आगे शटडाउन आइकन चुनें।
  4. चुनें सब बंद करो पुष्टि करने के लिए।

डेटा रैंगलर ml.m5.4xबड़े उदाहरण पर चलता है। यह उदाहरण गायब हो जाता है चल रहे उदाहरण जब आप डेटा रैंगलर ऐप को बंद करते हैं।

डेटा रैंगलर ऐप को बंद करने के बाद, अगली बार जब आप डेटा रैंगलर फ़्लो फ़ाइल खोलते हैं, तो उसे पुनरारंभ करना होगा। इसमें कुछ मिनट लग सकते हैं।

निष्कर्ष

इस पोस्ट में, हमने प्रदर्शित किया कि आप डेटा रैंगलर में कस्टम रूपांतरणों का उपयोग कैसे कर सकते हैं। हमने बिल्ट-इन डेटा ट्रांसफ़ॉर्मेशन क्षमताओं को बढ़ाने के लिए डेटा रैंगलर कंटेनर के भीतर लाइब्रेरी और फ्रेमवर्क का उपयोग किया। इस पोस्ट के उदाहरण उपयोग किए गए ढांचे के सबसेट का प्रतिनिधित्व करते हैं। डेटा रैंगलर प्रवाह में परिवर्तनों को अब DataOps के लिए पाइपलाइन में बढ़ाया जा सकता है।

डेटा रैंगलर के साथ डेटा प्रवाह का उपयोग करने के बारे में अधिक जानने के लिए, देखें डेटा रैंगलर फ़्लो बनाएँ और उपयोग करें और अमेज़न SageMaker मूल्य निर्धारण. डेटा रैंगलर के साथ आरंभ करने के लिए, देखें अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें. सेजमेकर पर ऑटोपायलट और ऑटोएमएल के बारे में अधिक जानने के लिए, पर जाएँ Amazon SageMaker Autopilot के साथ स्वचालित मॉडल विकास.


लेखक के बारे में

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.मीनाक्षीसुंदरम थंडावरायण एडब्ल्यूएस के साथ एक वरिष्ठ एआई/एमएल विशेषज्ञ हैं। वह उनकी AI और ML यात्रा में हाई-टेक रणनीतिक खातों की मदद करता है। वह डेटा-संचालित एआई के बारे में बहुत भावुक है।

 एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.सोविक कुमार नाथ AWS के साथ AI/ML समाधान वास्तुकार है। उनके पास मशीन लर्निंग के लिए एंड-टू-एंड डिज़ाइन और समाधान का व्यापक अनुभव है; वित्तीय, परिचालन और विपणन विश्लेषिकी के भीतर व्यापार विश्लेषण; स्वास्थ्य देखभाल; आपूर्ति श्रृंखला; और आईओटी। काम के बाहर, सोविक को यात्रा करना और फिल्में देखना पसंद है।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.सेविका Amazon SageMaker में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह ग्राहकों को डेटा रैंगलर में अपना डेटा तैयार करने और वितरित मशीन लर्निंग सिस्टम बनाने में मदद करने के बारे में भावुक है। अपने खाली समय में, अबीगैल को यात्रा करना, लंबी पैदल यात्रा करना, स्कीइंग और बेकिंग करना पसंद है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

कैसे स्पोर्टराडार ने प्रदर्शन और दक्षता बढ़ाने के लिए प्रोडक्शन-स्केल एमएल प्लेटफॉर्म बनाने के लिए डीप जावा लाइब्रेरी का इस्तेमाल किया

स्रोत नोड: 1827320
समय टिकट: अप्रैल 19, 2023

सेजमेकर कैनवस मॉडल लीडरबोर्ड | का उपयोग करके उन्नत कॉन्फ़िगरेशन के साथ मशीन लर्निंग मॉडल बनाएं और उनका मूल्यांकन करें अमेज़न वेब सेवाएँ

स्रोत नोड: 1920800
समय टिकट: नवम्बर 30, 2023