NLTK और SciPy का उपयोग करके Amazon SageMaker डेटा रैंगलर में कस्टम ट्रांसफ़ॉर्मेशन लिखना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

"कोड पर ध्यान केंद्रित करने के बजाय, कंपनियों को विश्वसनीय, कुशल और व्यवस्थित तरीके से डेटा में सुधार के लिए व्यवस्थित इंजीनियरिंग प्रथाओं को विकसित करने पर ध्यान देना चाहिए। दूसरे शब्दों में, कंपनियों को मॉडल-केंद्रित दृष्टिकोण से डेटा-केंद्रित दृष्टिकोण की ओर बढ़ने की आवश्यकता है।" — एंड्रयू एनजी

डेटा-केंद्रित एआई दृष्टिकोण में डेटा तैयार करने और फीचर इंजीनियरिंग से जुड़े गुणवत्ता वाले डेटा के साथ एआई सिस्टम का निर्माण शामिल है। यह डेटा संग्रह, खोज, प्रोफाइलिंग, सफाई, संरचना, रूपांतरण, समृद्ध, मान्य करने और डेटा को सुरक्षित रूप से संग्रहीत करने वाला एक कठिन कार्य हो सकता है।

अमेज़न SageMaker डेटा रैंगलर में एक सेवा है अमेज़ॅन सैजमेकर स्टूडियो जो कम से कम कोडिंग का उपयोग करके डेटा को आयात करने, तैयार करने, रूपांतरित करने, फीचर करने और विश्लेषण करने के लिए एंड-टू-एंड समाधान प्रदान करता है। आप डेटा प्रीप्रोसेसिंग और फीचर इंजीनियरिंग को आसान बनाने के लिए डेटा रैंगलर डेटा तैयारी प्रवाह को अपने मशीन लर्निंग (एमएल) वर्कफ़्लो में एकीकृत कर सकते हैं, डेटा तैयार करने के लिए PySpark कोड लेखक की आवश्यकता के बिना तेज़ी से उत्पादन कर सकते हैं, Apache Spark स्थापित कर सकते हैं, या क्लस्टर्स को स्पिन कर सकते हैं।

ऐसे परिदृश्यों के लिए जहां आपको डेटा परिवर्तन के लिए अपनी स्वयं की कस्टम स्क्रिप्ट जोड़ने की आवश्यकता होती है, आप अपने परिवर्तन तर्क को पांडा, पायस्पार्क, पायस्पार्क एसक्यूएल में लिख सकते हैं। डेटा रैंगलर अब ML के लिए टेक्स्ट डेटा तैयार करने और कंस्ट्रेंट ऑप्टिमाइज़ेशन करने के लिए कस्टम ट्रांसफ़ॉर्मेशन लिखने के लिए NLTK और SciPy लाइब्रेरी का समर्थन करता है।

आप ऐसे परिदृश्यों में भाग सकते हैं जहाँ आपको डेटा परिवर्तन के लिए अपनी स्वयं की कस्टम स्क्रिप्ट जोड़नी होगी। डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म क्षमता के साथ, आप अपने परिवर्तन तर्क को पांडा, पायस्पार्क, पायस्पार्क एसक्यूएल में लिख सकते हैं।

इस पोस्ट में, हम चर्चा करते हैं कि आप एमएल के लिए टेक्स्ट डेटा तैयार करने के लिए एनएलटीके में अपना कस्टम परिवर्तन कैसे लिख सकते हैं। हम अन्य सामान्य ढाँचों जैसे NLTK, NumPy, SciPy, और scikit-learn के साथ-साथ AWS AI सेवाओं का उपयोग करके कुछ उदाहरण कस्टम कोड ट्रांसफ़ॉर्म भी साझा करेंगे। इस अभ्यास के प्रयोजन के लिए, हम उपयोग करते हैं टाइटैनिक डेटासेटएमएल समुदाय में एक लोकप्रिय डेटासेट, जिसे अब एक के रूप में जोड़ा गया है नमूना डेटासेट डेटा रैंगलर के भीतर।

समाधान अवलोकन

डेटा रैंगलर डेटा आयात करने के लिए 40 से अधिक बिल्ट-इन कनेक्टर प्रदान करता है। डेटा आयात करने के बाद, आप 300 से अधिक बिल्ट-इन ट्रांसफ़ॉर्मेशन का उपयोग करके अपना डेटा विश्लेषण और ट्रांसफ़ॉर्मेशन बना सकते हैं। फिर आप सुविधाओं को आगे बढ़ाने के लिए औद्योगिक पाइपलाइनें तैयार कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3) या अमेज़न SageMaker फ़ीचर स्टोर. निम्नलिखित आरेख एंड-टू-एंड उच्च-स्तरीय वास्तुकला दिखाता है।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

.. पूर्वापेक्षाएँ

डेटा रैंगलर एक सेजमेकर सुविधा है जो इसके भीतर उपलब्ध है अमेज़ॅन सैजमेकर स्टूडियो. आप अनुसरण कर सकते हैं स्टूडियो ऑनबोर्डिंग प्रक्रिया स्टूडियो वातावरण और नोटबुक्स को स्पिन करने के लिए। हालांकि आप कुछ प्रमाणीकरण विधियों में से चुन सकते हैं, स्टूडियो डोमेन बनाने का सबसे आसान तरीका निम्न का पालन करना है त्वरित निर्देश. त्वरित प्रारंभ मानक स्टूडियो सेटअप के समान डिफ़ॉल्ट सेटिंग्स का उपयोग करता है। आप ऑनबोर्ड का उपयोग करके भी चुन सकते हैं एडब्ल्यूएस आईएएम पहचान केंद्र (एडब्ल्यूएस सिंगल साइन-ऑन के उत्तराधिकारी) प्रमाणीकरण के लिए (देखें IAM पहचान केंद्र का उपयोग करके Amazon SageMaker डोमेन पर ऑनबोर्ड).

टाइटैनिक डेटासेट आयात करें

अपना स्टूडियो वातावरण प्रारंभ करें और एक नया बनाएँ डेटा रैंगलर प्रवाह. आप या तो अपने स्वयं के डेटासेट आयात कर सकते हैं या एक नमूना डेटासेट (टाइटैनिक) का उपयोग कर सकते हैं जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है। डेटा रैंगलर आपको विभिन्न डेटा स्रोतों से डेटासेट आयात करने की अनुमति देता है। हमारे उपयोग के मामले में, हम S3 बकेट से नमूना डेटासेट आयात करते हैं।

एक बार आयात हो जाने के बाद, आप डेटा प्रवाह में दो नोड (स्रोत नोड और डेटा प्रकार नोड) देखेंगे। डेटा रैंगलर स्वचालित रूप से डेटासेट में सभी कॉलम के लिए डेटा प्रकार की पहचान करता है।

एनएलटीके के साथ कस्टम परिवर्तन

डेटा रैंगलर के साथ डेटा तैयार करने और फीचर इंजीनियरिंग के लिए, आप 300 से अधिक बिल्ट-इन ट्रांसफॉर्मेशन का उपयोग कर सकते हैं या अपने स्वयं के कस्टम ट्रांसफॉर्मेशन का निर्माण कर सकते हैं। कस्टम परिवर्तन डेटा रैंगलर के भीतर अलग-अलग चरणों के रूप में लिखा जा सकता है। वे डेटा रैंगलर के भीतर .flow फ़ाइल का हिस्सा बन जाते हैं। कस्टम ट्रांस्फ़ॉर्म फीचर कोड स्निपेट्स में विभिन्न चरणों के रूप में पायथन, पायस्पार्क और एसक्यूएल का समर्थन करता है। .flow फ़ाइल से नोटबुक फ़ाइलें (.ipynb) उत्पन्न होने के बाद या .flow फ़ाइल को व्यंजनों के रूप में उपयोग किया जाता है, कस्टम ट्रांसफ़ॉर्म कोड स्निपेट बिना किसी बदलाव की आवश्यकता के बने रहते हैं। डेटा रैंगलर का यह डिज़ाइन कस्टम ट्रांसफ़ॉर्मेशन को कस्टम ट्रांसफ़ॉर्मेशन के साथ बड़े डेटासेट को प्रोसेस करने के लिए SageMaker प्रोसेसिंग जॉब का हिस्सा बनने की अनुमति देता है।

टाइटैनिक डेटासेट में कुछ विशेषताएं (नाम और home.dest) हैं जिनमें टेक्स्ट जानकारी होती है। हम उपयोग करते हैं एनएलटीके नाम कॉलम को विभाजित करने और अंतिम नाम निकालने के लिए, और अंतिम नामों की आवृत्ति को प्रिंट करने के लिए। एनएलटीके मानव भाषा डेटा के साथ काम करने के लिए पायथन प्रोग्राम बनाने का एक प्रमुख मंच है। यह उपयोग में आसान इंटरफेस प्रदान करता है 50 से अधिक कॉर्पोरा और लेक्सिकल संसाधन जैसे वर्डनेट, वर्गीकरण, टोकननाइजेशन, स्टेमिंग, टैगिंग, पार्सिंग और सिमेंटिक रीजनिंग के लिए टेक्स्ट प्रोसेसिंग लाइब्रेरी के सूट के साथ-साथ इंडस्ट्रियल-स्ट्रेंथ नेचुरल लैंग्वेज प्रोसेसिंग (एनएलपी) लाइब्रेरी के लिए रैपर।

नया परिवर्तन जोड़ने के लिए, निम्न चरणों को पूरा करें:

धन चिह्न चुनें और चुनें परिवर्तन जोड़ें.
चुनें स्टेप जोड़ें और चुनें कस्टम परिवर्तन.

आप पंडों, पायस्पार्क, पायथन यूजर-डिफ़ाइंड फ़ंक्शंस और एसक्यूएल पायस्पार्क का उपयोग करके एक कस्टम परिवर्तन बना सकते हैं।

चुनें अजगर (पंडों) और नाम कॉलम से अंतिम नाम निकालने के लिए निम्न कोड जोड़ें:
```
import nltk
nltk.download('punkt')
tokens = [nltk.word_tokenize(name) for name in df['Name']] # Extract the last names of the passengers
df['last_name'] = [token[0] for token in tokens]
```
चुनें पूर्वावलोकन परिणामों की समीक्षा करने के लिए।

निम्न स्क्रीनशॉट दिखाता है last_name स्तंभ निकाला गया।

निम्नलिखित कोड का उपयोग करते हुए, अंतिम नामों के आवृत्ति वितरण की पहचान करने के लिए एक अन्य कस्टम परिवर्तन चरण जोड़ें:
```
import nltk
fd = nltk.FreqDist(df["last_name"])
print(fd.most_common(10))
```
चुनें पूर्वावलोकन आवृत्ति के परिणामों की समीक्षा करने के लिए।

AWS AI सेवाओं के साथ कस्टम परिवर्तन

AWS पूर्व-प्रशिक्षित AI सेवाएँ आपके अनुप्रयोगों और कार्यप्रवाहों के लिए रेडी-मेड इंटेलिजेंस प्रदान करती हैं। कई सामान्य उपयोग मामलों को संबोधित करने के लिए AWS AI सेवाएं आसानी से आपके एप्लिकेशन के साथ एकीकृत हो जाती हैं। अब आप डेटा रैंगलर में कस्टम ट्रांसफ़ॉर्म चरण के रूप में AWS AI सेवाओं की क्षमताओं का उपयोग कर सकते हैं।

Amazon Comprehend दस्तावेजों की सामग्री के बारे में अंतर्दृष्टि निकालने के लिए एनएलपी का उपयोग करता है। यह एक दस्तावेज़ में संस्थाओं, प्रमुख वाक्यांशों, भाषा, भावनाओं और अन्य सामान्य तत्वों को पहचान कर अंतर्दृष्टि विकसित करता है।

हम नाम कॉलम से संस्थाओं को निकालने के लिए Amazon Comprehend का उपयोग करते हैं। निम्नलिखित चरणों को पूरा करें:

एक कस्टम परिवर्तन कदम जोड़ें।
चुनें अजगर (पंडों).

संस्थाओं को निकालने के लिए निम्नलिखित कोड दर्ज करें:

import boto3
comprehend = boto3.client("comprehend") response = comprehend.detect_entities(LanguageCode = 'en', Text = df['name'].iloc[0]) for entity in response['Entities']:
print(entity['Type'] + ":" + entity["Text"])

चुनें पूर्वावलोकन और परिणामों की कल्पना करें।

हमने अब डेटा रैंगलर में तीन कस्टम रूपांतरण जोड़े हैं।

चुनें डाटा प्रवाह एंड-टू-एंड डेटा प्रवाह की कल्पना करने के लिए।

NumPy और SciPy के साथ कस्टम परिवर्तन

Numpy व्यापक गणितीय कार्यों, यादृच्छिक संख्या जनरेटर, रैखिक बीजगणित दिनचर्या, फूरियर रूपांतरण, और बहुत कुछ प्रदान करने वाले पायथन के लिए एक ओपन-सोर्स लाइब्रेरी है। SciPy वैज्ञानिक कंप्यूटिंग और तकनीकी कंप्यूटिंग के लिए उपयोग किया जाने वाला एक ओपन-सोर्स पायथन लाइब्रेरी है, जिसमें अनुकूलन, रैखिक बीजगणित, एकीकरण, प्रक्षेप, विशेष कार्य, फास्ट फूरियर ट्रांसफॉर्म (FFT), सिग्नल और इमेज प्रोसेसिंग, सॉल्वर, और बहुत कुछ शामिल हैं।

डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म आपको Python, PySpark और SQL को अलग-अलग चरणों के रूप में संयोजित करने की अनुमति देता है। निम्नलिखित डेटा रैंगलर प्रवाह में, टाइटैनिक डेटासेट पर पायथन पैकेज, NumPy और SciPy के विभिन्न कार्यों को कई चरणों के रूप में लागू किया जाता है।

NumPy परिवर्तन

टाइटैनिक डेटासेट के किराया कॉलम में विभिन्न यात्रियों के बोर्डिंग किराए हैं। अंतिम बिन को छोड़कर, किराया कॉलम का हिस्टोग्राम समान वितरण दिखाता है। लॉग या वर्गमूल जैसे NumPy परिवर्तनों को लागू करके, हम वितरण को बदल सकते हैं (जैसा कि वर्गमूल परिवर्तन द्वारा दिखाया गया है)।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ.

निम्नलिखित कोड देखें:

import pandas as pd
import numpy as np
df["fare_log"] = np.log(df["fare_interpolate"])
df["fare_sqrt"] = np.sqrt(df["fare_interpolate"])
df["fare_cbrt"] = np.cbrt(df["fare_interpolate"])

SciPy परिवर्तन

माध्य और मानक विचलन के साथ किराया वितरण को मानकीकृत करने के लिए कस्टम परिवर्तन के हिस्से के रूप में जेड-स्कोर जैसे SciPy फ़ंक्शंस लागू किए जाते हैं।

निम्नलिखित कोड देखें:

df["fare_zscore"] = zscore(df["fare_interpolate"])
from scipy.stats import zscore

NumPy और SciPy के साथ कंस्ट्रेंट ऑप्टिमाइज़ेशन

डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म उन्नत ट्रांसफ़ॉर्मेशन को संभाल सकता है जैसे कि SciPy ऑप्टिमाइज़ फ़ंक्शंस को लागू करने और NumPy के साथ SciPy को संयोजित करने के लिए बाधा अनुकूलन। निम्नलिखित उदाहरण में, आयु के फलन के रूप में किराया कोई प्रत्यक्ष रुझान नहीं दिखाता है। हालाँकि, बाधा अनुकूलन उम्र के कार्य के रूप में किराया बदल सकता है। इस मामले में बाधा शर्त यह है कि नया कुल किराया पुराने कुल किराए के समान ही रहता है। डेटा रैंगलर कस्टम ट्रांस्फ़ॉर्म आपको इष्टतम गुणांक निर्धारित करने के लिए SciPy ऑप्टिमाइज़ फ़ंक्शन चलाने की अनुमति देता है जो बाधा स्थितियों के तहत किराए को उम्र के फ़ंक्शन के रूप में बदल सकता है।

SciPy और NumPy का उपयोग करके डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म में बाधा अनुकूलन तैयार करते समय अनुकूलन परिभाषा, उद्देश्य परिभाषा और कई बाधाओं का उल्लेख विभिन्न कार्यों के रूप में किया जा सकता है। कस्टम ट्रांस्फ़ॉर्म विभिन्न सॉल्वर विधियाँ भी ला सकते हैं जो SciPy ऑप्टिमाइज़ पैकेज के भाग के रूप में उपलब्ध हैं। मूल कॉलम के साथ इष्टतम गुणांक को गुणा करके और डेटा रैंगलर के मौजूदा कॉलम में जोड़कर एक नया रूपांतरित चर उत्पन्न किया जा सकता है। निम्न कोड देखें:

import numpy as np
import scipy.optimize as opt
import pandas as pd df2 = pd.DataFrame({"Y":df["fare_interpolate"], "X1":df["age_interpolate"]}) # optimization defination
def main(df2):
x0 = [0.1]
res = opt.minimize(fun=obj, x0=x0, args=(df2), method="SLSQP", bounds=[(0,50)], constraints=cons)
return res # objective function
def obj(x0, df2):
sumSquares = np.sum(df2["Y"] - x0*df2["X1"])
return sumSquares # constraints
def constraint1(x0):
sum_cons1 = np.sum(df2["Y"] - x0*df2["X1"]) - 0
return sum_cons1
con1 = {'type': 'eq', 'fun': constraint1}
cons = ([con1]) print(main(df2)) df["new_fare_age_optimized"]=main(df2).x*df2["X1"]

डेटा रैंगलर कस्टम ट्रांसफ़ॉर्म फ़ीचर में SciPy ऑप्टिमाइज़ फ़ंक्शंस के परिणाम दिखाने के लिए UI क्षमता है, जैसे इष्टतम गुणांक (या एकाधिक गुणांक) का मान।

स्किकिट-लर्न के साथ कस्टम रूपांतरण

scikit सीखने SciPy के शीर्ष पर निर्मित मशीन लर्निंग के लिए एक पायथन मॉड्यूल है। यह एक ओपन-सोर्स एमएल लाइब्रेरी है जो पर्यवेक्षित और अनुपयोगी शिक्षा का समर्थन करती है। यह मॉडल फिटिंग, डेटा प्रीप्रोसेसिंग, मॉडल चयन, मॉडल मूल्यांकन और कई अन्य उपयोगिताओं के लिए विभिन्न उपकरण भी प्रदान करता है।

विवेक

विवेक (अन्यथा के रूप में जाना जाता है परिमाणीकरण or द्विज) असतत मूल्यों में निरंतर सुविधाओं को विभाजित करने का एक तरीका प्रदान करता है। निरंतर सुविधाओं वाले कुछ डेटासेट विवेकीकरण से लाभान्वित हो सकते हैं, क्योंकि विवेक केवल नाममात्र विशेषताओं वाले निरंतर विशेषताओं के डेटासेट को बदल सकता है। व्याख्यात्मकता को बनाए रखते हुए, एक-हॉट एन्कोडेड विखंडित विशेषताएं एक मॉडल को अधिक अभिव्यंजक बना सकती हैं। उदाहरण के लिए, डिस्क्रीटाइज़र के साथ प्रीप्रोसेसिंग रैखिक मॉडल के लिए गैर-रेखीयता का परिचय दे सकता है।

निम्नलिखित कोड में, हम उपयोग करते हैं KBinsDiscretizer आयु कॉलम को 10 डिब्बे में विभाजित करने के लिए:

# Table is available as variable `df`
from sklearn.preprocessing import KBinsDiscretizer
import numpy as np
# discretization transform the raw data
df = df.dropna()
kbins = KBinsDiscretizer(n_bins=10, encode='ordinal', strategy='uniform')
ages = np.array(df["age"]).reshape(-1, 1)
df["age"] = kbins.fit_transform(ages)
print(kbins.bin_edges_)

आप निम्न स्क्रीनशॉट में बिन किनारों को प्रिंटेड देख सकते हैं।

एक गर्म एन्कोडिंग

आरंभ किए गए कॉलम में मान श्रेणीबद्ध मान हैं। इसलिए, हमें अपने मॉडल के साथ वर्गीकरण करने के लिए इन स्ट्रिंग्स को संख्यात्मक मानों के रूप में प्रस्तुत करना होगा। हम एक-हॉट एन्कोडिंग रूपांतरण का उपयोग करके भी ऐसा कर सकते हैं।

Embarked के लिए तीन मान हैं: S, C, और Q. हम इन्हें संख्याओं के साथ दर्शाते हैं। निम्नलिखित कोड देखें:

# Table is available as variable `df`
from sklearn.preprocessing import LabelEncoder le_embarked = LabelEncoder()
le_embarked.fit(df["embarked"]) encoded_embarked_training = le_embarked.transform(df["embarked"])
df["embarked"] = encoded_embarked_training

क्लीन अप

जब आप डेटा रैंगलर का उपयोग नहीं कर रहे हैं, तो अतिरिक्त शुल्क से बचने के लिए उस इंस्टेंस को बंद करना महत्वपूर्ण है जिस पर वह चलता है।

डेटा रैंगलर स्वचालित रूप से प्रत्येक 60 सेकंड में आपके डेटा प्रवाह को सहेजता है। काम खोने से बचने के लिए, डेटा रैंगलर को बंद करने से पहले अपने डेटा प्रवाह को बचाएं।

स्टूडियो में अपना डेटा प्रवाह सहेजने के लिए, चुनें पट्टिका, उसके बाद चुनो डेटा रैंगलर फ़्लो सहेजें.
डेटा रैंगलर इंस्टेंस को बंद करने के लिए, स्टूडियो में, चुनें रनिंग इंस्टेंस और कर्नेल.
के अंतर्गत ऐप्स चालू हैं, सेजमेकर-डेटा-रैंगलर-1.0 ऐप के आगे शटडाउन आइकन चुनें।
चुनें सब बंद करो पुष्टि करने के लिए।

डेटा रैंगलर ml.m5.4xबड़े उदाहरण पर चलता है। यह उदाहरण गायब हो जाता है चल रहे उदाहरण जब आप डेटा रैंगलर ऐप को बंद करते हैं।

डेटा रैंगलर ऐप को बंद करने के बाद, अगली बार जब आप डेटा रैंगलर फ़्लो फ़ाइल खोलते हैं, तो उसे पुनरारंभ करना होगा। इसमें कुछ मिनट लग सकते हैं।

निष्कर्ष

इस पोस्ट में, हमने प्रदर्शित किया कि आप डेटा रैंगलर में कस्टम रूपांतरणों का उपयोग कैसे कर सकते हैं। हमने बिल्ट-इन डेटा ट्रांसफ़ॉर्मेशन क्षमताओं को बढ़ाने के लिए डेटा रैंगलर कंटेनर के भीतर लाइब्रेरी और फ्रेमवर्क का उपयोग किया। इस पोस्ट के उदाहरण उपयोग किए गए ढांचे के सबसेट का प्रतिनिधित्व करते हैं। डेटा रैंगलर प्रवाह में परिवर्तनों को अब DataOps के लिए पाइपलाइन में बढ़ाया जा सकता है।

डेटा रैंगलर के साथ डेटा प्रवाह का उपयोग करने के बारे में अधिक जानने के लिए, देखें डेटा रैंगलर फ़्लो बनाएँ और उपयोग करें और अमेज़न SageMaker मूल्य निर्धारण. डेटा रैंगलर के साथ आरंभ करने के लिए, देखें अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें. सेजमेकर पर ऑटोपायलट और ऑटोएमएल के बारे में अधिक जानने के लिए, पर जाएँ Amazon SageMaker Autopilot के साथ स्वचालित मॉडल विकास.

लेखक के बारे में

मीनाक्षीसुंदरम थंडावरायण एडब्ल्यूएस के साथ एक वरिष्ठ एआई/एमएल विशेषज्ञ हैं। वह उनकी AI और ML यात्रा में हाई-टेक रणनीतिक खातों की मदद करता है। वह डेटा-संचालित एआई के बारे में बहुत भावुक है।

सोविक कुमार नाथ AWS के साथ AI/ML समाधान वास्तुकार है। उनके पास मशीन लर्निंग के लिए एंड-टू-एंड डिज़ाइन और समाधान का व्यापक अनुभव है; वित्तीय, परिचालन और विपणन विश्लेषिकी के भीतर व्यापार विश्लेषण; स्वास्थ्य देखभाल; आपूर्ति श्रृंखला; और आईओटी। काम के बाहर, सोविक को यात्रा करना और फिल्में देखना पसंद है।

एनएलटीके और साइपी प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का उपयोग करके अमेज़ॅन सेजमेकर डेटा रैंगलर में कस्टम परिवर्तनों का लेखन। लंबवत खोज. ऐ. सेविका Amazon SageMaker में एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है। वह ग्राहकों को डेटा रैंगलर में अपना डेटा तैयार करने और वितरित मशीन लर्निंग सिस्टम बनाने में मदद करने के बारे में भावुक है। अपने खाली समय में, अबीगैल को यात्रा करना, लंबी पैदल यात्रा करना, स्कीइंग और बेकिंग करना पसंद है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
मिंटिंग द फ्यूचर डब्ल्यू एड्रिएन एशले। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/authoring-custom-transformations-in-amazon-sagemaker-data-wrangler-using-nltk-and-scipy/

समय टिकट: अप्रैल १, २०२४

समय टिकट: अगस्त 9, 2022

प्लेटो द्वारा पुनर्प्रकाशित

बहु-क्षेत्रीय Amazon SageMaker एंडपॉइंट्स का CI/CD सक्षम करें

अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ और डेटाब्रिक्स एमएलफ्लो का उपयोग करके एमएलओपीएस भावना विश्लेषण पाइपलाइन बनाएं

Amazon SageMaker मॉडल बिल्डिंग पाइपलाइन बनाएं और Amazon SageMaker पर RStudio का उपयोग करके R मॉडल तैनात करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा