अमेज़ॅन सेजमेकर डेटा रैंगलर द्वारा संचालित नोटबुक के लिए इंटरएक्टिव डेटा तैयारी विजेट

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

एनाकोंडा द्वारा किए गए डेटा वैज्ञानिकों के 2020 के सर्वेक्षण के अनुसार, डेटा तैयारी मशीन लर्निंग (एमएल) और डेटा एनालिटिक्स वर्कफ़्लोज़ में महत्वपूर्ण चरणों में से एक है, और डेटा वैज्ञानिकों के लिए अक्सर बहुत समय लगता है। डेटा वैज्ञानिक अपना लगभग 66% समय डेटा तैयार करने और विश्लेषण कार्यों पर खर्च करते हैं, जिसमें लोडिंग (19%), सफाई (26%), और डेटा को विज़ुअलाइज़ करना (21%) शामिल है।

अमेज़ॅन सैजमेकर स्टूडियो एमएल के लिए पहला पूरी तरह से एकीकृत विकास पर्यावरण (आईडीई) है। एक क्लिक से, डेटा वैज्ञानिक और डेवलपर तेज़ी से आगे बढ़ सकते हैं स्टूडियो नोटबुक डेटासेट का पता लगाने और मॉडल बनाने के लिए। यदि आप जीयूआई-आधारित और इंटरैक्टिव इंटरफ़ेस पसंद करते हैं, तो आप इसका उपयोग कर सकते हैं अमेज़न SageMaker डेटा रैंगलर, कोड की एक भी पंक्ति लिखे बिना स्पार्क द्वारा समर्थित डेटा को कुशलतापूर्वक संसाधित करने के लिए 300 से अधिक निर्मित विज़ुअलाइज़ेशन, विश्लेषण और परिवर्तनों के साथ।

डेटा रैंगलर अब में एक अंतर्निहित डेटा तैयार करने की क्षमता प्रदान करता है अमेज़न सैजमेकर स्टूडियो नोटबुक यह एमएल चिकित्सकों को डेटा विशेषताओं की दृष्टि से समीक्षा करने, मुद्दों की पहचान करने और डेटा-गुणवत्ता की समस्याओं को दूर करने की अनुमति देता है - सीधे नोटबुक के भीतर कुछ ही क्लिक में।

इस पोस्ट में, हम आपको दिखाते हैं कि कैसे डेटा रैंगलर डेटा प्रस्तुत करने का विजेट स्वचालित रूप से डेटा वितरण को समझने, डेटा गुणवत्ता के मुद्दों का पता लगाने और प्रत्येक सुविधा के लिए आउटलेयर जैसे सतह डेटा अंतर्दृष्टि के लिए पांडा डेटा फ्रेम के शीर्ष पर मुख्य विज़ुअलाइज़ेशन उत्पन्न करता है। यह डेटा के साथ इंटरैक्ट करने और उन जानकारियों को खोजने में मदद करता है जिन पर तदर्थ क्वेरी के साथ ध्यान नहीं दिया जा सकता है। यह सुधार करने के लिए परिवर्तनों की अनुशंसा भी करता है, आपको UI पर डेटा परिवर्तन लागू करने में सक्षम बनाता है और नोटबुक कक्षों में स्वचालित रूप से कोड उत्पन्न करता है। यह सुविधा उन सभी क्षेत्रों में उपलब्ध है जहाँ SageMaker Studio उपलब्ध है।

समाधान अवलोकन

आइए आगे समझते हैं कि कैसे यह नया विजेट डेटा एक्सप्लोरेशन को काफी आसान बनाता है और डेटा इंजीनियरों और चिकित्सकों के लिए समग्र डेटा तैयारी अनुभव को बेहतर बनाने के लिए एक सहज अनुभव प्रदान करता है। हमारे उपयोग के मामले में, हम इसके संशोधित संस्करण का उपयोग करते हैं टाइटैनिक डेटासेटएमएल समुदाय में एक लोकप्रिय डेटासेट, जिसे अब एक के रूप में जोड़ा गया है नमूना डेटासेट ताकि आप जल्दी से सेजमेकर डेटा रैंगलर के साथ शुरुआत कर सकें। मूल डेटासेट से प्राप्त किया गया था ओपनएमएल, और इस डेमो के लिए Amazon द्वारा सिंथेटिक डेटा गुणवत्ता के मुद्दों को जोड़ने के लिए संशोधित किया गया। आप सार्वजनिक S3 पथ से डेटासेट का संशोधित संस्करण डाउनलोड कर सकते हैं s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv.

.. पूर्वापेक्षाएँ

इस पोस्ट में वर्णित सभी विशेषताओं के साथ व्यावहारिक अनुभव प्राप्त करने के लिए, निम्नलिखित पूर्वापेक्षाएँ पूरी करें:

सुनिश्चित करें कि आपके पास एक एडब्ल्यूएस खाता है, के माध्यम से खाते में लॉग इन करने के लिए सुरक्षित पहुंच एडब्ल्यूएस प्रबंधन कंसोल, तथा AWS पहचान और अभिगम प्रबंधन (IAM) उपयोग करने की अनुमति अमेज़न SageMaker और अमेज़न सरल भंडारण सेवा (अमेज़न S3) संसाधन।
सार्वजनिक S3 पथ से नमूना डेटासेट का उपयोग करें s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv या वैकल्पिक रूप से इसे S3 बकेट में अपलोड करें आपके खाते में।
SageMaker डोमेन में ऑनबोर्ड करें और नोटबुक्स का उपयोग करने के लिए स्टूडियो एक्सेस करें। निर्देशों के लिए, देखें अमेज़न सेजमेकर डोमेन पर ऑनबोर्ड. यदि आप मौजूदा स्टूडियो का उपयोग कर रहे हैं, तो इसे अपग्रेड करें स्टूडियो का नवीनतम संस्करण.

डेटा अन्वेषण विजेट सक्षम करें

जब आप पांडा डेटा फ़्रेम का उपयोग कर रहे होते हैं, तो स्टूडियो नोटबुक उपयोगकर्ता डेटा एक्सप्लोरेशन विजेट को मैन्युअल रूप से सक्षम कर सकते हैं ताकि प्रत्येक कॉलम के शीर्ष पर डिफ़ॉल्ट रूप से नए विज़ुअलाइज़ेशन प्रदर्शित हों। विजेट संख्यात्मक डेटा के लिए एक हिस्टोग्राम और अन्य प्रकार के डेटा के लिए एक बार चार्ट दिखाता है। ये अभ्यावेदन आपको प्रत्येक कॉलम के लिए बॉयलरप्लेट विधियों को लिखे बिना डेटा वितरण को जल्दी से समझने और लापता मूल्यों और आउटलेयर की खोज करने की अनुमति देते हैं। वितरण की त्वरित समझ प्राप्त करने के लिए आप प्रत्येक दृश्य में बार पर होवर कर सकते हैं।

स्टूडियो खोलें और एक नया पायथन 3 नोटबुक बनाएं। का चयन करना सुनिश्चित करें डाटा साइंस 3.0 क्लिक करके सैजमेकर छवियों से छवि पर्यावरण बदलें बटन.

डेटा अन्वेषण विजेट निम्नलिखित छवियों में उपलब्ध है। डिफ़ॉल्ट सैजमेकर छवियों की सूची के लिए, देखें उपलब्ध अमेज़ॅन सैजमेकर छवियां.

पायथन 3 (डेटा साइंस) पायथन 3.7 के साथ
पायथन 3 (डेटा साइंस 2.0) पायथन 3.8 के साथ
पायथन 3 (डेटा साइंस 3.0) पायथन 3.10 के साथ
स्पार्क एनालिटिक्स 1.0 और 2.0

इस विजेट का उपयोग करने के लिए, आयात करें SageMaker_DataWrangler पुस्तकालय। टाइटैनिक डेटासेट के संशोधित संस्करण को यहां से लोड करें S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv और पांडा पुस्तकालय के साथ सीएसवी पढ़ें:

import pandas as pd
import boto3
import io
import sagemaker_datawrangler

s3 = boto3.client('s3')
obj = s3.get_object(Bucket='sagemaker-sample-files', Key='datasets/tabular/dirty-titanic/titanic-dirty-4.csv')
df = pd.read_csv(io.BytesIO(obj['Body'].read()))

डेटा विज़ुअलाइज़ करें

पंडों के डेटा फ़्रेम में डेटा लोड होने के बाद, आप केवल उपयोग करके डेटा देख सकते हैं df or display(df). पंक्ति को सूचीबद्ध करने के साथ, डेटा प्रस्तुत करने का विजेट डेटा गुणवत्ता पर अंतर्दृष्टि, विज़ुअलाइज़ेशन और सलाह उत्पन्न करता है। आपको सुविधा और लक्ष्य अंतर्दृष्टि, वितरण जानकारी, या डेटा गुणवत्ता जांच प्रदान करने के लिए कोई अतिरिक्त कोड लिखने की आवश्यकता नहीं है। डेटा गुणवत्ता चेतावनियों, यदि कोई हो, को दर्शाने वाला सांख्यिकीय सारांश देखने के लिए आप डेटा फ़्रेम तालिका का शीर्ष लेख चुन सकते हैं।

डेटा की कल्पना करें

प्रत्येक कॉलम डेटा प्रकार के आधार पर एक बार चार्ट या हिस्टोग्राम दिखाता है। डिफ़ॉल्ट रूप से, अर्थपूर्ण अंतर्दृष्टि उत्पन्न करने के लिए विजेट 10,000 टिप्पणियों तक का नमूना लेता है। यह संपूर्ण डेटासेट पर इनसाइट विश्लेषण चलाने का विकल्प भी प्रदान करता है।

जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है, यह विजेट पहचानता है कि कॉलम में श्रेणीबद्ध या मात्रात्मक डेटा है या नहीं।

श्रेणीबद्ध या मात्रात्मक डेटा

श्रेणीबद्ध डेटा के लिए, विजेट सभी श्रेणियों के साथ बार चार्ट बनाता है। निम्न स्क्रीनशॉट में, उदाहरण के लिए, column Sex डेटा पर श्रेणियों की पहचान करता है। आप बार पर होवर कर सकते हैं (नर इस मामले में) इन श्रेणियों का विवरण देखने के लिए, जैसे मान के साथ पंक्तियों की कुल संख्या male और कुल विज़ुअलाइज़ किए गए डेटासेट में इसका वितरण (इस उदाहरण में 64.07%)। यह स्पष्ट डेटा के लिए एक अलग रंग में लापता मूल्यों के कुल प्रतिशत को भी उजागर करता है। जैसे मात्रात्मक डेटा के लिए ticket कॉलम, यह अमान्य मानों के प्रतिशत के साथ वितरण दिखाता है।

यदि आप नोटबुक में एक मानक पांडा विज़ुअलाइज़ेशन देखना चाहते हैं, तो आप चुन सकते हैं पंडों की तालिका देखें और विजेट और पांडा प्रतिनिधित्व के बीच टॉगल करें, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।

पंडों की तालिका देखें

डेटा रैंगलर टेबल देखें

कॉलम में डेटा के बारे में अधिक विस्तृत जानकारी प्राप्त करने के लिए, कॉलम के लिए समर्पित साइड पैनल खोलने के लिए कॉलम का हेडर चुनें। यहां आप दो टैब देख सकते हैं: इनसाइट्स और आँकड़े की गुणवत्ता.

अंतर्दृष्टि और डेटा गुणवत्ता

निम्नलिखित अनुभागों में, हम इन दो विकल्पों का अधिक विस्तार से अन्वेषण करेंगे।

इनसाइट्स

RSI इनसाइट्स टैब प्रत्येक कॉलम के विवरण के साथ विवरण प्रदान करता है। यह खंड समग्र आंकड़ों को सूचीबद्ध करता है, जैसे कि मोड, यूनिक्स की संख्या, अनुपात और लापता/अमान्य मानों के लिए गणना, आदि, साथ ही हिस्टोग्राम या बार चार्ट की मदद से डेटा वितरण की कल्पना करें। निम्नलिखित स्क्रीनशॉट में, आप चयनित कॉलम के लिए उत्पन्न आसानी से समझने योग्य विज़ुअलाइज़ेशन के साथ प्रदर्शित डेटा अंतर्दृष्टि और वितरण जानकारी देख सकते हैं survived.

आँकड़े की गुणवत्ता

स्टूडियो डेटा प्रस्तुत करने का विजेट हेडर में चेतावनी चिह्न के साथ पहचाने गए डेटा गुणवत्ता के मुद्दों को हाइलाइट करता है। विजेट बुनियादी बातों (अनुपलब्ध मान, स्थिर स्तंभ, आदि) से अधिक एमएल विशिष्ट (लक्ष्य रिसाव, कम भविष्य कहनेवाला स्कोर सुविधाएँ, आदि) से डेटा गुणवत्ता के मुद्दों के पूरे स्पेक्ट्रम की पहचान कर सकता है। विजेट डेटा गुणवत्ता की समस्या पैदा करने वाली कोशिकाओं को हाइलाइट करता है और समस्याग्रस्त कोशिकाओं को शीर्ष पर रखने के लिए पंक्तियों को पुनर्गठित करता है। डेटा गुणवत्ता समस्या का समाधान करने के लिए विजेट एक बटन के क्लिक पर लागू कई ट्रांसफॉर्मर प्रदान करता है।

डेटा गुणवत्ता अनुभाग का पता लगाने के लिए, कॉलम हेडर चुनें और साइड पैनल में, चुनें आँकड़े की गुणवत्ता टैब। आपको अपने स्टूडियो वातावरण में निम्नलिखित देखना चाहिए।

डेटा गुणवत्ता टैब

आइए पर उपलब्ध विभिन्न विकल्पों को देखें आँकड़े की गुणवत्ता टैब। इस उदाहरण के लिए, हम आयु कॉलम चुनते हैं, जिसे डेटा के आधार पर मात्रात्मक कॉलम के रूप में पहचाना जाता है। जैसा कि हम निम्नलिखित स्क्रीनशॉट में देख सकते हैं, यह विजेट विभिन्न प्रकार के परिवर्तनों का सुझाव देता है जिन्हें आप लागू कर सकते हैं, जिसमें सबसे सामान्य क्रियाएं शामिल हैं, जैसे नए मूल्य से बदलें, ड्रॉप मिसिंग, माध्यिका से बदलेंया, माध्य से बदलें. आप उपयोग के मामले (आप जिस एमएल समस्या को हल करने का प्रयास कर रहे हैं) के आधार पर अपने डेटासेट के लिए उनमें से कोई भी चुन सकते हैं। यह आपको भी देता है स्तंभ छोड़ें विकल्प यदि आप फीचर को पूरी तरह से हटाना चाहते हैं।

उम्र

जब आप चुनते हैं कोड लागू करें और निर्यात करें, परिवर्तन डेटा फ्रेम की गहरी प्रति पर लागू होता है। रूपांतरण सफलतापूर्वक लागू होने के बाद, डेटा तालिका को इनसाइट्स और विज़ुअलाइज़ेशन के साथ ताज़ा किया जाता है। ट्रांसफ़ॉर्म कोड नोटबुक में मौजूदा सेल के बाद उत्पन्न होता है। आप इस निर्यात किए गए कोड को बाद में अपने डेटासेट पर परिवर्तन लागू करने के लिए चला सकते हैं, और इसे अपनी आवश्यकताओं के अनुसार बढ़ा सकते हैं। आप उत्पन्न कोड को सीधे संशोधित करके परिवर्तन को अनुकूलित कर सकते हैं। अगर हम लागू करते हैं ड्रॉप मिसिंग आयु कॉलम में विकल्प, निम्न परिवर्तन कोड डेटासेट पर लागू होता है, और विजेट के नीचे एक सेल में कोड भी उत्पन्न होता है:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Drop missing for column: age to resolve warning: Missing values 
output_df = output_df[output_df['age'].notnull()]

निम्नलिखित कोड स्निपेट का एक और उदाहरण है माध्यिका से बदलें:

#Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True) 

#Code to Replace with median for column: age to resolve warning: Missing values 
output_df['age']=output_df['age'].fillna(output_df['age'].median(skipna=True))

आइए अब डेटा प्रस्तुत करने के विजेट की लक्ष्य अंतर्दृष्टि क्षमता को देखें। मान लें कि आप का उपयोग करना चाहते हैं survived भविष्यवाणी करने की सुविधा कि कोई यात्री जीवित रहेगा या नहीं। चुनना survived कॉलम हेडर। साइड पैनल में, चुनें लक्ष्य स्तंभ के रूप में चयन करें. के लिए आदर्श डेटा वितरण survived सुविधा में केवल दो वर्ग होने चाहिए: हाँ (1) या नहीं (0), जो टाइटैनिक दुर्घटना के बचने की संभावना को वर्गीकृत करने में मदद करता है। हालाँकि, चुने गए लक्ष्य कॉलम में डेटा विसंगतियों के कारण, बची हुई विशेषता है 0, 1, ?, unknown, तथा yes.

लक्ष्य कॉलम के रूप में चुनें

चयनित लक्ष्य कॉलम के आधार पर समस्या का प्रकार चुनें, जो या तो हो सकता है वर्गीकरण or प्रतीपगमन. बचे हुए कॉलम के लिए, समस्या का प्रकार वर्गीकरण है। चुनना रन लक्ष्य स्तंभ के लिए अंतर्दृष्टि उत्पन्न करने के लिए।

बच जाना

डेटा प्रस्तुत करने का विजेट लक्ष्य कॉलम डेटा गुणवत्ता के साथ समस्याओं को हल करने के लिए सिफारिशों और नमूना स्पष्टीकरण के साथ लक्ष्य कॉलम अंतर्दृष्टि सूचीबद्ध करता है। यह स्वचालित रूप से कॉलम में विषम डेटा को भी हाइलाइट करता है।

सुझावों के साथ लक्ष्य स्तंभ अंतर्दृष्टि

हम अनुशंसित परिवर्तन चुनते हैं दुर्लभ लक्ष्य मान छोड़ें, क्योंकि दुर्लभ लक्ष्य मानों के लिए कम अवलोकन हैं।

दुर्लभ लक्ष्य मान छोड़ें

चुने हुए परिवर्तन को पंडों के डेटा फ़्रेम पर लागू किया जाता है और बचे हुए कॉलम से असामान्य लक्ष्य मानों को समाप्त कर दिया जाता है। निम्नलिखित कोड देखें:

# Pandas code generated by sagemaker_datawrangler
output_df = df.copy(deep=True)

# Code to Drop rare target values for column: survived to resolve warning: Too few instances per class 
rare_target_labels_to_drop = ['?', 'unknown', 'yes']
output_df = output_df[~output_df['survived'].isin(rare_target_labels_to_drop)]

लागू परिवर्तन के परिणाम तुरंत डेटा फ्रेम पर दिखाई दे रहे हैं। डेटा प्रेप विजेट का उपयोग करके लागू की गई डेटा तैयारी गतिविधियों को ट्रैक करने के लिए, निम्न नोटबुक सेल में रूपांतरित कोड भी उत्पन्न होता है।

निष्कर्ष

इस पोस्ट में, हमने इस बारे में मार्गदर्शन प्रदान किया है कि कैसे स्टूडियो डेटा प्रीप विजेट आपको डेटा वितरण का विश्लेषण करने, टूल द्वारा उत्पन्न डेटा गुणवत्ता अंतर्दृष्टि का पता लगाने और प्रत्येक महत्वपूर्ण विशेषता के लिए आउटलेयर जैसे संभावित मुद्दों को उजागर करने में मदद कर सकता है। यह आपको उच्च-गुणवत्ता वाले मॉडल को प्रशिक्षित करने में मदद करने के लिए समग्र डेटा गुणवत्ता में सुधार करने में मदद करता है, और यह आपको उपयोगकर्ता इंटरफ़ेस पर डेटा बदलने और नोटबुक सेल के लिए स्वचालित रूप से कोड उत्पन्न करने की अनुमति देकर अविभाजित भारी भारोत्तोलन को हटा देता है। फिर आप इस कोड का उपयोग अपने MLOps पाइपलाइनों में पुनरुत्पादन का निर्माण करने के लिए कर सकते हैं, दोहराए जाने वाले कार्यों पर समय बर्बाद करने से बच सकते हैं, और डेटा तकरार वाली पाइपलाइनों के निर्माण और परिनियोजन को तेज करके संगतता समस्याओं को कम कर सकते हैं।

यदि आप SageMaker डेटा रैंगलर या स्टूडियो में नए हैं, तो इसे देखें सेजमेकर डेटा रैंगलर के साथ शुरुआत करें. यदि आपके पास इस पोस्ट से संबंधित कोई प्रश्न हैं, तो कृपया इसे टिप्पणी अनुभाग में जोड़ें।

लेखक के बारे में

पार्थ पटेल सैन फ़्रांसिस्को खाड़ी क्षेत्र में AWS में समाधान वास्तुकार हैं। पार्थ ग्राहकों को क्लाउड तक अपनी यात्रा में तेजी लाने के लिए मार्गदर्शन करता है और एडब्ल्यूएस क्लाउड को सफलतापूर्वक अपनाने और विकसित करने में उनकी मदद करता है। वह मशीन लर्निंग, पर्यावरणीय स्थिरता और अनुप्रयोग आधुनिकीकरण पर ध्यान केंद्रित करता है।

ईशा दुआ सैन फ्रांसिस्को खाड़ी क्षेत्र में स्थित एक वरिष्ठ समाधान वास्तुकार है। वह एडब्ल्यूएस एंटरप्राइज ग्राहकों को उनके लक्ष्यों और चुनौतियों को समझकर बढ़ने में मदद करती है, और यह सुनिश्चित करते हुए कि वे लचीला और स्केलेबल हैं, क्लाउड-नेटिव तरीके से अपने एप्लिकेशन को कैसे आर्किटेक्ट कर सकते हैं, इस पर उनका मार्गदर्शन करती हैं। वह मशीन लर्निंग तकनीकों और पर्यावरणीय स्थिरता के बारे में भावुक है।

हरिहरन सुरेश AWS में एक वरिष्ठ समाधान वास्तुकार हैं। उन्हें डेटाबेस, मशीन लर्निंग और नए समाधानों को डिजाइन करने का शौक है। AWS में शामिल होने से पहले, हरिहरन एक उत्पाद वास्तुकार, कोर बैंकिंग कार्यान्वयन विशेषज्ञ और डेवलपर थे, और उन्होंने BFSI संगठनों के साथ 11 वर्षों तक काम किया। तकनीक से इतर उन्हें पैराग्लाइडिंग और साइकिल चलाने में मजा आता है।

दानी मिशेल Amazon Web Services में AI/ML स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है। वह कंप्यूटर विजन उपयोग मामलों पर केंद्रित है और ईएमईए में ग्राहकों को उनकी एमएल यात्रा में तेजी लाने में मदद कर रहा है।

समय टिकट: दिसम्बर 1/2022दिसम्बर 1/2022

समय टिकट: अप्रैल 13, 2023

अमेज़न सैजमेकर डेटा रैंगलर द्वारा संचालित नोटबुक के लिए इंटरएक्टिव डेटा प्रेप विजेट

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

.. पूर्वापेक्षाएँ

डेटा अन्वेषण विजेट सक्षम करें

डेटा विज़ुअलाइज़ करें

इनसाइट्स

आँकड़े की गुणवत्ता

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

Amazon Kendra Box कनेक्टर के साथ शुरुआत करना

Amazon SageMaker पर होस्ट कोड-सर्वर

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा