एनाकोंडा द्वारा किए गए डेटा वैज्ञानिकों के 2020 के सर्वेक्षण के अनुसार, डेटा तैयारी मशीन लर्निंग (एमएल) और डेटा एनालिटिक्स वर्कफ़्लोज़ में महत्वपूर्ण चरणों में से एक है, और डेटा वैज्ञानिकों के लिए अक्सर बहुत समय लगता है। डेटा वैज्ञानिक अपना लगभग 66% समय डेटा तैयार करने और विश्लेषण कार्यों पर खर्च करते हैं, जिसमें लोडिंग (19%), सफाई (26%), और डेटा को विज़ुअलाइज़ करना (21%) शामिल है।
अमेज़ॅन सैजमेकर स्टूडियो एमएल के लिए पहला पूरी तरह से एकीकृत विकास पर्यावरण (आईडीई) है। एक क्लिक से, डेटा वैज्ञानिक और डेवलपर तेज़ी से आगे बढ़ सकते हैं स्टूडियो नोटबुक डेटासेट का पता लगाने और मॉडल बनाने के लिए। यदि आप जीयूआई-आधारित और इंटरैक्टिव इंटरफ़ेस पसंद करते हैं, तो आप इसका उपयोग कर सकते हैं अमेज़न SageMaker डेटा रैंगलर, कोड की एक भी पंक्ति लिखे बिना स्पार्क द्वारा समर्थित डेटा को कुशलतापूर्वक संसाधित करने के लिए 300 से अधिक निर्मित विज़ुअलाइज़ेशन, विश्लेषण और परिवर्तनों के साथ।
डेटा रैंगलर अब में एक अंतर्निहित डेटा तैयार करने की क्षमता प्रदान करता है अमेज़न सैजमेकर स्टूडियो नोटबुक यह एमएल चिकित्सकों को डेटा विशेषताओं की दृष्टि से समीक्षा करने, मुद्दों की पहचान करने और डेटा-गुणवत्ता की समस्याओं को दूर करने की अनुमति देता है - सीधे नोटबुक के भीतर कुछ ही क्लिक में।
इस पोस्ट में, हम आपको दिखाते हैं कि कैसे डेटा रैंगलर डेटा प्रस्तुत करने का विजेट स्वचालित रूप से डेटा वितरण को समझने, डेटा गुणवत्ता के मुद्दों का पता लगाने और प्रत्येक सुविधा के लिए आउटलेयर जैसे सतह डेटा अंतर्दृष्टि के लिए पांडा डेटा फ्रेम के शीर्ष पर मुख्य विज़ुअलाइज़ेशन उत्पन्न करता है। यह डेटा के साथ इंटरैक्ट करने और उन जानकारियों को खोजने में मदद करता है जिन पर तदर्थ क्वेरी के साथ ध्यान नहीं दिया जा सकता है। यह सुधार करने के लिए परिवर्तनों की अनुशंसा भी करता है, आपको UI पर डेटा परिवर्तन लागू करने में सक्षम बनाता है और नोटबुक कक्षों में स्वचालित रूप से कोड उत्पन्न करता है। यह सुविधा उन सभी क्षेत्रों में उपलब्ध है जहाँ SageMaker Studio उपलब्ध है।
समाधान अवलोकन
आइए आगे समझते हैं कि कैसे यह नया विजेट डेटा एक्सप्लोरेशन को काफी आसान बनाता है और डेटा इंजीनियरों और चिकित्सकों के लिए समग्र डेटा तैयारी अनुभव को बेहतर बनाने के लिए एक सहज अनुभव प्रदान करता है। हमारे उपयोग के मामले में, हम इसके संशोधित संस्करण का उपयोग करते हैं टाइटैनिक डेटासेटएमएल समुदाय में एक लोकप्रिय डेटासेट, जिसे अब एक के रूप में जोड़ा गया है नमूना डेटासेट ताकि आप जल्दी से सेजमेकर डेटा रैंगलर के साथ शुरुआत कर सकें। मूल डेटासेट से प्राप्त किया गया था ओपनएमएल, और इस डेमो के लिए Amazon द्वारा सिंथेटिक डेटा गुणवत्ता के मुद्दों को जोड़ने के लिए संशोधित किया गया। आप सार्वजनिक S3 पथ से डेटासेट का संशोधित संस्करण डाउनलोड कर सकते हैं s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
.
.. पूर्वापेक्षाएँ
इस पोस्ट में वर्णित सभी विशेषताओं के साथ व्यावहारिक अनुभव प्राप्त करने के लिए, निम्नलिखित पूर्वापेक्षाएँ पूरी करें:
- सुनिश्चित करें कि आपके पास एक एडब्ल्यूएस खाता है, के माध्यम से खाते में लॉग इन करने के लिए सुरक्षित पहुंच एडब्ल्यूएस प्रबंधन कंसोल, तथा AWS पहचान और अभिगम प्रबंधन (IAM) उपयोग करने की अनुमति अमेज़न SageMaker और अमेज़न सरल भंडारण सेवा (अमेज़न S3) संसाधन।
- सार्वजनिक S3 पथ से नमूना डेटासेट का उपयोग करें
s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
या वैकल्पिक रूप से इसे S3 बकेट में अपलोड करें आपके खाते में। - SageMaker डोमेन में ऑनबोर्ड करें और नोटबुक्स का उपयोग करने के लिए स्टूडियो एक्सेस करें। निर्देशों के लिए, देखें अमेज़न सेजमेकर डोमेन पर ऑनबोर्ड. यदि आप मौजूदा स्टूडियो का उपयोग कर रहे हैं, तो इसे अपग्रेड करें स्टूडियो का नवीनतम संस्करण.
डेटा अन्वेषण विजेट सक्षम करें
जब आप पांडा डेटा फ़्रेम का उपयोग कर रहे होते हैं, तो स्टूडियो नोटबुक उपयोगकर्ता डेटा एक्सप्लोरेशन विजेट को मैन्युअल रूप से सक्षम कर सकते हैं ताकि प्रत्येक कॉलम के शीर्ष पर डिफ़ॉल्ट रूप से नए विज़ुअलाइज़ेशन प्रदर्शित हों। विजेट संख्यात्मक डेटा के लिए एक हिस्टोग्राम और अन्य प्रकार के डेटा के लिए एक बार चार्ट दिखाता है। ये अभ्यावेदन आपको प्रत्येक कॉलम के लिए बॉयलरप्लेट विधियों को लिखे बिना डेटा वितरण को जल्दी से समझने और लापता मूल्यों और आउटलेयर की खोज करने की अनुमति देते हैं। वितरण की त्वरित समझ प्राप्त करने के लिए आप प्रत्येक दृश्य में बार पर होवर कर सकते हैं।
स्टूडियो खोलें और एक नया पायथन 3 नोटबुक बनाएं। का चयन करना सुनिश्चित करें डाटा साइंस 3.0 क्लिक करके सैजमेकर छवियों से छवि पर्यावरण बदलें बटन.
डेटा अन्वेषण विजेट निम्नलिखित छवियों में उपलब्ध है। डिफ़ॉल्ट सैजमेकर छवियों की सूची के लिए, देखें उपलब्ध अमेज़ॅन सैजमेकर छवियां.
- पायथन 3 (डेटा साइंस) पायथन 3.7 के साथ
- पायथन 3 (डेटा साइंस 2.0) पायथन 3.8 के साथ
- पायथन 3 (डेटा साइंस 3.0) पायथन 3.10 के साथ
- स्पार्क एनालिटिक्स 1.0 और 2.0
इस विजेट का उपयोग करने के लिए, आयात करें SageMaker_DataWrangler
पुस्तकालय। टाइटैनिक डेटासेट के संशोधित संस्करण को यहां से लोड करें S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
और पांडा पुस्तकालय के साथ सीएसवी पढ़ें:
डेटा विज़ुअलाइज़ करें
पंडों के डेटा फ़्रेम में डेटा लोड होने के बाद, आप केवल उपयोग करके डेटा देख सकते हैं df
or display(df)
. पंक्ति को सूचीबद्ध करने के साथ, डेटा प्रस्तुत करने का विजेट डेटा गुणवत्ता पर अंतर्दृष्टि, विज़ुअलाइज़ेशन और सलाह उत्पन्न करता है। आपको सुविधा और लक्ष्य अंतर्दृष्टि, वितरण जानकारी, या डेटा गुणवत्ता जांच प्रदान करने के लिए कोई अतिरिक्त कोड लिखने की आवश्यकता नहीं है। डेटा गुणवत्ता चेतावनियों, यदि कोई हो, को दर्शाने वाला सांख्यिकीय सारांश देखने के लिए आप डेटा फ़्रेम तालिका का शीर्ष लेख चुन सकते हैं।
प्रत्येक कॉलम डेटा प्रकार के आधार पर एक बार चार्ट या हिस्टोग्राम दिखाता है। डिफ़ॉल्ट रूप से, अर्थपूर्ण अंतर्दृष्टि उत्पन्न करने के लिए विजेट 10,000 टिप्पणियों तक का नमूना लेता है। यह संपूर्ण डेटासेट पर इनसाइट विश्लेषण चलाने का विकल्प भी प्रदान करता है।
जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है, यह विजेट पहचानता है कि कॉलम में श्रेणीबद्ध या मात्रात्मक डेटा है या नहीं।
श्रेणीबद्ध डेटा के लिए, विजेट सभी श्रेणियों के साथ बार चार्ट बनाता है। निम्न स्क्रीनशॉट में, उदाहरण के लिए, column Sex
डेटा पर श्रेणियों की पहचान करता है। आप बार पर होवर कर सकते हैं (नर इस मामले में) इन श्रेणियों का विवरण देखने के लिए, जैसे मान के साथ पंक्तियों की कुल संख्या male
और कुल विज़ुअलाइज़ किए गए डेटासेट में इसका वितरण (इस उदाहरण में 64.07%)। यह स्पष्ट डेटा के लिए एक अलग रंग में लापता मूल्यों के कुल प्रतिशत को भी उजागर करता है। जैसे मात्रात्मक डेटा के लिए ticket
कॉलम, यह अमान्य मानों के प्रतिशत के साथ वितरण दिखाता है।
यदि आप नोटबुक में एक मानक पांडा विज़ुअलाइज़ेशन देखना चाहते हैं, तो आप चुन सकते हैं पंडों की तालिका देखें और विजेट और पांडा प्रतिनिधित्व के बीच टॉगल करें, जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है।
कॉलम में डेटा के बारे में अधिक विस्तृत जानकारी प्राप्त करने के लिए, कॉलम के लिए समर्पित साइड पैनल खोलने के लिए कॉलम का हेडर चुनें। यहां आप दो टैब देख सकते हैं: इनसाइट्स और आँकड़े की गुणवत्ता.
निम्नलिखित अनुभागों में, हम इन दो विकल्पों का अधिक विस्तार से अन्वेषण करेंगे।
इनसाइट्स
RSI इनसाइट्स टैब प्रत्येक कॉलम के विवरण के साथ विवरण प्रदान करता है। यह खंड समग्र आंकड़ों को सूचीबद्ध करता है, जैसे कि मोड, यूनिक्स की संख्या, अनुपात और लापता/अमान्य मानों के लिए गणना, आदि, साथ ही हिस्टोग्राम या बार चार्ट की मदद से डेटा वितरण की कल्पना करें। निम्नलिखित स्क्रीनशॉट में, आप चयनित कॉलम के लिए उत्पन्न आसानी से समझने योग्य विज़ुअलाइज़ेशन के साथ प्रदर्शित डेटा अंतर्दृष्टि और वितरण जानकारी देख सकते हैं survived
.
आँकड़े की गुणवत्ता
स्टूडियो डेटा प्रस्तुत करने का विजेट हेडर में चेतावनी चिह्न के साथ पहचाने गए डेटा गुणवत्ता के मुद्दों को हाइलाइट करता है। विजेट बुनियादी बातों (अनुपलब्ध मान, स्थिर स्तंभ, आदि) से अधिक एमएल विशिष्ट (लक्ष्य रिसाव, कम भविष्य कहनेवाला स्कोर सुविधाएँ, आदि) से डेटा गुणवत्ता के मुद्दों के पूरे स्पेक्ट्रम की पहचान कर सकता है। विजेट डेटा गुणवत्ता की समस्या पैदा करने वाली कोशिकाओं को हाइलाइट करता है और समस्याग्रस्त कोशिकाओं को शीर्ष पर रखने के लिए पंक्तियों को पुनर्गठित करता है। डेटा गुणवत्ता समस्या का समाधान करने के लिए विजेट एक बटन के क्लिक पर लागू कई ट्रांसफॉर्मर प्रदान करता है।
डेटा गुणवत्ता अनुभाग का पता लगाने के लिए, कॉलम हेडर चुनें और साइड पैनल में, चुनें आँकड़े की गुणवत्ता टैब। आपको अपने स्टूडियो वातावरण में निम्नलिखित देखना चाहिए।
आइए पर उपलब्ध विभिन्न विकल्पों को देखें आँकड़े की गुणवत्ता टैब। इस उदाहरण के लिए, हम आयु कॉलम चुनते हैं, जिसे डेटा के आधार पर मात्रात्मक कॉलम के रूप में पहचाना जाता है। जैसा कि हम निम्नलिखित स्क्रीनशॉट में देख सकते हैं, यह विजेट विभिन्न प्रकार के परिवर्तनों का सुझाव देता है जिन्हें आप लागू कर सकते हैं, जिसमें सबसे सामान्य क्रियाएं शामिल हैं, जैसे नए मूल्य से बदलें, ड्रॉप मिसिंग, माध्यिका से बदलेंया, माध्य से बदलें. आप उपयोग के मामले (आप जिस एमएल समस्या को हल करने का प्रयास कर रहे हैं) के आधार पर अपने डेटासेट के लिए उनमें से कोई भी चुन सकते हैं। यह आपको भी देता है स्तंभ छोड़ें विकल्प यदि आप फीचर को पूरी तरह से हटाना चाहते हैं।
जब आप चुनते हैं कोड लागू करें और निर्यात करें, परिवर्तन डेटा फ्रेम की गहरी प्रति पर लागू होता है। रूपांतरण सफलतापूर्वक लागू होने के बाद, डेटा तालिका को इनसाइट्स और विज़ुअलाइज़ेशन के साथ ताज़ा किया जाता है। ट्रांसफ़ॉर्म कोड नोटबुक में मौजूदा सेल के बाद उत्पन्न होता है। आप इस निर्यात किए गए कोड को बाद में अपने डेटासेट पर परिवर्तन लागू करने के लिए चला सकते हैं, और इसे अपनी आवश्यकताओं के अनुसार बढ़ा सकते हैं। आप उत्पन्न कोड को सीधे संशोधित करके परिवर्तन को अनुकूलित कर सकते हैं। अगर हम लागू करते हैं ड्रॉप मिसिंग आयु कॉलम में विकल्प, निम्न परिवर्तन कोड डेटासेट पर लागू होता है, और विजेट के नीचे एक सेल में कोड भी उत्पन्न होता है:
निम्नलिखित कोड स्निपेट का एक और उदाहरण है माध्यिका से बदलें:
आइए अब डेटा प्रस्तुत करने के विजेट की लक्ष्य अंतर्दृष्टि क्षमता को देखें। मान लें कि आप का उपयोग करना चाहते हैं survived
भविष्यवाणी करने की सुविधा कि कोई यात्री जीवित रहेगा या नहीं। चुनना survived
कॉलम हेडर। साइड पैनल में, चुनें लक्ष्य स्तंभ के रूप में चयन करें. के लिए आदर्श डेटा वितरण survived
सुविधा में केवल दो वर्ग होने चाहिए: हाँ (1
) या नहीं (0
), जो टाइटैनिक दुर्घटना के बचने की संभावना को वर्गीकृत करने में मदद करता है। हालाँकि, चुने गए लक्ष्य कॉलम में डेटा विसंगतियों के कारण, बची हुई विशेषता है 0
, 1
, ?
, unknown
, तथा yes
.
चयनित लक्ष्य कॉलम के आधार पर समस्या का प्रकार चुनें, जो या तो हो सकता है वर्गीकरण or प्रतीपगमन. बचे हुए कॉलम के लिए, समस्या का प्रकार वर्गीकरण है। चुनना रन लक्ष्य स्तंभ के लिए अंतर्दृष्टि उत्पन्न करने के लिए।
डेटा प्रस्तुत करने का विजेट लक्ष्य कॉलम डेटा गुणवत्ता के साथ समस्याओं को हल करने के लिए सिफारिशों और नमूना स्पष्टीकरण के साथ लक्ष्य कॉलम अंतर्दृष्टि सूचीबद्ध करता है। यह स्वचालित रूप से कॉलम में विषम डेटा को भी हाइलाइट करता है।
हम अनुशंसित परिवर्तन चुनते हैं दुर्लभ लक्ष्य मान छोड़ें, क्योंकि दुर्लभ लक्ष्य मानों के लिए कम अवलोकन हैं।
चुने हुए परिवर्तन को पंडों के डेटा फ़्रेम पर लागू किया जाता है और बचे हुए कॉलम से असामान्य लक्ष्य मानों को समाप्त कर दिया जाता है। निम्नलिखित कोड देखें:
लागू परिवर्तन के परिणाम तुरंत डेटा फ्रेम पर दिखाई दे रहे हैं। डेटा प्रेप विजेट का उपयोग करके लागू की गई डेटा तैयारी गतिविधियों को ट्रैक करने के लिए, निम्न नोटबुक सेल में रूपांतरित कोड भी उत्पन्न होता है।
निष्कर्ष
इस पोस्ट में, हमने इस बारे में मार्गदर्शन प्रदान किया है कि कैसे स्टूडियो डेटा प्रीप विजेट आपको डेटा वितरण का विश्लेषण करने, टूल द्वारा उत्पन्न डेटा गुणवत्ता अंतर्दृष्टि का पता लगाने और प्रत्येक महत्वपूर्ण विशेषता के लिए आउटलेयर जैसे संभावित मुद्दों को उजागर करने में मदद कर सकता है। यह आपको उच्च-गुणवत्ता वाले मॉडल को प्रशिक्षित करने में मदद करने के लिए समग्र डेटा गुणवत्ता में सुधार करने में मदद करता है, और यह आपको उपयोगकर्ता इंटरफ़ेस पर डेटा बदलने और नोटबुक सेल के लिए स्वचालित रूप से कोड उत्पन्न करने की अनुमति देकर अविभाजित भारी भारोत्तोलन को हटा देता है। फिर आप इस कोड का उपयोग अपने MLOps पाइपलाइनों में पुनरुत्पादन का निर्माण करने के लिए कर सकते हैं, दोहराए जाने वाले कार्यों पर समय बर्बाद करने से बच सकते हैं, और डेटा तकरार वाली पाइपलाइनों के निर्माण और परिनियोजन को तेज करके संगतता समस्याओं को कम कर सकते हैं।
यदि आप SageMaker डेटा रैंगलर या स्टूडियो में नए हैं, तो इसे देखें सेजमेकर डेटा रैंगलर के साथ शुरुआत करें. यदि आपके पास इस पोस्ट से संबंधित कोई प्रश्न हैं, तो कृपया इसे टिप्पणी अनुभाग में जोड़ें।
लेखक के बारे में
पार्थ पटेल सैन फ़्रांसिस्को खाड़ी क्षेत्र में AWS में समाधान वास्तुकार हैं। पार्थ ग्राहकों को क्लाउड तक अपनी यात्रा में तेजी लाने के लिए मार्गदर्शन करता है और एडब्ल्यूएस क्लाउड को सफलतापूर्वक अपनाने और विकसित करने में उनकी मदद करता है। वह मशीन लर्निंग, पर्यावरणीय स्थिरता और अनुप्रयोग आधुनिकीकरण पर ध्यान केंद्रित करता है।
ईशा दुआ सैन फ्रांसिस्को खाड़ी क्षेत्र में स्थित एक वरिष्ठ समाधान वास्तुकार है। वह एडब्ल्यूएस एंटरप्राइज ग्राहकों को उनके लक्ष्यों और चुनौतियों को समझकर बढ़ने में मदद करती है, और यह सुनिश्चित करते हुए कि वे लचीला और स्केलेबल हैं, क्लाउड-नेटिव तरीके से अपने एप्लिकेशन को कैसे आर्किटेक्ट कर सकते हैं, इस पर उनका मार्गदर्शन करती हैं। वह मशीन लर्निंग तकनीकों और पर्यावरणीय स्थिरता के बारे में भावुक है।
हरिहरन सुरेश AWS में एक वरिष्ठ समाधान वास्तुकार हैं। उन्हें डेटाबेस, मशीन लर्निंग और नए समाधानों को डिजाइन करने का शौक है। AWS में शामिल होने से पहले, हरिहरन एक उत्पाद वास्तुकार, कोर बैंकिंग कार्यान्वयन विशेषज्ञ और डेवलपर थे, और उन्होंने BFSI संगठनों के साथ 11 वर्षों तक काम किया। तकनीक से इतर उन्हें पैराग्लाइडिंग और साइकिल चलाने में मजा आता है।
दानी मिशेल Amazon Web Services में AI/ML स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है। वह कंप्यूटर विजन उपयोग मामलों पर केंद्रित है और ईएमईए में ग्राहकों को उनकी एमएल यात्रा में तेजी लाने में मदद कर रहा है।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न SageMaker
- अमेज़न SageMaker डेटा रैंगलर
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- इंटरमीडिएट (200)
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट