अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

Amazon SageMaker Data Wrangler के नए एम्बेडेड विज़ुअलाइज़ेशन का परिचय

मैन्युअल रूप से डेटा की गुणवत्ता का निरीक्षण करना और डेटा की सफाई करना एक दर्दनाक और समय लेने वाली प्रक्रिया है जो एक परियोजना पर डेटा वैज्ञानिक के समय का एक बड़ा हिस्सा ले सकती है। एनाकोंडा द्वारा किए गए डेटा वैज्ञानिकों के 2020 के सर्वेक्षण के अनुसार, डेटा वैज्ञानिक अपना लगभग 66% समय डेटा तैयार करने और विश्लेषण कार्यों पर खर्च करते हैं, जिसमें लोडिंग (19%), सफाई (26%), और डेटा की कल्पना करना (21%) शामिल है। अमेज़न SageMaker विभिन्न ग्राहकों की जरूरतों और प्राथमिकताओं को पूरा करने के लिए डेटा तैयार करने के उपकरणों की एक श्रृंखला प्रदान करता है। उन उपयोगकर्ताओं के लिए जो जीयूआई-आधारित इंटरैक्टिव इंटरफ़ेस पसंद करते हैं, SageMaker डेटा रैंगलर कोड की एक भी पंक्ति लिखे बिना स्पार्क द्वारा समर्थित डेटा को कुशलतापूर्वक संसाधित करने के लिए 300+ बिल्ट-इन विज़ुअलाइज़ेशन, विश्लेषण और परिवर्तन प्रदान करता है।

मशीन लर्निंग (एमएल) में डेटा विज़ुअलाइज़ेशन एक पुनरावृत्ति प्रक्रिया है और खोज, जांच और सत्यापन के लिए डेटासेट के निरंतर विज़ुअलाइज़ेशन की आवश्यकता होती है। डेटा को परिप्रेक्ष्य में रखने के लिए प्रत्येक कॉलम को संभावित डेटा त्रुटियों, अनुपलब्ध मानों, गलत डेटा प्रकारों, भ्रामक/गलत डेटा, बाहरी डेटा, और अधिक को समझने के लिए आवश्यक है।

इस पोस्ट में, हम आपको दिखाएंगे कि कैसे अमेज़न SageMaker डेटा रैंगलर स्वचालित रूप से डेटा वितरण के प्रमुख विज़ुअलाइज़ेशन उत्पन्न करता है, डेटा गुणवत्ता के मुद्दों का पता लगाता है, और कोड की एक पंक्ति लिखे बिना प्रत्येक सुविधा के लिए डेटा अंतर्दृष्टि जैसे आउटलेयर को सतह पर रखता है। यह स्वचालित गुणवत्ता चेतावनियों (उदाहरण के लिए, लापता मान या अमान्य मान) के साथ डेटा ग्रिड अनुभव को बेहतर बनाने में मदद करता है। स्वचालित रूप से जेनरेट किए गए विज़ुअलाइज़ेशन भी इंटरैक्टिव होते हैं। उदाहरण के लिए, आप प्रतिशत द्वारा क्रमित शीर्ष पांच सबसे अधिक बार आने वाले आइटम का सारणीकरण दिखा सकते हैं, और गिनती और प्रतिशत के बीच स्विच करने के लिए बार पर होवर कर सकते हैं।

.. पूर्वापेक्षाएँ

Amazon SageMaker Data Wrangler एक SageMaker सुविधा है जो SageMaker Studio के भीतर उपलब्ध है। आप अनुसरण कर सकते हैं स्टूडियो ऑनबोर्डिंग प्रक्रिया स्टूडियो वातावरण और नोटबुक्स को स्पिन करने के लिए। हालांकि आप कुछ प्रमाणीकरण विधियों में से चुन सकते हैं, स्टूडियो डोमेन बनाने का सबसे आसान तरीका निम्न का पालन करना है त्वरित निर्देश. त्वरित प्रारंभ मानक स्टूडियो सेटअप के समान डिफ़ॉल्ट सेटिंग्स का उपयोग करता है। आप ऑनबोर्ड का उपयोग करके भी चुन सकते हैं AWS आइडेंटिटी एंड एक्सेस मैनेजमेंट (IAM) आइडेंटिटी सेंटर (एडब्ल्यूएस सिंगल साइन-ऑन के उत्तराधिकारी) प्रमाणीकरण के लिए (देखें IAM पहचान केंद्र का उपयोग करके Amazon SageMaker डोमेन पर ऑनबोर्ड).

समाधान पूर्वाभ्यास

शुरू अपने सेजमेकर स्टूडियो पर्यावरण और एक नया बनाएँ डेटा रैंगलर प्रवाह. आप या तो अपना डेटासेट आयात कर सकते हैं या एक नमूना डेटासेट का उपयोग कर सकते हैं (विशाल) जैसा कि निम्न छवि में देखा गया है। ये दो नोड्स ( स्रोत नोड और तिथि प्रकार नोड) क्लिक करने योग्य हैं - जब आप इन दो नोड्स पर डबल-क्लिक करते हैं, तो डेटा रैंगलर तालिका प्रदर्शित करेगा।

हमारे मामले में, आइए राइट-क्लिक करें जानकारी का प्रकार आइकन और एक परिवर्तन जोड़ें:

अब आपको प्रत्येक कॉलम के शीर्ष पर विज़ुअलाइज़ेशन दिखाई देने चाहिए। कृपया चार्ट को लोड होने के लिए कुछ समय दें। विलंबता डेटासेट के आकार पर निर्भर करती है (टाइटैनिक डेटासेट के लिए, इसे डिफ़ॉल्ट उदाहरण में 1-2 सेकंड लेना चाहिए)।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

टूलटिप पर होवर करके क्षैतिज शीर्ष बार तक स्क्रॉल करें। अब जबकि चार्ट लोड हो गए हैं, आप डेटा वितरण, अमान्य मान और लापता मान देख सकते हैं। आउटलेयर और लापता मान गलत डेटा की विशेषताएं हैं, और उन्हें पहचानना महत्वपूर्ण है क्योंकि वे आपके परिणामों को प्रभावित कर सकते हैं। इसका मतलब यह है कि क्योंकि आपका डेटा एक अप्रतिनिधि नमूने से आया है, आपके निष्कर्ष आपके अध्ययन के बाहर की स्थितियों के लिए सामान्य नहीं हो सकते हैं। मूल्यों का वर्गीकरण नीचे चार्ट पर देखा जा सकता है वैध मूल्यों को सफेद रंग में दर्शाया गया है, अमान्य नीले रंग में मूल्य, और लापता बैंगनी में मूल्य। आप भी देख सकते हैं बाहरी कारकों के कारण चार्ट के बाएँ या दाएँ नीले डॉट्स द्वारा दर्शाया गया है।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

सभी विज़ुअलाइज़ेशन हिस्टोग्राम के रूप में आते हैं। गैर-श्रेणीबद्ध डेटा के लिए, प्रत्येक बिन के लिए एक बकेट सेट परिभाषित किया गया है। श्रेणीबद्ध डेटा के लिए, प्रत्येक अद्वितीय मान को बिन के रूप में माना जाता है। हिस्टोग्राम के शीर्ष पर, एक बार चार्ट है जो आपको अमान्य और अनुपलब्ध मान दिखाता है। हम न्यूमेरिक, श्रेणीबद्ध, बाइनरी, टेक्स्ट और डेटाटाइम प्रकारों के लिए मान्य मानों के अनुपात के साथ-साथ कुल शून्य और खाली कोशिकाओं के आधार पर लापता मानों का अनुपात और अंत में, अमान्य मानों का अनुपात देख सकते हैं। आइए समझने के लिए कुछ उदाहरण देखें कि आप इनका उपयोग करके कैसे देख सकते हैं डेटा रैंगलर का प्री-लोडेड नमूना टाइटैनिक डेटासेट.

उदाहरण 1 - हम के लिए 20% लापता मूल्यों को देख सकते हैं उम्र फ़ीचर / कॉलम। डेटा-संबंधित अनुसंधान/एमएल के क्षेत्र में लापता डेटा से निपटना महत्वपूर्ण है, या तो इसे हटाकर या इसे थोप कर (कुछ अनुमान के साथ लापता मूल्यों को संभालना)।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.
आप का उपयोग करके लापता मानों को संसाधित कर सकते हैं लापता मूल्यों को संभालें परिवर्तन समूह। उपयोग इंप्यूट गायब है ट्रांसफ़ॉर्म का उपयोग उन मूल्यों को उत्पन्न करने के लिए करें जहाँ इनपुट कॉलम में लापता मान पाए गए थे। कॉन्फ़िगरेशन आपके डेटा प्रकार पर निर्भर करता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

इस उदाहरण में, उम्र कॉलम में संख्यात्मक डेटा प्रकार होता है। रणनीति लागू करने के लिए, हम लागू करना चुन सकते हैं मतलब या अनुमानित माध्यिका आपके डेटासेट में मौजूद मानों पर।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

अब जबकि हमने रूपांतरण जोड़ लिया है, हम देख सकते हैं कि उम्र कॉलम में अब गुम मान नहीं हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

उदाहरण 2 - हम इसके लिए 27% अमान्य मान देख सकते हैं TICKET फीचर/कॉलम जो का है STRING है प्रकार। अमान्य डेटा पक्षपाती अनुमान उत्पन्न कर सकता है, जो मॉडल की सटीकता को कम कर सकता है और गलत निष्कर्ष निकाल सकता है। आइए हम कुछ परिवर्तनों का पता लगाएं जिनका उपयोग हम अमान्य डेटा को संभालने के लिए कर सकते हैं TICKET स्तंभ.

स्क्रीनशॉट को देखते हुए, हम देखते हैं कि कुछ इनपुट एक ऐसे प्रारूप में लिखे गए हैं जिसमें अंकों से पहले अक्षर होते हैं ”पीसी 17318"और अन्य केवल अंक हैं जैसे"11769".

हम स्ट्रिंग के भीतर विशिष्ट पैटर्न को खोजने और संपादित करने के लिए एक परिवर्तन लागू करना चुन सकते हैं जैसे "पीसी" और उन्हें बदल दें। अगला, हम अपना कास्ट कर सकते हैं स्ट्रिंग एक नए प्रकार के लिए स्तंभ जैसे लंबा उपयोग में आसानी के लिए।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

यह अभी भी हमें 19% लापता मूल्यों के साथ छोड़ देता है TICKET विशेषता। उदाहरण 1 के समान, अब हम माध्य या सन्निकट माध्यिका का उपयोग करके लापता मानों को आरोपित कर सकते हैं। विशेषता TICKET नीचे दी गई छवि के अनुसार अब अमान्य या अनुपलब्ध मान नहीं होने चाहिए।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

यह सुनिश्चित करने के लिए कि इस ट्यूटोरियल का अनुसरण करने के बाद आप पर कोई शुल्क न लगे, यह सुनिश्चित करें कि आप डेटा रैंगलर ऐप को बंद करें.

निष्कर्ष 

इस पोस्ट में, हमने नया प्रस्तुत किया अमेज़न सैजमेकर डेटा रैंगलर विजेट जो हटाने में मदद करेगा अविभाजित भारी भारोत्तोलन प्रत्येक सुविधा के लिए स्वचालित रूप से विज़ुअलाइज़ेशन और डेटा प्रोफाइलिंग अंतर्दृष्टि के साथ डेटा तैयार करने के दौरान अंतिम उपयोगकर्ताओं के लिए। यह विजेट डेटा की कल्पना करना आसान बनाता है (उदाहरण के लिए, श्रेणीबद्ध / गैर-श्रेणीबद्ध हिस्टोग्राम), डेटा गुणवत्ता के मुद्दों का पता लगाता है (उदाहरण के लिए, लापता मान और अमान्य मान), और सतह डेटा अंतर्दृष्टि (उदाहरण के लिए, आउटलेयर और शीर्ष एन आइटम)।

आप आज ही इस क्षमता का उपयोग उन सभी क्षेत्रों में शुरू कर सकते हैं जहां सेजमेकर स्टूडियो उपलब्ध है। कोशिश करो, और हमें बताएं कि आप क्या सोचते हैं। हम हमेशा आपकी प्रतिक्रिया की प्रतीक्षा कर रहे हैं, या तो आपके सामान्य AWS समर्थन संपर्कों के माध्यम से, या पर एडब्ल्यूएस फोरम सेजमेकर के लिए।


लेखक के बारे में

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.ईशा दुआ सैन फ्रांसिस्को खाड़ी क्षेत्र में स्थित एक वरिष्ठ समाधान वास्तुकार है। वह एडब्ल्यूएस एंटरप्राइज ग्राहकों को उनके लक्ष्यों और चुनौतियों को समझकर आगे बढ़ने में मदद करती है, और उन्हें यह सुनिश्चित करने के लिए मार्गदर्शन करती है कि वे अपने अनुप्रयोगों को क्लाउड-नेटिव तरीके से कैसे तैयार कर सकते हैं, जबकि यह सुनिश्चित करते हैं कि वे लचीले और स्केलेबल हैं। वह मशीन लर्निंग तकनीकों और पर्यावरणीय स्थिरता के बारे में भावुक है।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.पार्थ पटेल सैन फ्रांसिस्को खाड़ी क्षेत्र में एडब्ल्यूएस में एक समाधान वास्तुकार है। पार्थ ग्राहकों को क्लाउड तक अपनी यात्रा में तेजी लाने के लिए मार्गदर्शन करता है और उन्हें एडब्ल्यूएस क्लाउड को सफलतापूर्वक अपनाने में मदद करता है। वह एमएल और एप्लिकेशन आधुनिकीकरण पर केंद्रित है।

समय टिकट:

से अधिक AWS मशीन लर्निंग