अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एंबेडेड विज़ुअलाइज़ेशन का परिचय

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

मैन्युअल रूप से डेटा की गुणवत्ता का निरीक्षण करना और डेटा की सफाई करना एक दर्दनाक और समय लेने वाली प्रक्रिया है जो एक परियोजना पर डेटा वैज्ञानिक के समय का एक बड़ा हिस्सा ले सकती है। एनाकोंडा द्वारा किए गए डेटा वैज्ञानिकों के 2020 के सर्वेक्षण के अनुसार, डेटा वैज्ञानिक अपना लगभग 66% समय डेटा तैयार करने और विश्लेषण कार्यों पर खर्च करते हैं, जिसमें लोडिंग (19%), सफाई (26%), और डेटा की कल्पना करना (21%) शामिल है। अमेज़न SageMaker विभिन्न ग्राहकों की जरूरतों और प्राथमिकताओं को पूरा करने के लिए डेटा तैयार करने के उपकरणों की एक श्रृंखला प्रदान करता है। उन उपयोगकर्ताओं के लिए जो जीयूआई-आधारित इंटरैक्टिव इंटरफ़ेस पसंद करते हैं, SageMaker डेटा रैंगलर कोड की एक भी पंक्ति लिखे बिना स्पार्क द्वारा समर्थित डेटा को कुशलतापूर्वक संसाधित करने के लिए 300+ बिल्ट-इन विज़ुअलाइज़ेशन, विश्लेषण और परिवर्तन प्रदान करता है।

मशीन लर्निंग (एमएल) में डेटा विज़ुअलाइज़ेशन एक पुनरावृत्ति प्रक्रिया है और खोज, जांच और सत्यापन के लिए डेटासेट के निरंतर विज़ुअलाइज़ेशन की आवश्यकता होती है। डेटा को परिप्रेक्ष्य में रखने के लिए प्रत्येक कॉलम को संभावित डेटा त्रुटियों, अनुपलब्ध मानों, गलत डेटा प्रकारों, भ्रामक/गलत डेटा, बाहरी डेटा, और अधिक को समझने के लिए आवश्यक है।

इस पोस्ट में, हम आपको दिखाएंगे कि कैसे अमेज़न SageMaker डेटा रैंगलर स्वचालित रूप से डेटा वितरण के प्रमुख विज़ुअलाइज़ेशन उत्पन्न करता है, डेटा गुणवत्ता के मुद्दों का पता लगाता है, और कोड की एक पंक्ति लिखे बिना प्रत्येक सुविधा के लिए डेटा अंतर्दृष्टि जैसे आउटलेयर को सतह पर रखता है। यह स्वचालित गुणवत्ता चेतावनियों (उदाहरण के लिए, लापता मान या अमान्य मान) के साथ डेटा ग्रिड अनुभव को बेहतर बनाने में मदद करता है। स्वचालित रूप से जेनरेट किए गए विज़ुअलाइज़ेशन भी इंटरैक्टिव होते हैं। उदाहरण के लिए, आप प्रतिशत द्वारा क्रमित शीर्ष पांच सबसे अधिक बार आने वाले आइटम का सारणीकरण दिखा सकते हैं, और गिनती और प्रतिशत के बीच स्विच करने के लिए बार पर होवर कर सकते हैं।

.. पूर्वापेक्षाएँ

Amazon SageMaker Data Wrangler एक SageMaker सुविधा है जो SageMaker Studio के भीतर उपलब्ध है। आप अनुसरण कर सकते हैं स्टूडियो ऑनबोर्डिंग प्रक्रिया स्टूडियो वातावरण और नोटबुक्स को स्पिन करने के लिए। हालांकि आप कुछ प्रमाणीकरण विधियों में से चुन सकते हैं, स्टूडियो डोमेन बनाने का सबसे आसान तरीका निम्न का पालन करना है त्वरित निर्देश. त्वरित प्रारंभ मानक स्टूडियो सेटअप के समान डिफ़ॉल्ट सेटिंग्स का उपयोग करता है। आप ऑनबोर्ड का उपयोग करके भी चुन सकते हैं AWS आइडेंटिटी एंड एक्सेस मैनेजमेंट (IAM) आइडेंटिटी सेंटर (एडब्ल्यूएस सिंगल साइन-ऑन के उत्तराधिकारी) प्रमाणीकरण के लिए (देखें IAM पहचान केंद्र का उपयोग करके Amazon SageMaker डोमेन पर ऑनबोर्ड).

समाधान पूर्वाभ्यास

शुरू अपने सेजमेकर स्टूडियो पर्यावरण और एक नया बनाएँ डेटा रैंगलर प्रवाह. आप या तो अपना डेटासेट आयात कर सकते हैं या एक नमूना डेटासेट का उपयोग कर सकते हैं (विशाल) जैसा कि निम्न छवि में देखा गया है। ये दो नोड्स ( स्रोत नोड और तिथि प्रकार नोड) क्लिक करने योग्य हैं - जब आप इन दो नोड्स पर डबल-क्लिक करते हैं, तो डेटा रैंगलर तालिका प्रदर्शित करेगा।

हमारे मामले में, आइए राइट-क्लिक करें जानकारी का प्रकार आइकन और एक परिवर्तन जोड़ें:

अब आपको प्रत्येक कॉलम के शीर्ष पर विज़ुअलाइज़ेशन दिखाई देने चाहिए। कृपया चार्ट को लोड होने के लिए कुछ समय दें। विलंबता डेटासेट के आकार पर निर्भर करती है (टाइटैनिक डेटासेट के लिए, इसे डिफ़ॉल्ट उदाहरण में 1-2 सेकंड लेना चाहिए)।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.

टूलटिप पर होवर करके क्षैतिज शीर्ष बार तक स्क्रॉल करें। अब जबकि चार्ट लोड हो गए हैं, आप डेटा वितरण, अमान्य मान और लापता मान देख सकते हैं। आउटलेयर और लापता मान गलत डेटा की विशेषताएं हैं, और उन्हें पहचानना महत्वपूर्ण है क्योंकि वे आपके परिणामों को प्रभावित कर सकते हैं। इसका मतलब यह है कि क्योंकि आपका डेटा एक अप्रतिनिधि नमूने से आया है, आपके निष्कर्ष आपके अध्ययन के बाहर की स्थितियों के लिए सामान्य नहीं हो सकते हैं। मूल्यों का वर्गीकरण नीचे चार्ट पर देखा जा सकता है वैध मूल्यों को सफेद रंग में दर्शाया गया है, अमान्य नीले रंग में मूल्य, और लापता बैंगनी में मूल्य। आप भी देख सकते हैं बाहरी कारकों के कारण चार्ट के बाएँ या दाएँ नीले डॉट्स द्वारा दर्शाया गया है।

सभी विज़ुअलाइज़ेशन हिस्टोग्राम के रूप में आते हैं। गैर-श्रेणीबद्ध डेटा के लिए, प्रत्येक बिन के लिए एक बकेट सेट परिभाषित किया गया है। श्रेणीबद्ध डेटा के लिए, प्रत्येक अद्वितीय मान को बिन के रूप में माना जाता है। हिस्टोग्राम के शीर्ष पर, एक बार चार्ट है जो आपको अमान्य और अनुपलब्ध मान दिखाता है। हम न्यूमेरिक, श्रेणीबद्ध, बाइनरी, टेक्स्ट और डेटाटाइम प्रकारों के लिए मान्य मानों के अनुपात के साथ-साथ कुल शून्य और खाली कोशिकाओं के आधार पर लापता मानों का अनुपात और अंत में, अमान्य मानों का अनुपात देख सकते हैं। आइए समझने के लिए कुछ उदाहरण देखें कि आप इनका उपयोग करके कैसे देख सकते हैं डेटा रैंगलर का प्री-लोडेड नमूना टाइटैनिक डेटासेट.

उदाहरण 1 - हम के लिए 20% लापता मूल्यों को देख सकते हैं उम्र फ़ीचर / कॉलम। डेटा-संबंधित अनुसंधान/एमएल के क्षेत्र में लापता डेटा से निपटना महत्वपूर्ण है, या तो इसे हटाकर या इसे थोप कर (कुछ अनुमान के साथ लापता मूल्यों को संभालना)।

अमेज़ॅन सेजमेकर डेटा रैंगलर के नए एम्बेडेड विज़ुअलाइज़ेशन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस का परिचय। लंबवत खोज. ऐ.
आप का उपयोग करके लापता मानों को संसाधित कर सकते हैं लापता मूल्यों को संभालें परिवर्तन समूह। उपयोग इंप्यूट गायब है ट्रांसफ़ॉर्म का उपयोग उन मूल्यों को उत्पन्न करने के लिए करें जहाँ इनपुट कॉलम में लापता मान पाए गए थे। कॉन्फ़िगरेशन आपके डेटा प्रकार पर निर्भर करता है।

इस उदाहरण में, उम्र कॉलम में संख्यात्मक डेटा प्रकार होता है। रणनीति लागू करने के लिए, हम लागू करना चुन सकते हैं मतलब या अनुमानित माध्यिका आपके डेटासेट में मौजूद मानों पर।

अब जबकि हमने रूपांतरण जोड़ लिया है, हम देख सकते हैं कि उम्र कॉलम में अब गुम मान नहीं हैं।

उदाहरण 2 - हम इसके लिए 27% अमान्य मान देख सकते हैं TICKET फीचर/कॉलम जो का है STRING है प्रकार। अमान्य डेटा पक्षपाती अनुमान उत्पन्न कर सकता है, जो मॉडल की सटीकता को कम कर सकता है और गलत निष्कर्ष निकाल सकता है। आइए हम कुछ परिवर्तनों का पता लगाएं जिनका उपयोग हम अमान्य डेटा को संभालने के लिए कर सकते हैं TICKET स्तंभ.

स्क्रीनशॉट को देखते हुए, हम देखते हैं कि कुछ इनपुट एक ऐसे प्रारूप में लिखे गए हैं जिसमें अंकों से पहले अक्षर होते हैं ”पीसी 17318"और अन्य केवल अंक हैं जैसे"11769".

हम स्ट्रिंग के भीतर विशिष्ट पैटर्न को खोजने और संपादित करने के लिए एक परिवर्तन लागू करना चुन सकते हैं जैसे "पीसी" और उन्हें बदल दें। अगला, हम अपना कास्ट कर सकते हैं स्ट्रिंग एक नए प्रकार के लिए स्तंभ जैसे लंबा उपयोग में आसानी के लिए।

यह अभी भी हमें 19% लापता मूल्यों के साथ छोड़ देता है TICKET विशेषता। उदाहरण 1 के समान, अब हम माध्य या सन्निकट माध्यिका का उपयोग करके लापता मानों को आरोपित कर सकते हैं। विशेषता TICKET नीचे दी गई छवि के अनुसार अब अमान्य या अनुपलब्ध मान नहीं होने चाहिए।

यह सुनिश्चित करने के लिए कि इस ट्यूटोरियल का अनुसरण करने के बाद आप पर कोई शुल्क न लगे, यह सुनिश्चित करें कि आप डेटा रैंगलर ऐप को बंद करें.

निष्कर्ष

इस पोस्ट में, हमने नया प्रस्तुत किया अमेज़न सैजमेकर डेटा रैंगलर विजेट जो हटाने में मदद करेगा अविभाजित भारी भारोत्तोलन प्रत्येक सुविधा के लिए स्वचालित रूप से विज़ुअलाइज़ेशन और डेटा प्रोफाइलिंग अंतर्दृष्टि के साथ डेटा तैयार करने के दौरान अंतिम उपयोगकर्ताओं के लिए। यह विजेट डेटा की कल्पना करना आसान बनाता है (उदाहरण के लिए, श्रेणीबद्ध / गैर-श्रेणीबद्ध हिस्टोग्राम), डेटा गुणवत्ता के मुद्दों का पता लगाता है (उदाहरण के लिए, लापता मान और अमान्य मान), और सतह डेटा अंतर्दृष्टि (उदाहरण के लिए, आउटलेयर और शीर्ष एन आइटम)।

आप आज ही इस क्षमता का उपयोग उन सभी क्षेत्रों में शुरू कर सकते हैं जहां सेजमेकर स्टूडियो उपलब्ध है। कोशिश करो, और हमें बताएं कि आप क्या सोचते हैं। हम हमेशा आपकी प्रतिक्रिया की प्रतीक्षा कर रहे हैं, या तो आपके सामान्य AWS समर्थन संपर्कों के माध्यम से, या पर एडब्ल्यूएस फोरम सेजमेकर के लिए।

लेखक के बारे में

ईशा दुआ सैन फ्रांसिस्को खाड़ी क्षेत्र में स्थित एक वरिष्ठ समाधान वास्तुकार है। वह एडब्ल्यूएस एंटरप्राइज ग्राहकों को उनके लक्ष्यों और चुनौतियों को समझकर आगे बढ़ने में मदद करती है, और उन्हें यह सुनिश्चित करने के लिए मार्गदर्शन करती है कि वे अपने अनुप्रयोगों को क्लाउड-नेटिव तरीके से कैसे तैयार कर सकते हैं, जबकि यह सुनिश्चित करते हैं कि वे लचीले और स्केलेबल हैं। वह मशीन लर्निंग तकनीकों और पर्यावरणीय स्थिरता के बारे में भावुक है।

पार्थ पटेल सैन फ्रांसिस्को खाड़ी क्षेत्र में एडब्ल्यूएस में एक समाधान वास्तुकार है। पार्थ ग्राहकों को क्लाउड तक अपनी यात्रा में तेजी लाने के लिए मार्गदर्शन करता है और उन्हें एडब्ल्यूएस क्लाउड को सफलतापूर्वक अपनाने में मदद करता है। वह एमएल और एप्लिकेशन आधुनिकीकरण पर केंद्रित है।

समय टिकट: दिसम्बर 13/2022दिसम्बर 13/2022

समय टिकट: सितम्बर 29, 2022

Amazon SageMaker Data Wrangler के नए एम्बेडेड विज़ुअलाइज़ेशन का परिचय

प्लेटो द्वारा पुनर्प्रकाशित

.. पूर्वापेक्षाएँ

समाधान पूर्वाभ्यास

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

DJLServing और DeepSpeed मॉडल के समानांतर अनुमान का उपयोग करके Amazon SageMaker पर बड़े मॉडल परिनियोजित करें

AWS लेक फॉर्मेशन का उपयोग करके Amazon SageMaker फ़ीचर स्टोर को ऑफ़लाइन एक्सेस नियंत्रित करें

अमेज़ॅन केंद्र में वर्तनी परीक्षक के साथ खोज सटीकता में सुधार करें

Amazon SageMaker भू-स्थानिक क्षमताओं का उपयोग करके कृंतक संक्रमण का विश्लेषण करें | अमेज़न वेब सेवाएँ

अमेज़ॅन केंद्र स्लैक कनेक्टर का उपयोग करके बुद्धिमान खोज के साथ स्लैक कार्यक्षेत्र में ज्ञान को उजागर करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा