खोजपूर्ण डेटा विश्लेषण के लिए अमेज़ॅन सेजमेकर कैनवास का प्रयोग करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

खोजपूर्ण डेटा विश्लेषण (ईडीए) व्यापार विश्लेषकों द्वारा पैटर्न की खोज करने, संबंधों को समझने, मान्यताओं को मान्य करने और उनके डेटा में विसंगतियों की पहचान करने के लिए किया जाने वाला एक सामान्य कार्य है। मशीन लर्निंग (एमएल) में, मॉडल निर्माण में आने से पहले पहले डेटा और उसके संबंधों को समझना महत्वपूर्ण है। पारंपरिक एमएल विकास चक्र में कभी-कभी महीनों लग सकते हैं और उन्नत डेटा विज्ञान और एमएल इंजीनियरिंग कौशल की आवश्यकता होती है, जबकि नो-कोड एमएल समाधान कंपनियों को एमएल समाधानों के वितरण को दिनों या घंटों तक तेज करने में मदद कर सकते हैं।

अमेज़ॅन सेजमेकर कैनवास एक नो-कोड एमएल टूल है जो व्यापार विश्लेषकों को कोड लिखे बिना या किसी एमएल अनुभव की आवश्यकता के बिना सटीक एमएल पूर्वानुमान उत्पन्न करने में मदद करता है। कैनवास डेटासेट को लोड करने, साफ करने और बदलने के लिए उपयोग में आसान विज़ुअल इंटरफ़ेस प्रदान करता है, इसके बाद एमएल मॉडल का निर्माण और सटीक भविष्यवाणियां उत्पन्न करता है।

इस पोस्ट में, हम आपके एमएल मॉडल के निर्माण से पहले आपके डेटा की बेहतर समझ हासिल करने के लिए ईडीए प्रदर्शन करने के तरीके के बारे में जानेंगे, कैनवास के अंतर्निहित उन्नत विज़ुअलाइज़ेशन के लिए धन्यवाद। ये विज़ुअलाइज़ेशन आपके डेटासेट में सुविधाओं के बीच संबंधों का विश्लेषण करने और आपके डेटा को बेहतर ढंग से समझने में आपकी सहायता करते हैं। यह सहज रूप से किया जाता है, डेटा के साथ इंटरैक्ट करने की क्षमता के साथ और अंतर्दृष्टि की खोज करने की क्षमता के साथ जो तदर्थ क्वेरी के साथ किसी का ध्यान नहीं जा सकता है। एमएल मॉडल के निर्माण और प्रशिक्षण से पहले उन्हें कैनवास के भीतर 'डेटा विज़ुअलाइज़र' के माध्यम से जल्दी से बनाया जा सकता है।

समाधान अवलोकन

ये विज़ुअलाइज़ेशन कैनवास द्वारा पहले से पेश किए गए डेटा तैयार करने और अन्वेषण के लिए क्षमताओं की श्रेणी में शामिल हैं, जिसमें लापता मूल्यों को ठीक करने और आउटलेर्स को बदलने की क्षमता शामिल है; डेटासेट को फ़िल्टर करें, उसमें शामिल हों और संशोधित करें; और टाइमस्टैम्प से विशिष्ट समय मान निकालें। इस बारे में अधिक जानने के लिए कि कैसे कैनवास आपके डेटासेट को साफ करने, बदलने और तैयार करने में आपकी मदद कर सकता है, देखें उन्नत परिवर्तनों के साथ डेटा तैयार करें.

हमारे उपयोग के मामले में, हम देखते हैं कि ग्राहक किसी भी व्यवसाय में क्यों मंथन करते हैं और यह बताते हैं कि ईडीए एक विश्लेषक के दृष्टिकोण से कैसे मदद कर सकता है। इस पोस्ट में हम जिस डेटासेट का उपयोग करते हैं, वह ग्राहक मंथन भविष्यवाणी के लिए एक दूरसंचार मोबाइल फोन वाहक से सिंथेटिक डेटासेट है जिसे आप डाउनलोड कर सकते हैं (मंथन.सीएसवी), या आप प्रयोग करने के लिए अपना स्वयं का डेटासेट लाते हैं। अपना खुद का डेटासेट आयात करने के निर्देशों के लिए, देखें अमेज़ॅन सेजमेकर कैनवास में डेटा आयात करना.

.. पूर्वापेक्षाएँ

में निर्देशों का पालन करें अमेज़ॅन सेजमेकर कैनवास स्थापित करने के लिए आवश्यक शर्तें इससे पहले कि आप आगे बढ़ें।

अपने डेटासेट को कैनवास पर आयात करें

नमूना डेटासेट को कैनवास में आयात करने के लिए, निम्न चरणों को पूरा करें:

एक व्यावसायिक उपयोगकर्ता के रूप में कैनवास में लॉग इन करें.सबसे पहले, हम पहले बताए गए डेटासेट को अपने स्थानीय कंप्यूटर से कैनवास पर अपलोड करते हैं। यदि आप अन्य स्रोतों का उपयोग करना चाहते हैं, जैसे कि अमेज़न रेडशिफ्ट, को देखें किसी बाहरी डेटा स्रोत से कनेक्ट करें.
चुनें आयात.
चुनें अपलोड, उसके बाद चुनो अपने कंप्यूटर से फ़ाइलें चुनें.
अपना डेटासेट (churn.csv) चुनें और चुनें आयात आंकड़ा.
डेटासेट चुनें और चुनें मॉडल बनाएं.
के लिए मॉडल का नाम, एक नाम दर्ज करें (इस पोस्ट के लिए, हमने मंथन भविष्यवाणी नाम दिया है)।
चुनें बनाएं.

जैसे ही आप अपने डेटासेट का चयन करते हैं, आपको एक सिंहावलोकन प्रस्तुत किया जाता है जो डेटा प्रकार, अनुपलब्ध मान, बेमेल मान, अद्वितीय मान और संबंधित कॉलम के माध्य या मोड मानों को रेखांकित करता है।
EDA के दृष्टिकोण से, आप देख सकते हैं कि डेटासेट में कोई गुम या बेमेल मान नहीं हैं। एक व्यापार विश्लेषक के रूप में, आप मॉडल का प्रदर्शन कैसे करेंगे और मॉडल के प्रदर्शन में कौन से कारक योगदान दे रहे हैं, इसकी पहचान करने के लिए डेटा अन्वेषण शुरू करने से पहले ही आप मॉडल निर्माण में प्रारंभिक अंतर्दृष्टि प्राप्त करना चाहेंगे। कैनवास आपको पहले मॉडल का पूर्वावलोकन करके मॉडल बनाने से पहले अपने डेटा से अंतर्दृष्टि प्राप्त करने की क्षमता देता है।
कोई भी डेटा अन्वेषण करने से पहले, चुनें पूर्वावलोकन मॉडल.
भविष्यवाणी करने के लिए कॉलम का चयन करें (मंथन)। कैनवास स्वचालित रूप से पता लगाता है कि यह दो-श्रेणी की भविष्यवाणी है।
चुनें पूर्वावलोकन मॉडल. सेजमेकर कैनवास आपके डेटा के एक सबसेट का उपयोग करके जल्दी से एक मॉडल बनाने के लिए यह जांचने के लिए उपयोग करता है कि आपका डेटा सटीक भविष्यवाणी उत्पन्न करने के लिए तैयार है या नहीं। इस नमूना मॉडल का उपयोग करके, आप वर्तमान मॉडल सटीकता और पूर्वानुमानों पर प्रत्येक स्तंभ के सापेक्ष प्रभाव को समझ सकते हैं।

निम्नलिखित स्क्रीनशॉट हमारा पूर्वावलोकन दिखाता है।

मॉडल पूर्वावलोकन इंगित करता है कि मॉडल सही लक्ष्य (मंथन?) 95.6% समय की भविष्यवाणी करता है। आप प्रारंभिक स्तंभ प्रभाव भी देख सकते हैं (प्रत्येक स्तंभ का लक्ष्य स्तंभ पर प्रभाव)। आइए कुछ डेटा एक्सप्लोरेशन, विज़ुअलाइज़ेशन और ट्रांसफ़ॉर्मेशन करें, और फिर एक मॉडल बनाने के लिए आगे बढ़ें।

डाटा अन्वेषण

कैनवास पहले से ही कुछ सामान्य बुनियादी विज़ुअलाइज़ेशन प्रदान करता है, जैसे कि ग्रिड दृश्य में डेटा वितरण बनाएँ टैब। ये डेटा का उच्च-स्तरीय अवलोकन प्राप्त करने, डेटा को कैसे वितरित किया जाता है, और डेटासेट का सारांश अवलोकन प्राप्त करने के लिए बहुत अच्छा है।

एक व्यापार विश्लेषक के रूप में, आपको मॉडल बनाने से पहले डेटा संबंध को आसानी से समझने के लिए डेटा कैसे वितरित किया जाता है और साथ ही वितरण लक्ष्य कॉलम (मंथन) के खिलाफ कैसे प्रतिबिंबित होता है, इस पर उच्च-स्तरीय अंतर्दृष्टि प्राप्त करने की आवश्यकता हो सकती है। अब आप चुन सकते हैं ग्रिड देखने डेटा वितरण का अवलोकन प्राप्त करने के लिए।

खोजपूर्ण डेटा विश्लेषण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के लिए Amazon SageMaker कैनवास का उपयोग करें। लंबवत खोज। ऐ।

निम्न स्क्रीनशॉट डेटासेट के वितरण का अवलोकन दिखाता है।

हम निम्नलिखित अवलोकन कर सकते हैं:

किसी भी व्यावहारिक उपयोग के लिए फ़ोन बहुत सारे अद्वितीय मूल्यों को लेता है। हम जानते हैं कि फ़ोन एक ग्राहक आईडी है और हम ऐसा मॉडल नहीं बनाना चाहते हैं जो विशिष्ट ग्राहकों पर विचार करे, बल्कि अधिक सामान्य अर्थों में जानें कि क्या मंथन हो सकता है। आप इस चर को हटा सकते हैं।
अधिकांश सांख्यिक विशेषताएं अच्छी तरह से वितरित की जाती हैं, निम्नलिखित a गाऊसी घंटीनुमा वक्राकार रेखा। एमएल में, आप चाहते हैं कि डेटा सामान्य रूप से वितरित किया जाए क्योंकि सामान्य वितरण प्रदर्शित करने वाले किसी भी चर का उच्च सटीकता के साथ पूर्वानुमान लगाया जा सकता है।

आइए गहराई में जाएं और कैनवास में उपलब्ध उन्नत विज़ुअलाइज़ेशन देखें।

डेटा विज़ुअलाइज़ेशन

व्यापार विश्लेषकों के रूप में, आप देखना चाहते हैं कि क्या डेटा तत्वों के बीच संबंध हैं, और वे मंथन से कैसे संबंधित हैं। कैनवास के साथ, आप अपने डेटा का पता लगा सकते हैं और कल्पना कर सकते हैं, जिससे आपको अपने एमएल मॉडल बनाने से पहले अपने डेटा में उन्नत अंतर्दृष्टि प्राप्त करने में मदद मिलती है। आप स्कैटर प्लॉट, बार चार्ट और बॉक्स प्लॉट का उपयोग करके कल्पना कर सकते हैं, जो आपके डेटा को समझने और मॉडल सटीकता को प्रभावित करने वाली सुविधाओं के बीच संबंधों की खोज करने में आपकी सहायता कर सकता है।

अपने विज़ुअलाइज़ेशन बनाना शुरू करने के लिए, निम्न चरणों को पूरा करें:

पर बनाएँ कैनवास ऐप का टैब, चुनें डेटा विज़ुअलाइज़र.

कैनवास में विज़ुअलाइज़ेशन का एक प्रमुख त्वरक है डेटा विज़ुअलाइज़र. आइए बेहतर परिप्रेक्ष्य प्राप्त करने के लिए नमूना आकार बदलें।

के आगे पंक्तियों की संख्या चुनें विज़ुअलाइज़ेशन नमूना.
अपने इच्छित नमूना आकार का चयन करने के लिए स्लाइडर का उपयोग करें।

चुनें अपडेट अपने नमूना आकार में परिवर्तन की पुष्टि करने के लिए।

आप अपने डेटासेट के आधार पर नमूना आकार बदलना चाह सकते हैं। कुछ मामलों में, आपके पास कुछ सौ से कुछ हज़ार पंक्तियाँ हो सकती हैं जहाँ आप संपूर्ण डेटासेट का चयन कर सकते हैं। कुछ मामलों में, आपके पास कई हज़ार पंक्तियाँ हो सकती हैं, इस स्थिति में आप अपने उपयोग के मामले के आधार पर कुछ सौ या कुछ हज़ार पंक्तियों का चयन कर सकते हैं।

एक स्कैटर प्लॉट एक ही व्यक्ति के लिए मापे गए दो मात्रात्मक चर के बीच संबंध को दर्शाता है। हमारे मामले में, सहसंबंध की जांच के लिए मूल्यों के बीच संबंध को समझना महत्वपूर्ण है।

चूंकि हमारे पास कॉल, मिनट और चार्ज हैं, इसलिए हम उनके बीच दिन, शाम और रात के लिए सहसंबंध की साजिश रचेंगे।

पहले, चलो एक बनाएँ स्कैटर प्लॉट डे चार्ज बनाम डे मिनट्स के बीच।

हम देख सकते हैं कि जैसे-जैसे डे मिनट बढ़ते हैं, डे चार्ज भी बढ़ता जाता है।

यही बात शाम की कॉल पर भी लागू होती है।

रात की कॉल का भी यही पैटर्न होता है।

क्योंकि मिनट और चार्ज रैखिक रूप से बढ़ते प्रतीत होते हैं, आप देख सकते हैं कि उनका एक दूसरे के साथ उच्च संबंध है। कुछ एमएल एल्गोरिदम में इन फीचर जोड़े को शामिल करने से अतिरिक्त भंडारण हो सकता है और प्रशिक्षण की गति कम हो सकती है, और एक से अधिक कॉलम में समान जानकारी होने से मॉडल प्रभाव पर अधिक जोर दे सकता है और मॉडल में अवांछित पूर्वाग्रह पैदा कर सकता है। आइए प्रत्येक अत्यधिक सहसंबद्ध जोड़ियों में से एक विशेषता को हटा दें: डे मिनट्स के साथ जोड़ी से डे चार्ज, नाइट मिन्स के साथ जोड़ी से नाइट चार्ज, और इंटल मिन्स के साथ जोड़ी से इंटल चार्ज।

डेटा संतुलन और भिन्नता

एक बार चार्ट x-अक्ष पर एक श्रेणीगत चर और y-अक्ष पर संख्यात्मक चर के बीच एक प्लॉट है जो दोनों चरों के बीच संबंध का पता लगाने के लिए है। आइए यह देखने के लिए एक बार चार्ट बनाएं कि हमारे लक्षित कॉलम में कॉल कैसे वितरित किए जाते हैं सही और गलत के लिए मंथन। चुनना बार चार्ट और दिन कॉल को ड्रैग एंड ड्रॉप करें और क्रमशः y-अक्ष और x-अक्ष पर मंथन करें।

अब, शाम की कॉल बनाम मंथन के लिए एक ही बार चार्ट बनाते हैं।

इसके बाद, रात्रि कॉल बनाम मंथन के लिए एक बार चार्ट बनाते हैं।

ऐसा लगता है कि मंथन करने वाले और न करने वाले ग्राहकों के व्यवहार में अंतर है।

बॉक्स प्लॉट उपयोगी होते हैं क्योंकि वे वर्ग (मंथन या नहीं) द्वारा डेटा के व्यवहार में अंतर दिखाते हैं। क्योंकि हम मंथन (लक्षित कॉलम) की भविष्यवाणी करने जा रहे हैं, आइए डेटासेट पर माध्य, अधिकतम, न्यूनतम, माध्यिका और आउटलेयर जैसे वर्णनात्मक आंकड़ों का अनुमान लगाने के लिए अपने लक्ष्य कॉलम के विरुद्ध कुछ विशेषताओं का एक बॉक्स प्लॉट बनाएं।

चुनें रेखा - चित्र और दिन मिनट और मंथन को क्रमशः y-अक्ष और x-अक्ष पर खींचें और छोड़ें।

आप हमारे लक्ष्य कॉलम (मंथन) के खिलाफ अन्य कॉलमों के लिए भी यही तरीका आजमा सकते हैं।

आइए अब ग्राहक सेवा कॉल के विरुद्ध दिन के मिनटों का एक बॉक्स प्लॉट बनाएं ताकि यह समझ सकें कि ग्राहक सेवा कॉल दिन के मिनट के मूल्य में कैसे फैलती है। आप देख सकते हैं कि ग्राहक सेवा कॉल का दिन के मिनट के मूल्य पर कोई निर्भरता या सहसंबंध नहीं है।

हमारे अवलोकनों से, हम यह निर्धारित कर सकते हैं कि डेटासेट काफी संतुलित है। हम चाहते हैं कि डेटा को सही और गलत मानों में समान रूप से वितरित किया जाए ताकि मॉडल एक मान के प्रति पक्षपाती न हो।

परिवर्तनों

अपनी टिप्पणियों के आधार पर, हम फ़ोन कॉलम को छोड़ देते हैं क्योंकि यह केवल एक खाता संख्या और दिन का शुल्क, पूर्व संध्या शुल्क, रात का शुल्क कॉलम है क्योंकि उनमें मिनट कॉलम जैसी अतिव्यापी जानकारी होती है, लेकिन हम पुष्टि करने के लिए एक पूर्वावलोकन फिर से चला सकते हैं।

डेटा विश्लेषण और परिवर्तन के बाद, आइए फिर से मॉडल का पूर्वावलोकन करें।

आप देख सकते हैं कि मॉडल की अनुमानित सटीकता 95.6% से 93.6% (यह भिन्न हो सकती है) में बदल गई है, हालांकि विशिष्ट स्तंभों के लिए स्तंभ प्रभाव (सुविधा महत्व) में काफी बदलाव आया है, जो प्रशिक्षण की गति के साथ-साथ स्तंभों के प्रभाव में सुधार करता है। भविष्यवाणी के रूप में हम मॉडल निर्माण के अगले चरणों में जाते हैं। हमारे डेटासेट को अतिरिक्त परिवर्तन की आवश्यकता नहीं है, लेकिन यदि आपको इसकी आवश्यकता है तो आप इसका लाभ उठा सकते हैं एमएल डेटा ट्रांसफॉर्म मॉडल निर्माण के लिए अपने डेटा को साफ करने, बदलने और तैयार करने के लिए।

मॉडल बनाएं

अब आप एक मॉडल बनाने और परिणामों का विश्लेषण करने के लिए आगे बढ़ सकते हैं। अधिक जानकारी के लिए देखें Amazon SageMaker Canvas का उपयोग करके नो-कोड मशीन लर्निंग के साथ ग्राहक मंथन की भविष्यवाणी करें.

क्लीन अप

भविष्य में आने से बचने के लिए सत्र शुल्क, लॉग आउट कैनवास का।

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि आप मॉडल निर्माण से पहले अपने डेटा को बेहतर ढंग से समझने, सटीक एमएल मॉडल बनाने और नो-कोड, विज़ुअल, पॉइंट-एंड-क्लिक इंटरफ़ेस का उपयोग करके पूर्वानुमान उत्पन्न करने के लिए ईडीए के लिए कैनवास विज़ुअलाइज़ेशन क्षमताओं का उपयोग कैसे कर सकते हैं।

लेखक के बारे में

राजकुमार संपतकुमार AWS में एक प्रधान तकनीकी खाता प्रबंधक है, जो ग्राहकों को व्यवसाय-प्रौद्योगिकी संरेखण पर मार्गदर्शन प्रदान करता है और उनके क्लाउड ऑपरेशन मॉडल और प्रक्रियाओं के पुनर्निवेश का समर्थन करता है। उन्हें क्लाउड और मशीन लर्निंग का शौक है। राज एक मशीन लर्निंग विशेषज्ञ भी है और एडब्ल्यूएस ग्राहकों के साथ उनके एडब्ल्यूएस वर्कलोड और आर्किटेक्चर को डिजाइन, तैनात और प्रबंधित करने के लिए काम करता है।

राहुल नबेरा एडब्ल्यूएस प्रोफेशनल सर्विसेज में डेटा एनालिटिक्स कंसल्टेंट हैं। उनका वर्तमान कार्य ग्राहकों को AWS पर अपना डेटा और मशीन लर्निंग वर्कलोड बनाने में सक्षम बनाने पर केंद्रित है। अपने खाली समय में वह क्रिकेट और वॉलीबॉल खेलना पसंद करते हैं।

रवितेजा येलमंचिली न्यूयॉर्क में स्थित अमेज़ॅन वेब सर्विसेज के साथ एक एंटरप्राइज सॉल्यूशंस आर्किटेक्ट है। वह क्लाउड पर अत्यधिक सुरक्षित, स्केलेबल, विश्वसनीय और लागत प्रभावी अनुप्रयोगों को डिजाइन और तैनात करने के लिए बड़े वित्तीय सेवा उद्यम ग्राहकों के साथ काम करता है। वह 11+ से अधिक वर्षों का जोखिम प्रबंधन, प्रौद्योगिकी परामर्श, डेटा विश्लेषण और मशीन सीखने का अनुभव लाता है। जब वह ग्राहकों की मदद नहीं कर रहा होता है, तो उसे यात्रा करने और PS5 खेलने में मज़ा आता है।

समय टिकट: अक्टूबर 18अक्टूबर 19

समय टिकट: मार्च 1, 2022

खोजपूर्ण डेटा विश्लेषण के लिए अमेज़ॅन सेजमेकर कैनवास का प्रयोग करें

प्लेटो द्वारा पुनर्प्रकाशित

समाधान अवलोकन

.. पूर्वापेक्षाएँ

अपने डेटासेट को कैनवास पर आयात करें

डाटा अन्वेषण

डेटा विज़ुअलाइज़ेशन

डेटा संतुलन और भिन्नता

परिवर्तनों

मॉडल बनाएं

क्लीन अप

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

एनएफएल के नेक्स्ट जेन स्टैट्स में रक्षा कवरेज योजनाओं की पहचान करना

कई क्षेत्रों का उपयोग करके Amazon रिकॉग्निशन स्टेटलेस API के लिए मापनीयता में सुधार करें

अमेज़ॅन सेजमेकर पर एडब्ल्यूएस ट्रेनियम के साथ लामा 2 को प्रशिक्षित करने के लिए सरल गाइड | अमेज़न वेब सेवाएँ

AWS पर उन्नत चालक सहायता प्रणाली (ADAS) के लिए मॉड्यूलर फ़ंक्शन डिज़ाइन

AWS IoT ग्रीनग्रास V2 का उपयोग करके Amazon SageMaker Edge Manager के साथ विसंगति का पता लगाना

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा