अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

इस पोस्ट में, हम आपको दो नमूना तकनीकों के माध्यम से चलते हैं: अमेज़न SageMaker डेटा रैंगलर ताकि आप अपने डेटा के लिए शीघ्रता से संसाधन कार्यप्रवाह बना सकें। हम आपकी विशिष्ट आवश्यकताओं के आधार पर आपके डेटा का नमूना लेने में आपकी सहायता करने के लिए यादृच्छिक नमूनाकरण और स्तरीकृत नमूनाकरण तकनीक दोनों को कवर करते हैं।

डेटा रैंगलर मशीन लर्निंग (एमएल) के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों कर देता है। आप डेटा तैयार करने और फीचर इंजीनियरिंग की प्रक्रिया को सरल बना सकते हैं, और डेटा चयन, सफाई, अन्वेषण और विज़ुअलाइज़ेशन सहित डेटा तैयारी वर्कफ़्लो के प्रत्येक चरण को एकल विज़ुअल इंटरफ़ेस से पूरा कर सकते हैं। डेटा रैंगलर के डेटा चयन उपकरण के साथ, आप विभिन्न डेटा स्रोतों से अपना इच्छित डेटा चुन सकते हैं और इसे एक क्लिक के साथ आयात कर सकते हैं। डेटा रैंगलर में 300 से अधिक बिल्ट-इन डेटा ट्रांसफ़ॉर्मेशन होते हैं जिससे आप बिना कोई कोड लिखे सुविधाओं को जल्दी से सामान्य, रूपांतरित और संयोजित कर सकते हैं। डेटा रैंगलर के विज़ुअलाइज़ेशन टेम्प्लेट के साथ, आप जल्दी से पूर्वावलोकन कर सकते हैं और निरीक्षण कर सकते हैं कि इन परिवर्तनों को पूरा किया गया है जैसा कि आप उन्हें देखना चाहते हैं अमेज़ॅन सैजमेकर स्टूडियो, एमएल के लिए पहला पूर्ण एकीकृत विकास पर्यावरण (आईडीई)। आपका डेटा तैयार होने के बाद, आप पूरी तरह से स्वचालित एमएल वर्कफ़्लो बना सकते हैं अमेज़न SageMaker पाइपलाइन और उन्हें पुन: उपयोग के लिए सहेजें अमेज़न SageMaker फ़ीचर स्टोर.

नमूनाकरण क्या है और यह कैसे मदद कर सकता है

सांख्यिकीय विश्लेषण में, प्रेक्षणों के कुल समुच्चय को के रूप में जाना जाता है आबादी. डेटा के साथ काम करते समय, जनसंख्या से प्रत्येक अवलोकन को मापने के लिए अक्सर यह कम्प्यूटेशनल रूप से व्यवहार्य नहीं होता है। सांख्यिकीय नमूनाकरण एक प्रक्रिया है जो आपको जनसंख्या से सबसेट का चयन करके अपने डेटा को समझने की अनुमति देती है।

नमूनाकरण एक व्यावहारिक समाधान प्रदान करता है जो व्यावहारिकता और आसानी के लिए कुछ सटीकता का त्याग करता है। यह सुनिश्चित करने के लिए कि आपका नमूना समग्र जनसंख्या का एक अच्छा प्रतिनिधित्व है, आप नमूनाकरण रणनीतियों को नियोजित कर सकते हैं। डेटा रैंगलर दो सबसे आम रणनीतियों का समर्थन करता है: यादृच्छिक नमूना और स्तरीकृत प्रतिचयन.

यादृच्छिक नमूना

यदि आपके पास एक बड़ा डेटासेट है, तो उस डेटासेट पर प्रयोग करने में समय लग सकता है। डेटा रैंगलर यादृच्छिक नमूनाकरण प्रदान करता है ताकि आप कुशलतापूर्वक अपने डेटा को संसाधित और कल्पना कर सकें। उदाहरण के लिए, हो सकता है कि आप किसी ग्राहक के लिए एक समय सीमा के भीतर खरीदारी की औसत संख्या की गणना करना चाहें, या आप किसी ग्राहक की एट्रिशन दर की गणना करना चाहें। आप इन मीट्रिक के अनुमानों की कल्पना करने के लिए एक यादृच्छिक नमूने का उपयोग कर सकते हैं।

आपके डेटासेट से एक यादृच्छिक नमूना चुना जाता है ताकि प्रत्येक तत्व के चुने जाने की समान संभावना हो। यह ऑपरेशन बड़े डेटासेट के लिए उपयुक्त एक कुशल तरीके से किया जाता है, इसलिए लौटाया गया नमूना आकार लगभग अनुरोधित आकार है, और आवश्यक रूप से अनुरोधित आकार के बराबर नहीं है।

यदि आप अपने डेटासेट को समझने के लिए त्वरित अनुमानित गणना करना चाहते हैं तो आप यादृच्छिक नमूनाकरण का उपयोग कर सकते हैं। जैसे-जैसे नमूना आकार बड़ा होता जाता है, यादृच्छिक नमूना पूरे डेटासेट का बेहतर अनुमान लगा सकता है, लेकिन जब तक आप सभी डेटा बिंदुओं को शामिल नहीं करते हैं, तब तक आपके यादृच्छिक नमूने में सभी आउटलेयर और किनारे के मामले शामिल नहीं हो सकते हैं। यदि आप अपने संपूर्ण डेटासेट को अंतःक्रियात्मक रूप से तैयार करना चाहते हैं, तो आप एक बड़े इंस्टेंस प्रकार पर भी स्विच कर सकते हैं।

एक सामान्य नियम के रूप में, जनसंख्या की गणना में नमूना त्रुटि का मतलब यादृच्छिक नमूने का उपयोग करके 0 हो जाता है क्योंकि नमूना बड़ा हो जाता है। जैसे-जैसे नमूना आकार बढ़ता है, नमूना आकार के वर्गमूल के व्युत्क्रम के रूप में त्रुटि कम हो जाती है। टेकअवे, जितना बड़ा नमूना, उतना ही बेहतर सन्निकटन।

स्तरीकृत प्रतिचयन

कुछ मामलों में, आपकी आबादी को स्तर या परस्पर अनन्य बकेट में विभाजित किया जा सकता है, जैसे पते के लिए भौगोलिक स्थान, गीतों के लिए प्रकाशन वर्ष, या आय के लिए टैक्स ब्रैकेट। यादृच्छिक नमूनाकरण सबसे लोकप्रिय नमूनाकरण तकनीक है, लेकिन अगर आपकी आबादी में कुछ स्तर असामान्य हैं, तो आप डेटा रैंगलर में स्तरीकृत नमूनाकरण का उपयोग यह सुनिश्चित करने के लिए कर सकते हैं कि प्रत्येक स्तर आपके नमूने में आनुपातिक रूप से दर्शाया गया है। यह नमूना त्रुटियों को कम करने के साथ-साथ यह सुनिश्चित करने के लिए उपयोगी हो सकता है कि आप अपने प्रयोग के दौरान किनारे के मामलों को कैप्चर कर रहे हैं।

वास्तविक दुनिया में, धोखाधड़ी वाले क्रेडिट कार्ड लेनदेन दुर्लभ घटनाएं हैं और आम तौर पर आपके डेटा का 1% से कम हिस्सा बनाते हैं। यदि हम बेतरतीब ढंग से नमूना लेते हैं, तो नमूने में बहुत कम या कोई धोखाधड़ी लेनदेन शामिल होना असामान्य नहीं है। परिणामस्वरूप, किसी मॉडल को प्रशिक्षण देते समय, सटीक मॉडल सीखने के लिए हमारे पास बहुत कम कपटपूर्ण उदाहरण होंगे। हम यह सुनिश्चित करने के लिए स्तरीकृत नमूने का उपयोग कर सकते हैं कि हमारे पास धोखाधड़ी वाले लेनदेन का आनुपातिक प्रतिनिधित्व है।

स्तरीकृत नमूने में, नमूने में प्रत्येक स्तर का आकार जनसंख्या में स्तर के आकार के समानुपाती होता है। यह आपके डेटा को आपके निर्दिष्ट कॉलम के आधार पर स्तर में विभाजित करके काम करता है, प्रत्येक स्तर से सही अनुपात के साथ यादृच्छिक नमूने का चयन करता है, और उन नमूनों को जनसंख्या के स्तरीकृत नमूने में जोड़ता है।

स्तरीकृत नमूनाकरण एक उपयोगी तकनीक है जब आप यह समझना चाहते हैं कि आपके डेटा के विभिन्न समूह एक-दूसरे से कैसे तुलना करते हैं, और आप यह सुनिश्चित करना चाहते हैं कि आपको प्रत्येक समूह से उचित प्रतिनिधित्व मिले।

Amazon S3 से आयात करते समय यादृच्छिक नमूनाकरण

इस खंड में, हम अपने धोखाधड़ी का पता लगाने वाली प्रणाली से धोखाधड़ी और गैर-धोखाधड़ी दोनों घटनाओं से युक्त डेटासेट के साथ यादृच्छिक नमूने का उपयोग करते हैं। तुम कर सकते हो डाउनलोड इस पोस्ट के साथ पालन करने के लिए डेटासेट (सीसी 4.0 अंतरराष्ट्रीय एट्रिब्यूशन लाइसेंस).

इस लेखन के समय, आप से डेटासेट आयात कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, और स्नोफ्लेक। हमारा डेटासेट बहुत बड़ा है, जिसमें 1 मिलियन पंक्तियाँ हैं। इस मामले में, हम डेटा रैंगलर के भीतर कुछ इंटरैक्टिव प्रयोग के लिए Amazon S1,0000 से आयात पर 3 पंक्तियों का नमूना लेना चाहते हैं।

सेजमेकर स्टूडियो खोलें और एक नया डेटा रैंगलर प्रवाह बनाएं।
के अंतर्गत आयात आंकड़ा, चुनें अमेज़न S3.
आयात करने के लिए डेटासेट चुनें।
में विवरण फलक, अपना डेटासेट नाम और फ़ाइल प्रकार प्रदान करें।
के लिए सैम्पलिंग, चुनें बिना सोचे समझे.
के लिए नमूने का आकार, दर्ज 10000.
चुनें आयात डेटासेट को डेटा रैंगलर में लोड करने के लिए।

आप डेटा रैंगलर में डेटा प्रवाह पृष्ठ पर दो अलग-अलग चरणों की कल्पना कर सकते हैं। पहला चरण आपके द्वारा परिभाषित नमूना कार्यनीति के आधार पर नमूना डेटासेट के लोड होने का संकेत देता है। डेटा लोड होने के बाद, डेटा रैंगलर डेटासेट में प्रत्येक कॉलम के लिए डेटा प्रकारों का स्वतः पता लगाता है। यह चरण सभी डेटासेट के लिए डिफ़ॉल्ट रूप से जोड़ा जाता है।

अब आप विश्लेषण जोड़कर डेटा रैंगलर में यादृच्छिक नमूना डेटा की समीक्षा कर सकते हैं।

के आगे धन चिह्न चुनें जानकारी का प्रकार और चुनें विश्लेषण.
के लिए विश्लेषण प्रकारचुनें स्कैटर प्लॉट.
चुनें करतब_1 और करतब_2 से संबंधित एक्स अक्ष और वाई अक्ष, क्रमशः।
के लिए द्वारा रंग, चुनें इस_धोखाधड़ी.

जब आप डेटासेट के साथ सहज हों, तो ML के लिए अपना डेटा तैयार करने के लिए अपनी व्यावसायिक आवश्यकता के अनुसार आगे डेटा परिवर्तन करने के लिए आगे बढ़ें।

निम्नलिखित स्क्रीनशॉट में, हम अपने विश्लेषण में धोखाधड़ी (गहरा नीला) और गैर-धोखाधड़ी (हल्का नीला) लेनदेन देख सकते हैं।

अगले भाग में, हम यह सुनिश्चित करने के लिए स्तरीकृत नमूने का उपयोग करने पर चर्चा करते हैं कि धोखाधड़ी के मामलों को आनुपातिक रूप से चुना जाता है।

एक परिवर्तन के साथ स्तरीकृत नमूनाकरण

डेटा रैंगलर आपको आयात पर नमूना लेने की अनुमति देता है, साथ ही एक परिवर्तन के माध्यम से नमूना भी देता है। इस खंड में, हम आपके द्वारा डेटा रैंगलर में अपने डेटासेट को आयात करने के बाद एक परिवर्तन के माध्यम से स्तरीकृत नमूने का उपयोग करने पर चर्चा करते हैं।

नमूना शुरू करने के लिए, पर डाटा प्रवाह टैब में, आयातित डेटासेट के आगे धन चिह्न चुनें और चुनें परिवर्तन जोड़ें.

इस लेखन के समय, डेटा रैंगलर से अधिक प्रदान करता है 300 अंतर्निर्मित परिवर्तन. बिल्ट-इन ट्रांसफ़ॉर्म के अलावा, आप पंडों या पायस्पार्क में अपने स्वयं के कस्टम ट्रांसफ़ॉर्म लिख सकते हैं।

से परिवर्तन जोड़ें सूची, चुनें सैम्पलिंग.

अब आप तीन अलग-अलग नमूनाकरण रणनीतियों का उपयोग कर सकते हैं: सीमा, यादृच्छिक और स्तरीकृत।

के लिए नमूनाकरण विधि, चुनें विभक्त हो गया.
उपयोग is_fraud स्तरीकृत स्तंभ के रूप में स्तंभ।
चुनें पूर्वावलोकन परिवर्तन का पूर्वावलोकन करने के लिए, फिर चुनें इस परिवर्तन को अपने परिवर्तन नुस्खा में एक कदम के रूप में जोड़ने के लिए।

आपका डेटा प्रवाह अब जोड़े गए नमूनाकरण चरण को दर्शाता है।

अब हम एक विश्लेषण जोड़कर यादृच्छिक नमूना डेटा की समीक्षा कर सकते हैं।

धन चिह्न चुनें और चुनें विश्लेषण.
के लिए विश्लेषण प्रकारचुनें हिस्टोग्राम.
चुनें इस_धोखाधड़ी दोंनो के लिए एक्स अक्ष और द्वारा रंग.
चुनें पूर्वावलोकन.

निम्नलिखित स्क्रीनशॉट में, हम 20% धोखाधड़ी और 80% गैर-धोखाधड़ी के सही अनुपात में स्तरीकृत नमूने के माध्यम से चुने गए धोखाधड़ी (गहरा नीला) और गैर-धोखाधड़ी (हल्का नीला) मामलों के टूटने का निरीक्षण कर सकते हैं।

निष्कर्ष

बहुत बड़े डेटासेट के साथ काम करते समय डेटा का सही ढंग से नमूना लेना और अपनी व्यावसायिक आवश्यकताओं को पूरा करने के लिए सही नमूना रणनीति चुनना आवश्यक है। आपके नमूने की प्रभावशीलता विभिन्न कारकों पर निर्भर करती है, जिसमें व्यावसायिक परिणाम, डेटा उपलब्धता और वितरण शामिल हैं। इस पोस्ट में, हमने आपके डेटा को तैयार करने के लिए डेटा रैंगलर और इसकी अंतर्निहित नमूनाकरण रणनीतियों का उपयोग करने का तरीका कवर किया है।

आप इस क्षमता का उपयोग आज से उन सभी क्षेत्रों में शुरू कर सकते हैं जहां सेजमेकर स्टूडियो उपलब्ध है। आरंभ करने के लिए, पर जाएँ अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें.

आभार

लेखक जोनाथन चुंग (एप्लाइड साइंटिस्ट) को उनकी समीक्षा और इस लेख पर बहुमूल्य प्रतिक्रिया के लिए धन्यवाद देना चाहते हैं।

लेखक के बारे में

बेन हैरिस एक सॉफ्टवेयर इंजीनियर है जिसके पास विभिन्न डोमेन में स्केलेबल डेटा पाइपलाइनों और मशीन लर्निंग सॉल्यूशंस को डिजाइन करने, तैनात करने और बनाए रखने का अनुभव है।

विशाल कपूर एडब्ल्यूएस एआई के साथ एक वरिष्ठ अनुप्रयुक्त वैज्ञानिक हैं। उन्हें डेटा रैंगलर में ग्राहकों को उनके डेटा को समझने में मदद करने का शौक है। अपने खाली समय में, वह माउंटेन बाइक, स्नोबोर्ड और अपने परिवार के साथ समय बिताते हैं।

मीनाक्षीसुंदरम थंडावरायण एडब्ल्यूएस के साथ एक वरिष्ठ एआई/एमएल विशेषज्ञ हैं। वह हाई-टेक रणनीतिक खातों को उनकी AI और ML यात्रा में मदद करता है। वह डेटा-संचालित एआई के बारे में बहुत भावुक है।

अजय शर्मा अमेज़ॅन सेजमेकर के लिए एक प्रमुख उत्पाद प्रबंधक हैं जहां वह डेटा रैंगलर पर ध्यान केंद्रित करते हैं, जो डेटा वैज्ञानिकों के लिए एक दृश्य डेटा तैयारी उपकरण है। एडब्ल्यूएस से पहले, अजय मैकिन्से एंड कंपनी में डेटा साइंस विशेषज्ञ थे, जहां उन्होंने दुनिया भर में अग्रणी वित्त और बीमा फर्मों के लिए एमएल-केंद्रित सगाई का नेतृत्व किया। अजय को डेटा साइंस का शौक है और उन्हें नवीनतम एल्गोरिदम और मशीन लर्निंग तकनीकों का पता लगाना पसंद है।

समय टिकट: अप्रैल १, २०२४

समय टिकट: फ़रवरी 6, 2024

अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

नमूनाकरण क्या है और यह कैसे मदद कर सकता है

यादृच्छिक नमूना

स्तरीकृत प्रतिचयन

Amazon S3 से आयात करते समय यादृच्छिक नमूनाकरण

एक परिवर्तन के साथ स्तरीकृत नमूनाकरण

निष्कर्ष

आभार

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सेजमेकर पर लोरा के साथ व्हिस्पर मॉडल को फाइन-ट्यून करें | अमेज़न वेब सेवाएँ

अमेज़ॅन केंद्र | का उपयोग करके बुद्धिमानी से एडोब एक्सपीरियंस मैनेजर सामग्री खोजें अमेज़न वेब सेवाएँ

AWS पर कंप्यूटर विज़न पाइपलाइनों के लिए सिंथेटिक डेटा बनाएँ

शेड्यूल किए गए नोटबुक जॉब के रूप में अपने Amazon SageMaker Studio नोटबुक को संचालित करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा