अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.

अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं

इस पोस्ट में, हम आपको दो नमूना तकनीकों के माध्यम से चलते हैं: अमेज़न SageMaker डेटा रैंगलर ताकि आप अपने डेटा के लिए शीघ्रता से संसाधन कार्यप्रवाह बना सकें। हम आपकी विशिष्ट आवश्यकताओं के आधार पर आपके डेटा का नमूना लेने में आपकी सहायता करने के लिए यादृच्छिक नमूनाकरण और स्तरीकृत नमूनाकरण तकनीक दोनों को कवर करते हैं।

डेटा रैंगलर मशीन लर्निंग (एमएल) के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों कर देता है। आप डेटा तैयार करने और फीचर इंजीनियरिंग की प्रक्रिया को सरल बना सकते हैं, और डेटा चयन, सफाई, अन्वेषण और विज़ुअलाइज़ेशन सहित डेटा तैयारी वर्कफ़्लो के प्रत्येक चरण को एकल विज़ुअल इंटरफ़ेस से पूरा कर सकते हैं। डेटा रैंगलर के डेटा चयन उपकरण के साथ, आप विभिन्न डेटा स्रोतों से अपना इच्छित डेटा चुन सकते हैं और इसे एक क्लिक के साथ आयात कर सकते हैं। डेटा रैंगलर में 300 से अधिक बिल्ट-इन डेटा ट्रांसफ़ॉर्मेशन होते हैं जिससे आप बिना कोई कोड लिखे सुविधाओं को जल्दी से सामान्य, रूपांतरित और संयोजित कर सकते हैं। डेटा रैंगलर के विज़ुअलाइज़ेशन टेम्प्लेट के साथ, आप जल्दी से पूर्वावलोकन कर सकते हैं और निरीक्षण कर सकते हैं कि इन परिवर्तनों को पूरा किया गया है जैसा कि आप उन्हें देखना चाहते हैं अमेज़ॅन सैजमेकर स्टूडियो, एमएल के लिए पहला पूर्ण एकीकृत विकास पर्यावरण (आईडीई)। आपका डेटा तैयार होने के बाद, आप पूरी तरह से स्वचालित एमएल वर्कफ़्लो बना सकते हैं अमेज़न SageMaker पाइपलाइन और उन्हें पुन: उपयोग के लिए सहेजें अमेज़न SageMaker फ़ीचर स्टोर.

नमूनाकरण क्या है और यह कैसे मदद कर सकता है

सांख्यिकीय विश्लेषण में, प्रेक्षणों के कुल समुच्चय को के रूप में जाना जाता है आबादी. डेटा के साथ काम करते समय, जनसंख्या से प्रत्येक अवलोकन को मापने के लिए अक्सर यह कम्प्यूटेशनल रूप से व्यवहार्य नहीं होता है। सांख्यिकीय नमूनाकरण एक प्रक्रिया है जो आपको जनसंख्या से सबसेट का चयन करके अपने डेटा को समझने की अनुमति देती है।

नमूनाकरण एक व्यावहारिक समाधान प्रदान करता है जो व्यावहारिकता और आसानी के लिए कुछ सटीकता का त्याग करता है। यह सुनिश्चित करने के लिए कि आपका नमूना समग्र जनसंख्या का एक अच्छा प्रतिनिधित्व है, आप नमूनाकरण रणनीतियों को नियोजित कर सकते हैं। डेटा रैंगलर दो सबसे आम रणनीतियों का समर्थन करता है: यादृच्छिक नमूना और स्तरीकृत प्रतिचयन.

यादृच्छिक नमूना

यदि आपके पास एक बड़ा डेटासेट है, तो उस डेटासेट पर प्रयोग करने में समय लग सकता है। डेटा रैंगलर यादृच्छिक नमूनाकरण प्रदान करता है ताकि आप कुशलतापूर्वक अपने डेटा को संसाधित और कल्पना कर सकें। उदाहरण के लिए, हो सकता है कि आप किसी ग्राहक के लिए एक समय सीमा के भीतर खरीदारी की औसत संख्या की गणना करना चाहें, या आप किसी ग्राहक की एट्रिशन दर की गणना करना चाहें। आप इन मीट्रिक के अनुमानों की कल्पना करने के लिए एक यादृच्छिक नमूने का उपयोग कर सकते हैं।

आपके डेटासेट से एक यादृच्छिक नमूना चुना जाता है ताकि प्रत्येक तत्व के चुने जाने की समान संभावना हो। यह ऑपरेशन बड़े डेटासेट के लिए उपयुक्त एक कुशल तरीके से किया जाता है, इसलिए लौटाया गया नमूना आकार लगभग अनुरोधित आकार है, और आवश्यक रूप से अनुरोधित आकार के बराबर नहीं है।

यदि आप अपने डेटासेट को समझने के लिए त्वरित अनुमानित गणना करना चाहते हैं तो आप यादृच्छिक नमूनाकरण का उपयोग कर सकते हैं। जैसे-जैसे नमूना आकार बड़ा होता जाता है, यादृच्छिक नमूना पूरे डेटासेट का बेहतर अनुमान लगा सकता है, लेकिन जब तक आप सभी डेटा बिंदुओं को शामिल नहीं करते हैं, तब तक आपके यादृच्छिक नमूने में सभी आउटलेयर और किनारे के मामले शामिल नहीं हो सकते हैं। यदि आप अपने संपूर्ण डेटासेट को अंतःक्रियात्मक रूप से तैयार करना चाहते हैं, तो आप एक बड़े इंस्टेंस प्रकार पर भी स्विच कर सकते हैं।

एक सामान्य नियम के रूप में, जनसंख्या की गणना में नमूना त्रुटि का मतलब यादृच्छिक नमूने का उपयोग करके 0 हो जाता है क्योंकि नमूना बड़ा हो जाता है। जैसे-जैसे नमूना आकार बढ़ता है, नमूना आकार के वर्गमूल के व्युत्क्रम के रूप में त्रुटि कम हो जाती है। टेकअवे, जितना बड़ा नमूना, उतना ही बेहतर सन्निकटन।

स्तरीकृत प्रतिचयन

कुछ मामलों में, आपकी आबादी को स्तर या परस्पर अनन्य बकेट में विभाजित किया जा सकता है, जैसे पते के लिए भौगोलिक स्थान, गीतों के लिए प्रकाशन वर्ष, या आय के लिए टैक्स ब्रैकेट। यादृच्छिक नमूनाकरण सबसे लोकप्रिय नमूनाकरण तकनीक है, लेकिन अगर आपकी आबादी में कुछ स्तर असामान्य हैं, तो आप डेटा रैंगलर में स्तरीकृत नमूनाकरण का उपयोग यह सुनिश्चित करने के लिए कर सकते हैं कि प्रत्येक स्तर आपके नमूने में आनुपातिक रूप से दर्शाया गया है। यह नमूना त्रुटियों को कम करने के साथ-साथ यह सुनिश्चित करने के लिए उपयोगी हो सकता है कि आप अपने प्रयोग के दौरान किनारे के मामलों को कैप्चर कर रहे हैं।

वास्तविक दुनिया में, धोखाधड़ी वाले क्रेडिट कार्ड लेनदेन दुर्लभ घटनाएं हैं और आम तौर पर आपके डेटा का 1% से कम हिस्सा बनाते हैं। यदि हम बेतरतीब ढंग से नमूना लेते हैं, तो नमूने में बहुत कम या कोई धोखाधड़ी लेनदेन शामिल होना असामान्य नहीं है। परिणामस्वरूप, किसी मॉडल को प्रशिक्षण देते समय, सटीक मॉडल सीखने के लिए हमारे पास बहुत कम कपटपूर्ण उदाहरण होंगे। हम यह सुनिश्चित करने के लिए स्तरीकृत नमूने का उपयोग कर सकते हैं कि हमारे पास धोखाधड़ी वाले लेनदेन का आनुपातिक प्रतिनिधित्व है।

स्तरीकृत नमूने में, नमूने में प्रत्येक स्तर का आकार जनसंख्या में स्तर के आकार के समानुपाती होता है। यह आपके डेटा को आपके निर्दिष्ट कॉलम के आधार पर स्तर में विभाजित करके काम करता है, प्रत्येक स्तर से सही अनुपात के साथ यादृच्छिक नमूने का चयन करता है, और उन नमूनों को जनसंख्या के स्तरीकृत नमूने में जोड़ता है।

स्तरीकृत नमूनाकरण एक उपयोगी तकनीक है जब आप यह समझना चाहते हैं कि आपके डेटा के विभिन्न समूह एक-दूसरे से कैसे तुलना करते हैं, और आप यह सुनिश्चित करना चाहते हैं कि आपको प्रत्येक समूह से उचित प्रतिनिधित्व मिले।

Amazon S3 से आयात करते समय यादृच्छिक नमूनाकरण

इस खंड में, हम अपने धोखाधड़ी का पता लगाने वाली प्रणाली से धोखाधड़ी और गैर-धोखाधड़ी दोनों घटनाओं से युक्त डेटासेट के साथ यादृच्छिक नमूने का उपयोग करते हैं। तुम कर सकते हो डाउनलोड इस पोस्ट के साथ पालन करने के लिए डेटासेट (सीसी 4.0 अंतरराष्ट्रीय एट्रिब्यूशन लाइसेंस).

इस लेखन के समय, आप से डेटासेट आयात कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, और स्नोफ्लेक। हमारा डेटासेट बहुत बड़ा है, जिसमें 1 मिलियन पंक्तियाँ हैं। इस मामले में, हम डेटा रैंगलर के भीतर कुछ इंटरैक्टिव प्रयोग के लिए Amazon S1,0000 से आयात पर 3 पंक्तियों का नमूना लेना चाहते हैं।

  1. सेजमेकर स्टूडियो खोलें और एक नया डेटा रैंगलर प्रवाह बनाएं।
  2. के अंतर्गत आयात आंकड़ा, चुनें अमेज़न S3.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.
  3. आयात करने के लिए डेटासेट चुनें।
  4. में विवरण फलक, अपना डेटासेट नाम और फ़ाइल प्रकार प्रदान करें।
  5. के लिए सैम्पलिंग, चुनें बिना सोचे समझे.
  6. के लिए नमूने का आकार, दर्ज 10000.
  7. चुनें आयात डेटासेट को डेटा रैंगलर में लोड करने के लिए।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.

आप डेटा रैंगलर में डेटा प्रवाह पृष्ठ पर दो अलग-अलग चरणों की कल्पना कर सकते हैं। पहला चरण आपके द्वारा परिभाषित नमूना कार्यनीति के आधार पर नमूना डेटासेट के लोड होने का संकेत देता है। डेटा लोड होने के बाद, डेटा रैंगलर डेटासेट में प्रत्येक कॉलम के लिए डेटा प्रकारों का स्वतः पता लगाता है। यह चरण सभी डेटासेट के लिए डिफ़ॉल्ट रूप से जोड़ा जाता है।

अब आप विश्लेषण जोड़कर डेटा रैंगलर में यादृच्छिक नमूना डेटा की समीक्षा कर सकते हैं।

  1. के आगे धन चिह्न चुनें जानकारी का प्रकार और चुनें विश्लेषण.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.
  2. के लिए विश्लेषण प्रकारचुनें स्कैटर प्लॉट.
  3. चुनें करतब_1 और करतब_2 से संबंधित एक्स अक्ष और वाई अक्ष, क्रमशः।
  4. के लिए द्वारा रंग, चुनें इस_धोखाधड़ी.

जब आप डेटासेट के साथ सहज हों, तो ML के लिए अपना डेटा तैयार करने के लिए अपनी व्यावसायिक आवश्यकता के अनुसार आगे डेटा परिवर्तन करने के लिए आगे बढ़ें।

निम्नलिखित स्क्रीनशॉट में, हम अपने विश्लेषण में धोखाधड़ी (गहरा नीला) और गैर-धोखाधड़ी (हल्का नीला) लेनदेन देख सकते हैं।
अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.

अगले भाग में, हम यह सुनिश्चित करने के लिए स्तरीकृत नमूने का उपयोग करने पर चर्चा करते हैं कि धोखाधड़ी के मामलों को आनुपातिक रूप से चुना जाता है।

एक परिवर्तन के साथ स्तरीकृत नमूनाकरण

डेटा रैंगलर आपको आयात पर नमूना लेने की अनुमति देता है, साथ ही एक परिवर्तन के माध्यम से नमूना भी देता है। इस खंड में, हम आपके द्वारा डेटा रैंगलर में अपने डेटासेट को आयात करने के बाद एक परिवर्तन के माध्यम से स्तरीकृत नमूने का उपयोग करने पर चर्चा करते हैं।

  1. नमूना शुरू करने के लिए, पर डाटा प्रवाह टैब में, आयातित डेटासेट के आगे धन चिह्न चुनें और चुनें परिवर्तन जोड़ें.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.

इस लेखन के समय, डेटा रैंगलर से अधिक प्रदान करता है 300 अंतर्निर्मित परिवर्तन. बिल्ट-इन ट्रांसफ़ॉर्म के अलावा, आप पंडों या पायस्पार्क में अपने स्वयं के कस्टम ट्रांसफ़ॉर्म लिख सकते हैं।

  1. से परिवर्तन जोड़ें सूची, चुनें सैम्पलिंग.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.

अब आप तीन अलग-अलग नमूनाकरण रणनीतियों का उपयोग कर सकते हैं: सीमा, यादृच्छिक और स्तरीकृत।
अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.

  1. के लिए नमूनाकरण विधि, चुनें विभक्त हो गया.
  2. उपयोग is_fraud स्तरीकृत स्तंभ के रूप में स्तंभ।
  3. चुनें पूर्वावलोकन परिवर्तन का पूर्वावलोकन करने के लिए, फिर चुनें इस परिवर्तन को अपने परिवर्तन नुस्खा में एक कदम के रूप में जोड़ने के लिए।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.

आपका डेटा प्रवाह अब जोड़े गए नमूनाकरण चरण को दर्शाता है।
अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.

अब हम एक विश्लेषण जोड़कर यादृच्छिक नमूना डेटा की समीक्षा कर सकते हैं।

  1. धन चिह्न चुनें और चुनें विश्लेषण.
  2. के लिए विश्लेषण प्रकारचुनें हिस्टोग्राम.
  3. चुनें इस_धोखाधड़ी दोंनो के लिए एक्स अक्ष और द्वारा रंग.
  4. चुनें पूर्वावलोकन.

निम्नलिखित स्क्रीनशॉट में, हम 20% धोखाधड़ी और 80% गैर-धोखाधड़ी के सही अनुपात में स्तरीकृत नमूने के माध्यम से चुने गए धोखाधड़ी (गहरा नीला) और गैर-धोखाधड़ी (हल्का नीला) मामलों के टूटने का निरीक्षण कर सकते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.

निष्कर्ष

बहुत बड़े डेटासेट के साथ काम करते समय डेटा का सही ढंग से नमूना लेना और अपनी व्यावसायिक आवश्यकताओं को पूरा करने के लिए सही नमूना रणनीति चुनना आवश्यक है। आपके नमूने की प्रभावशीलता विभिन्न कारकों पर निर्भर करती है, जिसमें व्यावसायिक परिणाम, डेटा उपलब्धता और वितरण शामिल हैं। इस पोस्ट में, हमने आपके डेटा को तैयार करने के लिए डेटा रैंगलर और इसकी अंतर्निहित नमूनाकरण रणनीतियों का उपयोग करने का तरीका कवर किया है।

आप इस क्षमता का उपयोग आज से उन सभी क्षेत्रों में शुरू कर सकते हैं जहां सेजमेकर स्टूडियो उपलब्ध है। आरंभ करने के लिए, पर जाएँ अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें.

आभार

लेखक जोनाथन चुंग (एप्लाइड साइंटिस्ट) को उनकी समीक्षा और इस लेख पर बहुमूल्य प्रतिक्रिया के लिए धन्यवाद देना चाहते हैं।


लेखक के बारे में

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.बेन हैरिस एक सॉफ्टवेयर इंजीनियर है जिसके पास विभिन्न डोमेन में स्केलेबल डेटा पाइपलाइनों और मशीन लर्निंग सॉल्यूशंस को डिजाइन करने, तैनात करने और बनाए रखने का अनुभव है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.विशाल कपूर एडब्ल्यूएस एआई के साथ एक वरिष्ठ अनुप्रयुक्त वैज्ञानिक हैं। उन्हें डेटा रैंगलर में ग्राहकों को उनके डेटा को समझने में मदद करने का शौक है। अपने खाली समय में, वह माउंटेन बाइक, स्नोबोर्ड और अपने परिवार के साथ समय बिताते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.मीनाक्षीसुंदरम थंडावरायण एडब्ल्यूएस के साथ एक वरिष्ठ एआई/एमएल विशेषज्ञ हैं। वह हाई-टेक रणनीतिक खातों को उनकी AI और ML यात्रा में मदद करता है। वह डेटा-संचालित एआई के बारे में बहुत भावुक है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ डेटा के यादृच्छिक और स्तरीकृत नमूने बनाएं। लंबवत खोज। ऐ.अजय शर्मा अमेज़ॅन सेजमेकर के लिए एक प्रमुख उत्पाद प्रबंधक हैं जहां वह डेटा रैंगलर पर ध्यान केंद्रित करते हैं, जो डेटा वैज्ञानिकों के लिए एक दृश्य डेटा तैयारी उपकरण है। एडब्ल्यूएस से पहले, अजय मैकिन्से एंड कंपनी में डेटा साइंस विशेषज्ञ थे, जहां उन्होंने दुनिया भर में अग्रणी वित्त और बीमा फर्मों के लिए एमएल-केंद्रित सगाई का नेतृत्व किया। अजय को डेटा साइंस का शौक है और उन्हें नवीनतम एल्गोरिदम और मशीन लर्निंग तकनीकों का पता लगाना पसंद है।

समय टिकट:

से अधिक AWS मशीन लर्निंग