अमेज़न SageMaker डेटा रैंगलर मशीन लर्निंग (एमएल) के लिए एक उद्देश्य-निर्मित डेटा एकत्रीकरण और तैयारी उपकरण है। यह आपको डेटा तक पहुंचने और खोजपूर्ण डेटा विश्लेषण (ईडीए) और फीचर इंजीनियरिंग करने के लिए एक दृश्य इंटरफ़ेस का उपयोग करने की अनुमति देता है। ईडीए सुविधा चार्ट के लिए अंतर्निहित डेटा विश्लेषण क्षमताओं (जैसे स्कैटर प्लॉट या हिस्टोग्राम) और समय बचाने वाली मॉडल विश्लेषण क्षमताओं जैसे फीचर महत्व, लक्ष्य रिसाव, और मॉडल व्याख्यात्मकता के साथ आती है। फीचर इंजीनियरिंग क्षमता में 300 से अधिक बिल्ट-इन ट्रांसफ़ॉर्म हैं और यह Python, PySpark, या Spark SQL रनटाइम का उपयोग करके कस्टम ट्रांसफ़ॉर्मेशन कर सकता है।
कस्टम विज़ुअलाइज़ेशन और ट्रांसफ़ॉर्म के लिए, डेटा रैंगलर अब सामान्य प्रकार के विज़ुअलाइज़ेशन और ट्रांसफ़ॉर्म के लिए उदाहरण कोड स्निपेट प्रदान करता है। इस पोस्ट में, हम प्रदर्शित करते हैं कि डेटा रैंगलर में अपने ईडीए को त्वरित रूप से शुरू करने के लिए इन कोड स्निपेट्स का उपयोग कैसे करें।
समाधान अवलोकन
इस लेखन के समय, आप डेटा रैंगलर में डेटासेट आयात कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, डेटाब्रिक्स, और स्नोफ्लेक। इस पोस्ट के लिए, हम 3 Amazon को स्टोर करने के लिए Amazon S2014 का उपयोग करते हैं समीक्षा डेटासेट. निम्नलिखित डेटासेट का एक नमूना है:
इस पोस्ट में, हम तीन कॉलम का उपयोग करके EDA करते हैं-asin
, reviewTime
, तथा overall
—जो क्रमशः उत्पाद आईडी, समीक्षा समय दिनांक और समग्र समीक्षा स्कोर के लिए मैप करता है। हम इस डेटा का उपयोग महीनों और वर्षों में समीक्षाओं की संख्या के लिए गतिशीलता की कल्पना करने के लिए करते हैं।
डेटा रैंगलर में ईडीए के लिए उदाहरण कोड स्निपेट का उपयोग करना
डेटा रैंगलर में EDA का प्रदर्शन शुरू करने के लिए, निम्नलिखित चरणों को पूरा करें:
- डाउनलोड डिजिटल संगीत डेटासेट की समीक्षा करता है JSON और इसे Amazon S3 पर अपलोड करें।
हम इसे ईडीए के लिए कच्चे डेटासेट के रूप में उपयोग करते हैं। - प्रारंभिक अमेज़ॅन सैजमेकर स्टूडियो और एक नया डेटा रैंगलर प्रवाह बनाएं और Amazon S3 से डेटासेट आयात करें।
इस डेटासेट में नौ कॉलम हैं, लेकिन हम केवल तीन का उपयोग करते हैं:
asin
,reviewTime
, तथाoverall
. हमें अन्य छह कॉलम छोड़ने होंगे। - एक कस्टम ट्रांसफ़ॉर्म बनाएं और चुनें पायथन (पायस्पार्क).
- विस्तार उदाहरण स्निपेट खोजें और चुनें कई को छोड़कर सभी कॉलम ड्रॉप करें.
- अपने कस्टम ट्रांसफ़ॉर्म में दिए गए स्निपेट को दर्ज करें और कोड को संशोधित करने के लिए निर्देशों का पालन करें।
अब जबकि हमारे पास वे सभी कॉलम हैं जिनकी हमें आवश्यकता है, आइए डेटा को केवल 2000–2020 के बीच समीक्षाओं को रखने के लिए फ़िल्टर करें।
- उपयोग सीमा के बाहर टाइमस्टैम्प फ़िल्टर करें वर्ष 2000 से पहले और 2020 के बाद डेटा ड्रॉप करने के लिए स्निपेट:
इसके बाद, हम रिव्यूटाइम कॉलम से साल और महीने निकालते हैं।
- उपयोग दिनांक/समय प्रदर्शित करें बदलना।
- के लिए कॉलम निकालें, चुनें वर्ष और माह.
इसके बाद, हम पिछले चरण में बनाई गई समीक्षाओं की संख्या को वर्ष और महीने के आधार पर एकत्रित करना चाहते हैं।
- उपयोग समूहों में आँकड़ों की गणना करें स्निपेट:
- से पिछले चरण के एकत्रीकरण का नाम बदलें
count(overall)
सेवा मेरेreviews_num
चुनने के द्वारा कॉलम प्रबंधित करें और कॉलम का नाम बदलें बदलना।
अंत में, हम साल और महीने के हिसाब से समीक्षाओं के वितरण की कल्पना करने के लिए एक हीटमैप बनाना चाहते हैं। - विश्लेषण टैब पर, चुनें कस्टम विज़ुअलाइज़ेशन.
- विस्तार स्निपेट खोजें और चुनें गर्मी के नक्शे ड्रॉप-डाउन मेनू पर।
- अपने कस्टम विज़ुअलाइज़ेशन में दिए गए स्निपेट को दर्ज करें:
हमें निम्नलिखित विज़ुअलाइज़ेशन मिलता है।
यदि आप हीटमैप को और बढ़ाना चाहते हैं, तो आप केवल 2011 से पहले की समीक्षाएं दिखाने के लिए डेटा को स्लाइस कर सकते हैं। 2012 के बाद से बड़ी संख्या में समीक्षाओं के कारण हमारे द्वारा अभी बनाए गए हीटमैप में इनकी पहचान करना कठिन है। - अपने कस्टम विज़ुअलाइज़ेशन में कोड की एक पंक्ति जोड़ें:
हमें निम्नलिखित हीटमैप मिलता है।
अब हीटमैप 2011 से पहले की समीक्षाओं को और अधिक स्पष्ट रूप से दर्शाता है: हम मौसमी प्रभावों का निरीक्षण कर सकते हैं (वर्ष का अंत अधिक खरीद और इसलिए अधिक समीक्षाएं लाता है) और विषम महीनों की पहचान कर सकते हैं, जैसे कि अक्टूबर 2003 और मार्च 2005। यह आगे की जांच के लायक है। उन विसंगतियों का कारण निर्धारित करने के लिए।
निष्कर्ष
डेटा रैंगलर एमएल के लिए एक उद्देश्य-निर्मित डेटा एकत्रीकरण और तैयारी उपकरण है। इस पोस्ट में, हमने दिखाया कि डेटा रैंगलर द्वारा प्रदान किए गए कोड स्निपेट का उपयोग करके ईडीए कैसे करें और अपने डेटा को जल्दी से कैसे बदलें। आपको बस एक स्निपेट ढूंढने, कोड दर्ज करने और अपने डेटासेट से मिलान करने के लिए पैरामीटर समायोजित करने की आवश्यकता है। अधिक जटिल विज़ुअलाइज़ेशन और रूपांतरण बनाने के लिए आप अपनी स्क्रिप्ट पर पुनरावृति करना जारी रख सकते हैं।
डेटा रैंगलर के बारे में अधिक जानने के लिए, देखें डेटा रैंगलर फ़्लो बनाएँ और उपयोग करें.
लेखक के बारे में
निकिता इवकिना एक अनुप्रयुक्त वैज्ञानिक, अमेज़ॅन सेजमेकर डेटा रैंगलर है।
हैदर नकवी एडब्ल्यूएस में सॉल्यूशंस आर्किटेक्ट हैं। उनके पास व्यापक सॉफ्टवेयर विकास और उद्यम वास्तुकला का अनुभव है। वह ग्राहकों को AWS के साथ व्यावसायिक परिणाम प्राप्त करने में सक्षम बनाने पर ध्यान केंद्रित करता है। वह न्यूयॉर्क से बाहर आधारित है।
हरीश राजगोपालन Amazon वेब सर्विसेज में सीनियर सॉल्यूशन आर्किटेक्ट हैं। हरीश एंटरप्राइज ग्राहकों के साथ काम करता है और उनकी क्लाउड यात्रा में उनकी मदद करता है।
जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ एसए हैं। वह ग्राहकों के साथ उनकी क्लाउड यात्रा में तेजी लाने और उनके व्यावसायिक मूल्य प्राप्ति को तेजी से ट्रैक करने के लिए काम करता है। इसके अलावा, जेम्स विभिन्न क्षेत्रों में बड़े एआई/एमएल समाधानों को विकसित करने और उनका विस्तार करने का भी शौक रखता है। एडब्ल्यूएस में शामिल होने से पहले, उन्होंने बाजार और विज्ञापन उद्योग में एक शीर्ष वैश्विक फर्म के लिए एमएल इंजीनियरों और सॉफ्टवेयर डेवलपर्स के साथ एक बहु-अनुशासन नवाचार प्रौद्योगिकी टीम का नेतृत्व किया।
- कॉइनस्मार्ट। यूरोप का सर्वश्रेष्ठ बिटकॉइन और क्रिप्टो एक्सचेंज।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। नि: शुल्क प्रवेश।
- क्रिप्टोहॉक। Altcoin रडार। मुफ्त परीक्षण।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- About
- में तेजी लाने के
- पहुँच
- पाना
- के पार
- इसके अलावा
- विज्ञापन
- सब
- की अनुमति देता है
- वीरांगना
- अमेज़ॅन वेब सेवा
- विश्लेषण
- लागू
- स्थापत्य
- उपलब्ध
- एडब्ल्यूएस
- अक्ष
- क्योंकि
- से पहले
- के बीच
- में निर्मित
- व्यापार
- क्षमताओं
- कारण
- चार्ट
- चुनें
- बादल
- कोड
- स्तंभ
- सामान्य
- पूरा
- जटिल
- जारी रखने के
- नियंत्रण
- बनाना
- बनाया
- रिवाज
- ग्राहक
- तिथि
- डेटा विश्लेषण
- दिखाना
- साबित
- निर्धारित करना
- डेवलपर्स
- विकासशील
- विकास
- वितरण
- डोमेन
- नीचे
- बूंद
- गतिकी
- प्रभाव
- समर्थकारी
- अभियांत्रिकी
- इंजीनियर्स
- दर्ज
- उद्यम
- उदाहरण
- सिवाय
- अनुभव
- व्यापक
- और तेज
- Feature
- अंत में
- फर्म
- प्रथम
- प्रवाह
- केंद्रित
- का पालन करें
- निम्नलिखित
- से
- समारोह
- कार्यों
- आगे
- वैश्विक
- महान
- समूह की
- होने
- सहायक
- मदद करता है
- कैसे
- How To
- HTTPS
- पहचान करना
- महत्व
- उद्योग
- नवोन्मेष
- इंटरफेस
- IT
- यात्रा
- रखना
- बड़ा
- जानें
- सीख रहा हूँ
- नेतृत्व
- लाइन
- सूची
- मशीन
- यंत्र अधिगम
- नक्शा
- मार्च
- बाजार
- मैच
- ML
- आदर्श
- महीना
- महीने
- अधिक
- संगीत
- नामों
- न्यूयॉर्क
- संख्या
- अन्य
- कुल
- आवेशपूर्ण
- प्रदर्शन
- खेल
- तैयार करना
- पिछला
- एस्ट्रो मॉल
- प्रदान करना
- बशर्ते
- प्रदान करता है
- क्रय
- खरीद
- मात्रात्मक
- जल्दी से
- कच्चा
- अभिलेख
- दर्शाता है
- की समीक्षा
- समीक्षा
- स्केलिंग
- वैज्ञानिक
- सेवाएँ
- सरल
- के बाद से
- छह
- सॉफ्टवेयर
- सॉफ्टवेयर विकास
- समाधान ढूंढे
- विशेषज्ञ
- प्रारंभ
- आँकड़े
- भंडारण
- की दुकान
- लक्ष्य
- टीम
- टेक्नोलॉजी
- RSI
- इसलिये
- तीन
- पहर
- साधन
- ऊपर का
- बदालना
- परिवर्तनों
- प्रकार
- उपयोग
- मूल्य
- विभिन्न
- दृश्य
- संस्करणों
- वेब
- वेब सेवाओं
- कौन
- अद्भुत
- कार्य
- लायक
- लिख रहे हैं
- X
- वर्ष
- साल
- आपका