अमेज़न SageMaker डेटा रैंगलर मशीन लर्निंग (एमएल) के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों कर देता है। डेटा रैंगलर के साथ, आप कुछ ही क्लिक के साथ डेटा का चयन और क्वेरी कर सकते हैं, 300 से अधिक अंतर्निहित डेटा ट्रांसफ़ॉर्मेशन के साथ डेटा को तेज़ी से रूपांतरित कर सकते हैं, और बिना कोई कोड लिखे अपने डेटा को बिल्ट-इन विज़ुअलाइज़ेशन के साथ समझ सकते हैं।
इसके अतिरिक्त, आप बना सकते हैं कस्टम परिवर्तन अपनी आवश्यकताओं के लिए अद्वितीय। कस्टम ट्रांसफ़ॉर्म आपको PySpark, पांडा या SQL का उपयोग करके कस्टम ट्रांसफ़ॉर्मेशन लिखने की अनुमति देता है।
डेटा रैंगलर अब एक कस्टम का समर्थन करता है पांडा उपयोगकर्ता-परिभाषित फ़ंक्शन (UDF) ट्रांसफॉर्म जो बड़े डेटासेट को कुशलता से प्रोसेस कर सकता है। आप दो कस्टम पांडा UDF मोड में से चुन सकते हैं: पांडा और पायथन। दोनों मोड डेटासेट को संसाधित करने के लिए एक कुशल समाधान प्रदान करते हैं, और आपके द्वारा चुना गया मोड आपकी पसंद पर निर्भर करता है।
इस पोस्ट में, हम प्रदर्शित करते हैं कि किसी भी मोड में नए पंडों यूडीएफ ट्रांसफॉर्म का उपयोग कैसे करें।
समाधान अवलोकन
इस लेखन के समय, आप डेटा रैंगलर में डेटासेट आयात कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3), अमेज़न एथेना, अमेज़न रेडशिफ्ट, डेटाब्रिक्स, और स्नोफ्लेक। इस पोस्ट के लिए, हम 3 को स्टोर करने के लिए Amazon S2014 का उपयोग करते हैं अमेज़ॅन डेटासेट की समीक्षा करता है.
डेटा में एक कॉलम होता है जिसे कहा जाता है reviewText
उपयोगकर्ता द्वारा उत्पन्न पाठ युक्त। पाठ में कई शामिल हैं शब्दों को रोकें, जो सामान्य शब्द हैं जो अधिक जानकारी प्रदान नहीं करते हैं, जैसे "a," "a," और "the।" प्राकृतिक भाषा प्रसंस्करण (एनएलपी) पाइपलाइनों में स्टॉप शब्दों को हटाना एक सामान्य प्रीप्रोसेसिंग चरण है। हम समीक्षाओं से स्टॉप शब्दों को हटाने के लिए एक कस्टम फ़ंक्शन बना सकते हैं।
एक कस्टम पांडा यूडीएफ ट्रांसफॉर्म बनाएं
आइए पंडों और पायथन मोड का उपयोग करके दो डेटा रैंगलर कस्टम पंडों यूडीएफ ट्रांसफॉर्म बनाने की प्रक्रिया के माध्यम से चलते हैं।
- डाउनलोड डिजिटल संगीत डेटासेट की समीक्षा करता है और इसे Amazon S3 पर अपलोड करें।
- प्रारंभिक अमेज़ॅन सैजमेकर स्टूडियो और एक नया डेटा रैंगलर प्रवाह बनाएँ।
- के अंतर्गत आयात आंकड़ा, चुनें अमेज़न S3 और डेटासेट स्थान पर नेविगेट करें।
- के लिए फ़ाइल प्रकार, चुनें जोंसली.
डेटा का पूर्वावलोकन तालिका में प्रदर्शित किया जाना चाहिए।
- चुनें आयात आगे बढ़ने के लिए।
- आपका डेटा आयात होने के बाद, के आगे धन चिह्न चुनें जानकारी का प्रकार और चुनें परिवर्तन जोड़ें.
- चुनें कस्टम परिवर्तन.
- ड्रॉप-डाउन मेनू पर, पायथन (उपयोगकर्ता-परिभाषित फ़ंक्शन).
अब हम स्टॉप वर्ड्स को हटाने के लिए अपना कस्टम ट्रांसफॉर्म बनाते हैं।
- अपना इनपुट कॉलम, आउटपुट कॉलम, रिटर्न टाइप और मोड निर्दिष्ट करें।
निम्न उदाहरण पांडा मोड का उपयोग करता है। इसका मतलब है कि फ़ंक्शन को समान लंबाई की पंडों की श्रृंखला को स्वीकार और वापस करना चाहिए। आप पंडों की श्रृंखला को किसी तालिका के स्तंभ या स्तंभ के एक हिस्से के रूप में सोच सकते हैं। यह सबसे अधिक प्रदर्शन करने वाला पांडा यूडीएफ मोड है क्योंकि पांडा एक समय में एक के विपरीत मूल्यों के बैचों में संचालन को वेक्टर कर सकते हैं। pd.Series
पंडों मोड में टाइप संकेत आवश्यक हैं।
यदि आप पंडों के एपीआई के विपरीत शुद्ध पायथन का उपयोग करना पसंद करते हैं, तो पायथन मोड आपको एक शुद्ध पायथन फ़ंक्शन निर्दिष्ट करने की अनुमति देता है जो एकल तर्क को स्वीकार करता है और एकल मान देता है। निम्नलिखित उदाहरण आउटपुट के संदर्भ में पिछले पंडों के कोड के बराबर है। पायथन मोड में टाइप संकेत की आवश्यकता नहीं है।
- चुनें अपना कस्टम परिवर्तन जोड़ने के लिए।
निष्कर्ष
डेटा रैंगलर में 300 से अधिक अंतर्निर्मित ट्रांसफ़ॉर्म हैं, और आप अपनी आवश्यकताओं के लिए अद्वितीय कस्टम ट्रांसफ़ॉर्मेशन भी जोड़ सकते हैं। इस पोस्ट में, हमने दिखाया कि डेटा रैंगलर के नए कस्टम पंडस यूडीएफ ट्रांसफॉर्म के साथ डेटासेट को कैसे संसाधित किया जाए, पंडों और पायथन दोनों मोड का उपयोग करके। आप अपनी पसंद के आधार पर किसी भी मोड का उपयोग कर सकते हैं। डेटा रैंगलर के बारे में अधिक जानने के लिए, देखें डेटा रैंगलर फ़्लो बनाएँ और उपयोग करें.
लेखक के बारे में
बेन हैरिस एक सॉफ्टवेयर इंजीनियर है जिसके पास विभिन्न डोमेन में स्केलेबल डेटा पाइपलाइनों और मशीन लर्निंग सॉल्यूशंस को डिजाइन करने, तैनात करने और बनाए रखने का अनुभव है। बेन ने डेटा संग्रह और लेबलिंग, छवि और पाठ वर्गीकरण, अनुक्रम-से-अनुक्रम मॉडलिंग, एम्बेडिंग और क्लस्टरिंग के लिए सिस्टम बनाया है।
हैदर नकवी एडब्ल्यूएस में सॉल्यूशंस आर्किटेक्ट हैं। उनके पास व्यापक सॉफ्टवेयर विकास और उद्यम वास्तुकला का अनुभव है। वह ग्राहकों को AWS के साथ व्यावसायिक परिणाम प्राप्त करने में सक्षम बनाने पर ध्यान केंद्रित करता है। वह न्यूयॉर्क से बाहर आधारित है।
विशाल श्रीवास्तव AWS में तकनीकी खाता प्रबंधक हैं। सॉफ्टवेयर डेवलपमेंट और एनालिटिक्स की पृष्ठभूमि के साथ, वह मुख्य रूप से वित्तीय सेवा क्षेत्र और डिजिटल देशी व्यापार ग्राहकों के साथ काम करता है और उनकी क्लाउड यात्रा का समर्थन करता है। अपने खाली समय में, वह अपने परिवार के साथ यात्रा करना पसंद करते हैं।
- कॉइनस्मार्ट। यूरोप का सर्वश्रेष्ठ बिटकॉइन और क्रिप्टो एक्सचेंज।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। नि: शुल्क प्रवेश।
- क्रिप्टोहॉक। Altcoin रडार। मुफ्त परीक्षण।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/pandas-user-Defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- About
- लेखा
- के पार
- वीरांगना
- के बीच में
- विश्लेषिकी
- एपीआई
- स्थापत्य
- उपलब्ध
- एडब्ल्यूएस
- पृष्ठभूमि
- में निर्मित
- व्यापार
- चुनें
- वर्गीकरण
- बादल
- कोड
- संग्रह
- स्तंभ
- सामान्य
- शामिल हैं
- बनाना
- बनाना
- रिवाज
- ग्राहक
- तिथि
- दिखाना
- साबित
- निर्भर करता है
- तैनाती
- डिज़ाइन बनाना
- विकास
- डिजिटल
- डोमेन
- कुशल
- कुशलता
- समर्थकारी
- इंजीनियर
- उद्यम
- उदाहरण
- अनुभव
- व्यापक
- परिवार
- वित्तीय
- वित्तीय सेवाओं
- प्रवाह
- केंद्रित
- निम्नलिखित
- मुक्त
- समारोह
- कैसे
- How To
- HTTPS
- की छवि
- करें-
- निवेश
- IT
- जुड़ती
- लेबलिंग
- भाषा
- बड़ा
- जानें
- सीख रहा हूँ
- स्थान
- मशीन
- यंत्र अधिगम
- प्रबंधक
- मैच
- ML
- अधिक
- अधिकांश
- संगीत
- प्राकृतिक
- न्यूयॉर्क
- संचालन
- तैयार करना
- पूर्वावलोकन
- प्रक्रिया
- प्रसंस्करण
- प्रदान करना
- त्वरित
- जल्दी से
- अपेक्षित
- आवश्यकताएँ
- वापसी
- रिटर्न
- समीक्षा
- स्केलेबल
- सेक्टर
- कई
- सेवाएँ
- सरल
- सॉफ्टवेयर
- सॉफ्टवेयर विकास
- सॉफ्टवेयर इंजीनियर
- समाधान
- समाधान ढूंढे
- रिक्त स्थान
- भंडारण
- की दुकान
- समर्थन करता है
- सिस्टम
- तकनीकी
- यहाँ
- पहर
- टोकन
- टोकन
- बदालना
- यात्रा
- समझना
- अद्वितीय
- उपयोग
- मूल्य
- विविधता
- बिना
- शब्द
- कार्य
- लिख रहे हैं