इस पोस्ट में, हम में एक नया विश्लेषण पेश करते हैं डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट of अमेज़न SageMaker डेटा रैंगलर. यह विश्लेषण आपको पाठ्य सुविधाओं की शुद्धता के सत्यापन और मरम्मत या चूक के लिए अमान्य पंक्तियों को उजागर करने में सहायता करता है।
डेटा रैंगलर मशीन लर्निंग (एमएल) के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों कर देता है। आप डेटा तैयार करने और फीचर इंजीनियरिंग की प्रक्रिया को सरल बना सकते हैं, और डेटा चयन, सफाई, अन्वेषण और विज़ुअलाइज़ेशन सहित डेटा तैयारी वर्कफ़्लो के प्रत्येक चरण को एकल विज़ुअल इंटरफ़ेस से पूरा कर सकते हैं।
समाधान अवलोकन
डेटा प्रीप्रोसेसिंग में अक्सर टेक्स्ट डेटा जैसे ईमेल पते, फोन नंबर और उत्पाद के नाम की सफाई शामिल होती है। इस डेटा में अंतर्निहित अखंडता बाधाएं हो सकती हैं जिन्हें नियमित अभिव्यक्तियों द्वारा वर्णित किया जा सकता है। उदाहरण के लिए, मान्य माने जाने के लिए, एक स्थानीय फ़ोन नंबर को एक पैटर्न का पालन करने की आवश्यकता हो सकती है जैसे [1-9][0-9]{2}-[0-9]{4}
, जो एक गैर-शून्य अंक से मेल खाएगा, उसके बाद दो और अंक होंगे, उसके बाद एक डैश, उसके बाद चार और अंक होंगे।
अमान्य डेटा के परिणामस्वरूप आम परिदृश्यों में असंगत मानव प्रविष्टि शामिल हो सकती है, उदाहरण के लिए विभिन्न स्वरूपों में फ़ोन नंबर (5551234 बनाम 555 1234 बनाम 555-1234) या अप्रत्याशित डेटा, जैसे 0, 911, या 411। ग्राहक कॉल सेंटर के लिए, 0, 911, या 411 जैसी संख्याओं को छोड़ना और 5551234 या 555 1234 जैसी प्रविष्टियों को मान्य (और संभावित रूप से सही) करना महत्वपूर्ण है।
दुर्भाग्य से, हालांकि पाठ्य-संबंधी बाधाएं मौजूद हैं, हो सकता है कि उन्हें डेटा प्रदान न किया जाए। इसलिए, डेटासेट तैयार करने वाले डेटा वैज्ञानिक को डेटा को देखकर मैन्युअल रूप से बाधाओं को उजागर करना चाहिए। यह थकाऊ, त्रुटि प्रवण और समय लेने वाला हो सकता है।
पैटर्न लर्निंग स्वचालित रूप से आपके डेटा का विश्लेषण करता है और आपके डेटासेट पर लागू होने वाली टेक्स्ट संबंधी बाधाओं को सामने लाता है। उदाहरण के लिए फ़ोन नंबरों के साथ, पैटर्न लर्निंग डेटा का विश्लेषण कर सकता है और यह पहचान सकता है कि अधिकांश फ़ोन नंबर टेक्स्ट संबंधी बाधाओं का पालन करते हैं [1-9][0-9]{2}-[0-9][4]
. यह आपको सचेत भी कर सकता है कि अमान्य डेटा के उदाहरण हैं ताकि आप उन्हें बहिष्कृत या ठीक कर सकें।
निम्नलिखित अनुभागों में, हम प्रदर्शित करते हैं कि उत्पाद श्रेणियों और SKU (स्टॉक कीपिंग यूनिट) कोड के काल्पनिक डेटासेट का उपयोग करके डेटा रैंगलर में पैटर्न लर्निंग का उपयोग कैसे करें।
इस डेटासेट में ऐसी विशेषताएं हैं जो कंपनी, ब्रांड और ऊर्जा खपत के अनुसार उत्पादों का वर्णन करती हैं। विशेष रूप से, इसमें एक फीचर एसकेयू शामिल है जो खराब स्वरूपित है। इस डेटासेट में सभी डेटा काल्पनिक है और यादृच्छिक ब्रांड नामों और उपकरण नामों का उपयोग करके यादृच्छिक रूप से बनाया गया है।
.. पूर्वापेक्षाएँ
डेटा रैंगलर का उपयोग शुरू करने से पहले, डाउनलोड नमूना डेटासेट और इसे किसी स्थान पर अपलोड करें अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस 3)। निर्देशों के लिए, देखें वस्तुओं को अपलोड करना.
अपना डेटासेट आयात करें
अपना डेटासेट आयात करने के लिए, निम्न चरणों को पूरा करें:
- डेटा रैंगलर में, चुनें एमएल के लिए डेटा आयात और एक्सप्लोर करें.
- चुनें आयात.
- के लिए आयात आंकड़ा, चुनें अमेज़न S3.
- Amazon S3 में फ़ाइल का पता लगाएँ और चुनें आयात.
आयात करने के बाद, हम डेटा प्रवाह पर नेविगेट कर सकते हैं।
डेटा जानकारी प्राप्त करें
इस चरण में, हम एक डेटा अंतर्दृष्टि रिपोर्ट बनाते हैं जिसमें डेटा गुणवत्ता के बारे में जानकारी शामिल होती है। अधिक जानकारी के लिए देखें डेटा और डेटा गुणवत्ता पर जानकारी प्राप्त करें. निम्नलिखित चरणों को पूरा करें:
- पर डाटा प्रवाह टैब, के आगे धन चिह्न चुनें जानकारी का प्रकार.
- चुनें डेटा जानकारी प्राप्त करें.
- के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
- इस पद के लिए, छोड़ें लक्ष्य स्तंभ और समस्या प्रकार रिक्त। यदि आप एक लक्ष्य सुविधा के साथ प्रतिगमन या वर्गीकरण कार्य के लिए अपने डेटासेट का उपयोग करने की योजना बना रहे हैं, तो आप उन विकल्पों का चयन कर सकते हैं और रिपोर्ट में विश्लेषण शामिल होगा कि आपकी इनपुट विशेषताएं आपके लक्ष्य से कैसे संबंधित हैं। उदाहरण के लिए, यह लक्ष्य रिसाव पर रिपोर्ट तैयार कर सकता है। अधिक जानकारी के लिए देखें लक्ष्य स्तंभ.
- चुनें बनाएं.
अब हमारे पास डेटा गुणवत्ता और डेटा अंतर्दृष्टि रिपोर्ट है। अगर हम नीचे स्क्रॉल करते हैं SKU अनुभाग में, हम SKU का वर्णन करने वाले पैटर्न सीखने का एक उदाहरण देख सकते हैं। ऐसा लगता है कि इस सुविधा में कुछ अमान्य डेटा है, और कार्रवाई योग्य उपचार की आवश्यकता है।
इससे पहले कि हम SKU सुविधा को साफ़ करें, आइए ऊपर तक स्क्रॉल करें ब्रांड कुछ और अंतर्दृष्टि देखने के लिए अनुभाग। यहां हम देखते हैं कि दो पैटर्न का खुलासा किया गया है, जो दर्शाता है कि अधिकांश ब्रांड नाम एकल शब्द हैं जिनमें शब्द वर्ण या वर्णानुक्रमिक वर्ण शामिल हैं। ए शब्द चरित्र या तो एक अंडरस्कोर या एक वर्ण है जो किसी भी भाषा में किसी शब्द में प्रकट हो सकता है। उदाहरण के लिए, तार Hello_world
और écoute
दोनों में शब्द वर्ण हैं: H
और é
.
इस पोस्ट के लिए, हम इस सुविधा को साफ़ नहीं करते हैं।
पैटर्न सीखने की अंतर्दृष्टि देखें
आइए SKU की सफाई पर लौटते हैं और पैटर्न और चेतावनी संदेश पर ज़ूम इन करते हैं।
जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है, पैटर्न लर्निंग एक उच्च सटीकता वाला पैटर्न पेश करता है जो डेटा के 97.78% से मेल खाता है। यह पैटर्न से मेल खाने वाले कुछ उदाहरणों के साथ-साथ ऐसे उदाहरणों को भी प्रदर्शित करता है जो पैटर्न से मेल नहीं खाते। गैर-मिलानों में, हम कुछ अमान्य SKU देखते हैं।
सामने आए पैटर्न के अलावा, एक चेतावनी दिखाई दे सकती है जो डेटा को साफ करने के लिए एक संभावित कार्रवाई का संकेत दे सकती है यदि कोई उच्च सटीकता पैटर्न है और साथ ही कुछ डेटा जो पैटर्न के अनुरूप नहीं है।
हम अमान्य डेटा को छोड़ सकते हैं। यदि हम रेगुलर एक्सप्रेशन पर (राइट-क्लिक) चुनते हैं, तो हम एक्सप्रेशन को कॉपी कर सकते हैं [A-Z]{3}-[0-9]{4,5}
.
अमान्य डेटा हटाएं
आइए गैर-अनुरूप डेटा को छोड़ने के लिए एक ट्रांसफ़ॉर्म बनाएं जो इस पैटर्न से मेल नहीं खाता।
- पर डाटा प्रवाह टैब, के आगे धन चिह्न चुनें जानकारी का प्रकार.
- चुनें परिवर्तन जोड़ें.
- चुनें चरण जोड़ें.
- के लिए खोजें
regex
और चुनें खोजें और संपादित करें. - के लिए बदालना, चुनें गैर-मिलानों को लापता में बदलें.
- के लिए इनपुट कॉलम, चुनें
SKU
. - के लिए पैटर्न, हमारी नियमित अभिव्यक्ति दर्ज करें।
- चुनें पूर्वावलोकन, उसके बाद चुनो .
अब बाहरी डेटा को सुविधाओं से हटा दिया गया है। - पंक्तियों को हटाने के लिए, चरण जोड़ें हैंडल गायब और परिवर्तन चुनें ड्रॉप मिसिंग.
- चुनें
SKU
इनपुट कॉलम के रूप में।
हम हटाए गए गलत डेटा के साथ अपने डेटा प्रवाह पर लौटते हैं।
निष्कर्ष
इस पोस्ट में, हमने आपको अपने डेटासेट में अमान्य टेक्स्ट डेटा खोजने के लिए डेटा अंतर्दृष्टि में पैटर्न सीखने की सुविधा का उपयोग करने के साथ-साथ उस डेटा को सही करने या छोड़ने का तरीका दिखाया।
अब जब आपने टेक्स्ट कॉलम को साफ कर लिया है, तो आप a . का उपयोग करके अपने डेटासेट की कल्पना कर सकते हैं विश्लेषण या आप आवेदन कर सकते हैं अंतर्निहित परिवर्तन अपने डेटा को आगे संसाधित करने के लिए। जब आप अपने डेटा से संतुष्ट हों, तो आप कर सकते हैं एक मॉडल को प्रशिक्षित करें साथ में अमेज़ॅन सैजमेकर ऑटोपायलटया, अपना डेटा निर्यात करें Amazon S3 जैसे डेटा स्रोत के लिए।
हम निकिता इवकिन को उनकी विचारशील समीक्षा के लिए धन्यवाद देना चाहते हैं।
लेखक के बारे में
विशाल कपूर एडब्ल्यूएस एआई के साथ एक वरिष्ठ अनुप्रयुक्त वैज्ञानिक हैं। उन्हें डेटा रैंगलर में ग्राहकों को उनके डेटा को समझने में मदद करने का शौक है। अपने खाली समय में, वह माउंटेन बाइक, स्नोबोर्ड और अपने परिवार के साथ समय बिताते हैं।
ज़ोहर कार्निन Amazon AI में प्रधान वैज्ञानिक हैं। उनके शोध हित बड़े पैमाने और ऑनलाइन मशीन लर्निंग एल्गोरिदम के क्षेत्रों में हैं। वह अमेज़ॅन सेजमेकर के लिए असीम रूप से स्केलेबल मशीन लर्निंग एल्गोरिदम विकसित करता है।
अजय शर्मा अमेज़ॅन सेजमेकर के लिए एक प्रमुख उत्पाद प्रबंधक हैं जहां वह डेटा रैंगलर पर ध्यान केंद्रित करते हैं, जो डेटा वैज्ञानिकों के लिए एक दृश्य डेटा तैयारी उपकरण है। एडब्ल्यूएस से पहले, अजय मैकिन्से एंड कंपनी में डेटा साइंस विशेषज्ञ थे, जहां उन्होंने दुनिया भर में अग्रणी वित्त और बीमा फर्मों के लिए एमएल-केंद्रित सगाई का नेतृत्व किया। अजय को डेटा साइंस का शौक है और उन्हें नवीनतम एल्गोरिदम और मशीन लर्निंग तकनीकों का पता लगाना पसंद है।
डेरेक बैरोन अमेज़ॅन सेजमेकर डेटा रैंगलर के लिए एक सॉफ्टवेयर विकास प्रबंधक है
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न SageMaker
- अमेज़न SageMaker डेटा रैंगलर
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- इंटरमीडिएट (200)
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट