Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं

इस पोस्ट में, हम में एक नया विश्लेषण पेश करते हैं डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट of अमेज़न SageMaker डेटा रैंगलर. यह विश्लेषण आपको पाठ्य सुविधाओं की शुद्धता के सत्यापन और मरम्मत या चूक के लिए अमान्य पंक्तियों को उजागर करने में सहायता करता है।

डेटा रैंगलर मशीन लर्निंग (एमएल) के लिए डेटा एकत्र करने और तैयार करने में लगने वाले समय को हफ्तों से घटाकर मिनटों कर देता है। आप डेटा तैयार करने और फीचर इंजीनियरिंग की प्रक्रिया को सरल बना सकते हैं, और डेटा चयन, सफाई, अन्वेषण और विज़ुअलाइज़ेशन सहित डेटा तैयारी वर्कफ़्लो के प्रत्येक चरण को एकल विज़ुअल इंटरफ़ेस से पूरा कर सकते हैं।

समाधान अवलोकन

डेटा प्रीप्रोसेसिंग में अक्सर टेक्स्ट डेटा जैसे ईमेल पते, फोन नंबर और उत्पाद के नाम की सफाई शामिल होती है। इस डेटा में अंतर्निहित अखंडता बाधाएं हो सकती हैं जिन्हें नियमित अभिव्यक्तियों द्वारा वर्णित किया जा सकता है। उदाहरण के लिए, मान्य माने जाने के लिए, एक स्थानीय फ़ोन नंबर को एक पैटर्न का पालन करने की आवश्यकता हो सकती है जैसे [1-9][0-9]{2}-[0-9]{4}, जो एक गैर-शून्य अंक से मेल खाएगा, उसके बाद दो और अंक होंगे, उसके बाद एक डैश, उसके बाद चार और अंक होंगे।

अमान्य डेटा के परिणामस्वरूप आम परिदृश्यों में असंगत मानव प्रविष्टि शामिल हो सकती है, उदाहरण के लिए विभिन्न स्वरूपों में फ़ोन नंबर (5551234 बनाम 555 1234 बनाम 555-1234) या अप्रत्याशित डेटा, जैसे 0, 911, या 411। ग्राहक कॉल सेंटर के लिए, 0, 911, या 411 जैसी संख्याओं को छोड़ना और 5551234 या 555 1234 जैसी प्रविष्टियों को मान्य (और संभावित रूप से सही) करना महत्वपूर्ण है।

दुर्भाग्य से, हालांकि पाठ्य-संबंधी बाधाएं मौजूद हैं, हो सकता है कि उन्हें डेटा प्रदान न किया जाए। इसलिए, डेटासेट तैयार करने वाले डेटा वैज्ञानिक को डेटा को देखकर मैन्युअल रूप से बाधाओं को उजागर करना चाहिए। यह थकाऊ, त्रुटि प्रवण और समय लेने वाला हो सकता है।

पैटर्न लर्निंग स्वचालित रूप से आपके डेटा का विश्लेषण करता है और आपके डेटासेट पर लागू होने वाली टेक्स्ट संबंधी बाधाओं को सामने लाता है। उदाहरण के लिए फ़ोन नंबरों के साथ, पैटर्न लर्निंग डेटा का विश्लेषण कर सकता है और यह पहचान सकता है कि अधिकांश फ़ोन नंबर टेक्स्ट संबंधी बाधाओं का पालन करते हैं [1-9][0-9]{2}-[0-9][4]. यह आपको सचेत भी कर सकता है कि अमान्य डेटा के उदाहरण हैं ताकि आप उन्हें बहिष्कृत या ठीक कर सकें।

निम्नलिखित अनुभागों में, हम प्रदर्शित करते हैं कि उत्पाद श्रेणियों और SKU (स्टॉक कीपिंग यूनिट) कोड के काल्पनिक डेटासेट का उपयोग करके डेटा रैंगलर में पैटर्न लर्निंग का उपयोग कैसे करें।

इस डेटासेट में ऐसी विशेषताएं हैं जो कंपनी, ब्रांड और ऊर्जा खपत के अनुसार उत्पादों का वर्णन करती हैं। विशेष रूप से, इसमें एक फीचर एसकेयू शामिल है जो खराब स्वरूपित है। इस डेटासेट में सभी डेटा काल्पनिक है और यादृच्छिक ब्रांड नामों और उपकरण नामों का उपयोग करके यादृच्छिक रूप से बनाया गया है।

.. पूर्वापेक्षाएँ

डेटा रैंगलर का उपयोग शुरू करने से पहले, डाउनलोड नमूना डेटासेट और इसे किसी स्थान पर अपलोड करें अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस 3)। निर्देशों के लिए, देखें वस्तुओं को अपलोड करना.

अपना डेटासेट आयात करें

अपना डेटासेट आयात करने के लिए, निम्न चरणों को पूरा करें:

  1. डेटा रैंगलर में, चुनें एमएल के लिए डेटा आयात और एक्सप्लोर करें.
  2. चुनें आयात.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।
  3. के लिए आयात आंकड़ा, चुनें अमेज़न S3.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।
  4. Amazon S3 में फ़ाइल का पता लगाएँ और चुनें आयात.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

आयात करने के बाद, हम डेटा प्रवाह पर नेविगेट कर सकते हैं।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

डेटा जानकारी प्राप्त करें

इस चरण में, हम एक डेटा अंतर्दृष्टि रिपोर्ट बनाते हैं जिसमें डेटा गुणवत्ता के बारे में जानकारी शामिल होती है। अधिक जानकारी के लिए देखें डेटा और डेटा गुणवत्ता पर जानकारी प्राप्त करें. निम्नलिखित चरणों को पूरा करें:

  1. पर डाटा प्रवाह टैब, के आगे धन चिह्न चुनें जानकारी का प्रकार.
  2. चुनें डेटा जानकारी प्राप्त करें.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।
  3. के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
  4. इस पद के लिए, छोड़ें लक्ष्य स्तंभ और समस्या प्रकार रिक्त। यदि आप एक लक्ष्य सुविधा के साथ प्रतिगमन या वर्गीकरण कार्य के लिए अपने डेटासेट का उपयोग करने की योजना बना रहे हैं, तो आप उन विकल्पों का चयन कर सकते हैं और रिपोर्ट में विश्लेषण शामिल होगा कि आपकी इनपुट विशेषताएं आपके लक्ष्य से कैसे संबंधित हैं। उदाहरण के लिए, यह लक्ष्य रिसाव पर रिपोर्ट तैयार कर सकता है। अधिक जानकारी के लिए देखें लक्ष्य स्तंभ.
  5. चुनें बनाएं.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

अब हमारे पास डेटा गुणवत्ता और डेटा अंतर्दृष्टि रिपोर्ट है। अगर हम नीचे स्क्रॉल करते हैं SKU अनुभाग में, हम SKU का वर्णन करने वाले पैटर्न सीखने का एक उदाहरण देख सकते हैं। ऐसा लगता है कि इस सुविधा में कुछ अमान्य डेटा है, और कार्रवाई योग्य उपचार की आवश्यकता है।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

इससे पहले कि हम SKU सुविधा को साफ़ करें, आइए ऊपर तक स्क्रॉल करें ब्रांड कुछ और अंतर्दृष्टि देखने के लिए अनुभाग। यहां हम देखते हैं कि दो पैटर्न का खुलासा किया गया है, जो दर्शाता है कि अधिकांश ब्रांड नाम एकल शब्द हैं जिनमें शब्द वर्ण या वर्णानुक्रमिक वर्ण शामिल हैं। ए शब्द चरित्र या तो एक अंडरस्कोर या एक वर्ण है जो किसी भी भाषा में किसी शब्द में प्रकट हो सकता है। उदाहरण के लिए, तार Hello_world और écoute दोनों में शब्द वर्ण हैं: H और é.

इस पोस्ट के लिए, हम इस सुविधा को साफ़ नहीं करते हैं।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

पैटर्न सीखने की अंतर्दृष्टि देखें

आइए SKU की सफाई पर लौटते हैं और पैटर्न और चेतावनी संदेश पर ज़ूम इन करते हैं।

जैसा कि निम्नलिखित स्क्रीनशॉट में दिखाया गया है, पैटर्न लर्निंग एक उच्च सटीकता वाला पैटर्न पेश करता है जो डेटा के 97.78% से मेल खाता है। यह पैटर्न से मेल खाने वाले कुछ उदाहरणों के साथ-साथ ऐसे उदाहरणों को भी प्रदर्शित करता है जो पैटर्न से मेल नहीं खाते। गैर-मिलानों में, हम कुछ अमान्य SKU देखते हैं।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

सामने आए पैटर्न के अलावा, एक चेतावनी दिखाई दे सकती है जो डेटा को साफ करने के लिए एक संभावित कार्रवाई का संकेत दे सकती है यदि कोई उच्च सटीकता पैटर्न है और साथ ही कुछ डेटा जो पैटर्न के अनुरूप नहीं है।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

हम अमान्य डेटा को छोड़ सकते हैं। यदि हम रेगुलर एक्सप्रेशन पर (राइट-क्लिक) चुनते हैं, तो हम एक्सप्रेशन को कॉपी कर सकते हैं [A-Z]{3}-[0-9]{4,5}.

अमान्य डेटा हटाएं

आइए गैर-अनुरूप डेटा को छोड़ने के लिए एक ट्रांसफ़ॉर्म बनाएं जो इस पैटर्न से मेल नहीं खाता।

  1. पर डाटा प्रवाह टैब, के आगे धन चिह्न चुनें जानकारी का प्रकार.
  2. चुनें परिवर्तन जोड़ें.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।
  3. चुनें चरण जोड़ें.
  4. के लिए खोजें regex और चुनें खोजें और संपादित करें.
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।
  5. के लिए बदालना, चुनें गैर-मिलानों को लापता में बदलें.
  6. के लिए इनपुट कॉलम, चुनें SKU.
  7. के लिए पैटर्न, हमारी नियमित अभिव्यक्ति दर्ज करें।
  8. चुनें पूर्वावलोकन, उसके बाद चुनो .
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।
    अब बाहरी डेटा को सुविधाओं से हटा दिया गया है।
  9. पंक्तियों को हटाने के लिए, चरण जोड़ें हैंडल गायब और परिवर्तन चुनें ड्रॉप मिसिंग.
  10. चुनें SKU इनपुट कॉलम के रूप में।
    Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

हम हटाए गए गलत डेटा के साथ अपने डेटा प्रवाह पर लौटते हैं।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।

निष्कर्ष

इस पोस्ट में, हमने आपको अपने डेटासेट में अमान्य टेक्स्ट डेटा खोजने के लिए डेटा अंतर्दृष्टि में पैटर्न सीखने की सुविधा का उपयोग करने के साथ-साथ उस डेटा को सही करने या छोड़ने का तरीका दिखाया।

अब जब आपने टेक्स्ट कॉलम को साफ कर लिया है, तो आप a . का उपयोग करके अपने डेटासेट की कल्पना कर सकते हैं विश्लेषण या आप आवेदन कर सकते हैं अंतर्निहित परिवर्तन अपने डेटा को आगे संसाधित करने के लिए। जब आप अपने डेटा से संतुष्ट हों, तो आप कर सकते हैं एक मॉडल को प्रशिक्षित करें साथ में अमेज़ॅन सैजमेकर ऑटोपायलटया, अपना डेटा निर्यात करें Amazon S3 जैसे डेटा स्रोत के लिए।

हम निकिता इवकिन को उनकी विचारशील समीक्षा के लिए धन्यवाद देना चाहते हैं।


लेखक के बारे में

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।विशाल कपूर एडब्ल्यूएस एआई के साथ एक वरिष्ठ अनुप्रयुक्त वैज्ञानिक हैं। उन्हें डेटा रैंगलर में ग्राहकों को उनके डेटा को समझने में मदद करने का शौक है। अपने खाली समय में, वह माउंटेन बाइक, स्नोबोर्ड और अपने परिवार के साथ समय बिताते हैं।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।ज़ोहर कार्निन Amazon AI में प्रधान वैज्ञानिक हैं। उनके शोध हित बड़े पैमाने और ऑनलाइन मशीन लर्निंग एल्गोरिदम के क्षेत्रों में हैं। वह अमेज़ॅन सेजमेकर के लिए असीम रूप से स्केलेबल मशीन लर्निंग एल्गोरिदम विकसित करता है।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ।अजय शर्मा अमेज़ॅन सेजमेकर के लिए एक प्रमुख उत्पाद प्रबंधक हैं जहां वह डेटा रैंगलर पर ध्यान केंद्रित करते हैं, जो डेटा वैज्ञानिकों के लिए एक दृश्य डेटा तैयारी उपकरण है। एडब्ल्यूएस से पहले, अजय मैकिन्से एंड कंपनी में डेटा साइंस विशेषज्ञ थे, जहां उन्होंने दुनिया भर में अग्रणी वित्त और बीमा फर्मों के लिए एमएल-केंद्रित सगाई का नेतृत्व किया। अजय को डेटा साइंस का शौक है और उन्हें नवीनतम एल्गोरिदम और मशीन लर्निंग तकनीकों का पता लगाना पसंद है।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence के साथ टेक्स्ट डेटा में पैटर्न का पता लगाएं। लंबवत खोज। ऐ। डेरेक बैरोन अमेज़ॅन सेजमेकर डेटा रैंगलर के लिए एक सॉफ्टवेयर विकास प्रबंधक है

समय टिकट:

से अधिक AWS मशीन लर्निंग