अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.

Amazon SageMaker कैनवास के साथ कोई कोड ML मॉडल नहीं बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना

व्यापार विश्लेषक डेटा के साथ काम करते हैं और प्रभावी व्यावसायिक परिणाम प्राप्त करने के लिए डेटा का विश्लेषण, अन्वेषण और समझना पसंद करते हैं। व्यावसायिक समस्याओं का समाधान करने के लिए, वे अक्सर मशीन लर्निंग (एमएल) चिकित्सकों पर भरोसा करते हैं जैसे डेटा वैज्ञानिक मौजूदा डेटा का उपयोग करके मॉडल बनाने और भविष्यवाणियां उत्पन्न करने के लिए एमएल का उपयोग करने जैसी तकनीकों में सहायता करते हैं। हालाँकि, यह हमेशा संभव नहीं होता है, क्योंकि डेटा वैज्ञानिक आमतौर पर अपने कार्यों से बंधे होते हैं और विश्लेषकों की मदद करने के लिए बैंडविड्थ नहीं होती है।

एक व्यवसाय विश्लेषक के रूप में स्वतंत्र होने और अपने लक्ष्यों को प्राप्त करने के लिए, उपयोग में आसान, सहज ज्ञान युक्त और विज़ुअल टूल के साथ काम करना आदर्श होगा जो विवरणों को जानने और कोड का उपयोग करने की आवश्यकता के बिना एमएल का उपयोग करते हैं। इन उपकरणों का उपयोग करने से आपको अपनी व्यावसायिक समस्याओं को हल करने और वांछित परिणाम प्राप्त करने में मदद मिलेगी।

आपको और आपके संगठन को अधिक प्रभावी बनाने में मदद करने के लक्ष्य के साथ, और कोड लिखे बिना ML का उपयोग करने के लिए, हम पेश किया अमेज़न सेजमेकर कैनवास. यह एक नो-कोड एमएल समाधान है जो आपको एमएल एल्गोरिदम और मूल्यांकन मेट्रिक्स जैसे तकनीकी विवरणों के बारे में जानने की आवश्यकता के बिना सटीक एमएल मॉडल बनाने में मदद करता है। SageMaker कैनवास एक विज़ुअल, सहज ज्ञान युक्त इंटरफ़ेस प्रदान करता है जो आपको डेटा आयात करने, ML मॉडल को प्रशिक्षित करने, मॉडल विश्लेषण करने और ML भविष्यवाणियाँ उत्पन्न करने देता है, बिना कोड की एक पंक्ति लिखे।

प्रयोग करने के लिए SageMaker कैनवास का उपयोग करते समय, आपको डेटा गुणवत्ता संबंधी समस्याओं का सामना करना पड़ सकता है, जैसे लापता मान या गलत प्रकार की समस्या। एमएल मॉडल के प्रशिक्षण के बाद की प्रक्रिया में काफी देर तक इन मुद्दों का पता नहीं चल सकता है। इस चुनौती को कम करने के लिए, SageMaker कैनवास अब डेटा सत्यापन का समर्थन करता है। यह सुविधा सक्रिय रूप से आपके डेटा में समस्याओं की जांच करती है और समाधान पर मार्गदर्शन प्रदान करती है।

इस पोस्ट में, हम प्रदर्शित करेंगे कि आप मॉडल निर्माण से पहले सैजमेकर कैनवस के भीतर डेटा सत्यापन क्षमता का उपयोग कैसे कर सकते हैं। जैसा कि नाम से पता चलता है, यह सुविधा आपके डेटासेट को मान्य करती है, समस्याओं की रिपोर्ट करती है और उन्हें ठीक करने के लिए उपयोगी संकेत प्रदान करती है। बेहतर गुणवत्ता वाले डेटा का उपयोग करके, आप बेहतर प्रदर्शन करने वाले एमएल मॉडल के साथ समाप्त हो जाएंगे।

सैजमेकर कैनवस में डेटा को मान्य करें

संभावित डेटा गुणवत्ता समस्याओं के लिए सक्रिय रूप से जाँच करने के लिए SageMaker कैनवास में डेटा सत्यापन एक नई सुविधा है। आपके द्वारा डेटा आयात करने और लक्ष्य कॉलम चुनने के बाद, आपको अपने डेटा को सत्यापित करने का विकल्प दिया गया है, जैसा कि यहां दिखाया गया है:

यदि आप अपने डेटा को मान्य करना चुनते हैं, तो कैनवस आपके डेटा का कई स्थितियों के लिए विश्लेषण करता है, जिनमें निम्न शामिल हैं:

  • आपके लक्ष्य स्तंभ में बहुत अधिक अनन्य लेबल हैं - श्रेणी भविष्यवाणी मॉडल प्रकार के लिए
  • आपके डेटा में पंक्तियों की संख्या के लिए आपके लक्ष्य कॉलम में बहुत अधिक अद्वितीय लेबल हैं - श्रेणी भविष्यवाणी मॉडल प्रकार के लिए
  • आपके डेटा के लिए गलत मॉडल प्रकार – मॉडल प्रकार उस डेटा के अनुरूप नहीं है जिसका आप लक्ष्य स्तंभ में अनुमान लगा रहे हैं
  • बहुत अधिक अमान्य पंक्तियां - आपके लक्ष्य कॉलम में गुम मान
  • सभी फीचर कॉलम टेक्स्ट कॉलम हैं - उन्हें मानक निर्माण के लिए छोड़ दिया जाएगा
  • बहुत कम स्तंभ - आपके डेटा में बहुत कम कॉलम
  • कोई पूर्ण पंक्तियां नहीं - आपके डेटा की सभी पंक्तियों में लापता मान हैं
  • एक या अधिक कॉलम नामों में डबल अंडरस्कोर होते हैं - SageMaker कॉलम हेडर में (__) को हैंडल नहीं कर सकता

इस पोस्ट के बाद के खंडों में प्रत्येक सत्यापन मानदंड का विवरण प्रदान किया जाएगा।

यदि सभी जाँचें पास हो जाती हैं, तो आपको निम्नलिखित पुष्टिकरण प्राप्त होगा: "आपके डेटासेट में कोई समस्या नहीं मिली"।

अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.

यदि कोई समस्या पाई जाती है, तो आपको देखने और समझने के लिए एक सूचना प्राप्त होगी। यह डेटा गुणवत्ता के मुद्दों को जल्दी सामने लाता है, और यह प्रक्रिया में आगे समय और संसाधन बर्बाद करने से पहले आपको उन्हें तुरंत संबोधित करने देता है।

अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ. अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.

आप अपने समायोजन कर सकते हैं और अपने डेटासेट को तब तक मान्य कर सकते हैं जब तक कि सभी मुद्दों का समाधान नहीं हो जाता।

लक्ष्य स्तंभ और मॉडल प्रकार मान्य करें

जब आप SageMaker कैनवास में एक ML मॉडल बना रहे होते हैं, तो इससे संबंधित कई डेटा गुणवत्ता समस्याएँ होती हैं लक्ष्य स्तंभ आपके मॉडल के निर्माण को विफल कर सकता है। SageMaker कैनवास उन विभिन्न प्रकार की समस्याओं की जाँच करता है जो आपके प्रभाव को प्रभावित कर सकती हैं लक्ष्य स्तंभ।

अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.

  1. अपने लक्षित कॉलम के लिए, जांचें आपके डेटा के लिए गलत मॉडल प्रकार. उदाहरण के लिए, यदि 2-श्रेणी का पूर्वानुमान मॉडल चुना गया है, लेकिन आपके लक्ष्य स्तंभ में 2 से अधिक अद्वितीय लेबल हैं, तो SageMaker कैनवास निम्नलिखित सत्यापन चेतावनी प्रदान करेगा।
    अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.
  2. यदि मॉडल प्रकार 2 या 3+ श्रेणी की भविष्यवाणी है, तो आपको मान्य करना होगा बहुत अधिक अद्वितीय लेबल आपके लक्षित कॉलम के लिए. अद्वितीय वर्गों की अधिकतम संख्या 2000 है। यदि आप अपने लक्ष्य कॉलम में 2000 से अधिक अद्वितीय मानों वाले कॉलम का चयन करते हैं, तो कैनवास निम्नलिखित सत्यापन चेतावनी प्रदान करेगा।
    अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.
  3. बहुत सारे विशिष्ट लक्ष्य लेबल के अलावा, आपको इनसे भी सावधान रहना चाहिए आपके डेटा में पंक्तियों की संख्या के लिए कई विशिष्ट लक्ष्य लेबल। SageMaker कैनवास लक्ष्य लेबल के अनुपात को कुल पंक्तियों की संख्या से 10% से कम होने के लिए लागू करता है। यह सुनिश्चित करता है कि आपके पास उच्च गुणवत्ता वाले मॉडल के लिए प्रत्येक श्रेणी के लिए पर्याप्त प्रतिनिधित्व है और ओवरफिटिंग की संभावना कम हो जाती है। जब आपका मॉडल प्रशिक्षण डेटा पर अच्छी तरह से भविष्यवाणी करता है, लेकिन नए डेटा पर नहीं, तो इसे ओवरफिटिंग माना जाता है। उद्घृत करना यहाँ उत्पन्न करें अधिक जानने के लिए।
    अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.
  4. अंत में, लक्ष्य स्तंभ के लिए अंतिम जाँच है बहुत अधिक अमान्य पंक्तियां. यदि आपके लक्ष्य कॉलम में 10% से अधिक डेटा गायब या अमान्य है, तो यह आपके मॉडल के प्रदर्शन को प्रभावित करेगा, और कुछ मामलों में आपके मॉडल के निर्माण को विफल कर देगा। निम्न उदाहरण में लक्ष्य कॉलम में कई लापता मान (>90% गायब) हैं, और आपको निम्नलिखित सत्यापन चेतावनी मिलती है।
    अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.
    अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.

यदि आपको अपने लक्ष्य स्तंभ के लिए उपरोक्त में से कोई भी चेतावनी मिलती है, तो समस्याओं को कम करने के लिए निम्न चरणों का उपयोग करें:

  1. क्या आप सही लक्ष्य कॉलम का उपयोग कर रहे हैं?
  2. क्या आपने सही मॉडल प्रकार का चयन किया?
  3. क्या आप अपने डेटासेट प्रति लक्ष्य लेबल में पंक्तियों की संख्या बढ़ा सकते हैं?
  4. क्या आप समान लेबल को एक साथ समेकित/समूहित कर सकते हैं?
  5. क्या आप लापता/अमान्य मान भर सकते हैं?
  6. क्या आपके पास पर्याप्त डेटा है कि आप लापता/अमान्य मान छोड़ सकते हैं?
  7. यदि उपरोक्त सभी विकल्प चेतावनी को साफ़ नहीं कर रहे हैं, तो आपको एक भिन्न डेटासेट का उपयोग करने पर विचार करना चाहिए।

को देखें सेजमेकर कैनवस डेटा ट्रांसफ़ॉर्मेशन डॉक्यूमेंटेशन ऊपर बताए गए इंप्यूटेशन चरणों को पूरा करने के लिए।

सभी स्तंभों को मान्य करें

लक्ष्य स्तंभ के अलावा, आप अन्य डेटा स्तंभों (फ़ीचर कॉलम) के साथ भी डेटा गुणवत्ता संबंधी समस्याओं का सामना कर सकते हैं। फ़ीचर कॉलम एक इनपुट डेटा है जिसका उपयोग एमएल भविष्यवाणी करने के लिए किया जाता है।

  • प्रत्येक डेटासेट में कम से कम 1 फीचर कॉलम और 1 लक्ष्य कॉलम (कुल 2 कॉलम) होना चाहिए। अन्यथा, SageMaker कैनवास आपको a आपके डेटा में बहुत कम स्तंभ हैं चेतावनी। मॉडल बनाने के साथ आगे बढ़ने से पहले आपको इस आवश्यकता को पूरा करना होगा।
    अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.
  • उसके बाद, आपको यह सुनिश्चित करना होगा कि आपके डेटा में कम से कम 1 न्यूमेरिक कॉलम हो। यदि नहीं, तो आपको मिल जाएगा सभी फीचर कॉलम टेक्स्ट कॉलम हैं चेतावनी। ऐसा इसलिए है क्योंकि टेक्स्ट कॉलम आमतौर पर मानक निर्माण के दौरान गिराए जाते हैं, जिससे मॉडल को प्रशिक्षित करने के लिए कोई सुविधा नहीं मिलती है। इसलिए, यह आपके मॉडल निर्माण को विफल कर देगा। आप कुछ पाठ स्तंभों को संख्याओं में एन्कोड करने के लिए या मानक निर्माण के बजाय त्वरित निर्माण का उपयोग करने के लिए SageMaker कैनवास का उपयोग कर सकते हैं।
    अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.
  • तीसरे प्रकार की चेतावनी आपको फीचर कॉलम के लिए मिल सकती है कोई पूर्ण पंक्तियां नहीं. यह सत्यापन जाँचता है कि क्या आपके पास कम से कम एक पंक्ति है जिसमें कोई लापता मान नहीं है। SageMaker कैनवास को कम से कम एक पूर्ण पंक्ति की आवश्यकता होती है, अन्यथा आपकी त्वरित निर्माण असफल हो जायेगी। मॉडल बनाने से पहले लापता मूल्यों को भरने का प्रयास करें।
    अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.
  • अंतिम प्रकार का सत्यापन है एक या अधिक कॉलम नामों में डबल अंडरस्कोर होते हैं. यह एक SageMaker कैनवास विशिष्ट आवश्यकता है। यदि आपके कॉलम हेडर में डबल अंडरस्कोर (__) है, तो यह आपके त्वरित निर्माण असफल होना। डबल अंडरस्कोर को हटाने के लिए कॉलम का नाम बदलें, और फिर पुनः प्रयास करें।
    अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.

क्लीन अप

भविष्य में आने से बचने के लिए सत्र शुल्क, SageMaker कैनवास से लॉग आउट करें।

अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.

निष्कर्ष

सेजमेकर कैनवस एक नो-कोड एमएल समाधान है जो व्यापार विश्लेषकों को सटीक एमएल मॉडल बनाने और विज़ुअल, पॉइंट-एंड-क्लिक इंटरफ़ेस के माध्यम से भविष्यवाणियां उत्पन्न करने की अनुमति देता है। हमने आपको दिखाया कि कैसे SageMaker कैनवास आपको डेटा की गुणवत्ता सुनिश्चित करने और डेटासेट को सक्रिय रूप से मान्य करके डेटा समस्याओं को कम करने में मदद करता है। मुद्दों की जल्द पहचान करके, SageMaker कैनवास आपको गुणवत्ता एमएल मॉडल बनाने और डेटा विज्ञान और प्रोग्रामिंग में विशेषज्ञता के बिना निर्माण पुनरावृत्तियों को कम करने में मदद करता है। इस नई सुविधा के बारे में अधिक जानने के लिए, देखें सेजमेकर कैनवस प्रलेखन।

शुरू करने के लिए और सैजमेकर कैनवस के बारे में अधिक जानने के लिए, निम्नलिखित संसाधनों का संदर्भ लें:


लेखक के बारे में

अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ. हरिहरन सुरेश AWS में एक वरिष्ठ समाधान वास्तुकार हैं। उन्हें डेटाबेस, मशीन लर्निंग और नए समाधानों को डिजाइन करने का शौक है। AWS में शामिल होने से पहले, हरिहरन एक उत्पाद वास्तुकार, कोर बैंकिंग कार्यान्वयन विशेषज्ञ और डेवलपर थे, और उन्होंने BFSI संगठनों के साथ 11 वर्षों तक काम किया। तकनीक से इतर उन्हें पैराग्लाइडिंग और साइकिल चलाने में मजा आता है।

अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.साईनाथ मिरियाला अमेरिका में ऑटोमोटिव ग्राहकों के लिए काम कर रहे AWS में एक वरिष्ठ तकनीकी खाता प्रबंधक हैं। साईनाथ को एआई/एमएल का उपयोग करके बड़े पैमाने पर वितरित अनुप्रयोगों को डिजाइन करने और बनाने का शौक है। अपने खाली समय में साईनाथ परिवार और दोस्तों के साथ समय बिताते हैं।

अमेज़ॅन सेजमेकर कैनवस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना। लंबवत खोज. ऐ.जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ समाधान वास्तुकार हैं। ग्राहकों को एआई/एमएल समाधान डिजाइन और निर्माण में मदद करना। जेम्स के काम में एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला शामिल है, जिसमें प्राथमिक रुचि कंप्यूटर विज़न, डीप लर्निंग और पूरे उद्यम में एमएल स्केलिंग है। एडब्ल्यूएस में शामिल होने से पहले, जेम्स इंजीनियरिंग में 10 साल और मार्केटिंग और विज्ञापन उद्योगों में 6 साल सहित 4 से अधिक वर्षों के लिए एक वास्तुकार, डेवलपर और प्रौद्योगिकी नेता थे।

समय टिकट:

से अधिक AWS मशीन लर्निंग