अमेज़ॅन सेजमेकर कैनवास के साथ बिना कोड वाले एमएल मॉडल बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

व्यापार विश्लेषक डेटा के साथ काम करते हैं और प्रभावी व्यावसायिक परिणाम प्राप्त करने के लिए डेटा का विश्लेषण, अन्वेषण और समझना पसंद करते हैं। व्यावसायिक समस्याओं का समाधान करने के लिए, वे अक्सर मशीन लर्निंग (एमएल) चिकित्सकों पर भरोसा करते हैं जैसे डेटा वैज्ञानिक मौजूदा डेटा का उपयोग करके मॉडल बनाने और भविष्यवाणियां उत्पन्न करने के लिए एमएल का उपयोग करने जैसी तकनीकों में सहायता करते हैं। हालाँकि, यह हमेशा संभव नहीं होता है, क्योंकि डेटा वैज्ञानिक आमतौर पर अपने कार्यों से बंधे होते हैं और विश्लेषकों की मदद करने के लिए बैंडविड्थ नहीं होती है।

एक व्यवसाय विश्लेषक के रूप में स्वतंत्र होने और अपने लक्ष्यों को प्राप्त करने के लिए, उपयोग में आसान, सहज ज्ञान युक्त और विज़ुअल टूल के साथ काम करना आदर्श होगा जो विवरणों को जानने और कोड का उपयोग करने की आवश्यकता के बिना एमएल का उपयोग करते हैं। इन उपकरणों का उपयोग करने से आपको अपनी व्यावसायिक समस्याओं को हल करने और वांछित परिणाम प्राप्त करने में मदद मिलेगी।

आपको और आपके संगठन को अधिक प्रभावी बनाने में मदद करने के लक्ष्य के साथ, और कोड लिखे बिना ML का उपयोग करने के लिए, हम पेश किया अमेज़न सेजमेकर कैनवास. यह एक नो-कोड एमएल समाधान है जो आपको एमएल एल्गोरिदम और मूल्यांकन मेट्रिक्स जैसे तकनीकी विवरणों के बारे में जानने की आवश्यकता के बिना सटीक एमएल मॉडल बनाने में मदद करता है। SageMaker कैनवास एक विज़ुअल, सहज ज्ञान युक्त इंटरफ़ेस प्रदान करता है जो आपको डेटा आयात करने, ML मॉडल को प्रशिक्षित करने, मॉडल विश्लेषण करने और ML भविष्यवाणियाँ उत्पन्न करने देता है, बिना कोड की एक पंक्ति लिखे।

प्रयोग करने के लिए SageMaker कैनवास का उपयोग करते समय, आपको डेटा गुणवत्ता संबंधी समस्याओं का सामना करना पड़ सकता है, जैसे लापता मान या गलत प्रकार की समस्या। एमएल मॉडल के प्रशिक्षण के बाद की प्रक्रिया में काफी देर तक इन मुद्दों का पता नहीं चल सकता है। इस चुनौती को कम करने के लिए, SageMaker कैनवास अब डेटा सत्यापन का समर्थन करता है। यह सुविधा सक्रिय रूप से आपके डेटा में समस्याओं की जांच करती है और समाधान पर मार्गदर्शन प्रदान करती है।

इस पोस्ट में, हम प्रदर्शित करेंगे कि आप मॉडल निर्माण से पहले सैजमेकर कैनवस के भीतर डेटा सत्यापन क्षमता का उपयोग कैसे कर सकते हैं। जैसा कि नाम से पता चलता है, यह सुविधा आपके डेटासेट को मान्य करती है, समस्याओं की रिपोर्ट करती है और उन्हें ठीक करने के लिए उपयोगी संकेत प्रदान करती है। बेहतर गुणवत्ता वाले डेटा का उपयोग करके, आप बेहतर प्रदर्शन करने वाले एमएल मॉडल के साथ समाप्त हो जाएंगे।

सैजमेकर कैनवस में डेटा को मान्य करें

संभावित डेटा गुणवत्ता समस्याओं के लिए सक्रिय रूप से जाँच करने के लिए SageMaker कैनवास में डेटा सत्यापन एक नई सुविधा है। आपके द्वारा डेटा आयात करने और लक्ष्य कॉलम चुनने के बाद, आपको अपने डेटा को सत्यापित करने का विकल्प दिया गया है, जैसा कि यहां दिखाया गया है:

यदि आप अपने डेटा को मान्य करना चुनते हैं, तो कैनवस आपके डेटा का कई स्थितियों के लिए विश्लेषण करता है, जिनमें निम्न शामिल हैं:

आपके लक्ष्य स्तंभ में बहुत अधिक अनन्य लेबल हैं - श्रेणी भविष्यवाणी मॉडल प्रकार के लिए
आपके डेटा में पंक्तियों की संख्या के लिए आपके लक्ष्य कॉलम में बहुत अधिक अद्वितीय लेबल हैं - श्रेणी भविष्यवाणी मॉडल प्रकार के लिए
आपके डेटा के लिए गलत मॉडल प्रकार – मॉडल प्रकार उस डेटा के अनुरूप नहीं है जिसका आप लक्ष्य स्तंभ में अनुमान लगा रहे हैं
बहुत अधिक अमान्य पंक्तियां - आपके लक्ष्य कॉलम में गुम मान
सभी फीचर कॉलम टेक्स्ट कॉलम हैं - उन्हें मानक निर्माण के लिए छोड़ दिया जाएगा
बहुत कम स्तंभ - आपके डेटा में बहुत कम कॉलम
कोई पूर्ण पंक्तियां नहीं - आपके डेटा की सभी पंक्तियों में लापता मान हैं
एक या अधिक कॉलम नामों में डबल अंडरस्कोर होते हैं - SageMaker कॉलम हेडर में (__) को हैंडल नहीं कर सकता

इस पोस्ट के बाद के खंडों में प्रत्येक सत्यापन मानदंड का विवरण प्रदान किया जाएगा।

यदि सभी जाँचें पास हो जाती हैं, तो आपको निम्नलिखित पुष्टिकरण प्राप्त होगा: "आपके डेटासेट में कोई समस्या नहीं मिली"।

यदि कोई समस्या पाई जाती है, तो आपको देखने और समझने के लिए एक सूचना प्राप्त होगी। यह डेटा गुणवत्ता के मुद्दों को जल्दी सामने लाता है, और यह प्रक्रिया में आगे समय और संसाधन बर्बाद करने से पहले आपको उन्हें तुरंत संबोधित करने देता है।

आप अपने समायोजन कर सकते हैं और अपने डेटासेट को तब तक मान्य कर सकते हैं जब तक कि सभी मुद्दों का समाधान नहीं हो जाता।

लक्ष्य स्तंभ और मॉडल प्रकार मान्य करें

जब आप SageMaker कैनवास में एक ML मॉडल बना रहे होते हैं, तो इससे संबंधित कई डेटा गुणवत्ता समस्याएँ होती हैं लक्ष्य स्तंभ आपके मॉडल के निर्माण को विफल कर सकता है। SageMaker कैनवास उन विभिन्न प्रकार की समस्याओं की जाँच करता है जो आपके प्रभाव को प्रभावित कर सकती हैं लक्ष्य स्तंभ।

अपने लक्षित कॉलम के लिए, जांचें आपके डेटा के लिए गलत मॉडल प्रकार. उदाहरण के लिए, यदि 2-श्रेणी का पूर्वानुमान मॉडल चुना गया है, लेकिन आपके लक्ष्य स्तंभ में 2 से अधिक अद्वितीय लेबल हैं, तो SageMaker कैनवास निम्नलिखित सत्यापन चेतावनी प्रदान करेगा।
यदि मॉडल प्रकार 2 या 3+ श्रेणी की भविष्यवाणी है, तो आपको मान्य करना होगा बहुत अधिक अद्वितीय लेबल आपके लक्षित कॉलम के लिए. अद्वितीय वर्गों की अधिकतम संख्या 2000 है। यदि आप अपने लक्ष्य कॉलम में 2000 से अधिक अद्वितीय मानों वाले कॉलम का चयन करते हैं, तो कैनवास निम्नलिखित सत्यापन चेतावनी प्रदान करेगा।
बहुत सारे विशिष्ट लक्ष्य लेबल के अलावा, आपको इनसे भी सावधान रहना चाहिए आपके डेटा में पंक्तियों की संख्या के लिए कई विशिष्ट लक्ष्य लेबल। SageMaker कैनवास लक्ष्य लेबल के अनुपात को कुल पंक्तियों की संख्या से 10% से कम होने के लिए लागू करता है। यह सुनिश्चित करता है कि आपके पास उच्च गुणवत्ता वाले मॉडल के लिए प्रत्येक श्रेणी के लिए पर्याप्त प्रतिनिधित्व है और ओवरफिटिंग की संभावना कम हो जाती है। जब आपका मॉडल प्रशिक्षण डेटा पर अच्छी तरह से भविष्यवाणी करता है, लेकिन नए डेटा पर नहीं, तो इसे ओवरफिटिंग माना जाता है। उद्घृत करना यहाँ उत्पन्न करें अधिक जानने के लिए।
अंत में, लक्ष्य स्तंभ के लिए अंतिम जाँच है बहुत अधिक अमान्य पंक्तियां. यदि आपके लक्ष्य कॉलम में 10% से अधिक डेटा गायब या अमान्य है, तो यह आपके मॉडल के प्रदर्शन को प्रभावित करेगा, और कुछ मामलों में आपके मॉडल के निर्माण को विफल कर देगा। निम्न उदाहरण में लक्ष्य कॉलम में कई लापता मान (>90% गायब) हैं, और आपको निम्नलिखित सत्यापन चेतावनी मिलती है।

यदि आपको अपने लक्ष्य स्तंभ के लिए उपरोक्त में से कोई भी चेतावनी मिलती है, तो समस्याओं को कम करने के लिए निम्न चरणों का उपयोग करें:

क्या आप सही लक्ष्य कॉलम का उपयोग कर रहे हैं?
क्या आपने सही मॉडल प्रकार का चयन किया?
क्या आप अपने डेटासेट प्रति लक्ष्य लेबल में पंक्तियों की संख्या बढ़ा सकते हैं?
क्या आप समान लेबल को एक साथ समेकित/समूहित कर सकते हैं?
क्या आप लापता/अमान्य मान भर सकते हैं?
क्या आपके पास पर्याप्त डेटा है कि आप लापता/अमान्य मान छोड़ सकते हैं?
यदि उपरोक्त सभी विकल्प चेतावनी को साफ़ नहीं कर रहे हैं, तो आपको एक भिन्न डेटासेट का उपयोग करने पर विचार करना चाहिए।

को देखें सेजमेकर कैनवस डेटा ट्रांसफ़ॉर्मेशन डॉक्यूमेंटेशन ऊपर बताए गए इंप्यूटेशन चरणों को पूरा करने के लिए।

सभी स्तंभों को मान्य करें

लक्ष्य स्तंभ के अलावा, आप अन्य डेटा स्तंभों (फ़ीचर कॉलम) के साथ भी डेटा गुणवत्ता संबंधी समस्याओं का सामना कर सकते हैं। फ़ीचर कॉलम एक इनपुट डेटा है जिसका उपयोग एमएल भविष्यवाणी करने के लिए किया जाता है।

प्रत्येक डेटासेट में कम से कम 1 फीचर कॉलम और 1 लक्ष्य कॉलम (कुल 2 कॉलम) होना चाहिए। अन्यथा, SageMaker कैनवास आपको a आपके डेटा में बहुत कम स्तंभ हैं चेतावनी। मॉडल बनाने के साथ आगे बढ़ने से पहले आपको इस आवश्यकता को पूरा करना होगा।
उसके बाद, आपको यह सुनिश्चित करना होगा कि आपके डेटा में कम से कम 1 न्यूमेरिक कॉलम हो। यदि नहीं, तो आपको मिल जाएगा सभी फीचर कॉलम टेक्स्ट कॉलम हैं चेतावनी। ऐसा इसलिए है क्योंकि टेक्स्ट कॉलम आमतौर पर मानक निर्माण के दौरान गिराए जाते हैं, जिससे मॉडल को प्रशिक्षित करने के लिए कोई सुविधा नहीं मिलती है। इसलिए, यह आपके मॉडल निर्माण को विफल कर देगा। आप कुछ पाठ स्तंभों को संख्याओं में एन्कोड करने के लिए या मानक निर्माण के बजाय त्वरित निर्माण का उपयोग करने के लिए SageMaker कैनवास का उपयोग कर सकते हैं।
तीसरे प्रकार की चेतावनी आपको फीचर कॉलम के लिए मिल सकती है कोई पूर्ण पंक्तियां नहीं. यह सत्यापन जाँचता है कि क्या आपके पास कम से कम एक पंक्ति है जिसमें कोई लापता मान नहीं है। SageMaker कैनवास को कम से कम एक पूर्ण पंक्ति की आवश्यकता होती है, अन्यथा आपकी त्वरित निर्माण असफल हो जायेगी। मॉडल बनाने से पहले लापता मूल्यों को भरने का प्रयास करें।
अंतिम प्रकार का सत्यापन है एक या अधिक कॉलम नामों में डबल अंडरस्कोर होते हैं. यह एक SageMaker कैनवास विशिष्ट आवश्यकता है। यदि आपके कॉलम हेडर में डबल अंडरस्कोर (__) है, तो यह आपके त्वरित निर्माण असफल होना। डबल अंडरस्कोर को हटाने के लिए कॉलम का नाम बदलें, और फिर पुनः प्रयास करें।

क्लीन अप

भविष्य में आने से बचने के लिए सत्र शुल्क, SageMaker कैनवास से लॉग आउट करें।

निष्कर्ष

सेजमेकर कैनवस एक नो-कोड एमएल समाधान है जो व्यापार विश्लेषकों को सटीक एमएल मॉडल बनाने और विज़ुअल, पॉइंट-एंड-क्लिक इंटरफ़ेस के माध्यम से भविष्यवाणियां उत्पन्न करने की अनुमति देता है। हमने आपको दिखाया कि कैसे SageMaker कैनवास आपको डेटा की गुणवत्ता सुनिश्चित करने और डेटासेट को सक्रिय रूप से मान्य करके डेटा समस्याओं को कम करने में मदद करता है। मुद्दों की जल्द पहचान करके, SageMaker कैनवास आपको गुणवत्ता एमएल मॉडल बनाने और डेटा विज्ञान और प्रोग्रामिंग में विशेषज्ञता के बिना निर्माण पुनरावृत्तियों को कम करने में मदद करता है। इस नई सुविधा के बारे में अधिक जानने के लिए, देखें सेजमेकर कैनवस प्रलेखन।

शुरू करने के लिए और सैजमेकर कैनवस के बारे में अधिक जानने के लिए, निम्नलिखित संसाधनों का संदर्भ लें:

लेखक के बारे में

हरिहरन सुरेश AWS में एक वरिष्ठ समाधान वास्तुकार हैं। उन्हें डेटाबेस, मशीन लर्निंग और नए समाधानों को डिजाइन करने का शौक है। AWS में शामिल होने से पहले, हरिहरन एक उत्पाद वास्तुकार, कोर बैंकिंग कार्यान्वयन विशेषज्ञ और डेवलपर थे, और उन्होंने BFSI संगठनों के साथ 11 वर्षों तक काम किया। तकनीक से इतर उन्हें पैराग्लाइडिंग और साइकिल चलाने में मजा आता है।

साईनाथ मिरियाला अमेरिका में ऑटोमोटिव ग्राहकों के लिए काम कर रहे AWS में एक वरिष्ठ तकनीकी खाता प्रबंधक हैं। साईनाथ को एआई/एमएल का उपयोग करके बड़े पैमाने पर वितरित अनुप्रयोगों को डिजाइन करने और बनाने का शौक है। अपने खाली समय में साईनाथ परिवार और दोस्तों के साथ समय बिताते हैं।

जेम्स वू एडब्ल्यूएस में वरिष्ठ एआई/एमएल विशेषज्ञ समाधान वास्तुकार हैं। ग्राहकों को एआई/एमएल समाधान डिजाइन और निर्माण में मदद करना। जेम्स के काम में एमएल उपयोग के मामलों की एक विस्तृत श्रृंखला शामिल है, जिसमें प्राथमिक रुचि कंप्यूटर विज़न, डीप लर्निंग और पूरे उद्यम में एमएल स्केलिंग है। एडब्ल्यूएस में शामिल होने से पहले, जेम्स इंजीनियरिंग में 10 साल और मार्केटिंग और विज्ञापन उद्योगों में 6 साल सहित 4 से अधिक वर्षों के लिए एक वास्तुकार, डेवलपर और प्रौद्योगिकी नेता थे।

समय टिकट: नवम्बर 10/2022नवम्बर 11/2022

समय टिकट: 5 मई 2022

Amazon SageMaker कैनवास के साथ कोई कोड ML मॉडल नहीं बनाते समय सामान्य डेटा समस्याओं की पहचान करना और उनसे बचना

प्लेटो द्वारा पुनर्प्रकाशित

सैजमेकर कैनवस में डेटा को मान्य करें

लक्ष्य स्तंभ और मॉडल प्रकार मान्य करें

सभी स्तंभों को मान्य करें

क्लीन अप

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

जिम्मेदार एआई नवाचार को सक्षम करने के लिए नए उपकरणों और क्षमताओं की घोषणा | अमेज़न वेब सेवाएँ

बहु-क्षेत्रीय Amazon SageMaker एंडपॉइंट्स का CI/CD सक्षम करें

बीमा उद्योग में एडब्ल्यूएस एआई और एनालिटिक्स सेवाओं के साथ बुद्धिमान दस्तावेज़ प्रसंस्करण: भाग 2

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा