अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ के साथ एमएल मॉडल के लिए उच्च गुणवत्ता वाला डेटा बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

मशीन लर्निंग (एमएल) ने हाल के वर्षों में सभी उद्योगों में कारोबार में सुधार किया है—आपकी सिफारिश प्रणाली से प्रधान वीडियो खाता, दस्तावेज़ सारांश और कुशल खोज के साथ एलेक्साकी आवाज सहायता। हालाँकि, यह प्रश्न बना रहता है कि इस तकनीक को अपने व्यवसाय में कैसे शामिल किया जाए। पारंपरिक नियम-आधारित विधियों के विपरीत, एमएल स्वचालित रूप से डेटा से पैटर्न का अनुमान लगाता है ताकि आपकी रुचि के कार्य को पूरा किया जा सके। हालांकि यह स्वचालन के लिए नियमों को तय करने की आवश्यकता को दरकिनार कर देता है, इसका मतलब यह भी है कि एमएल मॉडल केवल उतने ही अच्छे हो सकते हैं, जिस पर उन्हें प्रशिक्षित किया जाता है। हालाँकि, डेटा निर्माण अक्सर एक चुनौतीपूर्ण कार्य होता है। पर अमेज़न मशीन लर्निंग सॉल्यूशंस लैब, हम बार-बार इस समस्या का सामना कर चुके हैं और अपने ग्राहकों के लिए इस यात्रा को आसान बनाना चाहते हैं। यदि आप इस प्रक्रिया को उतारना चाहते हैं, तो आप इसका उपयोग कर सकते हैं अमेज़न सेजमेकर ग्राउंड ट्रुथ प्लस.

इस पोस्ट के अंत तक, आप निम्नलिखित हासिल करने में सक्षम होंगे:

डेटा अधिग्रहण पाइपलाइन स्थापित करने में शामिल व्यावसायिक प्रक्रियाओं को समझें
अपने डेटा लेबलिंग पाइपलाइन को समर्थन और तेज करने के लिए AWS क्लाउड सेवाओं की पहचान करें
कस्टम उपयोग के मामलों के लिए डेटा प्राप्ति और लेबलिंग कार्य चलाएँ
व्यवसाय और तकनीकी सर्वोत्तम प्रथाओं का पालन करते हुए उच्च गुणवत्ता वाला डेटा बनाएं

इस पोस्ट के दौरान, हम डेटा निर्माण प्रक्रिया पर ध्यान केंद्रित करते हैं और बुनियादी ढांचे और प्रक्रिया घटकों को संभालने के लिए AWS सेवाओं पर भरोसा करते हैं। अर्थात्, हम उपयोग करते हैं अमेज़ॅन सैजमेकर ग्राउंड ट्रुथ लेबलिंग इंफ्रास्ट्रक्चर पाइपलाइन और यूजर इंटरफेस को संभालने के लिए। यह सेवा आपके डेटा को एकत्र करने के लिए एक बिंदु-और-जाने दृष्टिकोण का उपयोग करती है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) और एक लेबलिंग वर्कफ़्लो सेट करें। लेबलिंग के लिए, यह आपको अपनी निजी टीम का उपयोग करके डेटा लेबल प्राप्त करने के लिए अंतर्निहित लचीलापन प्रदान करता है, a अमेज़ॅन मैकेनिकल तुर्क बल, या आपका पसंदीदा लेबलिंग विक्रेता एडब्ल्यूएस बाज़ार. अंत में, आप उपयोग कर सकते हैं AWS लाम्बा और अमेज़न SageMaker नोटबुक डेटा को संसाधित करने, विज़ुअलाइज़ करने या गुणवत्ता को नियंत्रित करने के लिए—या तो लेबलिंग से पहले या बाद में।

अब जब सभी टुकड़े रख दिए गए हैं, तो चलिए प्रक्रिया शुरू करते हैं!

डेटा निर्माण प्रक्रिया

सामान्य अंतर्ज्ञान के विपरीत, डेटा निर्माण के लिए पहला कदम डेटा संग्रह नहीं है। समस्या को स्पष्ट करने के लिए उपयोगकर्ताओं से पीछे की ओर कार्य करना महत्वपूर्ण है। उदाहरण के लिए, अंतिम आर्टिफ़ैक्ट में उपयोगकर्ता किस चीज़ की परवाह करते हैं? विशेषज्ञों का मानना है कि डेटा में उपयोग के मामले से संबंधित संकेत कहां रहते हैं? मॉडल को उपयोग के मामले के वातावरण के बारे में क्या जानकारी प्रदान की जा सकती है? अगर आप उन सवालों के जवाब नहीं जानते हैं, तो चिंता न करें। बारीकियों को समझने के लिए उपयोगकर्ताओं और क्षेत्र के विशेषज्ञों के साथ बात करने के लिए खुद को कुछ समय दें। यह प्रारंभिक समझ आपको सही दिशा में उन्मुख करेगी और आपको सफलता के लिए तैयार करेगी।

इस पोस्ट के लिए, हम मानते हैं कि आपने उपयोगकर्ता आवश्यकता विनिर्देश की इस प्रारंभिक प्रक्रिया को कवर कर लिया है। अगले तीन खंड आपको गुणवत्ता डेटा बनाने की बाद की प्रक्रिया से परिचित कराते हैं: नियोजन, स्रोत डेटा निर्माण और डेटा एनोटेशन। लेबल किए गए डेटा के कुशल निर्माण को सुनिश्चित करने के लिए डेटा निर्माण और एनोटेशन चरणों में पायलटिंग लूप महत्वपूर्ण हैं। इसमें डेटा निर्माण, एनोटेशन, गुणवत्ता आश्वासन और आवश्यकतानुसार पाइपलाइन को अपडेट करना शामिल है।

निम्नलिखित आंकड़ा एक विशिष्ट डेटा निर्माण पाइपलाइन में आवश्यक चरणों का अवलोकन प्रदान करता है। आप जिस डेटा की आवश्यकता है (आवश्यकता विशिष्टता) की पहचान करने के लिए उपयोग के मामले से पीछे की ओर काम कर सकते हैं, डेटा (योजना) प्राप्त करने के लिए एक प्रक्रिया का निर्माण कर सकते हैं, वास्तविक डेटा अधिग्रहण प्रक्रिया (डेटा संग्रह और एनोटेशन) को लागू कर सकते हैं, और परिणामों का आकलन कर सकते हैं। पायलट रन, धराशायी लाइनों के साथ हाइलाइट किया गया, आपको उच्च गुणवत्ता वाली डेटा अधिग्रहण पाइपलाइन विकसित होने तक प्रक्रिया पर पुनरावृति करने देता है।

एक विशिष्ट डेटा निर्माण पाइपलाइन में आवश्यक चरणों का अवलोकन।

प्लानिंग

एक मानक डेटा निर्माण प्रक्रिया समय लेने वाली और मूल्यवान मानव संसाधनों की बर्बादी हो सकती है यदि इसे अक्षम रूप से संचालित किया जाता है। यह समय लेने वाला क्यों होगा? इस प्रश्न का उत्तर देने के लिए, हमें डेटा निर्माण प्रक्रिया के दायरे को समझना होगा। आपकी सहायता के लिए, हमने एक उच्च-स्तरीय चेकलिस्ट और प्रमुख घटकों और हितधारकों का विवरण एकत्र किया है, जिन पर आपको विचार करना चाहिए। इन सवालों का जवाब देना पहली बार में मुश्किल हो सकता है। आपके उपयोग के मामले के आधार पर, इनमें से केवल कुछ ही लागू हो सकते हैं।

आवश्यक अनुमोदन के लिए संपर्क के कानूनी बिंदु की पहचान करें - आपके आवेदन के लिए डेटा का उपयोग करने के लिए कंपनी की नीतियों और उपयोग के मामलों का अनुपालन सुनिश्चित करने के लिए लाइसेंस या विक्रेता अनुबंध समीक्षा की आवश्यकता हो सकती है। डेटा प्राप्ति और प्रक्रिया के एनोटेशन चरणों के दौरान अपने कानूनी समर्थन की पहचान करना महत्वपूर्ण है।
डेटा हैंडलिंग के लिए संपर्क के सुरक्षा बिंदु की पहचान करें -खरीदे गए डेटा के लीक होने से आपकी कंपनी पर गंभीर जुर्माना और असर पड़ सकता है। सुरक्षित प्रथाओं को सुनिश्चित करने के लिए डेटा प्राप्ति और एनोटेशन चरणों के दौरान अपने सुरक्षा समर्थन की पहचान करना महत्वपूर्ण है।
विस्तृत उपयोग के मामले की आवश्यकताएं और स्रोत डेटा और एनोटेशन दिशानिर्देशों को परिभाषित करें - आवश्यक उच्च विशिष्टता के कारण डेटा बनाना और एनोटेट करना मुश्किल है। संसाधनों को बर्बाद करने से बचने के लिए डेटा जेनरेटर और एनोटेटर सहित हितधारकों को पूरी तरह से गठबंधन किया जाना चाहिए। इसके लिए, एक दिशानिर्देश दस्तावेज़ का उपयोग करना आम बात है जो एनोटेशन कार्य के हर पहलू को निर्दिष्ट करता है: सटीक निर्देश, किनारे के मामले, एक उदाहरण वॉकथ्रू, और इसी तरह।
अपना स्रोत डेटा एकत्र करने के लिए अपेक्षाओं पर संरेखित करें - निम्न पर विचार करें:
- संभावित डेटा स्रोतों पर शोध करना - उदाहरण के लिए, सार्वजनिक डेटासेट, अन्य आंतरिक टीमों के मौजूदा डेटासेट, स्वयं एकत्रित, या विक्रेताओं से खरीदे गए डेटा।
- गुणवत्ता मूल्यांकन करें - अंतिम उपयोग के मामले के संबंध में एक विश्लेषण पाइपलाइन बनाएं।
डेटा एनोटेशन बनाने के लिए अपेक्षाओं पर संरेखित करें - निम्न पर विचार करें:
- तकनीकी हितधारकों की पहचान करें - यह आमतौर पर आपकी कंपनी में एक व्यक्ति या टीम है जो एनोटेशन पाइपलाइन को लागू करने के लिए ग्राउंड ट्रुथ के बारे में तकनीकी दस्तावेज का उपयोग करने में सक्षम है। ये हितधारक एनोटेट किए गए डेटा के गुणवत्ता मूल्यांकन के लिए भी जिम्मेदार हैं ताकि यह सुनिश्चित हो सके कि यह आपके डाउनस्ट्रीम एमएल एप्लिकेशन की जरूरतों को पूरा करता है।
- डेटा एनोटेटर की पहचान करें - ये व्यक्ति ग्राउंड ट्रुथ के भीतर आपके स्रोत डेटा में लेबल जोड़ने के लिए पूर्व निर्धारित निर्देशों का उपयोग करते हैं। आपके उपयोग के मामले और एनोटेशन दिशानिर्देशों के आधार पर उन्हें डोमेन ज्ञान रखने की आवश्यकता हो सकती है। आप अपनी कंपनी के लिए आंतरिक कार्यबल का उपयोग कर सकते हैं, या एक के लिए भुगतान कर सकते हैं एक बाहरी विक्रेता द्वारा प्रबंधित कार्यबल.
डेटा निर्माण प्रक्रिया की निगरानी सुनिश्चित करें - जैसा कि आप पिछले बिंदुओं से देख सकते हैं, डेटा निर्माण एक विस्तृत प्रक्रिया है जिसमें कई विशिष्ट हितधारक शामिल होते हैं। इसलिए, वांछित परिणाम की ओर अंत तक इसकी निगरानी करना महत्वपूर्ण है। एक समर्पित व्यक्ति या टीम की प्रक्रिया की देखरेख करने से आपको एक समेकित, कुशल डेटा निर्माण प्रक्रिया सुनिश्चित करने में मदद मिल सकती है।

आप जिस मार्ग को लेने का निर्णय लेते हैं, उसके आधार पर आपको निम्नलिखित पर भी विचार करना चाहिए:

स्रोत डेटासेट बनाएं - यह उन उदाहरणों को संदर्भित करता है जब मौजूदा डेटा हाथ में कार्य के लिए उपयुक्त नहीं है, या कानूनी बाधाएं आपको इसका उपयोग करने से रोकती हैं। आंतरिक टीमों या बाहरी विक्रेताओं (अगले बिंदु) का उपयोग किया जाना चाहिए। यह अक्सर अत्यधिक विशिष्ट डोमेन या कम सार्वजनिक अनुसंधान वाले क्षेत्रों के मामले में होता है। उदाहरण के लिए, एक चिकित्सक के सामान्य प्रश्न, गारमेंट लेट, या खेल विशेषज्ञ। यह आंतरिक या बाहरी हो सकता है।
अनुसंधान विक्रेताओं और एक ऑनबोर्डिंग प्रक्रिया का संचालन - जब बाहरी विक्रेताओं का उपयोग किया जाता है, तो दोनों संस्थाओं के बीच एक अनुबंध और ऑनबोर्डिंग प्रक्रिया निर्धारित की जानी चाहिए।

इस खंड में, हमने उन घटकों और हितधारकों की समीक्षा की जिन पर हमें विचार करना चाहिए। हालाँकि, वास्तविक प्रक्रिया कैसी दिखती है? निम्नलिखित आकृति में, हम डेटा निर्माण और एनोटेशन के लिए एक प्रक्रिया वर्कफ़्लो की रूपरेखा तैयार करते हैं। पुनरावृत्त दृष्टिकोण टर्नअराउंड समय को कम करने, त्रुटियों का जल्दी पता लगाने और निम्न-गुणवत्ता वाले डेटा के निर्माण में संसाधनों को बर्बाद करने से बचने के लिए पायलट नामक डेटा के छोटे बैचों का उपयोग करता है। हम इस पोस्ट में बाद में इन पायलट दौरों का वर्णन करते हैं। हम डेटा निर्माण, एनोटेशन और गुणवत्ता नियंत्रण के लिए कुछ सर्वोत्तम प्रथाओं को भी शामिल करते हैं।

निम्न आंकड़ा डेटा निर्माण पाइपलाइन के पुनरावृत्त विकास को दिखाता है। लंबवत रूप से, हम डेटा सोर्सिंग ब्लॉक (हरा) और एनोटेशन ब्लॉक (नीला) पाते हैं। दोनों ब्लॉकों में स्वतंत्र पायलट राउंड (डेटा निर्माण/एनोटेशन, क्यूएक्यूसी, और अपडेट) हैं। तेजी से उच्च स्रोत वाला डेटा बनाया जाता है और इसका उपयोग तेजी से उच्च-गुणवत्ता वाले एनोटेशन के निर्माण के लिए किया जा सकता है।

डेटा निर्माण या एनोटेशन पाइपलाइन के पुनरावृत्त विकास के दौरान, स्वतंत्र पायलटों के लिए डेटा के छोटे बैचों का उपयोग किया जाता है। प्रत्येक प्रायोगिक दौर में डेटा निर्माण या एनोटेशन चरण, कुछ गुणवत्ता आश्वासन और परिणामों का गुणवत्ता नियंत्रण, और प्रक्रिया को परिशोधित करने के लिए एक अद्यतन चरण होता है। क्रमिक पायलटों के माध्यम से इन प्रक्रियाओं को कुशल बनाने के बाद, आप बड़े पैमाने पर डेटा निर्माण और एनोटेशन के लिए आगे बढ़ सकते हैं।

डेटा निर्माण पाइपलाइन में पुनरावृत्त विकास का अवलोकन।

स्रोत डेटा निर्माण

इनपुट निर्माण प्रक्रिया आपकी रुचि की वस्तुओं के मंचन के इर्द-गिर्द घूमती है, जो आपके कार्य प्रकार पर निर्भर करती है। ये चित्र (अखबार स्कैन), वीडियो (ट्रैफ़िक दृश्य), 3D पॉइंट क्लाउड (मेडिकल स्कैन), या बस टेक्स्ट (उपशीर्षक ट्रैक, ट्रांसक्रिप्शन) हो सकते हैं। सामान्य तौर पर, अपने कार्य-संबंधित आइटम्स का मंचन करते समय, निम्न बातों का ध्यान रखें:

अंतिम एआई/एमएल सिस्टम के लिए वास्तविक दुनिया के उपयोग के मामले को प्रतिबिंबित करें - आपके प्रशिक्षण डेटा के लिए चित्र या वीडियो एकत्र करने के लिए सेटअप वास्तविक दुनिया के एप्लिकेशन में आपके इनपुट डेटा के सेटअप से निकटता से मेल खाना चाहिए। इसका मतलब है कि लगातार प्लेसमेंट सरफेस, लाइटिंग सोर्स या कैमरा एंगल होना।
परिवर्तनशीलता स्रोतों के लिए खाता और न्यूनतम करें - निम्न पर विचार करें:
- डेटा संग्रह मानकों को बनाए रखने के लिए सर्वोत्तम प्रथाओं का विकास करना - आपके उपयोग के मामले की ग्रैन्युलैरिटी के आधार पर, आपको अपने डेटा बिंदुओं के बीच निरंतरता की गारंटी के लिए आवश्यकताओं को निर्दिष्ट करने की आवश्यकता हो सकती है। उदाहरण के लिए, यदि आप एकल कैमरा बिंदुओं से छवि या वीडियो डेटा एकत्र कर रहे हैं, तो आपको यह सुनिश्चित करने की आवश्यकता हो सकती है कि आपकी रुचि की वस्तुओं का लगातार प्लेसमेंट हो, या डेटा कैप्चर राउंड से पहले कैमरे के लिए गुणवत्ता जांच की आवश्यकता हो। यह कैमरे के झुकाव या धुंधलापन जैसी समस्याओं से बच सकता है, और डाउनस्ट्रीम ओवरहेड को कम कर सकता है जैसे आउट-ऑफ-फ़्रेम या धुंधली छवियों को निकालना, साथ ही छवि फ़्रेम को अपनी रुचि के क्षेत्र पर मैन्युअल रूप से केंद्रित करने की आवश्यकता होती है।
- परिवर्तनशीलता के पूर्व-खाली परीक्षण समय स्रोत - यदि आप परीक्षण समय के दौरान अब तक उल्लिखित किसी भी विशेषता में परिवर्तनशीलता का अनुमान लगाते हैं, तो सुनिश्चित करें कि आप प्रशिक्षण डेटा निर्माण के दौरान उन परिवर्तनशीलता स्रोतों को कैप्चर कर सकते हैं। उदाहरण के लिए, यदि आप अपने एमएल एप्लिकेशन से कई अलग-अलग लाइट सेटिंग्स में काम करने की उम्मीद करते हैं, तो आपको विभिन्न लाइट सेटिंग्स पर प्रशिक्षण चित्र और वीडियो बनाने का लक्ष्य रखना चाहिए। उपयोग के मामले के आधार पर, कैमरा स्थिति में परिवर्तनशीलता आपके लेबल की गुणवत्ता को भी प्रभावित कर सकती है।
उपलब्ध होने पर पूर्व डोमेन ज्ञान शामिल करें - निम्न पर विचार करें:
- त्रुटि के स्रोतों पर इनपुट - डोमेन प्रैक्टिशनर अपने वर्षों के अनुभव के आधार पर त्रुटि के स्रोतों में अंतर्दृष्टि प्रदान कर सकते हैं। वे पिछले दो बिंदुओं के लिए सर्वोत्तम प्रथाओं पर प्रतिक्रिया प्रदान कर सकते हैं: कौन सी सेटिंग्स वास्तविक दुनिया के उपयोग के मामले को सर्वोत्तम रूप से दर्शाती हैं? डेटा संग्रह के दौरान, या उपयोग के समय परिवर्तनशीलता के संभावित स्रोत क्या हैं?
- डोमेन-विशिष्ट डेटा संग्रह सर्वोत्तम अभ्यास - हालांकि आपके तकनीकी हितधारकों के पास पहले से ही एकत्र की गई छवियों या वीडियो पर ध्यान केंद्रित करने के लिए तकनीकी पहलुओं का एक अच्छा विचार हो सकता है, डोमेन व्यवसायी इस तरह की जरूरतों को पूरा करने के लिए डेटा को चरणबद्ध या एकत्र करने के तरीके पर प्रतिक्रिया प्रदान कर सकते हैं।

बनाए गए डेटा का गुणवत्ता नियंत्रण और गुणवत्ता आश्वासन

अब जब आपने डेटा संग्रह पाइपलाइन स्थापित कर ली है, तो आगे बढ़ना और जितना संभव हो उतना डेटा एकत्र करना आकर्षक हो सकता है। ज़रा ठहरिये! हमें पहले यह जांचना होगा कि सेटअप के माध्यम से एकत्र किया गया डेटा आपके वास्तविक-शब्द उपयोग के मामले के लिए उपयुक्त है या नहीं। हम कुछ प्रारंभिक नमूनों का उपयोग कर सकते हैं और उस नमूना डेटा के विश्लेषण से प्राप्त अंतर्दृष्टि के माध्यम से सेटअप में सुधार कर सकते हैं। प्रायोगिक प्रक्रिया के दौरान अपने तकनीकी, व्यवसाय और एनोटेशन हितधारकों के साथ मिलकर काम करें। यह सुनिश्चित करेगा कि आपकी परिणामी पाइपलाइन न्यूनतम ओवरहेड्स के भीतर एमएल-तैयार लेबल डेटा उत्पन्न करते समय व्यावसायिक आवश्यकताओं को पूरा कर रही है।

एनोटेशन

इनपुट की व्याख्या वह जगह है जहां हम अपने डेटा में जादुई स्पर्श जोड़ते हैं—लेबल! आपके कार्य प्रकार और डेटा निर्माण प्रक्रिया के आधार पर, आपको मैन्युअल एनोटेटर्स की आवश्यकता हो सकती है, या आप ऑफ-द-शेल्फ स्वचालित विधियों का उपयोग कर सकते हैं। डेटा एनोटेशन पाइपलाइन अपने आप में एक तकनीकी रूप से चुनौतीपूर्ण कार्य हो सकता है। ग्राउंड ट्रुथ अपने तकनीकी हितधारकों के लिए इस यात्रा को आसान बनाता है सामान्य डेटा स्रोतों के लिए कार्यप्रवाह लेबलिंग के अंतर्निहित प्रदर्शनों की सूची. कुछ अतिरिक्त चरणों के साथ, यह आपको निर्माण करने में भी सक्षम बनाता है कस्टम लेबलिंग वर्कफ़्लोज़ पूर्व-कॉन्फ़िगर विकल्पों से परे।

उपयुक्त एनोटेशन वर्कफ़्लो विकसित करते समय स्वयं से निम्नलिखित प्रश्न पूछें:

क्या मुझे अपने डेटा के लिए मैन्युअल एनोटेशन प्रक्रिया की आवश्यकता है? कुछ मामलों में, कार्य के लिए स्वचालित लेबलिंग सेवाएं पर्याप्त हो सकती हैं। दस्तावेज़ीकरण और उपलब्ध टूल की समीक्षा करने से आपको यह पहचानने में मदद मिल सकती है कि क्या आपके उपयोग के मामले में मैन्युअल एनोटेशन आवश्यक है (अधिक जानकारी के लिए, देखें डेटा लेबलिंग क्या है?) डेटा निर्माण प्रक्रिया आपके डेटा एनोटेशन की ग्रैन्युलैरिटी के संबंध में नियंत्रण के विभिन्न स्तरों की अनुमति दे सकती है। इस प्रक्रिया के आधार पर, आप कभी-कभी मैन्युअल एनोटेशन की आवश्यकता को बायपास भी कर सकते हैं। अधिक जानकारी के लिए देखें हगिंग फेस क्यू एंड ए एनएलयू मॉडल को प्रशिक्षित करने के लिए अमेज़ॅन सेजमेकर ग्राउंड ट्रुथ का उपयोग करके एक कस्टम क्यू एंड ए डेटासेट बनाएं.
मेरी जमीनी सच्चाई क्या बनाती है? ज्यादातर मामलों में, जमीनी सच्चाई आपकी व्याख्या प्रक्रिया से आएगी—यही पूरी बात है! दूसरों में, उपयोगकर्ता के पास जमीनी सच्चाई के लेबल तक पहुंच हो सकती है। यह आपकी गुणवत्ता आश्वासन प्रक्रिया को महत्वपूर्ण रूप से तेज कर सकता है, या एकाधिक मैन्युअल एनोटेशन के लिए आवश्यक ओवरहेड को कम कर सकता है।
मेरी जमीनी सच्चाई की स्थिति से विचलन की मात्रा के लिए ऊपरी सीमा क्या है? इन लेबलों के आसपास की विशिष्ट त्रुटियों, ऐसी त्रुटियों के स्रोत और त्रुटियों में वांछित कमी को समझने के लिए अपने अंतिम-उपयोगकर्ताओं के साथ काम करें। इससे आपको यह पहचानने में मदद मिलेगी कि लेबलिंग कार्य के कौन से पहलू सबसे अधिक चुनौतीपूर्ण हैं या उनमें एनोटेशन त्रुटियां होने की संभावना है।
क्या इन वस्तुओं को लेबल करने के लिए उपयोगकर्ताओं या फील्ड प्रैक्टिशनरों द्वारा उपयोग किए जाने वाले पहले से मौजूद नियम हैं? अपने मैनुअल एनोटेटर के लिए निर्देशों का एक सेट बनाने के लिए इन दिशानिर्देशों का उपयोग करें और परिशोधित करें।

इनपुट एनोटेशन प्रक्रिया का संचालन

इनपुट एनोटेशन प्रक्रिया का संचालन करते समय, निम्नलिखित पर विचार करें:

एनोटेटर्स और फील्ड प्रैक्टिशनर्स के साथ निर्देशों की समीक्षा करें - निर्देश संक्षिप्त और विशिष्ट होने चाहिए। अपने उपयोगकर्ताओं से प्रतिक्रिया के लिए पूछें (क्या निर्देश सटीक हैं? क्या हम यह सुनिश्चित करने के लिए किसी भी निर्देश को संशोधित कर सकते हैं कि वे गैर-क्षेत्रीय चिकित्सकों द्वारा समझने योग्य हैं?) और व्याख्याकर्ता (क्या सब कुछ समझ में आता है? क्या कार्य स्पष्ट है?)। यदि संभव हो, तो अच्छे और बुरे लेबल वाले डेटा का एक उदाहरण जोड़ें ताकि आपके व्याख्याकारों को यह पहचानने में मदद मिल सके कि क्या अपेक्षित है, और सामान्य लेबलिंग त्रुटियां कैसी दिख सकती हैं।
एनोटेशन के लिए डेटा एकत्र करें - यह सुनिश्चित करने के लिए अपने ग्राहक के साथ डेटा की समीक्षा करें कि यह अपेक्षित मानकों को पूरा करता है, और मैन्युअल एनोटेशन से अपेक्षित परिणामों पर संरेखित करने के लिए।
टेस्ट रन के रूप में अपने मैनुअल एनोटेटर्स के पूल को उदाहरण प्रदान करें - उदाहरणों के इस सेट में व्याख्याकारों के बीच विशिष्ट भिन्नता क्या है? व्याख्याकारों के बीच एकरूपता प्रवृत्तियों की पहचान करने के लिए दी गई छवि के भीतर प्रत्येक एनोटेशन के लिए भिन्नता का अध्ययन करें। फिर छवियों या वीडियो फ़्रेम में भिन्नताओं की तुलना करके यह पहचानें कि कौन से लेबल लगाना चुनौतीपूर्ण है।

एनोटेशन का गुणवत्ता नियंत्रण

एनोटेशन गुणवत्ता नियंत्रण के दो मुख्य घटक हैं: एनोटेटर्स के बीच संगतता का आकलन करना, और स्वयं एनोटेशन की गुणवत्ता का आकलन करना।

आप एक ही कार्य के लिए एक से अधिक एनोटेटर्स असाइन कर सकते हैं (उदाहरण के लिए, तीन एनोटेटर एक ही छवि पर मुख्य बिंदुओं को लेबल करते हैं), और एनोटेटर्स के बीच इन लेबलों के मानक विचलन के साथ औसत मान को माप सकते हैं। ऐसा करने से आपको किसी भी बाहरी एनोटेशन (गलत लेबल का उपयोग किया गया है, या औसत एनोटेशन से बहुत दूर लेबल) की पहचान करने में मदद मिलती है, जो कार्रवाई योग्य परिणामों का मार्गदर्शन कर सकता है, जैसे आपके निर्देशों को परिष्कृत करना या कुछ व्याख्याकारों को आगे प्रशिक्षण प्रदान करना।

एनोटेशन की गुणवत्ता का आकलन स्वयं एनोटेटर परिवर्तनशीलता और (जब उपलब्ध हो) डोमेन विशेषज्ञों की उपलब्धता या जमीनी सच्चाई की जानकारी से जुड़ा होता है। क्या ऐसे कुछ लेबल हैं (आपकी सभी छवियों में) जहां व्याख्याकारों के बीच औसत विचरण लगातार उच्च है? क्या कोई लेबल आपकी अपेक्षाओं से बहुत दूर हैं कि उन्हें कहाँ होना चाहिए, या उन्हें कैसा दिखना चाहिए?

हमारे अनुभव के आधार पर, डेटा एनोटेशन के लिए एक विशिष्ट गुणवत्ता नियंत्रण लूप इस तरह दिख सकता है:

परीक्षण चलाने के परिणामों के आधार पर निर्देशों या छवि मंचन पर पुनरावृति करें - क्या कोई वस्तु रोकी गई है, या छवि का मंचन व्याख्याकारों या उपयोगकर्ताओं की अपेक्षाओं से मेल नहीं खाता है? क्या निर्देश भ्रामक हैं, या क्या आपने अपनी अनुकरणीय छवियों में कोई लेबल या सामान्य त्रुटियां याद की हैं? क्या आप अपने व्याख्याकारों के लिए निर्देशों को परिशोधित कर सकते हैं?
यदि आप संतुष्ट हैं कि आपने टेस्ट रन से किसी भी समस्या का समाधान किया है, तो एनोटेशन का एक बैच करें - बैच से परिणामों के परीक्षण के लिए, इंटर-एनोटेटर और इंटर-इमेज लेबल वेरिएबिलिटी का आकलन करने के लिए समान गुणवत्ता मूल्यांकन दृष्टिकोण का पालन करें।

निष्कर्ष

यह पोस्ट एआई/एमएल अनुप्रयोगों के लिए डेटा निर्माण की जटिलताओं को समझने के लिए व्यावसायिक हितधारकों के लिए एक मार्गदर्शक के रूप में कार्य करता है। वर्णित प्रक्रियाएं तकनीकी चिकित्सकों के लिए गुणवत्ता डेटा उत्पन्न करने के लिए एक मार्गदर्शक के रूप में भी काम करती हैं, जबकि व्यावसायिक बाधाओं जैसे कि कर्मियों और लागतों का अनुकूलन करती हैं। यदि अच्छी तरह से नहीं किया जाता है, तो डेटा निर्माण और लेबलिंग पाइपलाइन में 4-6 महीने से अधिक समय लग सकता है।

इस पोस्ट में उल्लिखित दिशानिर्देशों और सुझावों के साथ, आप बाधाओं को दूर कर सकते हैं, पूरा होने का समय कम कर सकते हैं, और उच्च गुणवत्ता वाले डेटा बनाने की अपनी यात्रा में लागत को कम कर सकते हैं।

लेखक के बारे में

जसलीन ग्रेवाल अमेज़ॅन वेब सर्विसेज में एक एप्लाइड साइंटिस्ट है, जहां वह सटीक दवा और जीनोमिक्स पर विशेष ध्यान देने के साथ मशीन लर्निंग का उपयोग करके वास्तविक दुनिया की समस्याओं को हल करने के लिए एडब्ल्यूएस ग्राहकों के साथ काम करती है। जैव सूचना विज्ञान, ऑन्कोलॉजी और नैदानिक जीनोमिक्स में उनकी मजबूत पृष्ठभूमि है। वह रोगी देखभाल में सुधार के लिए एआई/एमएल और क्लाउड सेवाओं का उपयोग करने के बारे में भावुक है।

बोरिस अरोनचिको अमेज़ॅन एआई मशीन लर्निंग सॉल्यूशंस लैब में एक प्रबंधक है, जहां वह एडब्ल्यूएस ग्राहकों को एआई / एमएल समाधानों का लाभ उठाने वाले व्यावसायिक लक्ष्यों को प्राप्त करने में मदद करने के लिए एमएल वैज्ञानिकों और इंजीनियरों की एक टीम का नेतृत्व करता है।

मिगुएल रोमेरो कैल्वो में एक अनुप्रयुक्त वैज्ञानिक है अमेज़न एमएल सॉल्यूशंस लैब जहां वह एमएल और क्लाउड एडॉप्शन के माध्यम से अपने व्यवसाय को गति देने के लिए एडब्ल्यूएस आंतरिक टीमों और रणनीतिक ग्राहकों के साथ साझेदारी करता है।

लिन ली चेओंग अमेज़ॅन वेब सर्विसेज में अमेज़ॅन एमएल सॉल्यूशंस लैब टीम के साथ एक वरिष्ठ वैज्ञानिक और प्रबंधक हैं। वह नई अंतर्दृष्टि की खोज करने और जटिल समस्याओं को हल करने के लिए आर्टिफिशियल इंटेलिजेंस और मशीन लर्निंग का पता लगाने और लागू करने के लिए रणनीतिक AWS ग्राहकों के साथ काम करती है।

समय टिकट: अक्टूबर 3अक्टूबर 3

समय टिकट: नवम्बर 17, 2022

Amazon SageMaker ग्राउंड ट्रुथ के साथ ML मॉडल के लिए उच्च गुणवत्ता वाला डेटा बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

डेटा निर्माण प्रक्रिया

प्लानिंग

स्रोत डेटा निर्माण

बनाए गए डेटा का गुणवत्ता नियंत्रण और गुणवत्ता आश्वासन

एनोटेशन

इनपुट एनोटेशन प्रक्रिया का संचालन

एनोटेशन का गुणवत्ता नियंत्रण

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

Amazon SageMaker JumpStart अब कस्टम वर्गीकरण और कस्टम एंटिटी डिटेक्शन के लिए Amazon Comprehend नोटबुक प्रदान करता है

अमेज़ॅन केंद्र में वर्तनी परीक्षक के साथ खोज सटीकता में सुधार करें

GPU का उपयोग किए बिना किनारे पर Amazon Lookout for Vision का उपयोग करके विसंगतियों के स्थान की पहचान करें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा