- जनवरी ७,२०२१
- वासिलिस व्र्यनोटिस
- । 5 टिप्पणियाँ
पाठ वर्गीकरण में, सुविधा चयन प्रशिक्षण सेट की शर्तों के एक विशिष्ट सबसेट का चयन करने और वर्गीकरण एल्गोरिदम में केवल उनका उपयोग करने की प्रक्रिया है। सुविधा चयन प्रक्रिया क्लासिफायरियर के प्रशिक्षण से पहले होती है।
अद्यतन: डाटंबॉक्स मशीन लर्निंग फ्रेमवर्क अब खुला-स्रोत और मुफ्त है डाउनलोड। जावा में ची-वर्ग और पारस्परिक सूचना सुविधा चयन विधियों के कार्यान्वयन को देखने के लिए पैकेज com.datumbox.framework.machinelearning.featureselection देखें।
फीचर चयन एल्गोरिदम का उपयोग करने के लिए मुख्य लाभ यह तथ्य है कि यह हमारे डेटा के आयाम को कम करता है, यह प्रशिक्षण को तेज करता है और शोर सुविधाओं को हटाकर सटीकता में सुधार कर सकता है। परिणाम सुविधा के रूप में चयन हमें ओवरफिटिंग से बचने में मदद कर सकता है।
सबसे अच्छी सुविधाओं का चयन करने के लिए बुनियादी चयन एल्गोरिथ्म नीचे प्रस्तुत किया गया है (मैनिंग एट अल, 2008):
अगले खंडों पर हम दो अलग-अलग फीचर चयन एल्गोरिदम प्रस्तुत करते हैं: म्युचुअल इंफॉर्मेशन और ची स्क्वायर।
आपसी जानकारी
सबसे आम सुविधा चयन विधियों में से एक वर्ग c में टर्म टी की पारस्परिक जानकारी है (मैनिंग एट अल, 2008)। यह मापता है कि किसी विशेष शब्द की उपस्थिति या अनुपस्थिति कितनी जानकारी ग पर सही वर्गीकरण निर्णय लेने में योगदान करती है। निम्नलिखित सूत्र का उपयोग करके आपसी जानकारी की गणना की जा सकती है:
[1]
हमारी गणना में, चूंकि हम संभावनाओं के अधिकतम संभावना अनुमानों का उपयोग करते हैं, हम निम्नलिखित समीकरण का उपयोग कर सकते हैं:
[2]
जहां N कुल दस्तावेजों की संख्या है, Ntcमानों वाले दस्तावेज़ों की संख्याएँ e हैंt (दस्तावेज़ में टर्म टी की घटना; यह मान 1 या 0 लेता है) और ईc(कक्षा सी में दस्तावेज़ की घटना; यह मान 1 या 0 लेता है) जो दो ग्राहकों द्वारा इंगित किया गया है; और । अंत में हमें ध्यान देना चाहिए कि सभी पूर्वोक्त चर गैर-नकारात्मक मान लेते हैं।
ची स्क्वायर
एक अन्य सामान्य सुविधा चयन विधि है ची स्क्वायर। एक्स2 परीक्षण का उपयोग दो घटनाओं की स्वतंत्रता का परीक्षण करने के लिए, अन्य बातों के अलावा आंकड़ों में किया जाता है। विशेष रूप से फीचर चयन में हम इसका उपयोग यह परखने के लिए करते हैं कि क्या किसी विशिष्ट शब्द की घटना और किसी विशिष्ट वर्ग की घटना स्वतंत्र है। इस प्रकार हम प्रत्येक पद के लिए निम्नलिखित मात्रा का अनुमान लगाते हैं और हम उन्हें उनके स्कोर द्वारा रैंक करते हैं:
[3]
एक्स पर उच्च स्कोर2 संकेत मिलता है कि अशक्त परिकल्पना (एच0) स्वतंत्रता को अस्वीकार कर दिया जाना चाहिए और इस प्रकार कि शब्द और वर्ग की घटना निर्भर है। यदि वे निर्भर हैं तो हम पाठ वर्गीकरण के लिए सुविधा का चयन करते हैं।
उपरोक्त सूत्र निम्नानुसार लिखे जा सकते हैं:
[4]
यदि हम ची स्क्वायर विधि का उपयोग करते हैं, तो हमें केवल उन पूर्वनिर्धारित संख्याओं का चयन करना चाहिए जिनमें कुल्हाड़ी है2 टेस्ट स्कोर 10.83 से बड़ा है जो 0.001 स्तर पर सांख्यिकीय महत्व को दर्शाता है।
अंतिम लेकिन कम से कम हमें यह ध्यान देना चाहिए कि सांख्यिकीय बिंदु से ची स्क्वायर सुविधा का चयन गलत है, स्वतंत्रता और एक डिग्री के कारण Yates सुधार इसके बजाय इस्तेमाल किया जाना चाहिए (जो सांख्यिकीय महत्व तक पहुंचने के लिए कठिन बना देगा)। इस प्रकार हमें उम्मीद करनी चाहिए कि कुल चयनित विशेषताओं में से, उनमें से एक छोटा सा हिस्सा वर्ग से स्वतंत्र है)। इस प्रकार हमें उम्मीद करनी चाहिए कि कुल चयनित विशेषताओं में से, उनमें से एक छोटा हिस्सा वर्ग से स्वतंत्र है। फिर भी मैनिंग एट अल (2008) दिखाया गया है, ये शोर विशेषताएं हमारे क्लासिफायरियर की समग्र सटीकता को गंभीरता से प्रभावित नहीं करती हैं।
शोर / दुर्लभ सुविधाओं को हटाना
एक और तकनीक जो हमें ओवरफिटिंग से बचने, मेमोरी खपत को कम करने और गति में सुधार करने में मदद कर सकती है, वह है शब्दावली से सभी दुर्लभ शब्दों को हटाना। उदाहरण के लिए, सभी सभी श्रेणियों में केवल एक बार हुई सभी शर्तों को समाप्त कर सकता है। उन शर्तों को हटाने से एक महत्वपूर्ण कारक द्वारा स्मृति उपयोग को कम किया जा सकता है और विश्लेषण की गति में सुधार हो सकता है। अंत में हमें यह नहीं करना चाहिए कि इस तकनीक का उपयोग उपरोक्त सुविधा चयन एल्गोरिदम के साथ संयोजन में किया जा सकता है।
क्या आपको लेख पसंद आया? कृपया इसे ट्विटर पर साझा करने के लिए एक मिनट का समय लें। 🙂
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- दातुनॉक्स
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- मशीन लर्निंग एंड स्टैटिस्टिक्स
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट