टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ.

पाठ वर्गीकरण में फ़ीचर चयन विधियों का उपयोग करना

पाठ वर्गीकरण में, सुविधा चयन प्रशिक्षण सेट की शर्तों के एक विशिष्ट सबसेट का चयन करने और वर्गीकरण एल्गोरिदम में केवल उनका उपयोग करने की प्रक्रिया है। सुविधा चयन प्रक्रिया क्लासिफायरियर के प्रशिक्षण से पहले होती है।

अद्यतन: डाटंबॉक्स मशीन लर्निंग फ्रेमवर्क अब खुला-स्रोत और मुफ्त है डाउनलोड। जावा में ची-वर्ग और पारस्परिक सूचना सुविधा चयन विधियों के कार्यान्वयन को देखने के लिए पैकेज com.datumbox.framework.machinelearning.featureselection देखें।

फीचर चयन एल्गोरिदम का उपयोग करने के लिए मुख्य लाभ यह तथ्य है कि यह हमारे डेटा के आयाम को कम करता है, यह प्रशिक्षण को तेज करता है और शोर सुविधाओं को हटाकर सटीकता में सुधार कर सकता है। परिणाम सुविधा के रूप में चयन हमें ओवरफिटिंग से बचने में मदद कर सकता है।

सबसे अच्छी सुविधाओं का चयन करने के लिए बुनियादी चयन एल्गोरिथ्म नीचे प्रस्तुत किया गया है (मैनिंग एट अल, 2008):

टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ.

अगले खंडों पर हम दो अलग-अलग फीचर चयन एल्गोरिदम प्रस्तुत करते हैं: म्युचुअल इंफॉर्मेशन और ची स्क्वायर।

आपसी जानकारी

सबसे आम सुविधा चयन विधियों में से एक वर्ग c में टर्म टी की पारस्परिक जानकारी है (मैनिंग एट अल, 2008)। यह मापता है कि किसी विशेष शब्द की उपस्थिति या अनुपस्थिति कितनी जानकारी ग पर सही वर्गीकरण निर्णय लेने में योगदान करती है। निम्नलिखित सूत्र का उपयोग करके आपसी जानकारी की गणना की जा सकती है:

टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ.[1]

हमारी गणना में, चूंकि हम संभावनाओं के अधिकतम संभावना अनुमानों का उपयोग करते हैं, हम निम्नलिखित समीकरण का उपयोग कर सकते हैं:

टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ.[2]

जहां N कुल दस्तावेजों की संख्या है, Ntcमानों वाले दस्तावेज़ों की संख्याएँ e हैंt (दस्तावेज़ में टर्म टी की घटना; यह मान 1 या 0 लेता है) और ईc(कक्षा सी में दस्तावेज़ की घटना; यह मान 1 या 0 लेता है) जो दो ग्राहकों द्वारा इंगित किया गया है; टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ. और टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ.। अंत में हमें ध्यान देना चाहिए कि सभी पूर्वोक्त चर गैर-नकारात्मक मान लेते हैं।

ची स्क्वायर

एक अन्य सामान्य सुविधा चयन विधि है ची स्क्वायर। एक्स2 परीक्षण का उपयोग दो घटनाओं की स्वतंत्रता का परीक्षण करने के लिए, अन्य बातों के अलावा आंकड़ों में किया जाता है। विशेष रूप से फीचर चयन में हम इसका उपयोग यह परखने के लिए करते हैं कि क्या किसी विशिष्ट शब्द की घटना और किसी विशिष्ट वर्ग की घटना स्वतंत्र है। इस प्रकार हम प्रत्येक पद के लिए निम्नलिखित मात्रा का अनुमान लगाते हैं और हम उन्हें उनके स्कोर द्वारा रैंक करते हैं:

टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ.[3]

एक्स पर उच्च स्कोर2 संकेत मिलता है कि अशक्त परिकल्पना (एच0) स्वतंत्रता को अस्वीकार कर दिया जाना चाहिए और इस प्रकार कि शब्द और वर्ग की घटना निर्भर है। यदि वे निर्भर हैं तो हम पाठ वर्गीकरण के लिए सुविधा का चयन करते हैं।

उपरोक्त सूत्र निम्नानुसार लिखे जा सकते हैं:

टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ.[4]

यदि हम ची स्क्वायर विधि का उपयोग करते हैं, तो हमें केवल उन पूर्वनिर्धारित संख्याओं का चयन करना चाहिए जिनमें कुल्हाड़ी है2 टेस्ट स्कोर 10.83 से बड़ा है जो 0.001 स्तर पर सांख्यिकीय महत्व को दर्शाता है।

अंतिम लेकिन कम से कम हमें यह ध्यान देना चाहिए कि सांख्यिकीय बिंदु से ची स्क्वायर सुविधा का चयन गलत है, स्वतंत्रता और एक डिग्री के कारण Yates सुधार इसके बजाय इस्तेमाल किया जाना चाहिए (जो सांख्यिकीय महत्व तक पहुंचने के लिए कठिन बना देगा)। इस प्रकार हमें उम्मीद करनी चाहिए कि कुल चयनित विशेषताओं में से, उनमें से एक छोटा सा हिस्सा वर्ग से स्वतंत्र है)। इस प्रकार हमें उम्मीद करनी चाहिए कि कुल चयनित विशेषताओं में से, उनमें से एक छोटा हिस्सा वर्ग से स्वतंत्र है। फिर भी मैनिंग एट अल (2008) दिखाया गया है, ये शोर विशेषताएं हमारे क्लासिफायरियर की समग्र सटीकता को गंभीरता से प्रभावित नहीं करती हैं।

शोर / दुर्लभ सुविधाओं को हटाना

एक और तकनीक जो हमें ओवरफिटिंग से बचने, मेमोरी खपत को कम करने और गति में सुधार करने में मदद कर सकती है, वह है शब्दावली से सभी दुर्लभ शब्दों को हटाना। उदाहरण के लिए, सभी सभी श्रेणियों में केवल एक बार हुई सभी शर्तों को समाप्त कर सकता है। उन शर्तों को हटाने से एक महत्वपूर्ण कारक द्वारा स्मृति उपयोग को कम किया जा सकता है और विश्लेषण की गति में सुधार हो सकता है। अंत में हमें यह नहीं करना चाहिए कि इस तकनीक का उपयोग उपरोक्त सुविधा चयन एल्गोरिदम के साथ संयोजन में किया जा सकता है।

क्या आपको लेख पसंद आया? कृपया इसे ट्विटर पर साझा करने के लिए एक मिनट का समय लें। 🙂

समय टिकट:

से अधिक दातुनॉक्स