टेक्स्ट वर्गीकरण में फ़ीचर चयन विधियों का उपयोग करना

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

पाठ वर्गीकरण में, सुविधा चयन प्रशिक्षण सेट की शर्तों के एक विशिष्ट सबसेट का चयन करने और वर्गीकरण एल्गोरिदम में केवल उनका उपयोग करने की प्रक्रिया है। सुविधा चयन प्रक्रिया क्लासिफायरियर के प्रशिक्षण से पहले होती है।

अद्यतन: डाटंबॉक्स मशीन लर्निंग फ्रेमवर्क अब खुला-स्रोत और मुफ्त है डाउनलोड। जावा में ची-वर्ग और पारस्परिक सूचना सुविधा चयन विधियों के कार्यान्वयन को देखने के लिए पैकेज com.datumbox.framework.machinelearning.featureselection देखें।

फीचर चयन एल्गोरिदम का उपयोग करने के लिए मुख्य लाभ यह तथ्य है कि यह हमारे डेटा के आयाम को कम करता है, यह प्रशिक्षण को तेज करता है और शोर सुविधाओं को हटाकर सटीकता में सुधार कर सकता है। परिणाम सुविधा के रूप में चयन हमें ओवरफिटिंग से बचने में मदद कर सकता है।

सबसे अच्छी सुविधाओं का चयन करने के लिए बुनियादी चयन एल्गोरिथ्म नीचे प्रस्तुत किया गया है (मैनिंग एट अल, 2008):

टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ.

अगले खंडों पर हम दो अलग-अलग फीचर चयन एल्गोरिदम प्रस्तुत करते हैं: म्युचुअल इंफॉर्मेशन और ची स्क्वायर।

आपसी जानकारी

सबसे आम सुविधा चयन विधियों में से एक वर्ग c में टर्म टी की पारस्परिक जानकारी है (मैनिंग एट अल, 2008)। यह मापता है कि किसी विशेष शब्द की उपस्थिति या अनुपस्थिति कितनी जानकारी ग पर सही वर्गीकरण निर्णय लेने में योगदान करती है। निम्नलिखित सूत्र का उपयोग करके आपसी जानकारी की गणना की जा सकती है:

टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ. [1]

हमारी गणना में, चूंकि हम संभावनाओं के अधिकतम संभावना अनुमानों का उपयोग करते हैं, हम निम्नलिखित समीकरण का उपयोग कर सकते हैं:

[2]

जहां N कुल दस्तावेजों की संख्या है, N_tcमानों वाले दस्तावेज़ों की संख्याएँ e हैं_t(दस्तावेज़ में टर्म टी की घटना; यह मान 1 या 0 लेता है) और ई_c(कक्षा सी में दस्तावेज़ की घटना; यह मान 1 या 0 लेता है) जो दो ग्राहकों द्वारा इंगित किया गया है; और । अंत में हमें ध्यान देना चाहिए कि सभी पूर्वोक्त चर गैर-नकारात्मक मान लेते हैं।

ची स्क्वायर

एक अन्य सामान्य सुविधा चयन विधि है ची स्क्वायर। एक्स² परीक्षण का उपयोग दो घटनाओं की स्वतंत्रता का परीक्षण करने के लिए, अन्य बातों के अलावा आंकड़ों में किया जाता है। विशेष रूप से फीचर चयन में हम इसका उपयोग यह परखने के लिए करते हैं कि क्या किसी विशिष्ट शब्द की घटना और किसी विशिष्ट वर्ग की घटना स्वतंत्र है। इस प्रकार हम प्रत्येक पद के लिए निम्नलिखित मात्रा का अनुमान लगाते हैं और हम उन्हें उनके स्कोर द्वारा रैंक करते हैं:

टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ. [3]

एक्स पर उच्च स्कोर² संकेत मिलता है कि अशक्त परिकल्पना (एच₀) स्वतंत्रता को अस्वीकार कर दिया जाना चाहिए और इस प्रकार कि शब्द और वर्ग की घटना निर्भर है। यदि वे निर्भर हैं तो हम पाठ वर्गीकरण के लिए सुविधा का चयन करते हैं।

उपरोक्त सूत्र निम्नानुसार लिखे जा सकते हैं:

टेक्स्ट वर्गीकरण प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में फ़ीचर चयन विधियों का उपयोग करना। लंबवत खोज. ऐ. [4]

यदि हम ची स्क्वायर विधि का उपयोग करते हैं, तो हमें केवल उन पूर्वनिर्धारित संख्याओं का चयन करना चाहिए जिनमें कुल्हाड़ी है² टेस्ट स्कोर 10.83 से बड़ा है जो 0.001 स्तर पर सांख्यिकीय महत्व को दर्शाता है।

अंतिम लेकिन कम से कम हमें यह ध्यान देना चाहिए कि सांख्यिकीय बिंदु से ची स्क्वायर सुविधा का चयन गलत है, स्वतंत्रता और एक डिग्री के कारण Yates सुधार इसके बजाय इस्तेमाल किया जाना चाहिए (जो सांख्यिकीय महत्व तक पहुंचने के लिए कठिन बना देगा)। इस प्रकार हमें उम्मीद करनी चाहिए कि कुल चयनित विशेषताओं में से, उनमें से एक छोटा सा हिस्सा वर्ग से स्वतंत्र है)। इस प्रकार हमें उम्मीद करनी चाहिए कि कुल चयनित विशेषताओं में से, उनमें से एक छोटा हिस्सा वर्ग से स्वतंत्र है। फिर भी मैनिंग एट अल (2008) दिखाया गया है, ये शोर विशेषताएं हमारे क्लासिफायरियर की समग्र सटीकता को गंभीरता से प्रभावित नहीं करती हैं।

शोर / दुर्लभ सुविधाओं को हटाना

एक और तकनीक जो हमें ओवरफिटिंग से बचने, मेमोरी खपत को कम करने और गति में सुधार करने में मदद कर सकती है, वह है शब्दावली से सभी दुर्लभ शब्दों को हटाना। उदाहरण के लिए, सभी सभी श्रेणियों में केवल एक बार हुई सभी शर्तों को समाप्त कर सकता है। उन शर्तों को हटाने से एक महत्वपूर्ण कारक द्वारा स्मृति उपयोग को कम किया जा सकता है और विश्लेषण की गति में सुधार हो सकता है। अंत में हमें यह नहीं करना चाहिए कि इस तकनीक का उपयोग उपरोक्त सुविधा चयन एल्गोरिदम के साथ संयोजन में किया जा सकता है।

क्या आपको लेख पसंद आया? कृपया इसे ट्विटर पर साझा करने के लिए एक मिनट का समय लें। 🙂

समय टिकट: जनवरी ७,२०२१नवम्बर 6/2022

समय टिकट: अक्टूबर 19, 2014

पाठ वर्गीकरण में फ़ीचर चयन विधियों का उपयोग करना

प्लेटो द्वारा पुनर्प्रकाशित

आपसी जानकारी

ची स्क्वायर

शोर / दुर्लभ सुविधाओं को हटाना

से अधिक दातुनॉक्स

Java में Dirichlet Process Mixture Model के साथ क्लस्टरिंग

अपना खुद का फेसबुक सेंटीमेंट एनालिसिस टूल कैसे बनाएं

स्पार्क के एएलएस सिफारिश एल्गोरिथ्म में ड्रिलिंग

JAVA में एक Naive Bayes Text Classifier का विकास करना

नई ब्लॉग श्रृंखला - एक टॉर्चविज़न डेवलपर के संस्मरण

TorchVision v0.11 पर एक झलक - एक TorchVision डेवलपर के संस्मरण - 2

टॉर्चविज़न के आधुनिकीकरण की यात्रा - एक टॉर्चविज़न डेवलपर के संस्मरण - 3

कैरस के साथ मल्टी-जीपीयू प्रशिक्षण के लिए 5 सुझाव

लिनक्स dstat टूल के साथ NVIDIA कार्ड का GPU उपयोग प्राप्त करना

Dirichlet प्रक्रिया मिश्रण मॉडल

ड्यूरिचलेट प्रक्रिया मिश्रण मॉडल के साथ दस्तावेजों और गाऊसी डेटा को क्लस्टर करना

जावा में लिखा गया नया ओपन-सोर्स मशीन लर्निंग फ्रेमवर्क

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा