استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

استخدام طرق اختيار الميزة في تصنيف النص

في تصنيف النص ، فإن اختيار الميزة هو عملية اختيار مجموعة فرعية معينة من شروط مجموعة التدريب واستخدامها فقط في خوارزمية التصنيف. تتم عملية اختيار الميزة قبل تدريب المصنف.

تحديث: أصبح Datumbox Machine Learning Framework مفتوح المصدر ومجانيًا الآن بإمكانك تحميله. تحقق من اختيار الحزمة com.datumbox.framework.machinelearning.features لمعرفة تنفيذ طرق Chi-square و Mutual Information Feature Selection في Java.

تتمثل المزايا الرئيسية لاستخدام خوارزميات اختيار الميزات في الحقائق التي تقلل من أبعاد بياناتنا ، وتجعل التدريب أسرع ويمكن أن تحسن الدقة عن طريق إزالة الميزات الصاخبة. ونتيجة لذلك ، يمكن أن يساعدنا اختيار الميزة على تجنب فرط التجهيز.

يتم عرض خوارزمية الاختيار الأساسية لاختيار أفضل الميزات أدناه (مانينغ وآخرون ، 2008):

استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

في الأقسام التالية نقدم خوارزميتين مختلفتين لاختيار الميزات: المعلومات المتبادلة و Chi Square.

المعلومات المتبادلة

واحدة من أكثر طرق اختيار الميزات شيوعًا هي المعلومات المتبادلة للمصطلح t في الفئة c (مانينغ وآخرون ، 2008). يقيس هذا مقدار المعلومات التي يساهم بها وجود أو عدم وجود مصطلح معين في اتخاذ قرار التصنيف الصحيح بشأن c. يمكن حساب المعلومات المتبادلة باستخدام الصيغة التالية:

استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.[1]

في حساباتنا ، نظرًا لأننا نستخدم تقديرات الاحتمالية القصوى للاحتمالات ، يمكننا استخدام المعادلة التالية:

استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.[2]

حيث N هو العدد الإجمالي للمستندات ، Ntcهي عدد الوثائق التي لها القيم هt (حدوث المصطلح t في المستند ؛ يأخذ القيمة 1 أو 0) و ec(حدوث المستند في الفئة c ؛ يأخذ القيمة 1 أو 0) التي يشار إليها برقمين ، استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية. و استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.. أخيرًا ، يجب أن نلاحظ أن جميع المتغيرات المذكورة أعلاه تأخذ قيمًا غير سالبة.

ساحة تشي

طريقة أخرى شائعة لاختيار الميزة هي ساحة تشي. x2 يستخدم الاختبار في الإحصاء ، من بين أشياء أخرى ، لاختبار استقلالية حدثين. بشكل أكثر تحديدًا في اختيار الميزات ، نستخدمها لاختبار ما إذا كان حدوث مصطلح معين وحدوث فئة معينة مستقلان. وبالتالي فإننا نقدر الكمية التالية لكل مصطلح ونقوم بترتيبها حسب درجاتها:

استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.[3]

درجات عالية في x2 تشير إلى أن الفرضية الصفرية (H0) الاستقلال يجب رفضه وبالتالي فإن حدوث المصطلح والطبقة يعتمدان. إذا كانوا تابعين ، فنحن نختار ميزة تصنيف النص.

يمكن إعادة كتابة الصيغة أعلاه على النحو التالي:

استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.[4]

إذا استخدمنا طريقة Chi Square ، فيجب أن نختار فقط عددًا محددًا مسبقًا من الميزات ذات الفأس2 نتيجة الاختبار أكبر من 10.83 مما يدل على دلالة إحصائية عند مستوى 0.001.

أخيرًا وليس آخرًا ، يجب أن نلاحظ أنه من الناحية الإحصائية ، فإن اختيار ميزة Chi Square غير دقيق ، بسبب درجة واحدة من الحرية و تصحيح ييتس يجب استخدامها بدلاً من ذلك (مما سيجعل من الصعب الوصول إلى الأهمية الإحصائية). وبالتالي ، يجب أن نتوقع أنه من إجمالي الميزات المحددة ، يكون جزء صغير منها مستقلًا عن الفصل). وبالتالي ، يجب أن نتوقع أنه من إجمالي الميزات المحددة ، يكون جزء صغير منها مستقلًا عن الفصل. ومع ذلك مانينغ وآخرون (2008) أظهرت ، أن هذه الميزات الصاخبة لا تؤثر بشكل خطير على الدقة الكلية لمصنفنا.

إزالة السمات الصاخبة / النادرة

هناك طريقة أخرى يمكن أن تساعدنا في تجنب الإفراط في التجهيز وتقليل استهلاك الذاكرة وتحسين السرعة ، وهي إزالة جميع المصطلحات النادرة من المفردات. على سبيل المثال ، يمكن حذف جميع المصطلحات التي حدثت مرة واحدة فقط عبر جميع الفئات. يمكن أن تؤدي إزالة هذه المصطلحات إلى تقليل استخدام الذاكرة بعامل مهم وتحسين سرعة التحليل. أخيرًا ، لا ينبغي استخدام هذه التقنية بالاقتران مع خوارزميات اختيار الميزة أعلاه.

هل أعجبك المقال؟ يرجى قضاء دقيقة لمشاركتها على تويتر. 🙂

الطابع الزمني:

اكثر من داتومبوكس