استخدام طرق تحديد الميزة في تصنيف النص

أعاد نشره أفلاطون

المتابعون: 0

في تصنيف النص ، فإن اختيار الميزة هو عملية اختيار مجموعة فرعية معينة من شروط مجموعة التدريب واستخدامها فقط في خوارزمية التصنيف. تتم عملية اختيار الميزة قبل تدريب المصنف.

تحديث: أصبح Datumbox Machine Learning Framework مفتوح المصدر ومجانيًا الآن بإمكانك تحميله. تحقق من اختيار الحزمة com.datumbox.framework.machinelearning.features لمعرفة تنفيذ طرق Chi-square و Mutual Information Feature Selection في Java.

تتمثل المزايا الرئيسية لاستخدام خوارزميات اختيار الميزات في الحقائق التي تقلل من أبعاد بياناتنا ، وتجعل التدريب أسرع ويمكن أن تحسن الدقة عن طريق إزالة الميزات الصاخبة. ونتيجة لذلك ، يمكن أن يساعدنا اختيار الميزة على تجنب فرط التجهيز.

يتم عرض خوارزمية الاختيار الأساسية لاختيار أفضل الميزات أدناه (مانينغ وآخرون ، 2008):

استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

في الأقسام التالية نقدم خوارزميتين مختلفتين لاختيار الميزات: المعلومات المتبادلة و Chi Square.

المعلومات المتبادلة

واحدة من أكثر طرق اختيار الميزات شيوعًا هي المعلومات المتبادلة للمصطلح t في الفئة c (مانينغ وآخرون ، 2008). يقيس هذا مقدار المعلومات التي يساهم بها وجود أو عدم وجود مصطلح معين في اتخاذ قرار التصنيف الصحيح بشأن c. يمكن حساب المعلومات المتبادلة باستخدام الصيغة التالية:

استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية. [1]

في حساباتنا ، نظرًا لأننا نستخدم تقديرات الاحتمالية القصوى للاحتمالات ، يمكننا استخدام المعادلة التالية:

[2]

حيث N هو العدد الإجمالي للمستندات ، N_tcهي عدد الوثائق التي لها القيم ه_t(حدوث المصطلح t في المستند ؛ يأخذ القيمة 1 أو 0) و e_c(حدوث المستند في الفئة c ؛ يأخذ القيمة 1 أو 0) التي يشار إليها برقمين ، و . أخيرًا ، يجب أن نلاحظ أن جميع المتغيرات المذكورة أعلاه تأخذ قيمًا غير سالبة.

ساحة تشي

طريقة أخرى شائعة لاختيار الميزة هي ساحة تشي. x² يستخدم الاختبار في الإحصاء ، من بين أشياء أخرى ، لاختبار استقلالية حدثين. بشكل أكثر تحديدًا في اختيار الميزات ، نستخدمها لاختبار ما إذا كان حدوث مصطلح معين وحدوث فئة معينة مستقلان. وبالتالي فإننا نقدر الكمية التالية لكل مصطلح ونقوم بترتيبها حسب درجاتها:

استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية. [3]

درجات عالية في x² تشير إلى أن الفرضية الصفرية (H₀) الاستقلال يجب رفضه وبالتالي فإن حدوث المصطلح والطبقة يعتمدان. إذا كانوا تابعين ، فنحن نختار ميزة تصنيف النص.

يمكن إعادة كتابة الصيغة أعلاه على النحو التالي:

استخدام طرق اختيار الميزة في تصنيف النصوص وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية. [4]

إذا استخدمنا طريقة Chi Square ، فيجب أن نختار فقط عددًا محددًا مسبقًا من الميزات ذات الفأس² نتيجة الاختبار أكبر من 10.83 مما يدل على دلالة إحصائية عند مستوى 0.001.

أخيرًا وليس آخرًا ، يجب أن نلاحظ أنه من الناحية الإحصائية ، فإن اختيار ميزة Chi Square غير دقيق ، بسبب درجة واحدة من الحرية و تصحيح ييتس يجب استخدامها بدلاً من ذلك (مما سيجعل من الصعب الوصول إلى الأهمية الإحصائية). وبالتالي ، يجب أن نتوقع أنه من إجمالي الميزات المحددة ، يكون جزء صغير منها مستقلًا عن الفصل). وبالتالي ، يجب أن نتوقع أنه من إجمالي الميزات المحددة ، يكون جزء صغير منها مستقلًا عن الفصل. ومع ذلك مانينغ وآخرون (2008) أظهرت ، أن هذه الميزات الصاخبة لا تؤثر بشكل خطير على الدقة الكلية لمصنفنا.

إزالة السمات الصاخبة / النادرة

هناك طريقة أخرى يمكن أن تساعدنا في تجنب الإفراط في التجهيز وتقليل استهلاك الذاكرة وتحسين السرعة ، وهي إزالة جميع المصطلحات النادرة من المفردات. على سبيل المثال ، يمكن حذف جميع المصطلحات التي حدثت مرة واحدة فقط عبر جميع الفئات. يمكن أن تؤدي إزالة هذه المصطلحات إلى تقليل استخدام الذاكرة بعامل مهم وتحسين سرعة التحليل. أخيرًا ، لا ينبغي استخدام هذه التقنية بالاقتران مع خوارزميات اختيار الميزة أعلاه.

هل أعجبك المقال؟ يرجى قضاء دقيقة لمشاركتها على تويتر. 🙂

الطابع الزمني: ٣ فبراير ٢٠٢٤6 نوفمبر، 2022

الطابع الزمني: أغسطس 21، 2021

استخدام طرق اختيار الميزة في تصنيف النص

أعاد نشره أفلاطون

المعلومات المتبادلة

ساحة تشي

إزالة السمات الصاخبة / النادرة

اكثر من داتومبوكس

رحلة تحديث TorchVision - مذكرات مطور TorchVision - 3

نموذج خليط عملية Dirichlet

إطار عمل جديد للتعلم الآلي مفتوح المصدر مكتوب بلغة جافا

تجميع المستندات والبيانات الغوسية باستخدام نماذج Dirichlet Process Mixture

كيفية أخذ نُسخ احتياطية S3 باستخدام DejaDup على Ubuntu 20.10

إصدار Datumbox Machine Learning Framework الإصدار 0.8.0

كيفية بناء أداة تحليل المشاعر الخاصة بك على Facebook

كيفية الالتفاف حول قيود ارتباطات Dropbox على Linux

5 نصائح لتدريب متعدد GPU مع Keras

الحفر في خوارزمية توصية ALS الخاصة بشركة Spark

البرنامج التعليمي لتحليل تغليف البيانات

سلسلة مدونة جديدة - مذكرات مطور TorchVision

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي