Using Feature Selection Methods In Text Classification

Republicat de Platon

Urmaritori: 0

Ianuarie 20, 2014
Vasilis Vryniotis
. 5 comentarii

În clasificarea textului, selecția caracteristicilor este procesul de selectare a unui anumit subset al termenilor setului de antrenament și de utilizare numai a acestora în algoritmul de clasificare. Procesul de selecție a caracteristicilor are loc înainte de antrenamentul clasificatorului.

Actualizare: Datumbox Machine Learning Framework este acum open-source și gratuit Descarca. Consultați pachetul com.datumbox.framework.machinelearning.featureselection pentru a vedea implementarea metodelor Chi-pătrat și Mutual Information Feature Selection în Java.

Principalele avantaje ale utilizării algoritmilor de selecție a caracteristicilor sunt faptul că reduce dimensiunea datelor noastre, face antrenamentul mai rapid și poate îmbunătăți acuratețea prin eliminarea caracteristicilor zgomotoase. În consecință, selecția caracteristicilor ne poate ajuta să evităm supraadaptarea.

Algoritmul de selecție de bază pentru selectarea celor mai bune k caracteristici este prezentat mai jos (Manning și colab., 2008):

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

În secțiunile următoare prezentăm doi algoritmi diferiți de selecție a caracteristicilor: Informația reciprocă și Pătratul Chi.

Informații reciproce

Una dintre cele mai comune metode de selecție a caracteristicilor este Informația reciprocă a termenului t din clasa c (Manning și colab., 2008). Aceasta măsoară câte informații contribuie prezența sau absența unui anumit termen la luarea deciziei corecte de clasificare pe c. Informația reciprocă poate fi calculată folosind următoarea formulă:

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai. [1]

În calculele noastre, deoarece folosim estimările de probabilitate maximă ale probabilităților, putem folosi următoarea ecuație:

[2]

Unde N este numărul total de documente, N_tcsunt numărul documentelor care au valorile e_t(apariția termenului t în document; acesta ia valoarea 1 sau 0) și e_c(apariția documentului în clasa c; ia valoarea 1 sau 0) care este indicată prin două indice, și . În sfârșit, trebuie să remarcăm că toate variabilele menționate mai sus iau valori nenegative.

Piața Chi

O altă metodă comună de selecție a caracteristicilor este Piața Chi. X² testul este folosit în statistică, printre altele, pentru a testa independența a două evenimente. Mai precis, în selecția caracteristicilor, îl folosim pentru a testa dacă apariția unui anumit termen și apariția unei clase specifice sunt independente. Astfel, estimăm următoarea cantitate pentru fiecare termen și le clasificăm după punctajul lor:

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai. [3]

Scoruri mari pe x² indică faptul că ipoteza nulă (H₀) de independență ar trebui respinsă și astfel că apariția termenului și a clasei sunt dependente. Dacă sunt dependenți, atunci selectăm caracteristica pentru clasificarea textului.

Formula de mai sus poate fi rescrisă după cum urmează:

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai. [4]

Dacă folosim metoda Chi Square, ar trebui să selectăm doar un număr predefinit de caracteristici care au ax² scorul testului mai mare de 10.83, ceea ce indică o semnificație statistică la nivelul 0.001.

Nu în ultimul rând, trebuie să remarcăm că, din punct de vedere statistic, selecția caracteristicii Chi Square este inexactă, datorită unui singur grad de libertate și corectare Yates ar trebui folosit în schimb (ceea ce va îngreuna atingerea semnificației statistice). Astfel, ar trebui să ne așteptăm ca din totalul caracteristicilor selectate, o mică parte dintre ele să fie independente de clasă). Prin urmare, ar trebui să ne așteptăm ca din totalul caracteristicilor selectate, o mică parte dintre ele să fie independente de clasă. Cu toate acestea ca Manning și colab. (2008) a arătat, aceste caracteristici zgomotoase nu afectează în mod serios precizia generală a clasificatorului nostru.

Eliminarea caracteristicilor zgomotoase/rare

O altă tehnică care ne poate ajuta să evităm supraadaptarea, să reducem consumul de memorie și să îmbunătățim viteza, este eliminarea tuturor termenilor rari din vocabular. De exemplu, se pot elimina toți termenii care au apărut o singură dată în toate categoriile. Eliminarea acelor termeni poate reduce utilizarea memoriei cu un factor semnificativ și poate îmbunătăți viteza analizei. În cele din urmă, nu ar trebui că această tehnică poate fi utilizată împreună cu algoritmii de selecție a caracteristicilor de mai sus.

Ți-a plăcut articolul? Vă rugăm să luați un minut pentru a-l împărtăși pe Twitter. 🙂

Timestamp-ul: Ianuarie 20, 2014Noiembrie 6, 2022

Timestamp-ul: Jan 14, 2017

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului

Republicat de Platon

Informații reciproce

Piața Chi

Eliminarea caracteristicilor zgomotoase/rare

Mai mult de la Datumbox

Măsurarea popularității social media a paginilor cu DEA în JAVA

Cum să-ți construiești propriul instrument de analiză a sentimentelor Facebook

Cum să faceți copii de rezervă S3 cu DejaDup pe Ubuntu 20.10

O scurtă privire la TorchVision v0.11 – Memoriile unui dezvoltator TorchVision – 2

Noua serie de bloguri – Memoriile unui dezvoltator TorchVision

Cum să ocoliți limitările de colindare ale Dropbox pe Linux

Datumbox Machine Learning Framework 0.6.0 Publicat

Noua serie de bloguri – Memoriile unui dezvoltator TorchVision

Model de amestec finit bazat pe distribuția Dirichlet

Noul cadru open-source de învățare automată scris în Java

Obținerea utilizării GPU de carduri NVIDIA cu instrumentul dstat Linux

Datumbox Machine Learning Framework versiunea 0.8.0 a fost lansată

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont