Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului

În clasificarea textului, selecția caracteristicilor este procesul de selectare a unui anumit subset al termenilor setului de antrenament și de utilizare numai a acestora în algoritmul de clasificare. Procesul de selecție a caracteristicilor are loc înainte de antrenamentul clasificatorului.

Actualizare: Datumbox Machine Learning Framework este acum open-source și gratuit Descarca. Consultați pachetul com.datumbox.framework.machinelearning.featureselection pentru a vedea implementarea metodelor Chi-pătrat și Mutual Information Feature Selection în Java.

Principalele avantaje ale utilizării algoritmilor de selecție a caracteristicilor sunt faptul că reduce dimensiunea datelor noastre, face antrenamentul mai rapid și poate îmbunătăți acuratețea prin eliminarea caracteristicilor zgomotoase. În consecință, selecția caracteristicilor ne poate ajuta să evităm supraadaptarea.

Algoritmul de selecție de bază pentru selectarea celor mai bune k caracteristici este prezentat mai jos (Manning și colab., 2008):

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

În secțiunile următoare prezentăm doi algoritmi diferiți de selecție a caracteristicilor: Informația reciprocă și Pătratul Chi.

Informații reciproce

Una dintre cele mai comune metode de selecție a caracteristicilor este Informația reciprocă a termenului t din clasa c (Manning și colab., 2008). Aceasta măsoară câte informații contribuie prezența sau absența unui anumit termen la luarea deciziei corecte de clasificare pe c. Informația reciprocă poate fi calculată folosind următoarea formulă:

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai.[1]

În calculele noastre, deoarece folosim estimările de probabilitate maximă ale probabilităților, putem folosi următoarea ecuație:

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai.[2]

Unde N este numărul total de documente, Ntcsunt numărul documentelor care au valorile et (apariția termenului t în document; acesta ia valoarea 1 sau 0) și ec(apariția documentului în clasa c; ia valoarea 1 sau 0) care este indicată prin două indice, Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai. și Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai.. În sfârșit, trebuie să remarcăm că toate variabilele menționate mai sus iau valori nenegative.

Piața Chi

O altă metodă comună de selecție a caracteristicilor este Piața Chi. X2 testul este folosit în statistică, printre altele, pentru a testa independența a două evenimente. Mai precis, în selecția caracteristicilor, îl folosim pentru a testa dacă apariția unui anumit termen și apariția unei clase specifice sunt independente. Astfel, estimăm următoarea cantitate pentru fiecare termen și le clasificăm după punctajul lor:

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai.[3]

Scoruri mari pe x2 indică faptul că ipoteza nulă (H0) de independență ar trebui respinsă și astfel că apariția termenului și a clasei sunt dependente. Dacă sunt dependenți, atunci selectăm caracteristica pentru clasificarea textului.

Formula de mai sus poate fi rescrisă după cum urmează:

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului PlatoBlockchain Data Intelligence. Căutare verticală. Ai.[4]

Dacă folosim metoda Chi Square, ar trebui să selectăm doar un număr predefinit de caracteristici care au ax2 scorul testului mai mare de 10.83, ceea ce indică o semnificație statistică la nivelul 0.001.

Nu în ultimul rând, trebuie să remarcăm că, din punct de vedere statistic, selecția caracteristicii Chi Square este inexactă, datorită unui singur grad de libertate și corectare Yates ar trebui folosit în schimb (ceea ce va îngreuna atingerea semnificației statistice). Astfel, ar trebui să ne așteptăm ca din totalul caracteristicilor selectate, o mică parte dintre ele să fie independente de clasă). Prin urmare, ar trebui să ne așteptăm ca din totalul caracteristicilor selectate, o mică parte dintre ele să fie independente de clasă. Cu toate acestea ca Manning și colab. (2008) a arătat, aceste caracteristici zgomotoase nu afectează în mod serios precizia generală a clasificatorului nostru.

Eliminarea caracteristicilor zgomotoase/rare

O altă tehnică care ne poate ajuta să evităm supraadaptarea, să reducem consumul de memorie și să îmbunătățim viteza, este eliminarea tuturor termenilor rari din vocabular. De exemplu, se pot elimina toți termenii care au apărut o singură dată în toate categoriile. Eliminarea acelor termeni poate reduce utilizarea memoriei cu un factor semnificativ și poate îmbunătăți viteza analizei. În cele din urmă, nu ar trebui că această tehnică poate fi utilizată împreună cu algoritmii de selecție a caracteristicilor de mai sus.

Ți-a plăcut articolul? Vă rugăm să luați un minut pentru a-l împărtăși pe Twitter. 🙂

Timestamp-ul:

Mai mult de la Datumbox