Using Feature Selection Methods In Text Classification

Ponovno objavil Platon

Spremljevalci: 0

Pri klasifikaciji besedila je izbira značilnosti postopek izbire posebne podskupine pogojev vadbenega niza in njihove uporabe le v klasifikacijskem algoritmu. Postopek izbire lastnosti poteka pred usposabljanjem razvrščevalca.

Posodobitev: Okvir za strojno učenje Datebox je zdaj odprtokoden in brez njega prenesi. Oglejte si paket com.datumbox.framework.machinelearning.featureselection, če si želite ogledati izvajanje načinov izbire Chi-kvadratnih in vzajemnih podatkovnih funkcij v Javi.

Glavne prednosti uporabe algoritmov za izbiro funkcij so dejstva, da zmanjšuje razsežnost naših podatkov, pospešuje usposabljanje in lahko izboljša natančnost z odstranjevanjem hrupnih funkcij. Posledično nam lahko izbira lastnosti pomaga, da se izognemo pretiranemu opremljanju.

Osnovni izbirni algoritem za izbiro k najboljših lastnosti je predstavljen spodaj (Manning et al, 2008):

Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

V naslednjih razdelkih predstavljamo dva različna algoritma za izbiro funkcij: vzajemne informacije in Chi Square.

Vzajemne informacije

Ena najpogostejših metod izbire lastnosti je medsebojna informacija izraza t v razredu c (Manning et al, 2008). Ta meri, koliko informacij prisotnost ali odsotnost določenega izraza prispeva k pravilni odločitvi o razvrstitvi na c. Medsebojne informacije je mogoče izračunati po naslednji formuli:

Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. [1]

Ker v naših izračunih uporabljamo ocene največje verjetnosti verjetnosti, lahko uporabimo naslednjo enačbo:

[2]

Kjer je N skupno število dokumentov, N_tcso števila dokumentov, ki imajo vrednosti e_t(pojavljanje izraza t v dokumentu; ima vrednost 1 ali 0) in e_c(pojav dokumenta v razredu c; ima vrednost 1 ali 0), ki sta označena z dvema oznakama, in . Na koncu moramo opozoriti, da imajo vse omenjene spremenljivke negativne vrednosti.

Trg Chi

Druga pogosta metoda izbire lastnosti je Trg Chi. X² test se v statistiki med drugim uporablja za preverjanje neodvisnosti dveh dogodkov. Natančneje, pri izbiri lastnosti ga uporabljamo za preverjanje, ali sta pojav določenega izraza in pojav določenega razreda neodvisna. Tako za vsak izraz ocenimo naslednjo količino in jih razvrstimo po njihovi oceni:

Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. [3]

Visoke ocene na x² kažejo, da ničelna hipoteza (H₀) je treba zavrniti neodvisnost in tako odvisiti pojav pojava in razreda. Če so odvisni, izberemo funkcijo za razvrstitev besedila.

Zgornjo formulo lahko prepišemo na naslednji način:

Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. [4]

Če uporabljamo metodo Chi Square, bi morali izbrati le vnaprej določeno število funkcij, ki imajo ax² testna ocena večja od 10.83, kar kaže na statistično pomembnost na ravni 0.001.

Nenazadnje je treba opozoriti, da je s statistične točke izbor funkcije Chi Square netočen zaradi ene stopnje svobode in Yatesov popravek namesto tega uporabiti (zaradi česar bo težje doseči statistično pomembnost). Zato bi morali pričakovati, da bo od skupno izbranih lastnosti majhen del neodvisen od razreda). Zato bi morali pričakovati, da bo od skupno izbranih lastnosti majhen del njih neodvisen od razreda. Kljub temu kot Manning et al (2008) Pokazalo se je, da te hrupne lastnosti ne vplivajo resno na splošno natančnost našega klasifikatorja.

Odstranjevanje hrupnih/redkih funkcij

Druga tehnika, ki nam lahko pomaga, da se izognemo preobremenitvi, zmanjšamo porabo pomnilnika in izboljšamo hitrost, je odstraniti vse redke izraze iz besedišča. Na primer, v vseh kategorijah je mogoče odpraviti vse izraze, ki so se pojavili samo enkrat. Odstranitev teh izrazov lahko znatno zmanjša porabo pomnilnika in izboljša hitrost analize. Končno ne bi smeli uporabljati te tehnike skupaj z zgornjimi algoritmi za izbiro lastnosti.

Vam je bil članek všeč? Vzemite si minuto, da jo delite na Twitterju. 🙂

Časovni žig: Januar 20, 2014November 6, 2022

Časovni žig: Oktober 19, 2014

Uporaba metod izbire funkcij pri razvrščanju besedil

Ponovno objavil Platon

Vzajemne informacije

Trg Chi

Odstranjevanje hrupnih/redkih funkcij

Več od Datumbox

Grozdanje z modelom zmesi Dirichlet Process Java

Kako sestaviti svoje Facebook orodje za analizo občutkov

Vrtanje v algoritem priporočila ALS Spark

Razvoj Naive Bayesovega klasifikatorja besedila v JAVA

Nova serija blogov – Spomini razvijalca TorchVision

Kratek vpogled v TorchVision v0.11 – Spomini razvijalca TorchVision – 2

Potovanje modernizacije TorchVision – Spomini razvijalca TorchVision – 3

5 nasvetov za trening z več GPU-jem s Kerasom

Uporaba GPU kartice NVIDIA z orodjem dstat Linux

Dirichletov model mešanice procesa

Grozdanje dokumentov in Gaussovih podatkov z modeli zmesi Dirichlet Process Mešanica

Novo odprtokodno ogrodje strojnega učenja, napisano v Javi

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun