Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Uporaba metod izbire funkcij pri razvrščanju besedil

Pri klasifikaciji besedila je izbira značilnosti postopek izbire posebne podskupine pogojev vadbenega niza in njihove uporabe le v klasifikacijskem algoritmu. Postopek izbire lastnosti poteka pred usposabljanjem razvrščevalca.

Posodobitev: Okvir za strojno učenje Datebox je zdaj odprtokoden in brez njega prenesi. Oglejte si paket com.datumbox.framework.machinelearning.featureselection, če si želite ogledati izvajanje načinov izbire Chi-kvadratnih in vzajemnih podatkovnih funkcij v Javi.

Glavne prednosti uporabe algoritmov za izbiro funkcij so dejstva, da zmanjšuje razsežnost naših podatkov, pospešuje usposabljanje in lahko izboljša natančnost z odstranjevanjem hrupnih funkcij. Posledično nam lahko izbira lastnosti pomaga, da se izognemo pretiranemu opremljanju.

Osnovni izbirni algoritem za izbiro k najboljših lastnosti je predstavljen spodaj (Manning et al, 2008):

Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

V naslednjih razdelkih predstavljamo dva različna algoritma za izbiro funkcij: vzajemne informacije in Chi Square.

Vzajemne informacije

Ena najpogostejših metod izbire lastnosti je medsebojna informacija izraza t v razredu c (Manning et al, 2008). Ta meri, koliko informacij prisotnost ali odsotnost določenega izraza prispeva k pravilni odločitvi o razvrstitvi na c. Medsebojne informacije je mogoče izračunati po naslednji formuli:

Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.[1]

Ker v naših izračunih uporabljamo ocene največje verjetnosti verjetnosti, lahko uporabimo naslednjo enačbo:

Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.[2]

Kjer je N skupno število dokumentov, Ntcso števila dokumentov, ki imajo vrednosti et (pojavljanje izraza t v dokumentu; ima vrednost 1 ali 0) in ec(pojav dokumenta v razredu c; ima vrednost 1 ali 0), ki sta označena z dvema oznakama, Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. in Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.. Na koncu moramo opozoriti, da imajo vse omenjene spremenljivke negativne vrednosti.

Trg Chi

Druga pogosta metoda izbire lastnosti je Trg Chi. X2 test se v statistiki med drugim uporablja za preverjanje neodvisnosti dveh dogodkov. Natančneje, pri izbiri lastnosti ga uporabljamo za preverjanje, ali sta pojav določenega izraza in pojav določenega razreda neodvisna. Tako za vsak izraz ocenimo naslednjo količino in jih razvrstimo po njihovi oceni:

Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.[3]

Visoke ocene na x2 kažejo, da ničelna hipoteza (H0) je treba zavrniti neodvisnost in tako odvisiti pojav pojava in razreda. Če so odvisni, izberemo funkcijo za razvrstitev besedila.

Zgornjo formulo lahko prepišemo na naslednji način:

Uporaba metod izbire funkcij v besedilni klasifikaciji PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.[4]

Če uporabljamo metodo Chi Square, bi morali izbrati le vnaprej določeno število funkcij, ki imajo ax2 testna ocena večja od 10.83, kar kaže na statistično pomembnost na ravni 0.001.

Nenazadnje je treba opozoriti, da je s statistične točke izbor funkcije Chi Square netočen zaradi ene stopnje svobode in Yatesov popravek namesto tega uporabiti (zaradi česar bo težje doseči statistično pomembnost). Zato bi morali pričakovati, da bo od skupno izbranih lastnosti majhen del neodvisen od razreda). Zato bi morali pričakovati, da bo od skupno izbranih lastnosti majhen del njih neodvisen od razreda. Kljub temu kot Manning et al (2008) Pokazalo se je, da te hrupne lastnosti ne vplivajo resno na splošno natančnost našega klasifikatorja.

Odstranjevanje hrupnih/redkih funkcij

Druga tehnika, ki nam lahko pomaga, da se izognemo preobremenitvi, zmanjšamo porabo pomnilnika in izboljšamo hitrost, je odstraniti vse redke izraze iz besedišča. Na primer, v vseh kategorijah je mogoče odpraviti vse izraze, ki so se pojavili samo enkrat. Odstranitev teh izrazov lahko znatno zmanjša porabo pomnilnika in izboljša hitrost analize. Končno ne bi smeli uporabljati te tehnike skupaj z zgornjimi algoritmi za izbiro lastnosti.

Vam je bil članek všeč? Vzemite si minuto, da jo delite na Twitterju. 🙂

Časovni žig:

Več od Datumbox