Funktsioonide valiku meetodite kasutamine teksti klassifitseerimisel

Taasavaldanud Platon

järgijaid: 0

Teksti klassifikatsioonis on tunnuste valik protsess, mille käigus valitakse välja koolituskomplekti tingimuste konkreetne alamhulk ja kasutatakse klassifitseerimisalgoritmis ainult neid. Tunnuste valiku protsess toimub enne klassifikaatori väljaõpet.

Värskendus: Datumboxi masinõppe raamistik on nüüd avatud lähtekoodiga ja tasuta lae alla. Tutvuge paketiga com.datumbox.framework.machinelearning.featureselection, et näha Chi-ruudu ja vastastikuse teabe funktsioonide valiku meetodite rakendamist Javas.

Funktsioonide valiku algoritmide kasutamise peamised eelised on asjaolu, et see vähendab meie andmete suurust, muudab koolituse kiiremaks ja võib parandada täpsust, eemaldades mürarikkad funktsioonid. Selle tulemusena võib funktsioonide valik aidata meil vältida ülepaigutamist.

Põhiline valikualgoritm k parima omaduse valimiseks on toodud allpool (Manning jt, 2008):

Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmistes jaotistes tutvustame kahte erinevat funktsioonivaliku algoritmi: vastastikune teave ja Chi ruut.

Vastastikune teave

Üks levinumaid tunnuste valimise meetodeid on termini t vastastikune teave klassis c (Manning jt, 2008). See mõõdab, kui palju teavet konkreetse termini olemasolu või puudumine aitab kaasa õige liigitusotsuse tegemisele c kohta. Vastastikuse teabe saab arvutada järgmise valemi abil:

Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. [1]

Kuna kasutame tõenäosuste maksimaalse tõenäosuse hinnanguid, saame oma arvutustes kasutada järgmist võrrandit:

[2]

Kus N on dokumentide koguarv, N_tcon dokumentide arv, millel on väärtused e_t(termini t esinemine dokumendis; see võtab väärtuse 1 või 0) ja e_c(dokumendi esinemine klassis c; see võtab väärtuse 1 või 0), mis on tähistatud kahe alaindeksiga, ja . Lõpuks peame märkima, et kõik eelnimetatud muutujad võtavad mittenegatiivseid väärtusi.

Chi väljak

Teine levinud funktsioonide valimise meetod on Chi väljak. X² testi kasutatakse statistikas muu hulgas kahe sündmuse sõltumatuse testimiseks. Täpsemalt funktsioonide valikul kasutame seda selleks, et testida, kas konkreetse termini esinemine ja konkreetse klassi esinemine on sõltumatud. Seega hindame iga termini jaoks järgmist kogust ja järjestame need skoori järgi:

Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. [3]

Kõrged tulemused x-il² näitavad, et nullhüpotees (H₀) sõltumatust tuleks tagasi lükata ja seega on termini ja klassi esinemine sõltuv. Kui need on sõltuvad, valime teksti klassifikatsiooni funktsiooni.

Ülaltoodud valemi saab ümber kirjutada järgmiselt:

Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. [4]

Kui kasutame Chi Square meetodit, peaksime valima ainult etteantud arvu funktsioone, millel on kirves² testi skoor suurem kui 10.83, mis näitab statistilist olulisust tasemel 0.001.

Viimaseks, kuid mitte vähem tähtsaks peaksime märkima, et statistilisest vaatenurgast on Chi väljaku funktsioonide valik ühe vabadusastme ja Yatesi parandus tuleks selle asemel kasutada (mis muudab statistilise olulisuse saavutamise raskemaks). Seega peaksime eeldama, et kõigist valitud funktsioonidest on väike osa neist klassist sõltumatud). Seega peaksime eeldama, et kogu valitud funktsioonidest on väike osa neist klassist sõltumatud. Sellegipoolest nagu Manning jt (2008) näitas, et need mürarikkad omadused ei mõjuta tõsiselt meie klassifikaatori üldist täpsust.

Mürakate/haruldaste funktsioonide eemaldamine

Teine meetod, mis aitab meil vältida ülepaigutamist, vähendada mälutarbimist ja parandada kiirust, on eemaldada sõnavarast kõik haruldased terminid. Näiteks saab kõigist kategooriatest eemaldada kõik terminid, mis esinesid ainult üks kord. Nende terminite eemaldamine võib oluliselt vähendada mälukasutust ja parandada analüüsi kiirust. Lõpuks ei tohiks me seda tehnikat kasutada koos ülaltoodud funktsioonide valiku algoritmidega.

Kas teile meeldis artikkel? Palun leidke minut, et seda Twitteris jagada. 🙂

Ajatempel: Jaanuar 20, 2014November 6, 2022

Ajatempel: Oktoober 19, 2014

Funktsioonide valiku meetodite kasutamine teksti klassifitseerimisel

Taasavaldanud Platon

Vastastikune teave

Chi väljak

Mürakate/haruldaste funktsioonide eemaldamine

Veel alates Datumbox

Klasterdamine Dirichleti protsessisegude mudeliga Javas

Kuidas luua oma Facebooki sentimentide analüüsi tööriist

Sparki ALS-i soovituse algoritmi uurimine

Naiivse Bayesi tekstiklassifikaatori väljatöötamine JAVA-s

Uus ajaveebisari – TorchVisioni arendaja memuaarid

Väike pilk TorchVisioni versioonile 0.11 – TorchVisioni arendaja memuaarid – 2

TorchVisioni moderniseerimise teekond – TorchVisioni arendaja memuaarid – 3

5 näpunäidet mitme GPU-ga treenimiseks Kerasega

NVIDIA kaartide GPU kasutuse saamine Linuxi dstat tööriistaga

Dirichleti protsessi segumudel

Dokumentide ja gaussiandmete rühmitamine Dirichleti protsessisegu mudelitega

Uus Java keeles kirjutatud avatud lähtekoodiga masinõppe raamistik

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto