Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Funktsioonide valiku meetodite kasutamine teksti klassifitseerimisel

Teksti klassifikatsioonis on tunnuste valik protsess, mille käigus valitakse välja koolituskomplekti tingimuste konkreetne alamhulk ja kasutatakse klassifitseerimisalgoritmis ainult neid. Tunnuste valiku protsess toimub enne klassifikaatori väljaõpet.

Värskendus: Datumboxi masinõppe raamistik on nüüd avatud lähtekoodiga ja tasuta lae alla. Tutvuge paketiga com.datumbox.framework.machinelearning.featureselection, et näha Chi-ruudu ja vastastikuse teabe funktsioonide valiku meetodite rakendamist Javas.

Funktsioonide valiku algoritmide kasutamise peamised eelised on asjaolu, et see vähendab meie andmete suurust, muudab koolituse kiiremaks ja võib parandada täpsust, eemaldades mürarikkad funktsioonid. Selle tulemusena võib funktsioonide valik aidata meil vältida ülepaigutamist.

Põhiline valikualgoritm k parima omaduse valimiseks on toodud allpool (Manning jt, 2008):

Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmistes jaotistes tutvustame kahte erinevat funktsioonivaliku algoritmi: vastastikune teave ja Chi ruut.

Vastastikune teave

Üks levinumaid tunnuste valimise meetodeid on termini t vastastikune teave klassis c (Manning jt, 2008). See mõõdab, kui palju teavet konkreetse termini olemasolu või puudumine aitab kaasa õige liigitusotsuse tegemisele c kohta. Vastastikuse teabe saab arvutada järgmise valemi abil:

Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.[1]

Kuna kasutame tõenäosuste maksimaalse tõenäosuse hinnanguid, saame oma arvutustes kasutada järgmist võrrandit:

Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.[2]

Kus N on dokumentide koguarv, Ntcon dokumentide arv, millel on väärtused et (termini t esinemine dokumendis; see võtab väärtuse 1 või 0) ja ec(dokumendi esinemine klassis c; see võtab väärtuse 1 või 0), mis on tähistatud kahe alaindeksiga, Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai. ja Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.. Lõpuks peame märkima, et kõik eelnimetatud muutujad võtavad mittenegatiivseid väärtusi.

Chi väljak

Teine levinud funktsioonide valimise meetod on Chi väljak. X2 testi kasutatakse statistikas muu hulgas kahe sündmuse sõltumatuse testimiseks. Täpsemalt funktsioonide valikul kasutame seda selleks, et testida, kas konkreetse termini esinemine ja konkreetse klassi esinemine on sõltumatud. Seega hindame iga termini jaoks järgmist kogust ja järjestame need skoori järgi:

Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.[3]

Kõrged tulemused x-il2 näitavad, et nullhüpotees (H0) sõltumatust tuleks tagasi lükata ja seega on termini ja klassi esinemine sõltuv. Kui need on sõltuvad, valime teksti klassifikatsiooni funktsiooni.

Ülaltoodud valemi saab ümber kirjutada järgmiselt:

Funktsioonide valiku meetodite kasutamine teksti klassifikatsioonis PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.[4]

Kui kasutame Chi Square meetodit, peaksime valima ainult etteantud arvu funktsioone, millel on kirves2 testi skoor suurem kui 10.83, mis näitab statistilist olulisust tasemel 0.001.

Viimaseks, kuid mitte vähem tähtsaks peaksime märkima, et statistilisest vaatenurgast on Chi väljaku funktsioonide valik ühe vabadusastme ja Yatesi parandus tuleks selle asemel kasutada (mis muudab statistilise olulisuse saavutamise raskemaks). Seega peaksime eeldama, et kõigist valitud funktsioonidest on väike osa neist klassist sõltumatud). Seega peaksime eeldama, et kogu valitud funktsioonidest on väike osa neist klassist sõltumatud. Sellegipoolest nagu Manning jt (2008) näitas, et need mürarikkad omadused ei mõjuta tõsiselt meie klassifikaatori üldist täpsust.

Mürakate/haruldaste funktsioonide eemaldamine

Teine meetod, mis aitab meil vältida ülepaigutamist, vähendada mälutarbimist ja parandada kiirust, on eemaldada sõnavarast kõik haruldased terminid. Näiteks saab kõigist kategooriatest eemaldada kõik terminid, mis esinesid ainult üks kord. Nende terminite eemaldamine võib oluliselt vähendada mälukasutust ja parandada analüüsi kiirust. Lõpuks ei tohiks me seda tehnikat kasutada koos ülaltoodud funktsioonide valiku algoritmidega.

Kas teile meeldis artikkel? Palun leidke minut, et seda Twitteris jagada. 🙂

Ajatempel:

Veel alates Datumbox