Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Ominaisuuksien valintamenetelmien käyttö tekstiluokittelussa

Tekstiluokittelussa ominaisuuksien valinta on prosessi, jolla valitaan tietty osa harjoitteluryhmän ehdoista ja käytetään vain niitä luokittelualgoritmissa. Ominaisuuksien valintaprosessi tapahtuu ennen luokittelijan koulutusta.

Päivitys: Datumbox Machine Learning Framework on nyt avoimen lähdekoodin ja ilmainen download. Katso paketti com.datumbox.framework.machinelearning.featureselection nähdäksesi Chi-neliön ja keskinäisten tietojen ominaisuuksien valintamenetelmien käyttöönoton Javassa.

Ominaisuuksien valintaalgoritmien käytön tärkeimmät edut ovat tosiasiat, että se vähentää tietomme ulottuvuutta, nopeuttaa harjoittelua ja parantaa tarkkuutta poistamalla meluisat ominaisuudet. Seurauksena ominaisuuksien valinta voi auttaa meitä välttämään ylimääräisiä asennuksia.

Perusvalintaalgoritmi k parhaan ominaisuuden valitsemiseksi on esitetty alla (Manning et ai., 2008):

Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Seuraavissa osioissa esittelemme kaksi erilaista ominaisuuksien valintaalgoritmia: Mutual Information ja Chi Square.

Keskinäinen tieto

Yksi yleisimmistä ominaisuuksien valintamenetelmistä on luokan c termin keskinäinen informaatio (Manning et ai., 2008). Tämä mittaa, kuinka paljon tietoa tietyn termin esiintyminen tai puuttuminen myötävaikuttaa oikean luokittelupäätöksen tekemiseen c: stä. Keskinäinen tieto voidaan laskea käyttämällä seuraavaa kaavaa:

Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.[1]

Koska käytämme laskelmissamme todennäköisyyksien enimmäisarvioita, voimme käyttää seuraavaa yhtälöä:

Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.[2]

Missä N on asiakirjojen kokonaismäärä,tcovat niiden asiakirjojen lukumääriä, joilla on arvoja et (termin t esiintyminen asiakirjassa; se ottaa arvon 1 tai 0) ja ec(asiakirjan esiintyminen luokassa c; sen arvo on 1 tai 0), joka ilmaistaan ​​kahdella alamerkillä, Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. ja Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.. Lopuksi meidän on huomattava, että kaikilla edellä mainituilla muuttujilla on ei-negatiiviset arvot.

Chi-aukio

Toinen yleinen ominaisuuksien valintamenetelmä on Chi-aukio. X2 Testiä käytetään muun muassa tilastoissa kahden tapahtuman riippumattomuuden testaamiseen. Tarkemmin ominaisuuksien valinnassa käytämme sitä testaamaan, ovatko tietyn termin esiintyminen ja tietyn luokan esiintyminen riippumattomia. Arvioimme siis seuraavan määrän jokaiselle termille ja luokittelemme ne pistemäärän mukaan:

Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.[3]

Parhaat tulokset x: lla2 osoittavat, että nollahypoteesi (H0) riippumattomuutta tulisi hylätä ja siten, että termin ja luokan esiintyminen ovat riippuvaisia. Jos ne ovat riippuvaisia, valitsemme ominaisuuden tekstiluokittelulle.

Yllä oleva kaava voidaan kirjoittaa uudelleen seuraavasti:

Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.[4]

Jos käytämme Chi Square -menetelmää, meidän pitäisi valita vain ennalta määritetty määrä ominaisuuksia, joilla on kirves2 testitulos on suurempi kuin 10.83, mikä osoittaa tilastollisen merkitsevyyden 0.001-tasolla.

Viimeisenä, mutta ei vähäisimpänä, meidän on huomattava, että tilastollisesta näkökulmasta Chi Square -ominaisuuden valinta on epätarkka yhden vapauden asteen ja Yates-korjaus olisi sen sijaan käytettävä (mikä vaikeuttaa tilastollisen merkitsevyyden saavuttamista). Siksi meidän pitäisi odottaa, että kaikista valituista ominaisuuksista pieni osa niistä on riippumattomia luokasta). Siksi meidän pitäisi odottaa, että kaikista valituista ominaisuuksista pieni osa niistä on riippumattomia luokasta. Siitä huolimatta Manning et ai (2008) osoittivat, että nämä meluisat ominaisuudet eivät vaikuta vakavasti luokittelijamme yleiseen tarkkuuteen.

Meluisien / harvinaisten ominaisuuksien poistaminen

Toinen tekniikka, joka voi auttaa meitä välttämään liiallisia sovituksia, vähentämään muistin kulutusta ja parantamaan nopeutta, on poistaa kaikki harvinaiset termit sanastosta. Esimerkiksi voidaan poistaa kaikki termit, jotka esiintyivät vain kerran kaikissa luokissa. Näiden termien poistaminen voi vähentää muistin käyttöä merkittävästi ja parantaa analyysinopeutta. Lopuksi meidän ei pitäisi olla, että tätä tekniikkaa voidaan käyttää yhdessä yllä olevien ominaisuuksien valintaalgoritmien kanssa.

Piditkö artikkelista? Ole hyvä ja jaa se Twitterissä. 🙂

Aikaleima:

Lisää aiheesta Datumbox