Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa

Julkaissut Platon

seuraajia: 0

Tammikuu 20, 2014
Vasilis Vryniotis
. 5 kommenttia

Tekstiluokittelussa ominaisuuksien valinta on prosessi, jolla valitaan tietty osa harjoitteluryhmän ehdoista ja käytetään vain niitä luokittelualgoritmissa. Ominaisuuksien valintaprosessi tapahtuu ennen luokittelijan koulutusta.

Päivitys: Datumbox Machine Learning Framework on nyt avoimen lähdekoodin ja ilmainen download. Katso paketti com.datumbox.framework.machinelearning.featureselection nähdäksesi Chi-neliön ja keskinäisten tietojen ominaisuuksien valintamenetelmien käyttöönoton Javassa.

Ominaisuuksien valintaalgoritmien käytön tärkeimmät edut ovat tosiasiat, että se vähentää tietomme ulottuvuutta, nopeuttaa harjoittelua ja parantaa tarkkuutta poistamalla meluisat ominaisuudet. Seurauksena ominaisuuksien valinta voi auttaa meitä välttämään ylimääräisiä asennuksia.

Perusvalintaalgoritmi k parhaan ominaisuuden valitsemiseksi on esitetty alla (Manning et ai., 2008):

Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Seuraavissa osioissa esittelemme kaksi erilaista ominaisuuksien valintaalgoritmia: Mutual Information ja Chi Square.

Keskinäinen tieto

Yksi yleisimmistä ominaisuuksien valintamenetelmistä on luokan c termin keskinäinen informaatio (Manning et ai., 2008). Tämä mittaa, kuinka paljon tietoa tietyn termin esiintyminen tai puuttuminen myötävaikuttaa oikean luokittelupäätöksen tekemiseen c: stä. Keskinäinen tieto voidaan laskea käyttämällä seuraavaa kaavaa:

Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. [1]

Koska käytämme laskelmissamme todennäköisyyksien enimmäisarvioita, voimme käyttää seuraavaa yhtälöä:

[2]

Missä N on asiakirjojen kokonaismäärä,_tcovat niiden asiakirjojen lukumääriä, joilla on arvoja e_t(termin t esiintyminen asiakirjassa; se ottaa arvon 1 tai 0) ja e_c(asiakirjan esiintyminen luokassa c; sen arvo on 1 tai 0), joka ilmaistaan kahdella alamerkillä, ja . Lopuksi meidän on huomattava, että kaikilla edellä mainituilla muuttujilla on ei-negatiiviset arvot.

Chi-aukio

Toinen yleinen ominaisuuksien valintamenetelmä on Chi-aukio. X² Testiä käytetään muun muassa tilastoissa kahden tapahtuman riippumattomuuden testaamiseen. Tarkemmin ominaisuuksien valinnassa käytämme sitä testaamaan, ovatko tietyn termin esiintyminen ja tietyn luokan esiintyminen riippumattomia. Arvioimme siis seuraavan määrän jokaiselle termille ja luokittelemme ne pistemäärän mukaan:

Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. [3]

Parhaat tulokset x: lla² osoittavat, että nollahypoteesi (H₀) riippumattomuutta tulisi hylätä ja siten, että termin ja luokan esiintyminen ovat riippuvaisia. Jos ne ovat riippuvaisia, valitsemme ominaisuuden tekstiluokittelulle.

Yllä oleva kaava voidaan kirjoittaa uudelleen seuraavasti:

Ominaisuuden valintamenetelmien käyttäminen tekstiluokituksessa PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. [4]

Jos käytämme Chi Square -menetelmää, meidän pitäisi valita vain ennalta määritetty määrä ominaisuuksia, joilla on kirves² testitulos on suurempi kuin 10.83, mikä osoittaa tilastollisen merkitsevyyden 0.001-tasolla.

Viimeisenä, mutta ei vähäisimpänä, meidän on huomattava, että tilastollisesta näkökulmasta Chi Square -ominaisuuden valinta on epätarkka yhden vapauden asteen ja Yates-korjaus olisi sen sijaan käytettävä (mikä vaikeuttaa tilastollisen merkitsevyyden saavuttamista). Siksi meidän pitäisi odottaa, että kaikista valituista ominaisuuksista pieni osa niistä on riippumattomia luokasta). Siksi meidän pitäisi odottaa, että kaikista valituista ominaisuuksista pieni osa niistä on riippumattomia luokasta. Siitä huolimatta Manning et ai (2008) osoittivat, että nämä meluisat ominaisuudet eivät vaikuta vakavasti luokittelijamme yleiseen tarkkuuteen.

Meluisien / harvinaisten ominaisuuksien poistaminen

Toinen tekniikka, joka voi auttaa meitä välttämään liiallisia sovituksia, vähentämään muistin kulutusta ja parantamaan nopeutta, on poistaa kaikki harvinaiset termit sanastosta. Esimerkiksi voidaan poistaa kaikki termit, jotka esiintyivät vain kerran kaikissa luokissa. Näiden termien poistaminen voi vähentää muistin käyttöä merkittävästi ja parantaa analyysinopeutta. Lopuksi meidän ei pitäisi olla, että tätä tekniikkaa voidaan käyttää yhdessä yllä olevien ominaisuuksien valintaalgoritmien kanssa.

Piditkö artikkelista? Ole hyvä ja jaa se Twitterissä. 🙂

Aikaleima: Tammikuu 20, 2014Marraskuussa 6, 2022

Aikaleima: Lokakuu 19, 2014

Ominaisuuksien valintamenetelmien käyttö tekstiluokittelussa

Julkaissut Platon

Keskinäinen tieto

Chi-aukio

Meluisien / harvinaisten ominaisuuksien poistaminen

Lisää aiheesta Datumbox

Klusterointi Java-Dirichlet-prosessiseosmallilla

Kuinka rakentaa oma Facebook Sentiment Analysis Tool -työkalu

Poraus Sparkin ALS-suositusalgoritmiin

Naiivien Bayes-tekstiluokittelijoiden kehittäminen JAVA: ssa

Uusi blogisarja - TorchVision -kehittäjän muistelmia

Kurkistus TorchVision v0.11 - Muistoja TorchVision -kehittäjältä - 2

TorchVisionin modernisoinnin matka – TorchVision-kehittäjän muistelmat – 3

5 vinkkiä multi-GPU-koulutukseen Keran kanssa

NVIDIA-korttien GPU-käytön saaminen Linux dstat -työkalulla

Dirichlet-prosessiseosmalli

Asiakirjojen ja gaussialaisten tietojen ryhmittely Dirichlet-prosessisekoitusmalleilla

Uusi avoimen lähdekoodin koneoppimiskehys, joka on kirjoitettu Java-kielellä

Tietoa Meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili