Using Feature Selection Methods In Text Classification

Újra kiadta Platón

Követő: 0

A szöveges osztályozásban a jellemzőkiválasztás az a folyamat, amikor kiválasztjuk a betanító halmaz kifejezéseinek egy meghatározott részhalmazát, és csak azokat használjuk fel az osztályozási algoritmusban. A jellemzők kiválasztására az osztályozó betanítása előtt kerül sor.

Frissítés: A Datumbox Machine Learning Framework nyílt forráskódú és ingyenes letöltés. Tekintse meg a com.datumbox.framework.machinelearning.featureselection csomagot, hogy megtekinthesse a Khi-négyzet és a Kölcsönös információs jellemzőválasztás metódusainak Java-ban való megvalósítását.

A funkcióválasztó algoritmusok használatának fő előnye, hogy csökkenti adataink dimenzióját, gyorsabbá teszi a képzést, és a zajos elemek eltávolításával javíthatja a pontosságot. Ennek következtében a jellemzők kiválasztása segíthet elkerülni a túlillesztést.

Az alábbiakban bemutatjuk az alapvető kiválasztási algoritmust a k legjobb tulajdonság kiválasztásához (Manning és mtsai, 2008):

Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

A következő részekben két különböző jellemző kiválasztási algoritmust mutatunk be: a Kölcsönös Információt és a Chi négyzetet.

Kölcsönös tájékoztatás

Az egyik leggyakoribb jellemző kiválasztási módszer a t kifejezés kölcsönös információja a c osztályban (Manning és mtsai, 2008). Ez azt méri, hogy egy adott kifejezés jelenléte vagy hiánya mennyi információhoz járul hozzá a helyes besorolási döntés meghozatalához c. A kölcsönös információ a következő képlettel számítható ki:

Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. [1]

Számításaink során, mivel a valószínűségek Maximum Likelihood becsléseit használjuk, a következő egyenletet használhatjuk:

[2]

Ahol N a dokumentumok teljes száma, N_tcazoknak a dokumentumoknak a száma, amelyek értékei e_t(a t kifejezés előfordulása a dokumentumban; értéke 1 vagy 0) és e_c(a c osztályú dokumentum előfordulása; értéke 1 vagy 0), amit két alsó index jelez, és a . Végül meg kell jegyeznünk, hogy az összes fent említett változó nem negatív értéket vesz fel.

Chi tér

Egy másik gyakori jellemző kiválasztási módszer a Chi tér. Az x² tesztet a statisztikákban többek között két esemény függetlenségének tesztelésére használják. Pontosabban a jellemzők kiválasztásánál használjuk annak tesztelésére, hogy egy adott kifejezés előfordulása és egy adott osztály előfordulása független-e. Így minden kifejezésre megbecsüljük a következő mennyiséget, és a pontszámuk alapján rangsoroljuk őket:

Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. [3]

Magas pontszámok x-en² jelzi, hogy a nullhipotézis (H₀) függetlenségét el kell utasítani, és így a kifejezés és az osztály előfordulása függ. Ha ezek függőek, akkor kiválasztjuk a funkciót a szöveges osztályozáshoz.

A fenti képlet a következőképpen írható át:

Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. [4]

Ha a Chi Square módszert használjuk, akkor csak előre meghatározott számú jellemzőt válasszunk ki, amelyeknek van axe² 10.83-nál nagyobb tesztpontszám, ami a 0.001-es szintű statisztikai szignifikanciát jelzi.

Végül, de nem utolsósorban meg kell jegyeznünk, hogy statisztikai szempontból a Chi Square jellemző kiválasztása pontatlan, az egy szabadságfok, ill. Yates korrekció helyett kell használni (ami megnehezíti a statisztikai szignifikancia elérését). Így arra kell számítanunk, hogy az összes kiválasztott tulajdonságból egy kis részük független az osztálytól). Így arra kell számítanunk, hogy az összes kiválasztott tulajdonságból egy kis részük független az osztálytól. Ennek ellenére mint Manning és mtsai (2008) megmutatta, ezek a zajos jellemzők nem befolyásolják komolyan osztályozónk általános pontosságát.

Zajos/ritka funkciók eltávolítása

Egy másik technika, amely segíthet elkerülni a túlillesztést, csökkenteni a memóriafelhasználást és növelni a sebességet, az, hogy eltávolítjuk a szókincsből az összes ritka kifejezést. Például kiküszöbölhető az összes olyan kifejezés, amely csak egyszer fordult elő az összes kategóriában. E kifejezések eltávolítása jelentős mértékben csökkentheti a memóriahasználatot, és javíthatja az elemzés sebességét. Végül nem szabad, hogy ez a technika a fenti jellemző kiválasztási algoritmusokkal együtt használható legyen.

Tetszett a cikk? Kérjük, szánjon egy percet a Twitteren való megosztására. 🙂

Időbélyeg: Január 20, 2014November 6, 2022

Időbélyeg: 19. október 2014.

Jellemzőválasztási módszerek használata a szövegosztályozásban

Újra kiadta Platón

Kölcsönös tájékoztatás

Chi tér

Zajos/ritka funkciók eltávolítása

Még több Datumbox

Klaszterezés Dirichlet Process Mixture Modell Java nyelven

Hogyan készítsd el saját Facebook-hangulatelemző eszközödet

Fúrás a Spark ALS ajánlási algoritmusába

Naiv Bayes szövegosztályozó fejlesztése JAVA-ban

Új blogsorozat – Egy TorchVision fejlesztő emlékiratai

Bepillantás a TorchVision v0.11-be – Egy TorchVision fejlesztő emlékiratai – 2

A TorchVision modernizálásának útja – Egy TorchVision fejlesztő emlékiratai – 3

5 tipp a több GPU-s edzéshez Kerasszal

Az NVIDIA kártyák GPU-használatának elérése a Linux dstat eszközzel

A Dirichlet-folyamat keverék modellje

Dokumentumok és Gauss-adatok klaszterezése Dirichlet folyamatkeverék modellekkel

Új, Java nyelven írt nyílt forráskódú gépi tanulási keretrendszer

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók