Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Jellemzőválasztási módszerek használata a szövegosztályozásban

A szöveges osztályozásban a jellemzőkiválasztás az a folyamat, amikor kiválasztjuk a betanító halmaz kifejezéseinek egy meghatározott részhalmazát, és csak azokat használjuk fel az osztályozási algoritmusban. A jellemzők kiválasztására az osztályozó betanítása előtt kerül sor.

Frissítés: A Datumbox Machine Learning Framework nyílt forráskódú és ingyenes letöltés. Tekintse meg a com.datumbox.framework.machinelearning.featureselection csomagot, hogy megtekinthesse a Khi-négyzet és a Kölcsönös információs jellemzőválasztás metódusainak Java-ban való megvalósítását.

A funkcióválasztó algoritmusok használatának fő előnye, hogy csökkenti adataink dimenzióját, gyorsabbá teszi a képzést, és a zajos elemek eltávolításával javíthatja a pontosságot. Ennek következtében a jellemzők kiválasztása segíthet elkerülni a túlillesztést.

Az alábbiakban bemutatjuk az alapvető kiválasztási algoritmust a k legjobb tulajdonság kiválasztásához (Manning és mtsai, 2008):

Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

A következő részekben két különböző jellemző kiválasztási algoritmust mutatunk be: a Kölcsönös Információt és a Chi négyzetet.

Kölcsönös tájékoztatás

Az egyik leggyakoribb jellemző kiválasztási módszer a t kifejezés kölcsönös információja a c osztályban (Manning és mtsai, 2008). Ez azt méri, hogy egy adott kifejezés jelenléte vagy hiánya mennyi információhoz járul hozzá a helyes besorolási döntés meghozatalához c. A kölcsönös információ a következő képlettel számítható ki:

Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.[1]

Számításaink során, mivel a valószínűségek Maximum Likelihood becsléseit használjuk, a következő egyenletet használhatjuk:

Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.[2]

Ahol N a dokumentumok teljes száma, Ntcazoknak a dokumentumoknak a száma, amelyek értékei et (a t kifejezés előfordulása a dokumentumban; értéke 1 vagy 0) és ec(a c osztályú dokumentum előfordulása; értéke 1 vagy 0), amit két alsó index jelez, Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. és a Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.. Végül meg kell jegyeznünk, hogy az összes fent említett változó nem negatív értéket vesz fel.

Chi tér

Egy másik gyakori jellemző kiválasztási módszer a Chi tér. Az x2 tesztet a statisztikákban többek között két esemény függetlenségének tesztelésére használják. Pontosabban a jellemzők kiválasztásánál használjuk annak tesztelésére, hogy egy adott kifejezés előfordulása és egy adott osztály előfordulása független-e. Így minden kifejezésre megbecsüljük a következő mennyiséget, és a pontszámuk alapján rangsoroljuk őket:

Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.[3]

Magas pontszámok x-en2 jelzi, hogy a nullhipotézis (H0) függetlenségét el kell utasítani, és így a kifejezés és az osztály előfordulása függ. Ha ezek függőek, akkor kiválasztjuk a funkciót a szöveges osztályozáshoz.

A fenti képlet a következőképpen írható át:

Szolgáltatáskiválasztási módszerek használata a szövegosztályozásban PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.[4]

Ha a Chi Square módszert használjuk, akkor csak előre meghatározott számú jellemzőt válasszunk ki, amelyeknek van axe2 10.83-nál nagyobb tesztpontszám, ami a 0.001-es szintű statisztikai szignifikanciát jelzi.

Végül, de nem utolsósorban meg kell jegyeznünk, hogy statisztikai szempontból a Chi Square jellemző kiválasztása pontatlan, az egy szabadságfok, ill. Yates korrekció helyett kell használni (ami megnehezíti a statisztikai szignifikancia elérését). Így arra kell számítanunk, hogy az összes kiválasztott tulajdonságból egy kis részük független az osztálytól). Így arra kell számítanunk, hogy az összes kiválasztott tulajdonságból egy kis részük független az osztálytól. Ennek ellenére mint Manning és mtsai (2008) megmutatta, ezek a zajos jellemzők nem befolyásolják komolyan osztályozónk általános pontosságát.

Zajos/ritka funkciók eltávolítása

Egy másik technika, amely segíthet elkerülni a túlillesztést, csökkenteni a memóriafelhasználást és növelni a sebességet, az, hogy eltávolítjuk a szókincsből az összes ritka kifejezést. Például kiküszöbölhető az összes olyan kifejezés, amely csak egyszer fordult elő az összes kategóriában. E kifejezések eltávolítása jelentős mértékben csökkentheti a memóriahasználatot, és javíthatja az elemzés sebességét. Végül nem szabad, hogy ez a technika a fenti jellemző kiválasztási algoritmusokkal együtt használható legyen.

Tetszett a cikk? Kérjük, szánjon egy percet a Twitteren való megosztására. 🙂

Időbélyeg:

Még több Datumbox