- Január 20, 2014
- Vasilis Vryniotis
- . 5 megjegyzés
A szöveges osztályozásban a jellemzőkiválasztás az a folyamat, amikor kiválasztjuk a betanító halmaz kifejezéseinek egy meghatározott részhalmazát, és csak azokat használjuk fel az osztályozási algoritmusban. A jellemzők kiválasztására az osztályozó betanítása előtt kerül sor.
Frissítés: A Datumbox Machine Learning Framework nyílt forráskódú és ingyenes letöltés. Tekintse meg a com.datumbox.framework.machinelearning.featureselection csomagot, hogy megtekinthesse a Khi-négyzet és a Kölcsönös információs jellemzőválasztás metódusainak Java-ban való megvalósítását.
A funkcióválasztó algoritmusok használatának fő előnye, hogy csökkenti adataink dimenzióját, gyorsabbá teszi a képzést, és a zajos elemek eltávolításával javíthatja a pontosságot. Ennek következtében a jellemzők kiválasztása segíthet elkerülni a túlillesztést.
Az alábbiakban bemutatjuk az alapvető kiválasztási algoritmust a k legjobb tulajdonság kiválasztásához (Manning és mtsai, 2008):
A következő részekben két különböző jellemző kiválasztási algoritmust mutatunk be: a Kölcsönös Információt és a Chi négyzetet.
Kölcsönös tájékoztatás
Az egyik leggyakoribb jellemző kiválasztási módszer a t kifejezés kölcsönös információja a c osztályban (Manning és mtsai, 2008). Ez azt méri, hogy egy adott kifejezés jelenléte vagy hiánya mennyi információhoz járul hozzá a helyes besorolási döntés meghozatalához c. A kölcsönös információ a következő képlettel számítható ki:
[1]
Számításaink során, mivel a valószínűségek Maximum Likelihood becsléseit használjuk, a következő egyenletet használhatjuk:
[2]
Ahol N a dokumentumok teljes száma, Ntcazoknak a dokumentumoknak a száma, amelyek értékei et (a t kifejezés előfordulása a dokumentumban; értéke 1 vagy 0) és ec(a c osztályú dokumentum előfordulása; értéke 1 vagy 0), amit két alsó index jelez, és a . Végül meg kell jegyeznünk, hogy az összes fent említett változó nem negatív értéket vesz fel.
Chi tér
Egy másik gyakori jellemző kiválasztási módszer a Chi tér. Az x2 tesztet a statisztikákban többek között két esemény függetlenségének tesztelésére használják. Pontosabban a jellemzők kiválasztásánál használjuk annak tesztelésére, hogy egy adott kifejezés előfordulása és egy adott osztály előfordulása független-e. Így minden kifejezésre megbecsüljük a következő mennyiséget, és a pontszámuk alapján rangsoroljuk őket:
[3]
Magas pontszámok x-en2 jelzi, hogy a nullhipotézis (H0) függetlenségét el kell utasítani, és így a kifejezés és az osztály előfordulása függ. Ha ezek függőek, akkor kiválasztjuk a funkciót a szöveges osztályozáshoz.
A fenti képlet a következőképpen írható át:
[4]
Ha a Chi Square módszert használjuk, akkor csak előre meghatározott számú jellemzőt válasszunk ki, amelyeknek van axe2 10.83-nál nagyobb tesztpontszám, ami a 0.001-es szintű statisztikai szignifikanciát jelzi.
Végül, de nem utolsósorban meg kell jegyeznünk, hogy statisztikai szempontból a Chi Square jellemző kiválasztása pontatlan, az egy szabadságfok, ill. Yates korrekció helyett kell használni (ami megnehezíti a statisztikai szignifikancia elérését). Így arra kell számítanunk, hogy az összes kiválasztott tulajdonságból egy kis részük független az osztálytól). Így arra kell számítanunk, hogy az összes kiválasztott tulajdonságból egy kis részük független az osztálytól. Ennek ellenére mint Manning és mtsai (2008) megmutatta, ezek a zajos jellemzők nem befolyásolják komolyan osztályozónk általános pontosságát.
Zajos/ritka funkciók eltávolítása
Egy másik technika, amely segíthet elkerülni a túlillesztést, csökkenteni a memóriafelhasználást és növelni a sebességet, az, hogy eltávolítjuk a szókincsből az összes ritka kifejezést. Például kiküszöbölhető az összes olyan kifejezés, amely csak egyszer fordult elő az összes kategóriában. E kifejezések eltávolítása jelentős mértékben csökkentheti a memóriahasználatot, és javíthatja az elemzés sebességét. Végül nem szabad, hogy ez a technika a fenti jellemző kiválasztási algoritmusokkal együtt használható legyen.
Tetszett a cikk? Kérjük, szánjon egy percet a Twitteren való megosztására. 🙂
- AI
- ai művészet
- ai art generátor
- van egy robotod
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- Datumbox
- mély tanulás
- google azt
- gépi tanulás
- Gépi tanulás és statisztika
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet