- Januar 20, 2014
- Vasilis Vryniotis
- . 5 komentarjev
Pri klasifikaciji besedila je izbira značilnosti postopek izbire posebne podskupine pogojev vadbenega niza in njihove uporabe le v klasifikacijskem algoritmu. Postopek izbire lastnosti poteka pred usposabljanjem razvrščevalca.
Posodobitev: Okvir za strojno učenje Datebox je zdaj odprtokoden in brez njega prenesi. Oglejte si paket com.datumbox.framework.machinelearning.featureselection, če si želite ogledati izvajanje načinov izbire Chi-kvadratnih in vzajemnih podatkovnih funkcij v Javi.
Glavne prednosti uporabe algoritmov za izbiro funkcij so dejstva, da zmanjšuje razsežnost naših podatkov, pospešuje usposabljanje in lahko izboljša natančnost z odstranjevanjem hrupnih funkcij. Posledično nam lahko izbira lastnosti pomaga, da se izognemo pretiranemu opremljanju.
Osnovni izbirni algoritem za izbiro k najboljših lastnosti je predstavljen spodaj (Manning et al, 2008):
V naslednjih razdelkih predstavljamo dva različna algoritma za izbiro funkcij: vzajemne informacije in Chi Square.
Vzajemne informacije
Ena najpogostejših metod izbire lastnosti je medsebojna informacija izraza t v razredu c (Manning et al, 2008). Ta meri, koliko informacij prisotnost ali odsotnost določenega izraza prispeva k pravilni odločitvi o razvrstitvi na c. Medsebojne informacije je mogoče izračunati po naslednji formuli:
[1]
Ker v naših izračunih uporabljamo ocene največje verjetnosti verjetnosti, lahko uporabimo naslednjo enačbo:
[2]
Kjer je N skupno število dokumentov, Ntcso števila dokumentov, ki imajo vrednosti et (pojavljanje izraza t v dokumentu; ima vrednost 1 ali 0) in ec(pojav dokumenta v razredu c; ima vrednost 1 ali 0), ki sta označena z dvema oznakama, in . Na koncu moramo opozoriti, da imajo vse omenjene spremenljivke negativne vrednosti.
Trg Chi
Druga pogosta metoda izbire lastnosti je Trg Chi. X2 test se v statistiki med drugim uporablja za preverjanje neodvisnosti dveh dogodkov. Natančneje, pri izbiri lastnosti ga uporabljamo za preverjanje, ali sta pojav določenega izraza in pojav določenega razreda neodvisna. Tako za vsak izraz ocenimo naslednjo količino in jih razvrstimo po njihovi oceni:
[3]
Visoke ocene na x2 kažejo, da ničelna hipoteza (H0) je treba zavrniti neodvisnost in tako odvisiti pojav pojava in razreda. Če so odvisni, izberemo funkcijo za razvrstitev besedila.
Zgornjo formulo lahko prepišemo na naslednji način:
[4]
Če uporabljamo metodo Chi Square, bi morali izbrati le vnaprej določeno število funkcij, ki imajo ax2 testna ocena večja od 10.83, kar kaže na statistično pomembnost na ravni 0.001.
Nenazadnje je treba opozoriti, da je s statistične točke izbor funkcije Chi Square netočen zaradi ene stopnje svobode in Yatesov popravek namesto tega uporabiti (zaradi česar bo težje doseči statistično pomembnost). Zato bi morali pričakovati, da bo od skupno izbranih lastnosti majhen del neodvisen od razreda). Zato bi morali pričakovati, da bo od skupno izbranih lastnosti majhen del njih neodvisen od razreda. Kljub temu kot Manning et al (2008) Pokazalo se je, da te hrupne lastnosti ne vplivajo resno na splošno natančnost našega klasifikatorja.
Odstranjevanje hrupnih/redkih funkcij
Druga tehnika, ki nam lahko pomaga, da se izognemo preobremenitvi, zmanjšamo porabo pomnilnika in izboljšamo hitrost, je odstraniti vse redke izraze iz besedišča. Na primer, v vseh kategorijah je mogoče odpraviti vse izraze, ki so se pojavili samo enkrat. Odstranitev teh izrazov lahko znatno zmanjša porabo pomnilnika in izboljša hitrost analize. Končno ne bi smeli uporabljati te tehnike skupaj z zgornjimi algoritmi za izbiro lastnosti.
Vam je bil članek všeč? Vzemite si minuto, da jo delite na Twitterju. 🙂
- AI
- ai art
- ai art generator
- imajo robota
- Umetna inteligenca
- certificiranje umetne inteligence
- robot z umetno inteligenco
- roboti z umetno inteligenco
- programska oprema za umetno inteligenco
- blockchain
- blockchain konferenca ai
- coingenius
- pogovorna umetna inteligenca
- kripto konferenca ai
- dall's
- Datumbox
- globoko učenje
- strojno učenje
- Strojno učenje in statistika
- platon
- platon ai
- Platonova podatkovna inteligenca
- Igra Platon
- PlatoData
- platogaming
- lestvica ai
- sintaksa
- zefirnet