Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Brug af funktionsvalgmetoder i tekstklassificering

I tekstklassificering er funktionsvalget processen med at vælge en specifik delmængde af vilkårene i træningssættet og kun bruge dem i klassifikationsalgoritmen. Funktionsudvælgelsesprocessen finder sted før uddannelsen af ​​klassificereren.

Opdatering: Datumbox Machine Learning Framework er nu open source og gratis til downloade. Tjek pakken com.datumbox.framework.machinelearning.featureselection for at se implementeringen af ​​Chi-square og Mutual Information Feature Selection metoder i Java.

De vigtigste fordele ved at bruge funktionsvalgalgoritmer er, at det reducerer dimensionen af ​​vores data, det gør træningen hurtigere, og det kan forbedre nøjagtigheden ved at fjerne støjende funktioner. Som følge heraf kan funktionsvalg hjælpe os med at undgå overfitting.

Den grundlæggende udvælgelsesalgoritme til at vælge de k bedste funktioner er præsenteret nedenfor (Manning et al., 2008):

Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

I de næste afsnit præsenterer vi to forskellige funktionsvalgalgoritmer: Gensidig information og Chi Square.

Gensidig information

En af de mest almindelige egenskabsudvælgelsesmetoder er gensidig information af term t i klasse c (Manning et al., 2008). Dette måler, hvor meget information tilstedeværelsen eller fraværet af et bestemt udtryk bidrager til at træffe den korrekte klassificeringsbeslutning om c. Den gensidige information kan beregnes ved at bruge følgende formel:

Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai.[1]

I vores beregninger, da vi bruger de maksimale sandsynlighedsestimater af sandsynligheder, kan vi bruge følgende ligning:

Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai.[2]

Hvor N er det samlede antal dokumenter, Ntcer antallet af dokumenter, der har værdierne et (forekomst af term t i dokumentet; det tager værdien 1 eller 0) og ec(forekomst af dokument i klasse c; det tager værdien 1 eller 0), der angives af to sænkede, Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai. , Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai.. Til sidst skal vi bemærke, at alle de førnævnte variable har ikke-negative værdier.

Chi-pladsen

En anden almindelig metode til valg af funktioner er Chi-pladsen. Den x2 test bruges i statistik blandt andet til at teste uafhængigheden af ​​to hændelser. Mere specifikt i funktionsvalg bruger vi det til at teste, om forekomsten af ​​et specifikt udtryk og forekomsten af ​​en bestemt klasse er uafhængige. Derfor estimerer vi følgende mængde for hvert udtryk, og vi rangerer dem efter deres score:

Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai.[3]

Høje score på x2 angive, at nulhypotesen (H0) af uafhængighed bør afvises, og dermed at forekomsten af ​​udtrykket og klassen er afhængige. Hvis de er afhængige, vælger vi funktionen til tekstklassificeringen.

Ovenstående formel kan omskrives som følger:

Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai.[4]

Hvis vi bruger Chi Square-metoden, bør vi kun vælge et foruddefineret antal funktioner, der har økse2 testscore større end 10.83, hvilket indikerer statistisk signifikans på 0.001 niveau.

Sidst men ikke mindst bør vi bemærke, at ud fra et statistisk punkt er valget af Chi Square-funktioner unøjagtigt på grund af den ene grad af frihed og Yates korrektion bør bruges i stedet (hvilket vil gøre det sværere at nå statistisk signifikans). Derfor bør vi forvente, at en lille del af de udvalgte funktioner er uafhængige af klassen). Derfor må vi forvente, at en lille del af de udvalgte funktioner er uafhængige af klassen. Ikke desto mindre som Manning et al (2008) viste, påvirker disse støjende funktioner ikke alvorligt den samlede nøjagtighed af vores klassifikator.

Fjernelse af støjende/sjældne funktioner

En anden teknik, som kan hjælpe os med at undgå overtilpasning, reducere hukommelsesforbrug og forbedre hastigheden, er at fjerne alle de sjældne udtryk fra ordforrådet. For eksempel kan man eliminere alle de termer, der kun fandt sted én gang på tværs af alle kategorier. Fjernelse af disse termer kan reducere hukommelsesforbruget med en væsentlig faktor og forbedre analysens hastighed. Endelig bør vi ikke, at denne teknik kan bruges sammen med ovenstående funktionsvalgalgoritmer.

Kunne du lide artiklen? Brug venligst et minut på at dele det på Twitter. 🙂

Tidsstempel:

Mere fra Datumboks