Brug af funktionsvalgsmetoder i tekstklassificering

Genudgivet af Platon

Abonnenter: 0

I tekstklassificering er funktionsvalget processen med at vælge en specifik delmængde af vilkårene i træningssættet og kun bruge dem i klassifikationsalgoritmen. Funktionsudvælgelsesprocessen finder sted før uddannelsen af klassificereren.

Opdatering: Datumbox Machine Learning Framework er nu open source og gratis til downloade. Tjek pakken com.datumbox.framework.machinelearning.featureselection for at se implementeringen af Chi-square og Mutual Information Feature Selection metoder i Java.

De vigtigste fordele ved at bruge funktionsvalgalgoritmer er, at det reducerer dimensionen af vores data, det gør træningen hurtigere, og det kan forbedre nøjagtigheden ved at fjerne støjende funktioner. Som følge heraf kan funktionsvalg hjælpe os med at undgå overfitting.

Den grundlæggende udvælgelsesalgoritme til at vælge de k bedste funktioner er præsenteret nedenfor (Manning et al., 2008):

Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

I de næste afsnit præsenterer vi to forskellige funktionsvalgalgoritmer: Gensidig information og Chi Square.

Gensidig information

En af de mest almindelige egenskabsudvælgelsesmetoder er gensidig information af term t i klasse c (Manning et al., 2008). Dette måler, hvor meget information tilstedeværelsen eller fraværet af et bestemt udtryk bidrager til at træffe den korrekte klassificeringsbeslutning om c. Den gensidige information kan beregnes ved at bruge følgende formel:

Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai. [1]

I vores beregninger, da vi bruger de maksimale sandsynlighedsestimater af sandsynligheder, kan vi bruge følgende ligning:

[2]

Hvor N er det samlede antal dokumenter, N_tcer antallet af dokumenter, der har værdierne e_t(forekomst af term t i dokumentet; det tager værdien 1 eller 0) og e_c(forekomst af dokument i klasse c; det tager værdien 1 eller 0), der angives af to sænkede, , . Til sidst skal vi bemærke, at alle de førnævnte variable har ikke-negative værdier.

Chi-pladsen

En anden almindelig metode til valg af funktioner er Chi-pladsen. Den x² test bruges i statistik blandt andet til at teste uafhængigheden af to hændelser. Mere specifikt i funktionsvalg bruger vi det til at teste, om forekomsten af et specifikt udtryk og forekomsten af en bestemt klasse er uafhængige. Derfor estimerer vi følgende mængde for hvert udtryk, og vi rangerer dem efter deres score:

Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai. [3]

Høje score på x² angive, at nulhypotesen (H₀) af uafhængighed bør afvises, og dermed at forekomsten af udtrykket og klassen er afhængige. Hvis de er afhængige, vælger vi funktionen til tekstklassificeringen.

Ovenstående formel kan omskrives som følger:

Brug af funktionsvalgmetoder i tekstklassificering PlatoBlockchain Data Intelligence. Lodret søgning. Ai. [4]

Hvis vi bruger Chi Square-metoden, bør vi kun vælge et foruddefineret antal funktioner, der har økse² testscore større end 10.83, hvilket indikerer statistisk signifikans på 0.001 niveau.

Sidst men ikke mindst bør vi bemærke, at ud fra et statistisk punkt er valget af Chi Square-funktioner unøjagtigt på grund af den ene grad af frihed og Yates korrektion bør bruges i stedet (hvilket vil gøre det sværere at nå statistisk signifikans). Derfor bør vi forvente, at en lille del af de udvalgte funktioner er uafhængige af klassen). Derfor må vi forvente, at en lille del af de udvalgte funktioner er uafhængige af klassen. Ikke desto mindre som Manning et al (2008) viste, påvirker disse støjende funktioner ikke alvorligt den samlede nøjagtighed af vores klassifikator.

Fjernelse af støjende/sjældne funktioner

En anden teknik, som kan hjælpe os med at undgå overtilpasning, reducere hukommelsesforbrug og forbedre hastigheden, er at fjerne alle de sjældne udtryk fra ordforrådet. For eksempel kan man eliminere alle de termer, der kun fandt sted én gang på tværs af alle kategorier. Fjernelse af disse termer kan reducere hukommelsesforbruget med en væsentlig faktor og forbedre analysens hastighed. Endelig bør vi ikke, at denne teknik kan bruges sammen med ovenstående funktionsvalgalgoritmer.

Kunne du lide artiklen? Brug venligst et minut på at dele det på Twitter. 🙂

Tidsstempel: Januar 20, 2014November 6, 2022

Tidsstempel: Oktober 19, 2014

Brug af funktionsvalgmetoder i tekstklassificering

Genudgivet af Platon

Gensidig information

Chi-pladsen

Fjernelse af støjende/sjældne funktioner

Mere fra Datumboks

Clustering med Dirichlet Process Mixture Model i Java

Sådan bygger du dit eget Facebook Sentiment Analysis Tool

Borer i Sparks ALS-anbefalingsalgoritme

Udvikling af en naiv Bayes-tekstklassificering i JAVA

Ny blogserie – Erindringer om en TorchVision-udvikler

Et smugkig på TorchVision v0.11 – Memoirs of a TorchVision-udvikler – 2

Rejsen med at modernisere TorchVision – Memoirs of a TorchVision-udvikler – 3

5 tips til multi-GPU-træning med Keras

Få GPU-brugen af NVIDIA-kort med Linux dstat-værktøjet

Dirichlet-procesblandingsmodellen

Klynger af dokumenter og gaussiske data med Dirichlet Process Mixture Models

Nyt open source Machine Learning Framework skrevet i Java

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto