Utilizzo di metodi di selezione delle caratteristiche nella classificazione del testo PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Utilizzo dei metodi di selezione delle funzioni nella classificazione del testo

Nella classificazione del testo, la selezione delle caratteristiche è il processo di selezione di un sottoinsieme specifico dei termini dell'insieme di addestramento e di utilizzarli solo nell'algoritmo di classificazione. Il processo di selezione delle caratteristiche avviene prima della formazione del classificatore.

Aggiornamento: Datumbox Machine Learning Framework è ora open-source e gratuito scaricare. Controlla il pacchetto com.datumbox.framework.machinelearning.featureselection per vedere l'implementazione dei metodi di selezione delle funzioni di informazione reciproca e chi-quadro in Java.

I principali vantaggi dell'utilizzo degli algoritmi di selezione delle caratteristiche sono il fatto che riduce la dimensione dei nostri dati, rende più veloce l'addestramento e può migliorare la precisione rimuovendo le caratteristiche rumorose. Di conseguenza, la selezione delle caratteristiche può aiutarci a evitare l'eccessivo adattamento.

L'algoritmo di selezione di base per selezionare le k migliori caratteristiche è presentato di seguito (Manning e altri, 2008):

Utilizzo di metodi di selezione delle caratteristiche nella classificazione del testo PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Nelle sezioni successive presentiamo due diversi algoritmi di selezione delle caratteristiche: la Mutual Information e il Chi Square.

Informazioni reciproche

Uno dei metodi di selezione delle caratteristiche più comuni è l'informazione reciproca del termine t nella classe c (Manning e altri, 2008). Questo misura quante informazioni la presenza o l'assenza di un particolare termine contribuisce a prendere la decisione di classificazione corretta su c. L'informazione reciproca può essere calcolata utilizzando la seguente formula:

Utilizzo di metodi di selezione delle caratteristiche nella classificazione del testo PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.,

Nei nostri calcoli, poiché utilizziamo le stime di massima verosimiglianza delle probabilità, possiamo utilizzare la seguente equazione:

Utilizzo di metodi di selezione delle caratteristiche nella classificazione del testo PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.,

Dove N è il numero totale di documenti, Ntcsono i conteggi dei documenti che hanno i valori et (occorrenza del termine t nel documento; assume il valore 1 o 0) ed ec(occorrenza del documento in classe c; assume il valore 1 o 0) quello indicato da due pedici, Utilizzo di metodi di selezione delle caratteristiche nella classificazione del testo PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. ed Utilizzo di metodi di selezione delle caratteristiche nella classificazione del testo PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.. Infine dobbiamo notare che tutte le suddette variabili assumono valori non negativi.

Piazza Chi

Un altro metodo comune di selezione delle caratteristiche è il Piazza Chi. La x2 test viene utilizzato nelle statistiche, tra le altre cose, per verificare l'indipendenza di due eventi. Più specificamente nella selezione delle caratteristiche lo usiamo per verificare se l'occorrenza di un termine specifico e l'occorrenza di una classe specifica sono indipendenti. Pertanto stimiamo la seguente quantità per ogni termine e li classifichiamo in base al loro punteggio:

Utilizzo di metodi di selezione delle caratteristiche nella classificazione del testo PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.,

Punteggi alti su x2 indicano che l'ipotesi nulla (H0) di indipendenza dovrebbe essere respinto e quindi che la ricorrenza del termine e della classe dipendono. Se sono dipendenti, selezioniamo la funzione per la classificazione del testo.

La formula sopra può essere riscritta come segue:

Utilizzo di metodi di selezione delle caratteristiche nella classificazione del testo PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.,

Se usiamo il metodo Chi quadrato, dovremmo selezionare solo un numero predefinito di caratteristiche che hanno ax2 punteggio del test maggiore di 10.83 che indica una significatività statistica al livello 0.001.

Ultimo ma non meno importante, dobbiamo notare che dal punto di vista statistico la selezione della caratteristica Chi quadrato è imprecisa, a causa dell'unico grado di libertà e Correzione di Yates dovrebbe essere usato invece (che renderà più difficile raggiungere la significatività statistica). Quindi dovremmo aspettarci che delle caratteristiche totali selezionate, una piccola parte di esse sia indipendente dalla classe). Quindi dovremmo aspettarci che delle caratteristiche totali selezionate, una piccola parte di esse sia indipendente dalla classe. Tuttavia come Manning e altri (2008) dimostrato, queste caratteristiche rumorose non influenzano seriamente l'accuratezza complessiva del nostro classificatore.

Rimozione di funzionalità rumorose / rare

Un'altra tecnica che può aiutarci a evitare l'overfitting, ridurre il consumo di memoria e migliorare la velocità, è quella di rimuovere tutti i termini rari dal vocabolario. Ad esempio, è possibile eliminare tutti i termini che si sono verificati una sola volta in tutte le categorie. La rimozione di questi termini può ridurre l'utilizzo della memoria di un fattore significativo e migliorare la velocità dell'analisi. Infine non dovremmo che questa tecnica possa essere utilizzata insieme agli algoritmi di selezione delle caratteristiche di cui sopra.

Ti è piaciuto l'articolo? Ti preghiamo di dedicare un minuto a condividerlo su Twitter. 🙂

Timestamp:

Di più da Databox