Usando métodos de seleção de recursos na classificação de texto

Republicado por Platão

seguidores: 0

20 de janeiro de 2014
Vasilis Vryniotis
. 5 Comentários

Na classificação de texto, a seleção de recursos é o processo de selecionar um subconjunto específico dos termos do conjunto de treinamento e usá-los apenas no algoritmo de classificação. O processo de seleção de recursos ocorre antes do treinamento do classificador.

Atualização: O Datumbox Machine Learning Framework agora é de código aberto e gratuito para download. Verifique o pacote com.datumbox.framework.machinelearning.featureselection para ver a implementação dos métodos Qui-quadrado e Seleção de Recurso de Informação Mútua em Java.

As principais vantagens de usar algoritmos de seleção de recursos são o fato de reduzir a dimensão de nossos dados, agilizar o treinamento e melhorar a precisão removendo recursos ruidosos. Como consequência, a seleção de recursos pode nos ajudar a evitar overfitting.

O algoritmo de seleção básico para selecionar os k melhores recursos é apresentado abaixo (Manning e outros, 2008):

Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Nas próximas seções, apresentamos dois algoritmos de seleção de recursos diferentes: a Informação Mútua e o Qui Quadrado.

Informação mútua

Um dos métodos de seleção de recursos mais comuns é a Informação Mútua do termo t na classe c (Manning e outros, 2008) Mede quanta informação a presença ou ausência de um determinado termo contribui para tomar a decisão correta de classificação em c. As informações mútuas podem ser calculadas usando a seguinte fórmula:

Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. [1]

Em nossos cálculos, uma vez que usamos as Estimativas de Máxima Verossimilhança das probabilidades, podemos usar a seguinte equação:

[2]

Onde N é o número total de documentos, N_tcsão as contagens de documentos que possuem os valores e_t(ocorrência do termo t no documento; assume o valor 1 ou 0) e e_c(ocorrência de documento na classe c; leva o valor 1 ou 0) que é indicado por dois subscritos, e . Finalmente, devemos notar que todas as variáveis mencionadas assumem valores não negativos.

Quadrado Chi

Outro método comum de seleção de recursos é o Quadrado Chi. O x² test é usado em estatísticas, entre outras coisas, para testar a independência de dois eventos. Mais especificamente, na seleção de recursos, nós o usamos para testar se a ocorrência de um termo específico e a ocorrência de uma classe específica são independentes. Assim, estimamos a seguinte quantidade para cada termo e os classificamos por sua pontuação:

Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. [3]

Pontuações altas em x² indicam que a hipótese nula (H₀) de independência deve ser rejeitado e, portanto, que a ocorrência do termo e classe são dependentes. Se forem dependentes, selecionamos o recurso para a classificação do texto.

A fórmula acima pode ser reescrita da seguinte forma:

Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. [4]

Se usarmos o método Chi Square, devemos selecionar apenas um número predefinido de recursos que possuem machado² pontuação de teste maior que 10.83, o que indica significância estatística no nível 0.001.

Por último, mas não menos importante, devemos notar que, do ponto de vista estatístico, a seleção do recurso Chi Square é imprecisa, devido ao um grau de liberdade e Correção de Yates deve ser usado em seu lugar (o que tornará mais difícil alcançar significância estatística). Assim, devemos esperar que do total de recursos selecionados, uma pequena parte deles sejam independentes da classe). Portanto, devemos esperar que do total de recursos selecionados, uma pequena parte deles seja independente da classe. No entanto como Manning e outros (2008) mostrado, esses recursos ruidosos não afetam seriamente a precisão geral do nosso classificador.

Removendo recursos barulhentos / raros

Outra técnica que pode nos ajudar a evitar overfitting, reduzir o consumo de memória e melhorar a velocidade, é remover todos os termos raros do vocabulário. Por exemplo, pode-se eliminar todos os termos que ocorreram apenas uma vez em todas as categorias. A remoção desses termos pode reduzir o uso de memória por um fator significativo e melhorar a velocidade da análise. Finalmente, não devemos que esta técnica possa ser usada em conjunto com os algoritmos de seleção de recursos acima.

Você gostou do artigo? Por favor, reserve um minuto para compartilhá-lo no Twitter. 🙂

Carimbo de hora: 20 de janeiro de 20146 de novembro de 2022

Carimbo de hora: 14 de janeiro de 2017

Usando métodos de seleção de recurso na classificação de texto

Republicado por Platão

Informação mútua

Quadrado Chi

Removendo recursos barulhentos / raros

Mais de Caixa de dados

Medindo a popularidade da mídia social de páginas com DEA em JAVA

Como criar sua própria ferramenta de análise de sentimentos no Facebook

Como fazer backups S3 com DejaDup no Ubuntu 20.10

Uma prévia do TorchVision v0.11 - Memórias de um desenvolvedor TorchVision - 2

Nova série de blogs - Memórias de um desenvolvedor TorchVision

Como contornar as limitações de links simbólicos do Dropbox no Linux

Lançamento do Datumbox Machine Learning Framework 0.6.0

Nova série de blogs - Memórias de um desenvolvedor TorchVision

Modelo de mistura finita baseado na distribuição de Dirichlet

Novo framework de aprendizado de máquina de código aberto escrito em Java

Obtendo o uso da GPU das placas NVIDIA com a ferramenta dstat do Linux

Lançamento do Datumbox Machine Learning Framework versão 0.8.0

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta