Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Usando métodos de seleção de recurso na classificação de texto

Na classificação de texto, a seleção de recursos é o processo de selecionar um subconjunto específico dos termos do conjunto de treinamento e usá-los apenas no algoritmo de classificação. O processo de seleção de recursos ocorre antes do treinamento do classificador.

Atualização: O Datumbox Machine Learning Framework agora é de código aberto e gratuito para download. Verifique o pacote com.datumbox.framework.machinelearning.featureselection para ver a implementação dos métodos Qui-quadrado e Seleção de Recurso de Informação Mútua em Java.

As principais vantagens de usar algoritmos de seleção de recursos são o fato de reduzir a dimensão de nossos dados, agilizar o treinamento e melhorar a precisão removendo recursos ruidosos. Como consequência, a seleção de recursos pode nos ajudar a evitar overfitting.

O algoritmo de seleção básico para selecionar os k melhores recursos é apresentado abaixo (Manning e outros, 2008):

Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Nas próximas seções, apresentamos dois algoritmos de seleção de recursos diferentes: a Informação Mútua e o Qui Quadrado.

Informação mútua

Um dos métodos de seleção de recursos mais comuns é a Informação Mútua do termo t na classe c (Manning e outros, 2008) Mede quanta informação a presença ou ausência de um determinado termo contribui para tomar a decisão correta de classificação em c. As informações mútuas podem ser calculadas usando a seguinte fórmula:

Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.[1]

Em nossos cálculos, uma vez que usamos as Estimativas de Máxima Verossimilhança das probabilidades, podemos usar a seguinte equação:

Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.[2]

Onde N é o número total de documentos, Ntcsão as contagens de documentos que possuem os valores et (ocorrência do termo t no documento; assume o valor 1 ou 0) e ec(ocorrência de documento na classe c; leva o valor 1 ou 0) que é indicado por dois subscritos, Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. e Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.. Finalmente, devemos notar que todas as variáveis ​​mencionadas assumem valores não negativos.

Quadrado Chi

Outro método comum de seleção de recursos é o Quadrado Chi. O x2 test é usado em estatísticas, entre outras coisas, para testar a independência de dois eventos. Mais especificamente, na seleção de recursos, nós o usamos para testar se a ocorrência de um termo específico e a ocorrência de uma classe específica são independentes. Assim, estimamos a seguinte quantidade para cada termo e os classificamos por sua pontuação:

Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.[3]

Pontuações altas em x2 indicam que a hipótese nula (H0) de independência deve ser rejeitado e, portanto, que a ocorrência do termo e classe são dependentes. Se forem dependentes, selecionamos o recurso para a classificação do texto.

A fórmula acima pode ser reescrita da seguinte forma:

Usando métodos de seleção de recursos na classificação de texto PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.[4]

Se usarmos o método Chi Square, devemos selecionar apenas um número predefinido de recursos que possuem machado2 pontuação de teste maior que 10.83, o que indica significância estatística no nível 0.001.

Por último, mas não menos importante, devemos notar que, do ponto de vista estatístico, a seleção do recurso Chi Square é imprecisa, devido ao um grau de liberdade e Correção de Yates deve ser usado em seu lugar (o que tornará mais difícil alcançar significância estatística). Assim, devemos esperar que do total de recursos selecionados, uma pequena parte deles sejam independentes da classe). Portanto, devemos esperar que do total de recursos selecionados, uma pequena parte deles seja independente da classe. No entanto como Manning e outros (2008) mostrado, esses recursos ruidosos não afetam seriamente a precisão geral do nosso classificador.

Removendo recursos barulhentos / raros

Outra técnica que pode nos ajudar a evitar overfitting, reduzir o consumo de memória e melhorar a velocidade, é remover todos os termos raros do vocabulário. Por exemplo, pode-se eliminar todos os termos que ocorreram apenas uma vez em todas as categorias. A remoção desses termos pode reduzir o uso de memória por um fator significativo e melhorar a velocidade da análise. Finalmente, não devemos que esta técnica possa ser usada em conjunto com os algoritmos de seleção de recursos acima.

Você gostou do artigo? Por favor, reserve um minuto para compartilhá-lo no Twitter. 🙂

Carimbo de hora:

Mais de Caixa de dados