Uso de métodos de selección de características en la clasificación de texto

Reeditado por Platón

seguidores: 0

En la clasificación de texto, la selección de características es el proceso de seleccionar un subconjunto específico de los términos del conjunto de entrenamiento y usarlos solo en el algoritmo de clasificación. El proceso de selección de características tiene lugar antes de la capacitación del clasificador.

Actualización: el marco de aprendizaje automático de Datumbox ahora es de código abierto y gratuito para descargar. Consulte el paquete com.datumbox.framework.machinelearning.featureselection para ver la implementación de los métodos Chi-square y Mutual Information Feature Selection en Java.

Las principales ventajas de usar algoritmos de selección de funciones son los hechos de que reduce la dimensión de nuestros datos, agiliza el entrenamiento y puede mejorar la precisión al eliminar las funciones ruidosas. Como consecuencia, la selección de características puede ayudarnos a evitar el sobreajuste.

El algoritmo de selección básico para seleccionar las mejores características k se presenta a continuación (Manning y otros, 2008):

Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

En las siguientes secciones presentamos dos algoritmos de selección de características diferentes: la información mutua y el cuadrado de Chi.

Información mutua

Uno de los métodos de selección de características más comunes es la información mutua del término t en la clase c (Manning y otros, 2008) Esto mide la cantidad de información que la presencia o ausencia de un término en particular contribuye a tomar la decisión de clasificación correcta en c. La información mutua se puede calcular utilizando la siguiente fórmula:

Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. [ 1 ]

En nuestros cálculos, dado que usamos las estimaciones de probabilidad máxima de las probabilidades, podemos usar la siguiente ecuación:

[ 2 ]

Donde N es el número total de documentos, N_tcson los recuentos de documentos que tienen los valores e_t(aparición del término t en el documento; toma el valor 1 o 0) y e_c(aparición del documento en la clase c; toma el valor 1 o 0) que indica dos subíndices, y . Finalmente, debemos tener en cuenta que todas las variables mencionadas anteriormente toman valores no negativos.

Plaza Chi

Otro método común de selección de características es el Plaza Chi. La x² test se usa en estadística, entre otras cosas, para probar la independencia de dos eventos. Más específicamente en la selección de características, lo usamos para probar si la aparición de un término específico y la aparición de una clase específica son independientes. Por lo tanto, estimamos la siguiente cantidad para cada término y los clasificamos por su puntaje:

Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. [ 3 ]

Puntajes altos en x² indicar que la hipótesis nula (H₀) de independencia debe ser rechazado y, por lo tanto, la aparición del término y la clase son dependientes. Si son dependientes, seleccionamos la función para la clasificación de texto.

La fórmula anterior se puede reescribir de la siguiente manera:

Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. [ 4 ]

Si usamos el método Chi Square, deberíamos seleccionar solo un número predefinido de características que tienen ax² puntaje de prueba mayor a 10.83 que indica significancia estadística al nivel 0.001.

Por último, pero no menos importante, debemos tener en cuenta que, desde el punto de vista estadístico, la selección de la función Chi Square no es precisa, debido al único grado de libertad Corrección de Yates debe usarse en su lugar (lo que hará que sea más difícil alcanzar significación estadística). Por lo tanto, deberíamos esperar que del total de características seleccionadas, una pequeña parte de ellas sea independiente de la clase). Por lo tanto, deberíamos esperar que del total de características seleccionadas, una pequeña parte de ellas sea independiente de la clase. Sin embargo como Manning y otros (2008) demostrado, estas características ruidosas no afectan seriamente la precisión general de nuestro clasificador.

Eliminar características ruidosas / raras

Otra técnica que puede ayudarnos a evitar el sobreajuste, reducir el consumo de memoria y mejorar la velocidad es eliminar todos los términos raros del vocabulario. Por ejemplo, uno puede eliminar todos los términos que ocurrieron solo una vez en todas las categorías. Eliminar esos términos puede reducir el uso de memoria en un factor significativo y mejorar la velocidad del análisis. Finalmente, no deberíamos que esta técnica se pueda usar junto con los algoritmos de selección de características anteriores.

¿Te gustó el artículo? Tómese un minuto para compartirlo en Twitter. 🙂

Sello de tiempo: Enero 20, 20146 de noviembre.

Sello de tiempo: 14 de enero de 2017

Uso de métodos de selección de características en la clasificación de texto

Reeditado por Platón

Información mutua

Plaza Chi

Eliminar características ruidosas / raras

Mas de Caja de datos

Medición de la popularidad en redes sociales de páginas con DEA en JAVA

Cómo construir tu propia herramienta de análisis de sentimientos de Facebook

Cómo realizar copias de seguridad de S3 con DejaDup en Ubuntu 20.10

Un adelanto de TorchVision v0.11 - Memorias de un desarrollador de TorchVision - 2

Nueva serie de blogs - Memorias de un desarrollador de TorchVision

Cómo sortear las limitaciones de enlaces simbólicos de Dropbox en Linux

Lanzamiento de Datumbox Machine Learning Framework 0.6.0

Nueva serie de blogs - Memorias de un desarrollador de TorchVision

Modelo de mezcla finita basado en la distribución de Dirichlet

Nuevo marco de aprendizaje automático de código abierto escrito en Java

Obtener el uso de GPU de las tarjetas NVIDIA con la herramienta dstat de Linux

Lanzamiento de Datumbox Machine Learning Framework versión 0.8.0

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta