Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Uso de métodos de selección de características en la clasificación de texto

En la clasificación de texto, la selección de características es el proceso de seleccionar un subconjunto específico de los términos del conjunto de entrenamiento y usarlos solo en el algoritmo de clasificación. El proceso de selección de características tiene lugar antes de la capacitación del clasificador.

Actualización: el marco de aprendizaje automático de Datumbox ahora es de código abierto y gratuito para descargar. Consulte el paquete com.datumbox.framework.machinelearning.featureselection para ver la implementación de los métodos Chi-square y Mutual Information Feature Selection en Java.

Las principales ventajas de usar algoritmos de selección de funciones son los hechos de que reduce la dimensión de nuestros datos, agiliza el entrenamiento y puede mejorar la precisión al eliminar las funciones ruidosas. Como consecuencia, la selección de características puede ayudarnos a evitar el sobreajuste.

El algoritmo de selección básico para seleccionar las mejores características k se presenta a continuación (Manning y otros, 2008):

Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

En las siguientes secciones presentamos dos algoritmos de selección de características diferentes: la información mutua y el cuadrado de Chi.

Información mutua

Uno de los métodos de selección de características más comunes es la información mutua del término t en la clase c (Manning y otros, 2008) Esto mide la cantidad de información que la presencia o ausencia de un término en particular contribuye a tomar la decisión de clasificación correcta en c. La información mutua se puede calcular utilizando la siguiente fórmula:

Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.[ 1 ]

En nuestros cálculos, dado que usamos las estimaciones de probabilidad máxima de las probabilidades, podemos usar la siguiente ecuación:

Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.[ 2 ]

Donde N es el número total de documentos, Ntcson los recuentos de documentos que tienen los valores et (aparición del término t en el documento; toma el valor 1 o 0) y ec(aparición del documento en la clase c; toma el valor 1 o 0) que indica dos subíndices, Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai. y Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.. Finalmente, debemos tener en cuenta que todas las variables mencionadas anteriormente toman valores no negativos.

Plaza Chi

Otro método común de selección de características es el Plaza Chi. La x2 test se usa en estadística, entre otras cosas, para probar la independencia de dos eventos. Más específicamente en la selección de características, lo usamos para probar si la aparición de un término específico y la aparición de una clase específica son independientes. Por lo tanto, estimamos la siguiente cantidad para cada término y los clasificamos por su puntaje:

Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.[ 3 ]

Puntajes altos en x2 indicar que la hipótesis nula (H0) de independencia debe ser rechazado y, por lo tanto, la aparición del término y la clase son dependientes. Si son dependientes, seleccionamos la función para la clasificación de texto.

La fórmula anterior se puede reescribir de la siguiente manera:

Uso de métodos de selección de funciones en la clasificación de textos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.[ 4 ]

Si usamos el método Chi Square, deberíamos seleccionar solo un número predefinido de características que tienen ax2 puntaje de prueba mayor a 10.83 que indica significancia estadística al nivel 0.001.

Por último, pero no menos importante, debemos tener en cuenta que, desde el punto de vista estadístico, la selección de la función Chi Square no es precisa, debido al único grado de libertad Corrección de Yates debe usarse en su lugar (lo que hará que sea más difícil alcanzar significación estadística). Por lo tanto, deberíamos esperar que del total de características seleccionadas, una pequeña parte de ellas sea independiente de la clase). Por lo tanto, deberíamos esperar que del total de características seleccionadas, una pequeña parte de ellas sea independiente de la clase. Sin embargo como Manning y otros (2008) demostrado, estas características ruidosas no afectan seriamente la precisión general de nuestro clasificador.

Eliminar características ruidosas / raras

Otra técnica que puede ayudarnos a evitar el sobreajuste, reducir el consumo de memoria y mejorar la velocidad es eliminar todos los términos raros del vocabulario. Por ejemplo, uno puede eliminar todos los términos que ocurrieron solo una vez en todas las categorías. Eliminar esos términos puede reducir el uso de memoria en un factor significativo y mejorar la velocidad del análisis. Finalmente, no deberíamos que esta técnica se pueda usar junto con los algoritmos de selección de características anteriores.

¿Te gustó el artículo? Tómese un minuto para compartirlo en Twitter. 🙂

Sello de tiempo:

Mas de Caja de datos