Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte

Republié par Platon

Suiveurs: 0

Dans la classification de texte, la sélection de caractéristiques est le processus de sélection d'un sous-ensemble spécifique des termes de l'ensemble d'apprentissage et de leur utilisation uniquement dans l'algorithme de classification. Le processus de sélection des fonctionnalités a lieu avant la formation du classificateur.

Mise à jour: le Datumbox Machine Learning Framework est désormais open-source et gratuit pour download. Consultez le package com.datumbox.framework.machinelearning.featureselection pour voir l'implémentation des méthodes de sélection des fonctionnalités du chi carré et des informations mutuelles en Java.

Les principaux avantages de l'utilisation d'algorithmes de sélection de fonctionnalités sont le fait que cela réduit la dimension de nos données, accélère la formation et peut améliorer la précision en supprimant les fonctionnalités bruyantes. En conséquence, la sélection des fonctionnalités peut nous aider à éviter le surajustement.

L'algorithme de sélection de base pour sélectionner les k meilleures fonctionnalités est présenté ci-dessous (Manning et coll., 2008):

Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans les sections suivantes, nous présentons deux algorithmes de sélection de caractéristiques différents: l'information mutuelle et le chi carré.

Information mutuelle

L'une des méthodes de sélection de caractéristiques les plus courantes est l'information mutuelle du terme t de la classe c (Manning et coll., 2008). Cela mesure la quantité d'informations que la présence ou l'absence d'un terme particulier contribue à prendre la bonne décision de classification sur c. Les informations mutuelles peuvent être calculées en utilisant la formule suivante:

Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans nos calculs, puisque nous utilisons les estimations du maximum de vraisemblance des probabilités, nous pouvons utiliser l'équation suivante:

Où N est le nombre total de documents, N_tcsont le nombre de documents qui ont les valeurs e_t(occurrence du terme t dans le document; il prend la valeur 1 ou 0) et e_c(occurrence du document en classe c; il prend la valeur 1 ou 0) celle indiquée par deux indices, ainsi que . Il faut enfin noter que toutes les variables précitées prennent des valeurs non négatives.

Place du Chi

Une autre méthode courante de sélection de fonctionnalités est la Place du Chi. Le x² test est utilisé dans les statistiques, entre autres, pour tester l'indépendance de deux événements. Plus spécifiquement dans la sélection de caractéristiques, nous l'utilisons pour tester si l'occurrence d'un terme spécifique et l'occurrence d'une classe spécifique sont indépendantes. Ainsi, nous estimons la quantité suivante pour chaque terme et nous les classons par leur score:

Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Meilleurs scores sur x² indiquent que l'hypothèse nulle (H₀) d'indépendance devrait être rejetée et donc que l'occurrence du terme et de la classe sont dépendants. S'ils sont dépendants, nous sélectionnons la fonctionnalité pour la classification de texte.

La formule ci-dessus peut être réécrite comme suit:

Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Si nous utilisons la méthode du Chi Square, nous ne devrions sélectionner qu'un nombre prédéfini de fonctionnalités qui ont ax² score au test supérieur à 10.83, ce qui indique une signification statistique au niveau de 0.001.

Enfin, il convient de noter qu'à partir du point statistique, la sélection de la fonction Chi Square est inexacte, en raison du seul degré de liberté et Correction de Yates devrait être utilisé à la place (ce qui rendra plus difficile l'obtention d'une signification statistique). Il faut donc s'attendre à ce que sur le total des entités sélectionnées, une petite partie d'entre elles soit indépendante de la classe). Il faut donc s'attendre à ce que sur le total des fonctionnalités sélectionnées, une petite partie d'entre elles soit indépendante de la classe. Néanmoins comme Manning et coll. (2008) montré, ces caractéristiques bruyantes n'affectent pas sérieusement la précision globale de notre classificateur.

Suppression des fonctionnalités bruyantes / rares

Une autre technique qui peut nous aider à éviter le surajustement, à réduire la consommation de mémoire et à améliorer la vitesse, est de supprimer tous les termes rares du vocabulaire. Par exemple, on peut éliminer tous les termes qui ne se sont produits qu'une seule fois dans toutes les catégories. La suppression de ces termes peut réduire considérablement l'utilisation de la mémoire et améliorer la vitesse de l'analyse. Enfin, il ne faut pas que cette technique puisse être utilisée en conjonction avec les algorithmes de sélection de caractéristiques ci-dessus.

L'article vous a plu? Veuillez prendre une minute pour la partager sur Twitter. 🙂

Horodatage: 20 janvier 20146 novembre 2022

Horodatage: Le 19 octobre 2014

Utilisation de méthodes de sélection d'entités dans la classification de texte

Republié par Platon

Information mutuelle

Place du Chi

Suppression des fonctionnalités bruyantes / rares

Plus de Boîte de données

Clustering avec Dirichlet Process Mixture Model en Java

Comment créer votre propre outil d'analyse de sentiment Facebook

Exploration de l'algorithme de recommandation ALS de Spark

Développement d'un classificateur de texte Naive Bayes dans JAVA

Nouvelle série de blogs – Mémoires d'un développeur TorchVision

Un aperçu de TorchVision v0.11 - Mémoires d'un développeur TorchVision - 2

Le parcours de la modernisation de TorchVision – Mémoires d'un développeur de TorchVision – 3

5 conseils pour une formation multi-GPU avec Keras

Obtenir l'utilisation GPU des cartes NVIDIA avec l'outil Linux dstat

Le modèle de mélange du procédé Dirichlet

Regroupement de documents et de données gaussiennes avec Dirichlet Process Mixture Models

Nouveau framework d'apprentissage automatique open source écrit en Java

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte