Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Utilisation de méthodes de sélection d'entités dans la classification de texte

Dans la classification de texte, la sélection de caractéristiques est le processus de sélection d'un sous-ensemble spécifique des termes de l'ensemble d'apprentissage et de leur utilisation uniquement dans l'algorithme de classification. Le processus de sélection des fonctionnalités a lieu avant la formation du classificateur.

Mise à jour: le Datumbox Machine Learning Framework est désormais open-source et gratuit pour download. Consultez le package com.datumbox.framework.machinelearning.featureselection pour voir l'implémentation des méthodes de sélection des fonctionnalités du chi carré et des informations mutuelles en Java.

Les principaux avantages de l'utilisation d'algorithmes de sélection de fonctionnalités sont le fait que cela réduit la dimension de nos données, accélère la formation et peut améliorer la précision en supprimant les fonctionnalités bruyantes. En conséquence, la sélection des fonctionnalités peut nous aider à éviter le surajustement.

L'algorithme de sélection de base pour sélectionner les k meilleures fonctionnalités est présenté ci-dessous (Manning et coll., 2008):

Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans les sections suivantes, nous présentons deux algorithmes de sélection de caractéristiques différents: l'information mutuelle et le chi carré.

Information mutuelle

L'une des méthodes de sélection de caractéristiques les plus courantes est l'information mutuelle du terme t de la classe c (Manning et coll., 2008). Cela mesure la quantité d'informations que la présence ou l'absence d'un terme particulier contribue à prendre la bonne décision de classification sur c. Les informations mutuelles peuvent être calculées en utilisant la formule suivante:

Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Dans nos calculs, puisque nous utilisons les estimations du maximum de vraisemblance des probabilités, nous pouvons utiliser l'équation suivante:

Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Où N est le nombre total de documents, Ntcsont le nombre de documents qui ont les valeurs et (occurrence du terme t dans le document; il prend la valeur 1 ou 0) et ec(occurrence du document en classe c; il prend la valeur 1 ou 0) celle indiquée par deux indices, Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï. ainsi que Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.. Il faut enfin noter que toutes les variables précitées prennent des valeurs non négatives.

Place du Chi

Une autre méthode courante de sélection de fonctionnalités est la Place du Chi. Le x2 test est utilisé dans les statistiques, entre autres, pour tester l'indépendance de deux événements. Plus spécifiquement dans la sélection de caractéristiques, nous l'utilisons pour tester si l'occurrence d'un terme spécifique et l'occurrence d'une classe spécifique sont indépendantes. Ainsi, nous estimons la quantité suivante pour chaque terme et nous les classons par leur score:

Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Meilleurs scores sur x2 indiquent que l'hypothèse nulle (H0) d'indépendance devrait être rejetée et donc que l'occurrence du terme et de la classe sont dépendants. S'ils sont dépendants, nous sélectionnons la fonctionnalité pour la classification de texte.

La formule ci-dessus peut être réécrite comme suit:

Utilisation des méthodes de sélection de fonctionnalités dans la classification de texte PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Si nous utilisons la méthode du Chi Square, nous ne devrions sélectionner qu'un nombre prédéfini de fonctionnalités qui ont ax2 score au test supérieur à 10.83, ce qui indique une signification statistique au niveau de 0.001.

Enfin, il convient de noter qu'à partir du point statistique, la sélection de la fonction Chi Square est inexacte, en raison du seul degré de liberté et Correction de Yates devrait être utilisé à la place (ce qui rendra plus difficile l'obtention d'une signification statistique). Il faut donc s'attendre à ce que sur le total des entités sélectionnées, une petite partie d'entre elles soit indépendante de la classe). Il faut donc s'attendre à ce que sur le total des fonctionnalités sélectionnées, une petite partie d'entre elles soit indépendante de la classe. Néanmoins comme Manning et coll. (2008) montré, ces caractéristiques bruyantes n'affectent pas sérieusement la précision globale de notre classificateur.

Suppression des fonctionnalités bruyantes / rares

Une autre technique qui peut nous aider à éviter le surajustement, à réduire la consommation de mémoire et à améliorer la vitesse, est de supprimer tous les termes rares du vocabulaire. Par exemple, on peut éliminer tous les termes qui ne se sont produits qu'une seule fois dans toutes les catégories. La suppression de ces termes peut réduire considérablement l'utilisation de la mémoire et améliorer la vitesse de l'analyse. Enfin, il ne faut pas que cette technique puisse être utilisée en conjonction avec les algorithmes de sélection de caractéristiques ci-dessus.

L'article vous a plu? Veuillez prendre une minute pour la partager sur Twitter. 🙂

Horodatage:

Plus de Boîte de données