Regroupement de documents et de données gaussiennes avec des modèles de mélange de processus Dirichlet

Republié par Platon

Suiveurs: 0

Cet article est la cinquième partie du tutoriel sur Clustering avec DPMM. Dans les articles précédents, nous avons couvert en détail le contexte théorique de la méthode et nous avons décrit ses représentations mathématiquesmu et les moyens de la construire. Dans cet article, nous allons essayer de relier la théorie à la pratique en introduisant deux modèles DPMM: le modèle de mélange normal multivarié de Dirichlet qui peut être utilisé pour regrouper les données gaussiennes et le modèle de mélange Dirichlet-multinomial qui est utilisé pour regrouper les documents.

Mise à jour: le Datumbox Machine Learning Framework est désormais open-source et gratuit pour download. Consultez le package com.datumbox.framework.machinelearning.clustering pour voir l'implémentation de Dirichlet Process Mixture Models en Java.

1. Le modèle de mélange normal multivarié de Dirichlet

Le premier modèle de mélange de processus de Dirichlet que nous examinerons est le modèle de mélange normal multivarié de Dirichlet qui peut être utilisé pour effectuer un clustering sur des ensembles de données continus. Le modèle de mélange est défini comme suit:

Équation 1: Modèle de mélange normal multivarié de Dirichlet

Comme nous pouvons le voir ci-dessus, le modèle particulier suppose que la distribution générative est la distribution gaussienne multinomiale et utilise le processus du restaurant chinois comme précédemment pour les affectations de cluster. De plus pour la distribution de base G₀ il utilise le prior Normal-Inverse-Wishart qui est conjuguer avant de Distribution normale multivariée avec moyenne inconnue et matrice de covariance. Ci-dessous, nous présentons le modèle graphique du modèle de mélange:

Regroupement de documents et de données gaussiennes avec les modèles de mélange de processus Dirichlet PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
Figure 1: Modèle graphique du modèle de mélange normal multivarié de Dirichlet

Comme nous l'avons vu précédemment, afin de pouvoir estimer les attributions de cluster, nous utiliserons le Échantillonnage de Gibbs réduit ce qui nécessite de sélectionner le priors conjugués appropriés. De plus nous devrons mettre à jour les paramètres postérieurs donnés le prieur et la preuve. Ci-dessous, nous voyons le Estimations MAP des paramètres pour l'un des clusters:

Regroupement de documents et de données gaussiennes avec les modèles de mélange de processus Dirichlet PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
Équation 2: Estimations MAP sur les paramètres de cluster

Où d est la dimensionnalité de nos données et est la moyenne de l'échantillon. De plus, nous avons plusieurs hyperparamètres du Normal-Inverse-Wishart tels que le μ₀ qui est la moyenne initiale, κ₀ est la fraction moyenne qui fonctionne comme un paramètre de lissage, ν₀ est le degré de liberté qui correspond au nombre de dimensions et Ψ₀ est le produit d'écart par paire qui est fixé à la matrice d'identité dxd multipliée par une constante. Désormais tous les hyperparamètres précédents de G₀ sera noté λ pour simplifier la notation. Enfin, en ayant tout ce qui précède, nous pouvons estimer les probabilités requises par l'échantillonneur de Gibbs réduit. La probabilité que l'observation i appartienne au cluster k étant donné les attributions de cluster, l'ensemble de données et tous les hyperparamètres α et λ de DP et G₀est donné ci-dessous:

Regroupement de documents et de données gaussiennes avec les modèles de mélange de processus Dirichlet PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Équation 3: Probabilités utilisées par Gibbs Sampler pour MNMM

Où z_i est l'affectation de cluster de l'observation x_i, X_{1: n} est l'ensemble de données complet, z_-i est l'ensemble des affectations de cluster sans celle des i^th observation, x_-i est l'ensemble de données complet excluant le i^th observation, c_k_,-je est le nombre total d'observations attribuées à la grappe k à l'exclusion des i^th observation pendant et les sont la moyenne et la matrice de covariance de la grappe k excluant les i^th observation.

2. Le modèle de mélange Dirichlet-multinomial

Le modèle de mélange Dirichlet-Multinomial est utilisé pour effectuer une analyse de cluster de documents. Le modèle particulier a une hiérarchie un peu plus compliquée car il modélise les sujets / catégories des documents, les probabilités de mots dans chaque sujet, les attributions de cluster et la distribution générative des documents. Son objectif est d'effectuer un apprentissage non supervisé et de regrouper une liste de documents en les affectant à des groupes. Le modèle de mélange est défini comme suit:

Équation 4: Modèle de mélange Dirichlet-multinomial

Où φ modélise les probabilités du sujet, z_i est un sélecteur de sujet, θ_k sont les probabilités de mot dans chaque cluster et x_{je, j} représente les mots du document. Il faut noter que cette technique utilise le cadre du sac de mots qui représente les documents comme une collection non ordonnée de mots, sans tenir compte de la grammaire et de l'ordre des mots. Cette représentation simplifiée est couramment utilisée dans le traitement du langage naturel et la recherche d'informations. Ci-dessous, nous présentons le modèle graphique du modèle de mélange:

Regroupement de documents et de données gaussiennes avec les modèles de mélange de processus Dirichlet PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
Figure 2: Modèle graphique du modèle de mélange Dirichlet-multinomial

Le modèle particulier utilise Distribution discrète multinomiale pour la distribution générative et les distributions de Dirichlet pour les a priori. Le ℓ est la taille de nos clusters actifs, le n le nombre total de documents, le β contrôle le nombre de clusters a priori attendu tandis que α contrôle le nombre de mots attribués à chaque cluster. Pour estimer les probabilités requises par le Sampler de Gibbs effondré nous utilisons le équation suivante:

Regroupement de documents et de données gaussiennes avec les modèles de mélange de processus Dirichlet PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
Équation 5: Probabilités utilisées par Gibbs Sampler pour DMMM

Où Γ est la fonction gamma, z_i est l'affectation de cluster du document x_i, X_{1: n} est l'ensemble de données complet, z_-i est l'ensemble des affectations de cluster sans celle des i^th document, x_-i est l'ensemble de données complet excluant le i^th document, SUBST_k(z_-i) est le nombre d'observations attribuées à la grappe k à l'exclusion de i^th document, SUBST_z_=k(x_-i) est un vecteur avec les sommes des comptes pour chaque mot pour tous les documents affectés à la grappe k excluant i^th document et N (x_i) est le vecteur clairsemé avec le nombre de chaque mot dans le document x_i. Enfin, comme nous pouvons le voir ci-dessus, en utilisant le Sampler Gibbs Collapsed avec le Chinese Restaurant Process, le θ_jk La variable qui stocke la probabilité du mot j dans le sujet k peut être intégrée.

Horodatage: Le 30 juin 201418 juillet 2022

Horodatage: Le 9 novembre 2014

Regroupement de documents et de données gaussiennes avec Dirichlet Process Mixture Models

Republié par Platon

1. Le modèle de mélange normal multivarié de Dirichlet

2. Le modèle de mélange Dirichlet-multinomial

Plus de Boîte de données

La couche de normalisation par lots de Keras est rompue

Le modèle de mélange du procédé Dirichlet

Comment faire des sauvegardes S3 avec DejaDup sur Ubuntu 20.10

Datumbox Machine Learning Framework v0.8.2 publié

Nouvelle série de blogs – Mémoires d'un développeur TorchVision

Nouvelle série de blogs – Mémoires d'un développeur TorchVision

Tutoriel d'analyse d'enveloppement de données

Lancement de Datumbox Machine Learning Framework 0.6.0

5 conseils pour une formation multi-GPU avec Keras

Utilisation de méthodes de sélection d'entités dans la classification de texte

Modèle de mélange fini basé sur la distribution de Dirichlet

Comment installer et utiliser le Datumbox Machine Learning Framework

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte