Clustering van documenten en Gauss-gegevens met Dirichlet-procesmengselmodellen

Heruitgegeven door Plato

volgers: 0

Dit artikel is het vijfde deel van de tutorial over Clusteren met DPMM. In de vorige berichten hebben we de theoretische achtergrond van de methode in detail besproken en hebben we de wiskundige representaties ervanmu en manieren om deze te construeren beschreven. In deze post zullen we proberen de theorie te koppelen aan de praktijk door twee modellen DPMM te introduceren: het Dirichlet Multivariate Normal Mixture Model dat kan worden gebruikt om Gauss-gegevens te clusteren en het Dirichlet-Multinomial Mixture Model dat wordt gebruikt om documenten te clusteren.

Update: het Datumbox Machine Learning Framework is nu open-source en gratis voor Download. Bekijk het pakket com.datumbox.framework.machinelearning.clustering om de implementatie van Dirichlet Process Mixture Models in Java te zien.

1. Het Dirichlet Multivariate Normaal Mengselmodel

Het eerste Dirichlet-procesmengselmodel dat we zullen onderzoeken, is het Dirichlet Multivariate Normal Mixture Model dat kan worden gebruikt om clustering uit te voeren op continue datasets. Het mengselmodel wordt als volgt gedefinieerd:

Vergelijking 1: Dirichlet multivariate normaal mengselmodel

Zoals we hierboven kunnen zien, gaat het specifieke model ervan uit dat de generatieve distributie de multinomiale Gauss-distributie is en gebruikt het het Chinese restaurantproces zoals eerder voor de clustertoewijzingen. Bovendien voor de basisverdeling G₀ het gebruikt de Normal-Inverse-Wishart die daarvoor is conjugeren voorafgaand van Multivariate Normale distributie met onbekend gemiddelde en covariantiematrix. Hieronder presenteren we het grafische model van het mengselmodel:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Figuur 1: grafisch model van Dirichlet multivariate normaal mengselmodel

Zoals we eerder bespraken, zullen we, om de clusteropdrachten te kunnen schatten, de Ingestorte Gibbs-steekproef die vereist het selecteren van de geschikte geconjugeerde priors. Bovendien zullen we de parameters achteraf moeten bijwerken de prior en het bewijs. Hieronder zien we de MAP-schattingen van de parameters voor een van de clusters:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Vergelijking 2: MAP-schattingen voor clusterparameters

Waar d is de dimensionaliteit van onze gegevens en is het steekproefgemiddelde. Bovendien hebben we verschillende hyperparameters van de Normal-Inverse-Wishart zoals de μ₀ wat het initiële gemiddelde is, κ₀ is de gemiddelde breuk die werkt als een afvlakparameter, ν₀ is de vrijheidsgraden die is ingesteld op het aantal afmetingen en Ψ₀ is het paarsgewijze afwijkingsproduct dat is ingesteld op de dxd-identiteitsmatrix vermenigvuldigd met een constante. Vanaf nu zijn alle voorgaande hyperparameters van G₀ wordt aangegeven met λ om de notatie te vereenvoudigen. Door tenslotte al het bovenstaande te hebben, kunnen we de waarschijnlijkheden schatten die vereist zijn door de Collapsed Gibbs Sampler. De kans dat observatie i tot cluster k behoort, gezien de clustertoewijzingen, de dataset en alle hyperparameters α en λ van DP en G₀wordt hieronder gegeven:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Vergelijking 3: kansen gebruikt door Gibbs Sampler voor MNMM

Waar z_i is de clustertoewijzing van observatie x_i, x_{1: n} is de complete dataset, z_-i is de set van clustertoewijzingen zonder die van de i^th observatie, x_-i is de volledige dataset exclusief de i^th observatie, c_k_,-ik is het totale aantal waarnemingen toegewezen aan cluster k exclusief de i^th observatie terwijl en zijn de gemiddelde en covariantiematrix van cluster k exclusief de i^th observatie.

2. Het Dirichlet-multinomiale mengselmodel

Het Dirichlet-Multinomial Mixture Model wordt gebruikt om clusteranalyse van documenten uit te voeren. Het specifieke model heeft een iets ingewikkelder hiërarchie omdat het de onderwerpen / categorieën van de documenten, de woordkansen binnen elk onderwerp, de clustertoewijzingen en de generatieve distributie van de documenten modelleert. Het doel is om zonder toezicht te leren en een lijst met documenten te clusteren door ze aan groepen toe te wijzen. Het mengselmodel wordt als volgt gedefinieerd:

Vergelijking 4: Dirichlet-multinomiaal mengselmodel

Waar φ de onderwerpkansen modelleert, z_i is een onderwerpselector, θ_k zijn de woordkansen in elk cluster en x_{ik, j} vertegenwoordigt de documentwoorden. We moeten opmerken dat deze techniek de zak van woorden kader die de documenten voorstelt als een ongeordende verzameling woorden, zonder rekening te houden met grammatica en woordvolgorde. Deze vereenvoudigde weergave wordt vaak gebruikt bij natuurlijke taalverwerking en het ophalen van informatie. Hieronder presenteren we het grafische model van het mengselmodel:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Figuur 2: grafisch model van het Dirichlet-Multinomial Mixture Model

Het specifieke model gebruikt Multinomiale discrete distributie voor de generatieve distributie en Dirichlet-distributies voor de priors. De ℓ is de grootte van onze actieve clusters, de n het totale aantal documenten, de β bepaalt het a priori verwachte aantal clusters, terwijl de α het aantal woorden bepaalt dat aan elke cluster is toegewezen. Om de kansen te schatten die de Ingestorte Gibbs-sampler wij gebruiken de volgende vergelijking:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Vergelijking 5: kansen gebruikt door Gibbs Sampler voor DMMM

Waar Γ de gammafunctie is, z_i is de clustertoewijzing van document x_i, x_{1: n} is de complete dataset, z_-i is de set van clustertoewijzingen zonder die van de i^th document, x_-i is de volledige dataset exclusief de i^th document, nr_k(z_-i) is het aantal waarnemingen toegewezen aan cluster k exclusief i^th document, nr_z_=k(x_-i) is een vector met de telsommen voor elk woord voor alle documenten die zijn toegewezen aan cluster k met uitzondering van i^th document en N (x_i) is de schaarse vector met de tellingen van elk woord in document x_i. Tot slot, zoals we hierboven kunnen zien, gebruik je de la als je de samengevouwen Gibbs-sampler met het Chinese restaurantproces gebruikt_jk variabele die de waarschijnlijkheid van woord j in onderwerp k opslaat kan worden geïntegreerd.

Tijdstempel: 30 June 201418 juli 2022

Tijdstempel: 4 mei 2015

Documenten en Gauss-gegevens clusteren met Dirichlet Process Mixture Models

Heruitgegeven door Plato

1. Het Dirichlet Multivariate Normaal Mengselmodel

2. Het Dirichlet-multinomiale mengselmodel

Meer van Datumbox

Datumbox Machine Learning Framework v0.8.2 uitgebracht

Functieselectiemethoden gebruiken in tekstclassificatie

Tutorial voor analyse van gegevensomhulling

Het Dirichlet-procesmengselmodel

De batch-normalisatielaag van Keras is verbroken

Clustering met Dirichlet Process Mixture Model in Java

Kunstmatige intelligentie gebruiken om het 2048-spel op te lossen (JAVA-code)

Nieuw open-source Machine Learning Framework geschreven in Java

De reis van het moderniseren van TorchVision - Memoirs of a TorchVision-ontwikkelaar - 3

Het Dirichlet-proces het Chinese restaurantproces en andere representaties

Datumbox Machine Learning Framework versie 0.8.0 is uitgebracht

Datumbox Machine Learning Framework 0.6.0 vrijgegeven

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account