Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Documenten en Gauss-gegevens clusteren met Dirichlet Process Mixture Models

Dit artikel is het vijfde deel van de tutorial over Clusteren met DPMM. In de vorige berichten hebben we de theoretische achtergrond van de methode in detail besproken en hebben we de wiskundige representaties ervanmu en manieren om deze te construeren beschreven. In deze post zullen we proberen de theorie te koppelen aan de praktijk door twee modellen DPMM te introduceren: het Dirichlet Multivariate Normal Mixture Model dat kan worden gebruikt om Gauss-gegevens te clusteren en het Dirichlet-Multinomial Mixture Model dat wordt gebruikt om documenten te clusteren.

Update: het Datumbox Machine Learning Framework is nu open-source en gratis voor Download. Bekijk het pakket com.datumbox.framework.machinelearning.clustering om de implementatie van Dirichlet Process Mixture Models in Java te zien.

1. Het Dirichlet Multivariate Normaal Mengselmodel

Het eerste Dirichlet-procesmengselmodel dat we zullen onderzoeken, is het Dirichlet Multivariate Normal Mixture Model dat kan worden gebruikt om clustering uit te voeren op continue datasets. Het mengselmodel wordt als volgt gedefinieerd:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Vergelijking 1: Dirichlet multivariate normaal mengselmodel

Zoals we hierboven kunnen zien, gaat het specifieke model ervan uit dat de generatieve distributie de multinomiale Gauss-distributie is en gebruikt het het Chinese restaurantproces zoals eerder voor de clustertoewijzingen. Bovendien voor de basisverdeling G0 het gebruikt de Normal-Inverse-Wishart die daarvoor is conjugeren voorafgaand van Multivariate Normale distributie met onbekend gemiddelde en covariantiematrix. Hieronder presenteren we het grafische model van het mengselmodel:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Figuur 1: grafisch model van Dirichlet multivariate normaal mengselmodel

Zoals we eerder bespraken, zullen we, om de clusteropdrachten te kunnen schatten, de Ingestorte Gibbs-steekproef die vereist het selecteren van de geschikte geconjugeerde priors. Bovendien zullen we de parameters achteraf moeten bijwerken de prior en het bewijs. Hieronder zien we de MAP-schattingen van de parameters voor een van de clusters:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Vergelijking 2: MAP-schattingen voor clusterparameters

Waar d is de dimensionaliteit van onze gegevens en Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. is het steekproefgemiddelde. Bovendien hebben we verschillende hyperparameters van de Normal-Inverse-Wishart zoals de ฮผ0 wat het initiรซle gemiddelde is, ฮบ0 is de gemiddelde breuk die werkt als een afvlakparameter, ฮฝ0 is de vrijheidsgraden die is ingesteld op het aantal afmetingen en ฮจ0 is het paarsgewijze afwijkingsproduct dat is ingesteld op de dxd-identiteitsmatrix vermenigvuldigd met een constante. Vanaf nu zijn alle voorgaande hyperparameters van G0 wordt aangegeven met ฮป om de notatie te vereenvoudigen. Door tenslotte al het bovenstaande te hebben, kunnen we de waarschijnlijkheden schatten die vereist zijn door de Collapsed Gibbs Sampler. De kans dat observatie i tot cluster k behoort, gezien de clustertoewijzingen, de dataset en alle hyperparameters ฮฑ en ฮป van DP en G0 wordt hieronder gegeven:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Vergelijking 3: kansen gebruikt door Gibbs Sampler voor MNMM

Waar zi is de clustertoewijzing van observatie xi, x1: n is de complete dataset, z-i is de set van clustertoewijzingen zonder die van de ith observatie, x-i is de volledige dataset exclusief de ith observatie, ck,-ik is het totale aantal waarnemingen toegewezen aan cluster k exclusief de ith observatie terwijl Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. en Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. zijn de gemiddelde en covariantiematrix van cluster k exclusief de ith observatie.

2. Het Dirichlet-multinomiale mengselmodel

Het Dirichlet-Multinomial Mixture Model wordt gebruikt om clusteranalyse van documenten uit te voeren. Het specifieke model heeft een iets ingewikkelder hiรซrarchie omdat het de onderwerpen / categorieรซn van de documenten, de woordkansen binnen elk onderwerp, de clustertoewijzingen en de generatieve distributie van de documenten modelleert. Het doel is om zonder toezicht te leren en een lijst met documenten te clusteren door ze aan groepen toe te wijzen. Het mengselmodel wordt als volgt gedefinieerd:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Vergelijking 4: Dirichlet-multinomiaal mengselmodel

Waar ฯ† de onderwerpkansen modelleert, zi is een onderwerpselector, ฮธk zijn de woordkansen in elk cluster en xik, j vertegenwoordigt de documentwoorden. We moeten opmerken dat deze techniek de zak van woorden kader die de documenten voorstelt als een ongeordende verzameling woorden, zonder rekening te houden met grammatica en woordvolgorde. Deze vereenvoudigde weergave wordt vaak gebruikt bij natuurlijke taalverwerking en het ophalen van informatie. Hieronder presenteren we het grafische model van het mengselmodel:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Figuur 2: grafisch model van het Dirichlet-Multinomial Mixture Model

Het specifieke model gebruikt Multinomiale discrete distributie voor de generatieve distributie en Dirichlet-distributies voor de priors. De โ„“ is de grootte van onze actieve clusters, de n het totale aantal documenten, de ฮฒ bepaalt het a priori verwachte aantal clusters, terwijl de ฮฑ het aantal woorden bepaalt dat aan elke cluster is toegewezen. Om de kansen te schatten die de Ingestorte Gibbs-sampler wij gebruiken de volgende vergelijking:

Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Clustering van documenten en Gauss-gegevens met Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Vergelijking 5: kansen gebruikt door Gibbs Sampler voor DMMM

Waar ฮ“ de gammafunctie is, zi is de clustertoewijzing van document xi, x1: n is de complete dataset, z-i is de set van clustertoewijzingen zonder die van de ith document, x-i is de volledige dataset exclusief de ith document, nrk(z-i) is het aantal waarnemingen toegewezen aan cluster k exclusief ith document, nrz=k(x-i) is een vector met de telsommen voor elk woord voor alle documenten die zijn toegewezen aan cluster k met uitzondering van ith document en N (xi) is de schaarse vector met de tellingen van elk woord in document xi. Tot slot, zoals we hierboven kunnen zien, gebruik je de la als je de samengevouwen Gibbs-sampler met het Chinese restaurantproces gebruiktjk variabele die de waarschijnlijkheid van woord j in onderwerp k opslaat kan worden geรฏntegreerd.

Tijdstempel:

Meer van Datumbox