Klynger af dokumenter og gaussiske data med Dirichlet-procesblandingsmodeller

Genudgivet af Platon

Abonnenter: 0

Denne artikel er den femte del af selvstudiet om Klynger med DPMM. I de tidligere indlæg dækkede vi i detaljer den teoretiske baggrund for metoden, og vi beskrev dens matematiske repræsentationermu og måder at konstruere den på. I dette indlæg vil vi forsøge at forbinde teorien med praksis ved at introducere to modeller DPMM: Dirichlet Multivariate Normal Mixture Model, som kan bruges til at klynge Gaussiske data og Dirichlet-Multinomial Mixture Model, som bruges til at klynge dokumenter.

Opdatering: Datumbox Machine Learning Framework er nu open source og gratis til downloade. Tjek pakken com.datumbox.framework.machinelearning.clustering for at se implementeringen af Dirichlet Process Mixture Models i Java.

1. Dirichlet multivariat normal blandingsmodel

Den første Dirichlet-procesblandingsmodel, som vi vil undersøge, er Dirichlet Multivariate Normal Mixture Model, som kan bruges til at udføre clustering på kontinuerlige datasæt. Blandingsmodellen er defineret som følger:

Ligning 1: Dirichlet multivariat normal blandingsmodel

Som vi kan se ovenfor, antager den særlige model, at den generative distribution er den multinomiale gaussiske distribution og bruger den kinesiske restaurant-proces som tidligere for klyngetildelingerne. Desuden for basisfordelingen G₀ den bruger Normal-Inverse-Wishart prior, som er konjugere forud af Multivariat Normalfordeling med ukendt middelværdi og kovariansmatrix. Nedenfor præsenterer vi den grafiske model af blandingsmodellen:

Klynger af dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
Figur 1: Grafisk model af Dirichlet multivariat normal blandingsmodel

Som vi diskuterede tidligere, for at kunne estimere klyngetildelingerne, vil vi bruge Kollapset Gibbs prøveudtagning hvilket kræver valg af passende konjugerede priors. Desuden bliver vi nødt til at opdatere parametrene bagud forud og beviser. Nedenfor ser vi MAP estimater af parametrene for en af klyngerne:

Klynger af dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
Ligning 2: MAP-estimater på klyngeparametre

Hvor d er dimensionaliteten af vores data og er prøvegennemsnittet. Desuden har vi flere hyperparametre for Normal-Inverse-Wishart, såsom μ₀ som er den indledende middelværdi, κ₀ er middelbrøken, der fungerer som en udjævningsparameter, ν₀ er de frihedsgrader, som er sat til antallet af dimensioner og Ψ₀ er det parvise afvigelsesprodukt, som er sat til dxd-identitetsmatrixen ganget med en konstant. Fra nu af alle de tidligere hyperparametre i G₀ vil blive betegnet med λ for at forenkle notationen. Endelig ved at have alt det ovenstående kan vi estimere de sandsynligheder, der kræves af Collapsed Gibbs Sampler. Sandsynligheden for, at observation i hører til klynge k givet klyngetildelingerne, datasættet og alle hyperparametrene α og λ af DP og G₀er givet nedenfor:

Klynger af dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Ligning 3: Sandsynligheder brugt af Gibbs Sampler for MNMM

Hvor z_i er klyngetildelingen af observation x_i, x_1:n er det komplette datasæt, z_-i er sættet af klyngetildelinger uden den af i^th observation, x_-i er det komplette datasæt eksklusive i^th observation, c_k_,-jeg er det samlede antal observationer, der er tildelt klynge k ekskl. i^th observation mens , er middelværdien og kovariansmatrixen for klynge k ekskl. i^th observation.

2. Dirichlet-multinomial blandingsmodel

Dirichlet-Multinomial Mixture Model bruges til at udføre klyngeanalyse af dokumenter. Den særlige model har et lidt mere kompliceret hierarki, da den modellerer dokumenternes emner/kategorier, ordsandsynligheder inden for hvert emne, klyngetildelinger og den generative fordeling af dokumenterne. Dens mål er at udføre uovervåget læring og gruppere en liste over dokumenter ved at tildele dem til grupper. Blandingsmodellen er defineret som følger:

Ligning 4: Dirichlet-multinomial blandingsmodel

Hvor φ modellerer emnesandsynligheder, z_i er en emnevælger, θ_k er ordsandsynligheder i hver klynge og x_{i, j} repræsenterer dokumentets ord. Vi skal bemærke, at denne teknik bruger pose-of-word ramme der repræsenterer dokumenterne som en uordnet samling af ord, der ser bort fra grammatik og ordstilling. Denne forenklede repræsentation er almindeligt anvendt i naturlig sprogbehandling og informationssøgning. Nedenfor præsenterer vi den grafiske model af blandingsmodellen:

Klynger af dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
Figur 2: Grafisk model af Dirichlet-multinomial blandingsmodellen

Den særlige model bruger Multinomial Diskret fordeling for den generative fordeling og Dirichlet-fordelinger for priorne. ℓ er størrelsen af vores aktive klynger, n det samlede antal dokumenter, β styrer det a priori forventede antal klynger, mens α kontrollerer antallet af ord, der er tildelt hver klynge. At estimere de sandsynligheder, der kræves af Sammenklappet Gibbs Sampler vi bruger følgende ligning:

Klynger af dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
Ligning 5: Sandsynligheder brugt af Gibbs Sampler til DMMM

Hvor Γ er gammafunktionen, z_i er klyngetildelingen af dokument x_i, x_1:n er det komplette datasæt, z_-i er sættet af klyngetildelinger uden den af i^th dokument, x_-i er det komplette datasæt eksklusive i^th dokument, N_k(z_-i) er antallet af observationer tildelt til klynge k ekskl. i^th dokument, N_z_=k(x_-i) er en vektor med summen af antal for hvert ord for alle de dokumenter, der er tildelt til klynge k undtagen i^th dokument og N(x_i) er den sparsomme vektor med antallet af hvert ord i dokument x_i. Endelig, som vi kan se ovenfor, ved at bruge Collapsed Gibbs Sampler med den kinesiske restaurantproces, θ_jk variabel som gemmer sandsynligheden for ord j i emne k kan integreres ud.

Tidsstempel: 30. Juni, 2014Juli 18, 2022

Tidsstempel: Juli 7, 2014

Klynger af dokumenter og gaussiske data med Dirichlet Process Mixture Models

Genudgivet af Platon

1. Dirichlet multivariat normal blandingsmodel

2. Dirichlet-multinomial blandingsmodel

Mere fra Datumboks

Datumbox Machine Learning Framework version 0.8.0 udgivet

Dirichlet-processen den kinesiske restaurantproces og andre repræsentationer

Datumbox Machine Learning Framework v0.8.2 udgivet

Sådan installeres og bruger du Datumbox Machine Learning Framework

Brug af funktionsvalgmetoder i tekstklassificering

Borer i Sparks ALS-anbefalingsalgoritme

5 tips til multi-GPU-træning med Keras

Finite Mixture Model baseret på Dirichlet Distribution

Udvikling af en naiv Bayes-tekstklassificering i JAVA

Et smugkig på TorchVision v0.11 – Memoirs of a TorchVision-udvikler – 2

Brug af kunstig intelligens til at løse 2048-spillet (JAVA-kode)

Clustering med Dirichlet Process Mixture Model i Java

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto