Gruppering av dokumenter og gaussiske data med Dirichlet-prosessblandingsmodeller

Publisert av Platon

Følgere: 0

Denne artikkelen er den femte delen av opplæringen om Gruppering med DPMM. I de forrige innleggene dekket vi i detalj den teoretiske bakgrunnen til metoden, og vi beskrev dens matematiske representasjoner og måter å konstruere den på. I dette innlegget vil vi prøve å koble teorien med praksisen ved å introdusere to modeller DPMM: Dirichlet Multivariate Normal Mixture Model som kan brukes til å gruppere Gaussiske data og Dirichlet-Multinomial Mixture Model som brukes til å gruppere dokumenter.

Oppdatering: Datumbox Machine Learning Framework er nå åpen kildekode og gratis å nedlasting. Sjekk ut pakken com.datumbox.framework.machinelearning.clustering for å se implementeringen av Dirichlet Process Mixture Models i Java.

1. Dirichlet multivariat normal blandingsmodell

Den første Dirichlet-prosessblandingsmodellen som vi vil undersøke er Dirichlet Multivariate Normal Mixture Model som kan brukes til å utføre klynging på kontinuerlige datasett. Blandingsmodellen er definert som følger:

Ligning 1: Dirichlet multivariat normal blandingsmodell

Som vi kan se ovenfor, antar den spesielle modellen at den generative distribusjonen er den multinomiale gaussiske distribusjonen og bruker den kinesiske restaurant-prosessen som tidligere for klyngeoppdragene. Dessuten for basedistribusjonen G₀ den bruker Normal-Inverse-Wishart prior som er konjugerer tidligere av Multivariat Normalfordeling med ukjent gjennomsnitt og kovariansmatrise. Nedenfor presenterer vi den grafiske modellen for blandingsmodellen:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Figur 1: Grafisk modell av Dirichlet Multivariate Normal Mixture Model

Som vi diskuterte tidligere, for å kunne estimere klyngeoppdragene, vil vi bruke Samlet Gibbs-sampling som krever å velge passende konjugerte priors. I tillegg må vi oppdatere parametrene som er gitt forut og bevis. Nedenfor ser vi MAP estimater av parameterne for en av klyngene:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Ligning 2: KART-estimater på klyngeparametere

Hvor d er dimensjonaliteten til våre data og er prøvegjennomsnittet. Dessuten har vi flere hyperparametre for Normal-Inverse-Wishart som μ₀ som er startmiddelet, κ₀ er gjennomsnittsbrøken som fungerer som en utjevningsparameter, ν₀ er frihetsgradene som er satt til antall dimensjoner og Ψ₀ er det parvise avviksproduktet som er satt til dxd-identitetsmatrisen multiplisert med en konstant. Fra nå av alle de tidligere hyperparametrene til G₀ vil bli betegnet med λ for å forenkle notasjonen. Til slutt ved å ha alt det ovennevnte, kan vi estimere sannsynlighetene som kreves av Collapsed Gibbs Sampler. Sannsynligheten for at observasjon i skal tilhøre klynge k gitt klyngetilordningene, datasettet og alle hyperparametrene α og λ til DP og G₀er gitt nedenfor:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Ligning 3: Sannsynligheter brukt av Gibbs Sampler for MNMM

Hvor z_i er klyngetilordningen til observasjon x_i, x_1:n er det komplette datasettet, z_-i er settet med klyngetilordninger uten den av i^th observasjon, x_-i er det komplette datasettet unntatt i^th observasjon, c_k_,-Jeg er det totale antallet observasjoner tilordnet klynge k unntatt i^th observasjon mens og er gjennomsnittet og kovariansmatrisen til klyngen k unntatt i^th observasjon.

2. Dirichlet-multinomial blandingsmodellen

Dirichlet-Multinomial Mixture Model brukes til å utføre klyngeanalyse av dokumenter. Den bestemte modellen har et litt mer komplisert hierarki siden den modellerer dokumentenes emner/kategorier, ordsannsynlighetene innenfor hvert emne, klyngetilordningene og den generative distribusjonen av dokumentene. Målet er å utføre uovervåket læring og gruppere en liste over dokumenter ved å tilordne dem til grupper. Blandingsmodellen er definert som følger:

Ligning 4: Dirichlet-Multinomial blandingsmodell

Der φ modellerer emnesannsynlighetene, z_i er en emnevelger, θ_k er ordet sannsynligheter i hver klynge og x_{jeg, j} representerer dokumentordene. Vi bør merke oss at denne teknikken bruker bag-of-word rammeverk som representerer dokumentene som en uordnet samling av ord, sett bort fra grammatikk og ordrekkefølge. Denne forenklede representasjonen brukes ofte i naturlig språkbehandling og informasjonsinnhenting. Nedenfor presenterer vi den grafiske modellen for blandingsmodellen:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Figur 2: Grafisk modell av Dirichlet-Multinomial Mixture Model

Den spesielle modellen bruker Multinomial Diskret distribusjon for den generative fordeling og Dirichlet-fordelinger for priorene. ℓ er størrelsen på våre aktive klynger, n det totale antallet dokumenter, β kontrollerer det a priori forventede antallet klynger mens α kontrollerer antall ord som er tildelt hver klynge. For å estimere sannsynlighetene som kreves av Samarbeidet Gibbs Sampler vi bruker følgende ligning:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Ligning 5: Sannsynligheter brukt av Gibbs Sampler for DMMM

Der Γ er gammafunksjonen, z_i er klyngetilordningen til dokument x_i, x_1:n er det komplette datasettet, z_-i er settet med klyngetilordninger uten den av i^th dokument, x_-i er det komplette datasettet unntatt i^th dokument, N_k(z_-i) er antall observasjoner tilordnet klynge k unntatt i^th dokument, N_z_=k(x_-i) er en vektor med summen av antall for hvert ord for alle dokumentene som er tilordnet klynge k unntatt i^th dokument og N(x_i) er den sparsomme vektoren med antallet av hvert ord i dokument x_i. Til slutt, som vi kan se ovenfor, ved å bruke Collapsed Gibbs Sampler med den kinesiske restaurantprosessen θ_jk variabel som lagrer sannsynligheten for ord j i emne k kan integreres ut.

Tidstempel: Juni 30, 2014Juli 18, 2022

Tidstempel: November 9, 2014

Clustering av dokumenter og gaussiske data med Dirichlet Process Mixture Models

Publisert av Platon

1. Dirichlet multivariat normal blandingsmodell

2. Dirichlet-multinomial blandingsmodellen

Mer fra Datoboks

Batch Normalization-laget til Keras er ødelagt

Dirichlet Process Mixing Model

Hvordan ta S3-sikkerhetskopier med DejaDup på Ubuntu 20.10

Datumbox Machine Learning Framework v0.8.2 utgitt

Ny blogg -serie - Memoarer fra en TorchVision -utvikler

Ny blogg -serie - Memoarer fra en TorchVision -utvikler

Veiledning for dataomslutningsanalyse

Datumbox Machine Learning Framework 0.6.0 utgitt

5 tips for multi-GPU-trening med Keras

Bruke funksjonsvalgmetoder i tekstklassifisering

Endelig blandingsmodell basert på Dirichlet Distribution

Hvordan installere og bruke Datumbox Machine Learning Framework

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn