Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Clustering av dokumenter og gaussiske data med Dirichlet Process Mixture Models

Denne artikkelen er den femte delen av opplæringen om Gruppering med DPMM. I de forrige innleggene dekket vi i detalj den teoretiske bakgrunnen til metoden, og vi beskrev dens matematiske representasjoner og måter å konstruere den på. I dette innlegget vil vi prøve å koble teorien med praksisen ved å introdusere to modeller DPMM: Dirichlet Multivariate Normal Mixture Model som kan brukes til å gruppere Gaussiske data og Dirichlet-Multinomial Mixture Model som brukes til å gruppere dokumenter.

Oppdatering: Datumbox Machine Learning Framework er nå åpen kildekode og gratis å nedlasting. Sjekk ut pakken com.datumbox.framework.machinelearning.clustering for å se implementeringen av Dirichlet Process Mixture Models i Java.

1. Dirichlet multivariat normal blandingsmodell

Den første Dirichlet-prosessblandingsmodellen som vi vil undersøke er Dirichlet Multivariate Normal Mixture Model som kan brukes til å utføre klynging på kontinuerlige datasett. Blandingsmodellen er definert som følger:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Ligning 1: Dirichlet multivariat normal blandingsmodell

Som vi kan se ovenfor, antar den spesielle modellen at den generative distribusjonen er den multinomiale gaussiske distribusjonen og bruker den kinesiske restaurant-prosessen som tidligere for klyngeoppdragene. Dessuten for basedistribusjonen G0 den bruker Normal-Inverse-Wishart prior som er konjugerer tidligere av Multivariat Normalfordeling med ukjent gjennomsnitt og kovariansmatrise. Nedenfor presenterer vi den grafiske modellen for blandingsmodellen:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Figur 1: Grafisk modell av Dirichlet Multivariate Normal Mixture Model

Som vi diskuterte tidligere, for å kunne estimere klyngeoppdragene, vil vi bruke Samlet Gibbs-sampling som krever å velge passende konjugerte priors. I tillegg må vi oppdatere parametrene som er gitt forut og bevis. Nedenfor ser vi MAP estimater av parameterne for en av klyngene:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Ligning 2: KART-estimater på klyngeparametere

Hvor d er dimensjonaliteten til våre data og Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. er prøvegjennomsnittet. Dessuten har vi flere hyperparametre for Normal-Inverse-Wishart som μ0 som er startmiddelet, κ0 er gjennomsnittsbrøken som fungerer som en utjevningsparameter, ν0 er frihetsgradene som er satt til antall dimensjoner og Ψ0 er det parvise avviksproduktet som er satt til dxd-identitetsmatrisen multiplisert med en konstant. Fra nå av alle de tidligere hyperparametrene til G0 vil bli betegnet med λ for å forenkle notasjonen. Til slutt ved å ha alt det ovennevnte, kan vi estimere sannsynlighetene som kreves av Collapsed Gibbs Sampler. Sannsynligheten for at observasjon i skal tilhøre klynge k gitt klyngetilordningene, datasettet og alle hyperparametrene α og λ til DP og G0 er gitt nedenfor:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Ligning 3: Sannsynligheter brukt av Gibbs Sampler for MNMM

Hvor zi er klyngetilordningen til observasjon xi, x1:n er det komplette datasettet, z-i er settet med klyngetilordninger uten den av ith observasjon, x-i er det komplette datasettet unntatt ith observasjon, ck,-Jeg er det totale antallet observasjoner tilordnet klynge k unntatt ith observasjon mens Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. og Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. er gjennomsnittet og kovariansmatrisen til klyngen k unntatt ith observasjon.

2. Dirichlet-multinomial blandingsmodellen

Dirichlet-Multinomial Mixture Model brukes til å utføre klyngeanalyse av dokumenter. Den bestemte modellen har et litt mer komplisert hierarki siden den modellerer dokumentenes emner/kategorier, ordsannsynlighetene innenfor hvert emne, klyngetilordningene og den generative distribusjonen av dokumentene. Målet er å utføre uovervåket læring og gruppere en liste over dokumenter ved å tilordne dem til grupper. Blandingsmodellen er definert som følger:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Ligning 4: Dirichlet-Multinomial blandingsmodell

Der φ modellerer emnesannsynlighetene, zi er en emnevelger, θk er ordet sannsynligheter i hver klynge og xjeg, j representerer dokumentordene. Vi bør merke oss at denne teknikken bruker bag-of-word rammeverk som representerer dokumentene som en uordnet samling av ord, sett bort fra grammatikk og ordrekkefølge. Denne forenklede representasjonen brukes ofte i naturlig språkbehandling og informasjonsinnhenting. Nedenfor presenterer vi den grafiske modellen for blandingsmodellen:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Figur 2: Grafisk modell av Dirichlet-Multinomial Mixture Model

Den spesielle modellen bruker Multinomial Diskret distribusjon for den generative fordeling og Dirichlet-fordelinger for priorene. ℓ er størrelsen på våre aktive klynger, n det totale antallet dokumenter, β kontrollerer det a priori forventede antallet klynger mens α kontrollerer antall ord som er tildelt hver klynge. For å estimere sannsynlighetene som kreves av Samarbeidet Gibbs Sampler vi bruker følgende ligning:

Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Klynger dokumenter og gaussiske data med Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Ligning 5: Sannsynligheter brukt av Gibbs Sampler for DMMM

Der Γ er gammafunksjonen, zi er klyngetilordningen til dokument xi, x1:n er det komplette datasettet, z-i er settet med klyngetilordninger uten den av ith dokument, x-i er det komplette datasettet unntatt ith dokument, Nk(z-i) er antall observasjoner tilordnet klynge k unntatt ith dokument, Nz=k(x-i) er en vektor med summen av antall for hvert ord for alle dokumentene som er tilordnet klynge k unntatt ith dokument og N(xi) er den sparsomme vektoren med antallet av hvert ord i dokument xi. Til slutt, som vi kan se ovenfor, ved å bruke Collapsed Gibbs Sampler med den kinesiske restaurantprosessen θjk variabel som lagrer sannsynligheten for ord j i emne k kan integreres ut.

Tidstempel:

Mer fra Datoboks