Clustering documente și date gaussiene cu modele de amestec de proces Dirichlet

Republicat de Platon

Urmaritori: 0

Acest articol este a cincea parte a tutorialului despre Clustering cu DPMM. În postările anterioare am acoperit în detaliu fundalul teoretic al metodei și am descris reprezentările ei matematice mu și modalitățile de construire a acesteia. În acest post vom încerca să legăm teoria cu practica prin introducerea a două modele DPMM: Modelul de amestec normal multivariat Dirichlet, care poate fi utilizat pentru a grupa datele gaussiene și Modelul de amestec Dirichlet-Multinomial, care este utilizat pentru a cluster documente.

Actualizare: Datumbox Machine Learning Framework este acum open-source și gratuit Descarca. Consultați pachetul com.datumbox.framework.machinelearning.clustering pentru a vedea implementarea modelelor Dirichlet Process Mixture în Java.

1. Modelul de amestec normal multivariat Dirichlet

Primul model de amestec al procesului Dirichlet pe care îl vom examina este Modelul de amestec normal multivariat Dirichlet, care poate fi utilizat pentru a realiza gruparea pe seturi de date continue. Modelul de amestec este definit după cum urmează:

Ecuația 1: Modelul de amestec normal multivariat Dirichlet

După cum putem vedea mai sus, modelul particular presupune că distribuția generativă este distribuția gaussiană multinomială și utilizează procesul restaurantului chinezesc ca anterior pentru atribuirea clusterului. Mai mult, pentru distribuția de bază G₀ folosește anterior Normal-Inverse-Wishart care este conjugat anterior de distribuție normală multivariată cu medie necunoscută și matrice de covarianță. Mai jos vă prezentăm Modelul Grafic al modelului de amestec:

Clustering documente și date gaussiane cu Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
Figura 1: Modelul grafic al modelului de amestec normal multivariat Dirichlet

După cum am discutat mai devreme, pentru a putea estima alocările clusterului, vom folosi Eșantionare Gibbs prăbușită care necesită selectarea anterioare conjugate adecvate. Mai mult, va trebui să actualizăm parametrii dați ulterior priorul şi dovezile. Mai jos vedem Estimări MAP a parametrilor pentru unul dintre clustere:

Clustering documente și date gaussiane cu Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
Ecuația 2: estimări MAP pentru parametrii clusterului

Unde d este dimensionalitatea datelor noastre și este media eșantionului. Mai mult, avem mai mulți hiperparametri ai Normal-Inverse-Wishart, cum ar fi μ₀ care este media inițială, κ₀ este fracția medie care funcționează ca parametru de netezire, ν₀ este gradele de libertate care sunt setate la numărul de dimensiuni și Ψ₀ este produsul abaterii perechi care este setat la matricea de identitate dxd înmulțit cu o constantă. De acum înainte toți hiperparametrii anteriori ai lui G₀ va fi notat cu λ pentru a simplifica notația. În cele din urmă, având toate cele de mai sus, putem estima probabilitățile cerute de Collapsed Gibbs Sampler. Probabilitatea ca observația i să aparțină clusterului k având în vedere atribuirile clusterului, setul de date și toți hiperparametrii α și λ ai DP și G₀este prezentat mai jos:

Clustering documente și date gaussiane cu Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Ecuația 3: Probabilități utilizate de Gibbs Sampler pentru MNMM

Unde z_i este atribuirea clusterului observației x_i, X_{1: n} este setul de date complet, z_-i este setul de atribuiri de cluster fără cea a i^th observație, x_-i este setul complet de date, excluzând i^th observație, c_k_{, -i} este numărul total de observații atribuite clusterului k excluzând i^th observare în timp ce și sunt media și matricea de covarianță a clusterului k excluzând i^th observare.

2. Modelul de amestec Dirichlet-Multinomial

Modelul Dirichlet-Multinomial Mixture este utilizat pentru a efectua analiza cluster a documentelor. Modelul particular are o ierarhie ceva mai complicată, deoarece modelează subiectele/categoriile documentelor, probabilitățile de cuvinte din cadrul fiecărui subiect, atribuirile de cluster și distribuția generativă a documentelor. Obiectivul său este de a efectua învățare nesupravegheată și de a grupa o listă de documente prin alocarea lor în grupuri. Modelul de amestec este definit după cum urmează:

Ecuația 4: Dirichlet-Multinomial Mixture Model

Unde φ modelează probabilitățile subiectului, z_i este un selector de subiecte, θ_k sunt probabilitățile cuvântului din fiecare grup și x_{i, j} reprezintă cuvintele documentului. Ar trebui să reținem că această tehnică folosește cadru sac-de-cuvinte care reprezintă documentele ca o colecție neordonată de cuvinte, fără a ține seama de gramatică și ordinea cuvintelor. Această reprezentare simplificată este utilizată în mod obișnuit în procesarea limbajului natural și regăsirea informațiilor. Mai jos vă prezentăm Modelul Grafic al modelului de amestec:

Clustering documente și date gaussiane cu Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
Figura 2: Modelul grafic al modelului de amestec Dirichlet-Multinomial

Modelul anume folosește Multinomial Distribuție discretă pentru distribuția generativă și distribuțiile Dirichlet pentru priori. ℓ este dimensiunea clusterelor noastre active, n numărul total de documente, β controlează numărul așteptat a priori de clustere, în timp ce α controlează numărul de cuvinte atribuite fiecărui grup. Pentru a estima probabilitățile cerute de Sampler Gibbs prăbușit noi folosim următoarea ecuație:

Clustering documente și date gaussiane cu Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Căutare verticală. Ai.
Ecuația 5: Probabilități utilizate de Gibbs Sampler pentru DMMM

Unde Γ este funcția gamma, z_i este atribuirea cluster a documentului x_i, X_{1: n} este setul de date complet, z_-i este setul de atribuiri de cluster fără cea a i^th document, x_-i este setul complet de date, excluzând i^th document, N_k(z_-i) este numărul de observații atribuite clusterului k excluzând i^th document, N_z_=k(x_-i) este un vector cu sumele numărurilor pentru fiecare cuvânt pentru toate documentele alocate grupului k excluzând i^th document și N(x_i) este vectorul rar cu numărul fiecărui cuvânt din documentul x_i. În cele din urmă, după cum putem vedea mai sus, folosind colapsed Gibbs Sampler cu restaurantul chinezesc, procesează θ_jk variabila care stochează probabilitatea cuvântului j în subiectul k poate fi integrată.

Timestamp-ul: 30 Iunie, 2014Iulie 18, 2022

Timestamp-ul: 20 Mai, 2014

Clustering documente și date gaussiene cu modele de amestec de proces Dirichlet

Republicat de Platon

1. Modelul de amestec normal multivariat Dirichlet

2. Modelul de amestec Dirichlet-Multinomial

Mai mult de la Datumbox

Cum să faceți copii de rezervă S3 cu DejaDup pe Ubuntu 20.10

Datumbox Machine Learning Framework versiunea 0.8.0 a fost lansată

Noua serie de bloguri – Memoriile unui dezvoltator TorchVision

Obținerea utilizării GPU de carduri NVIDIA cu instrumentul dstat Linux

Călătoria modernizării TorchVision – Memoriile unui dezvoltator TorchVision – 3

Dezvoltarea unui clasificator de texte Naive Bayes în JAVA

Utilizarea metodelor de selecție a caracteristicilor în clasificarea textului

Modelul de amestec al procesului Dirichlet

Măsurarea popularității social media a paginilor cu DEA în JAVA

Datumbox Machine Learning Framework 0.6.0 Publicat

Tutorial de analiză a dezvoltării datelor

Procesul Dirichlet Procesul restaurantului chinezesc și alte reprezentări

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont