Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.

Belgeleri ve Gauss verilerini Dirichlet Proses Karışım Modelleri ile kümeleme

Bu makale, eğitimin beşinci bölümüdür. DPMM ile Kümeleme. Önceki gönderilerde yöntemin teorik arka planını ayrıntılı olarak ele aldık ve matematiksel temsillerini ve onu inşa etme yollarını anlattık. Bu yazıda, iki model DPMM sunarak teoriyi pratiğe bağlamaya çalışacağız: Gauss verilerini kümelemek için kullanılabilecek Dirichlet Çok Değişkenli Normal Karışım Modeli ve belgeleri kümelemek için kullanılan Dirichlet-Çok Terimli Karışım Modeli.

Güncelleme: Datumbox Machine Learning Framework artık açık kaynak kodlu ve ücretsiz indir. Java'da Dirichlet Proses Karışım Modellerinin uygulanmasını görmek için com.datumbox.framework.machinelearning.clustering paketini inceleyin.

1. Dirichlet Çok Değişkenli Normal Karışım Modeli

İnceleyeceğimiz ilk Dirichlet Süreci karışım modeli, sürekli veri kümeleri üzerinde kümeleme yapmak için kullanılabilen Dirichlet Çok Değişkenli Normal Karışım Modelidir. Karışım modeli şu şekilde tanımlanır:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Denklem 1: Dirichlet Çok Değişkenli Normal Karışım Modeli

Yukarıda görebileceğimiz gibi, belirli model, Üretken Dağıtımın Çok Terimli Gauss Dağılımı olduğunu varsayar ve küme atamaları için önceki gibi Çin Restoranı sürecini kullanır. Üstelik Temel dağıtım G için0 Normal-Ters-Wishart öncesini kullanır; önceki eşlenik Bilinmeyen ortalama ve kovaryans matrisi ile Çok Değişkenli Normal dağılım. Aşağıda karışım modelinin Grafik Modelini sunuyoruz:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Şekil 1: Dirichlet Çok Değişkenli Normal Karışım Modelinin Grafik Modeli

Daha önce tartıştığımız gibi, küme atamalarını tahmin edebilmek için, Daraltılmış Gibbs örneklemesi bu, seçmeyi gerektirir uygun eşlenik öncelikler. Ayrıca, verilen posterior parametreleri güncellememiz gerekecek önceki ve kanıt. Aşağıda görüyoruz MAP tahminleri kümelerden biri için parametrelerin:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Denklem 2: Küme Parametrelerinde MAP tahminleri

D, verilerimizin boyutudur ve Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai. örnek ortalamadır. Ayrıca, μ gibi Normal-Ters-Wishart'ın birkaç hiperparametresine sahibiz.0 bu başlangıç ​​ortalamasıdır, κ0 yumuşatma parametresi olarak çalışan ortalama kesirdir, ν0 boyutların sayısına ayarlanan serbestlik derecesidir ve Ψ0 bir sabit ile çarpılan dxd kimlik matrisine ayarlanan ikili sapma ürünüdür. Şu andan itibaren G'nin tüm önceki hiperparametreleri0 gösterimi basitleştirmek için λ ile gösterilecektir. Son olarak, yukarıdakilerin tümüne sahip olarak, Daraltılmış Gibbs Örnekleyicisinin gerektirdiği olasılıkları tahmin edebiliriz. Küme atamaları, veri kümesi ve DP ile G'nin tüm hiperparametreleri α ve λ verildiğinde, i gözleminin k kümesine ait olma olasılığı0 aşağıda verilmiştir:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Denklem 3: Gibbs Sampler tarafından MNMM için kullanılan olasılıklar

Nerede zi gözlemin küme atamasıdır xi, x1: n, tam veri kümesidir, z-i i'nin biri olmadan küme atamaları kümesidirth gözlem, x-i i hariç tam veri kümesidirth gözlem, ck,-ben i hariç k kümesine atanan toplam gözlem sayısıdırth sırasında gözlem Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai. ve Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai. i hariç k kümesinin ortalama ve kovaryans matrisidirth gözlem.

2. Dirichlet-Multinomial Karışım Modeli

Dirichlet-Multinomial Karışım Modeli, belgelerin küme analizi yapmak için kullanılır. Belli model, belgelerin konularını / kategorilerini, her bir konudaki kelime olasılıklarını, küme atamalarını ve belgelerin üretken dağılımını modellediği için biraz daha karmaşık bir hiyerarşiye sahiptir. Hedefi, denetimsiz öğrenme gerçekleştirmek ve bir belge listesini gruplara atayarak kümelemektir. Karışım modeli şu şekilde tanımlanır:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Denklem 4: Dirichlet-Multinomial Karışım Modeli

Φ konu olasılıklarını modellerken, zi konu seçicidir, θk her kümedeki kelime olasılıkları ve xi, j belge sözcüklerini temsil eder. Bu tekniğin kullandığını not etmeliyiz kelimeler torbası çerçevesi Bu, belgeleri dilbilgisi ve kelime sırasını göz ardı ederek sırasız bir kelime koleksiyonu olarak temsil eder. Bu basitleştirilmiş temsil, genellikle doğal dil işleme ve bilgi erişiminde kullanılır. Aşağıda karışım modelinin Grafik Modelini sunuyoruz:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Şekil 2: Dirichlet-Multinomial Karışım Modelinin Grafik Modeli

Belirli model kullanır Çok terimli Ayrık dağılım üretimsel dağıtım için ve öncelikler için Dirichlet dağıtımları. ℓ aktif kümelerimizin boyutu, n toplam belge sayısı, β önceden beklenen küme sayısını kontrol ederken, α her kümeye atanan kelimelerin sayısını kontrol eder. Gereksinim duyduğu olasılıkları tahmin etmek için Daraltılmış Gibbs Örnekleyici kullanıyoruz aşağıdaki denklem:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence ile belgeleri ve gauss verilerini kümeleme. Dikey Arama. Ai.
Denklem 5: Gibbs Sampler tarafından DMMM için kullanılan olasılıklar

Γ gama işlevi nerede, zi x belgesinin küme atamasıdıri, x1: n, tam veri kümesidir, z-i i'nin biri olmadan küme atamaları kümesidirth belge, x-i i hariç tam veri kümesidirth belge, Nk(z-i) i hariç k kümesine atanan gözlemlerin sayısıdırth belge, Nz=k(x-i), i hariç k kümesine atanan tüm belgeler için her kelime için toplam sayımları içeren bir vektördür.th belge ve N (xi) x belgesindeki her sözcüğün sayısını içeren seyrek vektördüri. Son olarak, yukarıda görebileceğimiz gibi, Çin Restoranı İşlemi ile Çöktürülmüş Gibbs Örnekleyicisini kullanarak θjk k konusundaki j kelimesinin olasılığını saklayan değişken entegre edilebilir.

Zaman Damgası:

Den fazla Veri kutusu