Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Klaster dokumen dan data gaussian dengan Model Campuranch Proses Dirichlet

Artikel ini adalah bagian kelima dari tutorial tentang Clustering dengan DPMM. Dalam posting sebelumnya kita bahas secara rinci latar belakang teoritis dari metode ini dan kami menggambarkan representasi matematika Anda dan cara untuk membangunnya. Dalam posting ini kami akan mencoba untuk menghubungkan teori dengan praktik dengan memperkenalkan dua model DPMM: Model Campuran Normal Dirichlet Multivariat yang dapat digunakan untuk mengelompokkan data Gaussian dan Model Campuran Dirichlet-Multinomial yang digunakan untuk mengelompokkan dokumen.

Pembaruan: Kerangka Pembelajaran Mesin Datumbox sekarang open-source dan bebas untuk Download. Lihatlah paket com.datumbox.framework.machinelearning.clustering untuk melihat implementasi Model Campuranch Prosesch Dirichlet di Jawa.

1. Model Campuran Normal Dirichlet Multivariat

Model campuran Dirichlet Process pertama yang akan kita periksa adalah Dirichlet Multivariate Normal Mixture Model yang dapat digunakan untuk melakukan pengelompokan pada dataset terus menerus. Model campuran didefinisikan sebagai berikut:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Persamaan 1: Model Campuran Normal Dirichlet Multivariat

Seperti yang dapat kita lihat di atas, model tertentu mengasumsikan bahwa Distribusi Generatif adalah Distribusi Gaussian Multinomial dan menggunakan proses Restoran Cina sebagai sebelumnya untuk penugasan klaster. Apalagi untuk distribusi Basis G0 ia menggunakan Normal-Inverse-Wishart sebelumnya konjugasi sebelumnya distribusi Multivariat Normal dengan mean tidak diketahui dan matriks kovarians. Di bawah ini kami sajikan Model Grafis dari model campuran:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Gambar 1: Model Grafis Model Campuran Normal Dirichlet Multivariat

Seperti yang telah kita bahas sebelumnya, agar dapat memperkirakan tugas cluster, kami akan menggunakan Pengambilan sampel Gibbs yang diciutkan yang membutuhkan pemilihan prior konjugat yang sesuai. Selain itu kita perlu memperbarui parameter yang diberikan posterior sebelum dan bukti. Di bawah ini kita melihat Perkiraan MAP parameter untuk salah satu cluster:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Persamaan 2: Perkiraan MAP pada Parameter Cluster

Di mana d adalah dimensi data kami dan Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. adalah mean sampel. Selain itu kami memiliki beberapa hyperparameters dari Normal-Inverse-Wishart seperti μ0 yang merupakan mean awal, κ0 adalah pecahan rata-rata yang berfungsi sebagai parameter penghalusan, ν0 adalah derajat kebebasan yang diatur ke jumlah dimensi dan Ψ0 adalah produk deviasi berpasangan yang diatur ke matriks identitas dxd dikalikan dengan konstanta. Mulai sekarang semua hiperparameter G sebelumnya0 akan dilambangkan dengan λ untuk menyederhanakan notasi. Akhirnya dengan memiliki semua hal di atas, kita dapat memperkirakan probabilitas yang diperlukan oleh Collapsed Gibbs Sampler. Probabilitas pengamatan saya menjadi milik cluster k diberikan tugas cluster, dataset dan semua hiperparameter α dan λ dari DP dan G0 diberikan di bawah ini:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Persamaan 3: Probabilitas yang digunakan oleh Gibbs Sampler untuk MNMM

Dimana zi adalah penugasan cluster observasi xi, X1: n adalah dataset lengkap, z-i adalah himpunan tugas cluster tanpa salah satu dari ith observasi, x-i adalah dataset lengkap tidak termasuk ith observasi, ck,-saya adalah jumlah total pengamatan yang ditugaskan untuk klaster k tidak termasuk ith observasi sementara Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. dan Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. adalah rata-rata dan matriks kovarians dari cluster k tidak termasuk ith pengamatan.

2. Model Campuran Dirichlet-Multinomial

Model Campuranch Diri-Multinomial digunakan untuk melakukan analisis kluster dokumen. Model tertentu memiliki hierarki yang sedikit lebih rumit karena memodelkan topik / kategori dokumen, probabilitas kata dalam setiap topik, penugasan kluster dan distribusi generatif dokumen. Targetnya adalah untuk melakukan pembelajaran tanpa pengawasan dan mengelompokkan daftar dokumen dengan menugaskan mereka ke dalam kelompok. Model campuran didefinisikan sebagai berikut:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Persamaan 4: Model Campuran Dirichlet-Multinomial

Di mana φ memodelkan probabilitas topik, zi adalah pemilih topik, θk adalah probabilitas kata di setiap cluster dan xaku j mewakili kata-kata dokumen. Kita harus perhatikan bahwa teknik ini menggunakan kerangka bag-of-words yang mewakili dokumen sebagai kumpulan kata yang tidak teratur, mengabaikan tata bahasa dan urutan kata. Representasi yang disederhanakan ini biasanya digunakan dalam pemrosesan bahasa alami dan pengambilan informasi. Di bawah ini kami sajikan Model Grafis dari model campuran:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Gambar 2: Model Grafis dari Model Campuran Dirichlet-Multinomial

Penggunaan model tertentu Distribusi Diskrit Multinomial untuk distribusi generatif dan distribusi Dirichlet untuk prior. ℓ adalah ukuran kluster aktif kami, n jumlah total dokumen, β mengontrol jumlah kluster yang diharapkan a priori sedangkan α mengontrol jumlah kata yang ditetapkan untuk setiap kluster. Untuk memperkirakan probabilitas yang dibutuhkan oleh Sampler Gibbs yang runtuh kami menggunakan persamaan berikut:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Persamaan 5: Probabilitas yang digunakan oleh Gibbs Sampler untuk DMMM

Di mana Γ adalah fungsi gamma, zi adalah penugasan klaster dokumen xi, X1: n adalah dataset lengkap, z-i adalah himpunan tugas cluster tanpa salah satu dari ith dokumen, x-i adalah dataset lengkap tidak termasuk ith dokumen, Nk(z-i) adalah jumlah pengamatan yang ditugaskan untuk klaster k tidak termasuk ith dokumen, Nz=k(x-i) adalah vektor dengan jumlah hitungan untuk setiap kata untuk semua dokumen yang ditugaskan untuk klaster k tidak termasuk ith dokumen dan N (xi) adalah vektor jarang dengan jumlah setiap kata dalam dokumen xi. Akhirnya seperti yang dapat kita lihat di atas, dengan menggunakan Collapsed Gibbs Sampler dengan Chinese Restaurant Process the θjk variabel yang menyimpan probabilitas kata j dalam topik k dapat diintegrasikan.

Stempel Waktu:

Lebih dari kotak data