Mengelompokkan Dokumen Dan Data Gaussian Dengan Model Campuran Proses Dirichlet

Diterbitkan Ulang Oleh Plato

Followers: 0

Artikel ini adalah bagian kelima dari tutorial tentang Clustering dengan DPMM. Dalam posting sebelumnya kita bahas secara rinci latar belakang teoritis dari metode ini dan kami menggambarkan representasi matematika Anda dan cara untuk membangunnya. Dalam posting ini kami akan mencoba untuk menghubungkan teori dengan praktik dengan memperkenalkan dua model DPMM: Model Campuran Normal Dirichlet Multivariat yang dapat digunakan untuk mengelompokkan data Gaussian dan Model Campuran Dirichlet-Multinomial yang digunakan untuk mengelompokkan dokumen.

Pembaruan: Kerangka Pembelajaran Mesin Datumbox sekarang open-source dan bebas untuk Download. Lihatlah paket com.datumbox.framework.machinelearning.clustering untuk melihat implementasi Model Campuranch Prosesch Dirichlet di Jawa.

1. Model Campuran Normal Dirichlet Multivariat

Model campuran Dirichlet Process pertama yang akan kita periksa adalah Dirichlet Multivariate Normal Mixture Model yang dapat digunakan untuk melakukan pengelompokan pada dataset terus menerus. Model campuran didefinisikan sebagai berikut:

Persamaan 1: Model Campuran Normal Dirichlet Multivariat

Seperti yang dapat kita lihat di atas, model tertentu mengasumsikan bahwa Distribusi Generatif adalah Distribusi Gaussian Multinomial dan menggunakan proses Restoran Cina sebagai sebelumnya untuk penugasan klaster. Apalagi untuk distribusi Basis G₀ ia menggunakan Normal-Inverse-Wishart sebelumnya konjugasi sebelumnya distribusi Multivariat Normal dengan mean tidak diketahui dan matriks kovarians. Di bawah ini kami sajikan Model Grafis dari model campuran:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Gambar 1: Model Grafis Model Campuran Normal Dirichlet Multivariat

Seperti yang telah kita bahas sebelumnya, agar dapat memperkirakan tugas cluster, kami akan menggunakan Pengambilan sampel Gibbs yang diciutkan yang membutuhkan pemilihan prior konjugat yang sesuai. Selain itu kita perlu memperbarui parameter yang diberikan posterior sebelum dan bukti. Di bawah ini kita melihat Perkiraan MAP parameter untuk salah satu cluster:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Persamaan 2: Perkiraan MAP pada Parameter Cluster

Di mana d adalah dimensi data kami dan adalah mean sampel. Selain itu kami memiliki beberapa hyperparameters dari Normal-Inverse-Wishart seperti μ₀ yang merupakan mean awal, κ₀ adalah pecahan rata-rata yang berfungsi sebagai parameter penghalusan, ν₀ adalah derajat kebebasan yang diatur ke jumlah dimensi dan Ψ₀ adalah produk deviasi berpasangan yang diatur ke matriks identitas dxd dikalikan dengan konstanta. Mulai sekarang semua hiperparameter G sebelumnya₀ akan dilambangkan dengan λ untuk menyederhanakan notasi. Akhirnya dengan memiliki semua hal di atas, kita dapat memperkirakan probabilitas yang diperlukan oleh Collapsed Gibbs Sampler. Probabilitas pengamatan saya menjadi milik cluster k diberikan tugas cluster, dataset dan semua hiperparameter α dan λ dari DP dan G₀diberikan di bawah ini:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Persamaan 3: Probabilitas yang digunakan oleh Gibbs Sampler untuk MNMM

Dimana z_i adalah penugasan cluster observasi x_i, X_{1: n} adalah dataset lengkap, z_-i adalah himpunan tugas cluster tanpa salah satu dari i^th observasi, x_-i adalah dataset lengkap tidak termasuk i^th observasi, c_k_,-saya adalah jumlah total pengamatan yang ditugaskan untuk klaster k tidak termasuk i^th observasi sementara dan adalah rata-rata dan matriks kovarians dari cluster k tidak termasuk i^th pengamatan.

2. Model Campuran Dirichlet-Multinomial

Model Campuranch Diri-Multinomial digunakan untuk melakukan analisis kluster dokumen. Model tertentu memiliki hierarki yang sedikit lebih rumit karena memodelkan topik / kategori dokumen, probabilitas kata dalam setiap topik, penugasan kluster dan distribusi generatif dokumen. Targetnya adalah untuk melakukan pembelajaran tanpa pengawasan dan mengelompokkan daftar dokumen dengan menugaskan mereka ke dalam kelompok. Model campuran didefinisikan sebagai berikut:

Persamaan 4: Model Campuran Dirichlet-Multinomial

Di mana φ memodelkan probabilitas topik, z_i adalah pemilih topik, θ_k adalah probabilitas kata di setiap cluster dan x_{aku j} mewakili kata-kata dokumen. Kita harus perhatikan bahwa teknik ini menggunakan kerangka bag-of-words yang mewakili dokumen sebagai kumpulan kata yang tidak teratur, mengabaikan tata bahasa dan urutan kata. Representasi yang disederhanakan ini biasanya digunakan dalam pemrosesan bahasa alami dan pengambilan informasi. Di bawah ini kami sajikan Model Grafis dari model campuran:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Gambar 2: Model Grafis dari Model Campuran Dirichlet-Multinomial

Penggunaan model tertentu Distribusi Diskrit Multinomial untuk distribusi generatif dan distribusi Dirichlet untuk prior. ℓ adalah ukuran kluster aktif kami, n jumlah total dokumen, β mengontrol jumlah kluster yang diharapkan a priori sedangkan α mengontrol jumlah kata yang ditetapkan untuk setiap kluster. Untuk memperkirakan probabilitas yang dibutuhkan oleh Sampler Gibbs yang runtuh kami menggunakan persamaan berikut:

Mengelompokkan dokumen dan data gaussian dengan Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
Persamaan 5: Probabilitas yang digunakan oleh Gibbs Sampler untuk DMMM

Di mana Γ adalah fungsi gamma, z_i adalah penugasan klaster dokumen x_i, X_{1: n} adalah dataset lengkap, z_-i adalah himpunan tugas cluster tanpa salah satu dari i^th dokumen, x_-i adalah dataset lengkap tidak termasuk i^th dokumen, N_k(z_-i) adalah jumlah pengamatan yang ditugaskan untuk klaster k tidak termasuk i^th dokumen, N_z_=k(x_-i) adalah vektor dengan jumlah hitungan untuk setiap kata untuk semua dokumen yang ditugaskan untuk klaster k tidak termasuk i^th dokumen dan N (x_i) adalah vektor jarang dengan jumlah setiap kata dalam dokumen x_i. Akhirnya seperti yang dapat kita lihat di atas, dengan menggunakan Collapsed Gibbs Sampler dengan Chinese Restaurant Process the θ_jk variabel yang menyimpan probabilitas kata j dalam topik k dapat diintegrasikan.

Stempel Waktu: Juni 30, 2014Juli 18, 2022

Stempel Waktu: 20 Mei 2014

Klaster dokumen dan data gaussian dengan Model Campuranch Proses Dirichlet

Diterbitkan Ulang Oleh Plato

1. Model Campuran Normal Dirichlet Multivariat

2. Model Campuran Dirichlet-Multinomial

Lebih dari kotak data

Cara mengambil cadangan S3 dengan DejaDup di Ubuntu 20.10

Kerangka Pembelajaran Mesin Datumbox versi 0.8.0 dirilis

Seri Blog Baru – Memoar dari pengembang TorchVision

Mendapatkan penggunaan GPU kartu NVIDIA dengan alat Linux dstat

Perjalanan Memodernisasi TorchVision – Memoar dari pengembang TorchVision – 3

Mengembangkan Klasifikasi Teks Naif Bayes di JAVA

Menggunakan Metode Pemilihan Fitur di Klasifikasi Teks

Model Campuran Proses Dirichlet

Mengukur Popularitas Media Sosial Halaman dengan DEA di JAVA

Kerangka Pembelajaran Mesin Datumbox 0.6.0 Dirilis

Tutorial Analisis Envelopment Data

The Dirichlet Process the Chinese Restaurant Process dan representasi lainnya

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun