Model Campuran Proses Dirichlet PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Model Campuran Proses Dirichlet

Entri blog ini adalah bagian keempat dari rangkaian pada Clustering dengan Model Campuran Proses Dirichlet. Dalam artikel sebelumnya kita membahas Model Campuran Dirichlet Hingga dan kita mengambil batas model mereka untuk cluster k tak terbatas yang membawa kita pada pengenalan Proses Dirichlet. Seperti yang kita lihat, target kita adalah membangun model campuran yang tidak mengharuskan kita menentukan jumlah k cluster / komponen dari awal. Setelah menyajikan representasi yang berbeda dari Proses Dirichlet, sekarang saatnya untuk benar-benar menggunakan DP untuk membangun Model Campuran tak terbatas yang memungkinkan kita melakukan pengelompokan. Sasaran dari artikel ini adalah untuk mendefinisikan Model Campuran Proses Dirichlet dan membahas penggunaan Proses Restoran Cina dan Sampling Gibbs. Jika Anda belum membaca posting sebelumnya, sangat disarankan untuk melakukannya karena topiknya agak teoretis dan memerlukan pemahaman yang baik tentang konstruksi model.

Pembaruan: Kerangka Pembelajaran Mesin Datumbox sekarang open-source dan bebas untuk Download. Lihatlah paket com.datumbox.framework.machinelearning.clustering untuk melihat implementasi Model Campuranch Prosesch Dirichlet di Jawa.

1. Definisi Model Campuran Proses Dirichlet

Menggunakan Proses Dirichlet memungkinkan kita memiliki model campuran dengan komponen tak hingga yang dapat dianggap mengambil batas model hingga k hingga tak terhingga. Mari kita asumsikan bahwa kita memiliki model berikut:

gambar
gambar
gambar

Persamaan 1: Model Campuran Proses Dirichlet

Dimana G didefinisikan sebagai gambar dan gambar digunakan sebagai notasi singkat untuk gambar yang merupakan fungsi delta yang membutuhkan 1 if gambar dan 0 di tempat lain. The θi adalah parameter cluster yang diambil sampelnya dari G. Distribusi generatif F dikonfigurasi oleh parameter cluster θi dan digunakan untuk menghasilkan xi observasi. Akhirnya kita bisa mendefinisikan distribusi Densitas gambar yang merupakan distribusi campuran kami (campuran tak terbatas yang dapat dihitung) dengan proporsi pencampuran gambar dan komponen pencampur gambar.

gambar

Gambar 1: Model Grafis Model Campuran Proses Dirichlet

Di atas kita dapat melihat Model Grafis yang setara dari DPMM. G0 adalah distribusi dasar DP dan biasanya dipilih untuk dikonjugasikan sebelum distribusi generatif F kami untuk membuat perhitungan lebih mudah dan memanfaatkan properti matematika yang menarik. Α adalah hyperparameter skalar dari Proses Dirichlet dan mempengaruhi jumlah cluster yang akan kita dapatkan. Semakin besar nilai α, semakin banyak clusternya; semakin kecil α semakin sedikit clusternya. Kita harus mencatat bahwa nilai α diekspresikan kekuatan kepercayaan dalam G0. Nilai yang besar menunjukkan bahwa sebagian besar sampel akan berbeda dan memiliki nilai terkonsentrasi pada G0. G adalah distribusi acak atas Θ ruang parameter yang diambil sampelnya dari DP yang memberikan probabilitas ke parameter. The θi adalah vektor parameter yang diambil dari distribusi G dan berisi parameter cluster, distribusi F diparameterisasi oleh θi dan xi adalah titik data yang dihasilkan oleh Distribusi Generatif F.

Penting untuk dicatat bahwa θi adalah elemen dari ruang parameter Θ dan mereka "mengkonfigurasi" cluster kita. Mereka juga dapat dilihat sebagai variabel laten pada xi yang memberitahu kita dari komponen / cluster mana xi berasal dan apa saja parameter dari komponen ini. Jadi untuk setiap xi yang kami amati, kami menggambar θi dari distribusi G. Dengan setiap gambar, distribusi berubah tergantung pada pilihan sebelumnya. Seperti yang kita lihat dalam skema guci Blackwell-MacQueen, distribusi G dapat diintegrasikan dan pilihan θ kami di masa mendatangi hanya bergantung pada G0: gambar. Memperkirakan parameter θi dari rumus sebelumnya tidak selalu dapat dilakukan karena banyak implementasi (seperti Proses Restoran Cina) melibatkan pencacahan melalui meningkatkan komponen k secara eksponensial. Jadi metode perhitungan perkiraan digunakan seperti Gibbs Sampling. Akhirnya kita harus mencatat bahwa meskipun cluster k tidak terbatas, jumlah cluster aktif adalah gambar. Jadi θi akan mengulangi dan menunjukkan efek pengelompokan.

2. Menggunakan Proses Restoran Cina untuk mendefinisikan Model Campuran Tak Terbatas

Model yang ditentukan di segmen sebelumnya solid secara matematis, namun memiliki kelemahan utama: untuk setiap x barui yang kami amati, kami harus mencicipi θ barui dengan mempertimbangkan nilai sebelumnya dari θ. Masalahnya adalah bahwa dalam banyak kasus, pengambilan sampel parameter ini bisa menjadi tugas yang sulit dan mahal secara komputasi.

Pendekatan alternatif adalah dengan menggunakan Proses Restoran Cina untuk memodelkan variabel laten zi tugas cluster. Dengan cara ini daripada menggunakan θi untuk menunjukkan parameter cluster dan tugas cluster, kami menggunakan variabel laten zi untuk menunjukkan id cluster dan kemudian menggunakan nilai ini untuk menetapkan parameter cluster. Akibatnya, kita tidak perlu lagi mengambil sampel θ setiap kali kita mendapatkan pengamatan baru, tetapi kita mendapatkan tugas cluster dengan mengambil sampel zi dari CRP. Dengan skema ini, θ baru diambil sampelnya hanya ketika kita perlu membuat cluster baru. Di bawah ini kami menyajikan model pendekatan ini:

gambar
gambar
gambar

Persamaan 2: Model Campuran dengan CRP

Di atas adalah model generatif yang menggambarkan bagaimana data xi dan cluster dibuat. Untuk melakukan analisis cluster kita harus menggunakan observasi xi dan memperkirakan tugas cluster zi.

3. Inferensi Model Campuran dan Sampling Gibbs

Sayangnya karena Proses Dirichlet non-parametrik, kami tidak dapat menggunakan algoritma EM untuk memperkirakan variabel laten yang menyimpan tugas cluster. Untuk memperkirakan tugas, kami akan menggunakan Pengambilan Sampel Gibbs yang Diciutkan.

The Collapsed Gibbs Sampling adalah algoritma Markov Chain Monte Carlo (MCMC) sederhana. Ini cepat dan memungkinkan kami untuk mengintegrasikan beberapa variabel sambil mengambil sampel variabel lain. Namun algoritma ini mengharuskan kita untuk memilih G0 yang merupakan konjugasi sebelum distribusi generatif F agar dapat menyelesaikan persamaan secara analitis dan dapat mengambil sampel langsung dari gambar.

Langkah-langkah dari Collapsed Gibbs Sampling yang akan kita gunakan untuk memperkirakan tugas cluster adalah sebagai berikut:

  • Inisialisasi zi tugas cluster secara acak
  • Ulangi sampai konvergensi
    • Pilih kapak secara acaki
    • Pertahankan z lainnyaj tetap untuk setiap j ≠ i: gambar
    • Tetapkan nilai baru pada zi dengan menghitung "probabilitas CRP" yang bergantung pada zj dan xj dari semua j ≠ i: gambar

Pada artikel selanjutnya kita akan fokus pada bagaimana melakukan analisis cluster dengan menggunakan model Dirichlet Process Mixture. Kami akan mendefinisikan dua Model Campuran Proses Dirichlet berbeda yang menggunakan Proses Restoran Cina dan Sampling Gibbs yang Diciutkan untuk melakukan pengelompokan pada kumpulan data dan dokumen berkelanjutan.

Stempel Waktu:

Lebih dari kotak data