Model Campuran Hingga berdasarkan Dirichlet Distribution PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Model Campuran Hingga berdasarkan Distribusi Dirichlet

Posting blog ini adalah bagian kedua dari seri artikel tentang model campuran Dirichlet Process. Di artikel sebelumnya kami punya ikhtisar beberapa teknik Analisis Cluster dan kami mendiskusikan beberapa masalah / keterbatasan yang muncul dengan menggunakannya. Selain itu kami secara singkat mempresentasikan Model Campuranch Proses Dirichlet, kami berbicara tentang mengapa mereka berguna dan kami menyajikan beberapa aplikasi mereka.

Pembaruan: Kerangka Pembelajaran Mesin Datumbox sekarang open-source dan bebas untuk Download. Lihatlah paket com.datumbox.framework.machinelearning.clustering untuk melihat implementasi Model Campuranch Prosesch Dirichlet di Jawa.

Model Campuranch Proses Dirichlet bisa agak sulit untuk ditelan pada awalnya terutama karena mereka adalah model campuran tak terbatas dengan banyak representasi berbeda. Untungnya cara yang baik untuk mendekati subjek adalah dengan mulai dari Model Campuran Hingga dengan Dirichlet Distribution dan kemudian pindah ke yang tak terbatas.

Karenanya dalam artikel ini saya akan menyajikan secara singkat beberapa distribusi penting yang akan kita butuhkan, kita akan menggunakannya untuk membangun Dirichlet Sebelum dengan model Kemungkinan Multinomial dan kemudian kita akan pindah ke Model Campuran Hingga berdasarkan Distribusi Dirichlet.

1. Distribusi Beta

Grafik Distribusi beta adalah keluarga distribusi kontinu yang didefinisikan dalam interval [0,1]. Ini diparameterisasi oleh dua parameter positif a dan b dan bentuknya sangat tergantung pada pemilihan kedua parameter tersebut.

gambar

Gambar 1: Distribusi Beta untuk parameter a, b yang berbeda

Distribusi Beta biasanya digunakan untuk memodelkan distribusi melalui probabilitas dan memiliki kepadatan probabilitas berikut:

gambar

Persamaan 1: Beta PDF

Di mana Γ (x) adalah fungsi gamma dan a, b parameter distribusi. Beta umumnya digunakan sebagai distribusi nilai probabilitas dan memberi kita kemungkinan bahwa probabilitas yang dimodelkan sama dengan nilai tertentu P = p0. Menurut definisinya, distribusi Beta dapat memodelkan probabilitas hasil biner yang mengambil nilai benar atau salah. Parameter a dan b dapat dianggap sebagai jumlah keberhasilan dan kegagalan masing-masing. Dengan demikian Distribusi Beta memodelkan probabilitas keberhasilan yang diberikan keberhasilan dan kegagalan.

2. Distribusi Dirichlet

Grafik Distribusi Dirichlet adalah generalisasi Distribusi Beta untuk banyak hasil (atau dengan kata lain itu digunakan untuk acara dengan banyak hasil). Parameternya dengan parameter k ai yang pasti positif. Distribusi Dirichlet sama dengan Distribusi Beta ketika jumlah variabel k = 2.

gambar

Gambar 2: Distribusi Dirichlet untuk berbagai ai parameter

Distribusi Dirichlet umumnya digunakan untuk memodelkan distribusi lebih dari probabilitas dan memiliki kepadatan probabilitas berikut:

gambar

Persamaan 2: Dirichlet PDF

Di mana Γ (x) adalah fungsi gamma, hali ambil nilai dalam [0,1] dan Σpi= 1. Distribusi Dirichlet memodelkan distribusi bersama pi dan memberi kemungkinan P1=p1,P2=p2, ...., Pk-1=pk-1 dengan Pk= 1 - ΣPi. Seperti dalam kasus Beta, ai parameter dapat dianggap sebagai jumlah semu dari penampilan setiap acara i. Distribusi Dirichlet digunakan untuk memodelkan probabilitas terjadinya peristiwa saingan dan sering dilambangkan sebagai Dirichlet (a).

3. Dirichlet Sebelum dengan Kemungkinan Multinomial

Seperti yang disebutkan sebelumnya, distribusi Dirichlet dapat dilihat sebagai distribusi melebihi distribusi probabilitas. Dalam kasus di mana kita ingin memodelkan probabilitas kejadian k terjadi, pendekatan Bayesian akan digunakan Peluang Multinomial dan Dirichlet Priors .

Di bawah ini kita dapat melihat model grafis dari model seperti itu.

gambar

Gambar 3: Model Grafis Dirichlet Priors dengan Kemungkinan Multinomial

Dalam model grafis di atas, α adalah vektor dimensi ak dengan hiperparameter dari dirichlet, p adalah vektor dimensi ak dengan nilai probabilitas dan xi adalah nilai skalar dari 1 ke k yang memberi tahu kami acara apa yang telah terjadi. Akhirnya kita harus mencatat bahwa P mengikuti distribusi Dirichlet yang diparameterisasi dengan vektor α dan dengan demikian P ~ Dirichlet (α), sedangkan xi variabel mengikuti distribusi Diskrit (Multinomial) yang diparameterisasi dengan vektor p probabilitas. Model hierarkis yang serupa dapat digunakan dalam klasifikasi dokumen untuk mewakili distribusi frekuensi kata kunci untuk berbagai topik.

4. Model Campuran Hingga dengan Distribusi Dirichlet

Dengan menggunakan Dirichlet Distribution, kita dapat membuat a Model Campuran Hingga yang bisa digunakan untuk melakukan clustering. Mari kita asumsikan bahwa kita memiliki model berikut:

gambar

gambar

gambar

gambar

Persamaan 3: Model Campuran Hingga dengan Distribusi Dirichlet

Model di atas mengasumsikan sebagai berikut: Kami memiliki dataset X dengan n pengamatan dan kami ingin melakukan analisis cluster di atasnya. K adalah angka hingga konstan yang menunjukkan jumlah cluster / komponen yang akan kita gunakan. Ci variabel menyimpan tugas cluster pengamatan Xi, mereka mengambil nilai dari 1 hingga k dan mengikuti Distribusi Diskrit dengan parameter p yang merupakan probabilitas campuran komponen. F adalah distribusi generatif dari X kami dan parameternya dengan parameter gambar yang tergantung pada tugas cluster dari setiap pengamatan. Secara total kami memiliki k unik gambar parameter sama dengan jumlah cluster kami. Itu gambar variabel menyimpan parameter yang men-parameterisasi Distribusi F generatif dan kami mengasumsikan bahwa ia mengikuti basis G0 distribusi. Variabel p menyimpan persentase campuran untuk setiap cluster k dan mengikuti Dirichlet dengan parameter α / k. Akhirnya α adalah vektor dimensi ak dengan hiperparameter (pseudocounts) dari distribusi Dirichlet [2].

gambar

Gambar 4: Model Grafis dari Model Campuran Hingga dengan Distribusi Dirichlet

Cara yang lebih sederhana dan kurang matematis untuk menjelaskan model adalah sebagai berikut. Kami berasumsi bahwa data kami dapat dikelompokkan dalam k cluster. Setiap cluster memiliki parameternya sendiri gambar dan parameter tersebut digunakan untuk menghasilkan data kami. Parameternya gambar diasumsikan mengikuti beberapa distribusi G0. Setiap pengamatan diwakili dengan vektor xi dan aci nilai yang menunjukkan gugus yang menjadi miliknya. Akibatnya ci dapat dilihat sebagai variabel yang mengikuti Distribusi Diskrit dengan parameter p yang tidak lain adalah probabilitas campuran, yaitu probabilitas terjadinya setiap cluster. Karena kami menangani masalah kami dengan cara Bayesian, kami tidak memperlakukan parameter p sebagai vektor tak dikenal yang konstan. Sebagai gantinya kita mengasumsikan bahwa P mengikuti Dirichlet yang diparameterisasi oleh hiperparameter α / k.

5. Bekerja dengan klaster k tanpa batas

Model campuran sebelumnya memungkinkan kita untuk melakukan pembelajaran tanpa pengawasan, mengikuti pendekatan Bayesian dan dapat diperluas untuk memiliki struktur hierarkis. Namun demikian ini adalah model yang terbatas karena menggunakan jumlah klaster yang telah ditentukan sebelumnya konstan. Akibatnya, kami harus menentukan jumlah komponen sebelum melakukan Analisis Cluster dan seperti yang telah kami bahas sebelumnya di sebagian besar aplikasi, ini tidak diketahui dan tidak dapat diperkirakan dengan mudah.

Salah satu cara untuk menyelesaikan ini adalah dengan membayangkan bahwa k memiliki nilai yang sangat besar yang cenderung tak hingga. Dengan kata lain kita dapat membayangkan batas model ini ketika k cenderung tak terhingga. Jika demikian, maka kita dapat melihat bahwa meskipun jumlah cluster k tidak terbatas, jumlah sebenarnya dari cluster yang aktif (yang memiliki setidaknya satu pengamatan), tidak dapat lebih besar dari n (yang merupakan jumlah total pengamatan dalam dataset kami). Bahkan seperti yang akan kita lihat nanti, jumlah cluster aktif akan secara signifikan lebih kecil dari n dan mereka akan sebanding dengan gambar.

Tentu saja mengambil batas k hingga tak terbatas adalah tidak sepele. Beberapa pertanyaan muncul seperti apakah mungkin untuk mengambil batas seperti itu, bagaimana model ini akan terlihat dan bagaimana kita bisa membangun dan gunakan model seperti itu.

Pada artikel selanjutnya kita akan fokus pada pertanyaan-pertanyaan ini: kita akan mendefinisikan Proses Dirichlet, kita akan menyajikan berbagai representasi DP dan akhirnya kita akan fokus pada Proses Restoran Cina yang merupakan cara intuitif dan efisien untuk membangun Proses Dirichlet.

Saya harap Anda menemukan posting ini bermanfaat. Jika ya, silakan luangkan waktu sejenak untuk berbagi artikel di Facebook dan Twitter. 🙂

Stempel Waktu:

Lebih dari kotak data