Asiakirjojen ja Gaussin datan klusterointi Dirichlet-prosessin sekoitusmalleilla

Julkaissut Platon

seuraajia: 0

Tämä artikkeli on opetusohjelman viides osa Klusterointi DPMM:llä. Aiemmissa viesteissä käsittelimme yksityiskohtaisesti menetelmän teoreettista taustaa ja kuvailimme sen matemaattisia esityksiä ja tapoja rakentaa se. Tässä viestissä yritämme yhdistää teorian käytäntöön ottamalla käyttöön kaksi DPMM-mallia: Dirichlet Multivariate Normal Mixture -mallin, jota voidaan käyttää Gaussin datan klusterointiin, ja Dirichlet-Multinomial Mixture -mallin, jota käytetään asiakirjojen klusterointiin.

Päivitys: Datumbox Machine Learning Framework on nyt avoimen lähdekoodin ja ilmainen download. Tutustu pakettiin com.datumbox.framework.machinelearning.clustering nähdäksesi Dirichlet-prosessisekoitusmallien käyttöönotto Javassa.

1. Dirichlet Multivariate Normal Mixture -malli

Ensimmäinen tarkastelemamme Dirichlet-prosessin seosmalli on Dirichlet Multivariate Normal Mixture -malli, jota voidaan käyttää klusteroimaan jatkuville tietojoukoille. Seosmalli määritellään seuraavasti:

Yhtälö 1: Dirichlet-monimuuttuja normaalisekoitusmalli

Kuten yllä näemme, kyseinen malli olettaa, että generatiivinen jakauma on moninominen Gaussin jakauma, ja käyttää kiinalaisen ravintolan prosessia kuten aiemmin klusteritehtävissä. Lisäksi perusjakelulle G₀ se käyttää Normal-Inverse-Wishart ennen, joka on konjugoida ennen Multivariate Normaalijakauma tuntemattomalla keskiarvo- ja kovarianssimatriisilla. Alla esittelemme sekoitusmallin graafisen mallin:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Kuva 1: Dirichlet Multivariate Normal Mixture -mallin graafinen malli

Kuten aiemmin keskustelimme, jotta voimme arvioida klusteritehtävät, käytämme Tiivistetty Gibbs-näytteenotto joka vaatii valitsemisen sopivat konjugaattipriorit. Lisäksi meidän on päivitettävä annetut parametrit jälkikäteen ennakko ja todisteet. Alla näemme MAP-arviot yhden klusterin parametreista:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Yhtälö 2: MAP-arviot klusteriparametreista

Missä d on tietojemme ulottuvuus ja on näytteen keskiarvo. Lisäksi meillä on useita Normal-Inverse-Wishartin hyperparametrejä, kuten μ₀ joka on alkukeskiarvo κ₀ on keskimääräinen murtoluku, joka toimii tasoitusparametrina, ν₀ on vapausaste, joka on asetettu dimensioiden lukumäärään ja Ψ₀ on pareittainen poikkeamatulo, joka asetetaan dxd-identiteettimatriisiin kerrottuna vakiolla. Tästä eteenpäin kaikki G:n aiemmat hyperparametrit₀ merkitään λ:lla merkinnän yksinkertaistamiseksi. Lopuksi, kun on kaikki edellä mainitut, voimme arvioida Collapsed Gibbs Samplerin vaatimat todennäköisyydet. Havainnon i todennäköisyys kuulua klusteriin k ottaen huomioon klusterin määritykset, tietojoukon ja kaikki DP:n ja G:n hyperparametrit α ja λ₀on annettu alla:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.

Yhtälö 3: Gibbs Samplerin käyttämät todennäköisyydet MNMM:lle

Missä z_i on havainnon x klusteriosoitus_i, x_1:n on täydellinen tietojoukko, z_-i on joukko klusterimäärityksiä ilman yhtä i^th havainto, x_-i on täydellinen tietojoukko i^th havainto, c_k_,-i on klusteriin k määritettyjen havaintojen kokonaismäärä ilman i:tä^th tarkkailu samalla ja ovat klusterin k keskiarvo ja kovarianssimatriisi ilman i:tä^th havainto.

2. Dirichlet-Multinomial Mixture Model

Dirichlet-Multinomial Mixture -mallia käytetään asiakirjojen klusterianalyysiin. Tietyn mallin hierarkia on hieman monimutkaisempi, koska se mallintaa asiakirjojen aiheita/luokkia, sanatodennäköisyyksiä kunkin aiheen sisällä, klusterimäärityksiä ja dokumenttien generatiivista jakautumista. Sen tavoitteena on suorittaa ohjaamatonta oppimista ja klusteroida dokumenttiluettelo kohdistamalla ne ryhmiin. Seosmalli määritellään seuraavasti:

Yhtälö 4: Dirichlet-Multinominen sekoitusmalli

Missä φ mallintaa aiheen todennäköisyyksiä, z_i on aiheen valitsin, θ_k ovat sanatodennäköisyydet kussakin klusterissa ja x_{i, j} edustaa asiakirjan sanoja. Meidän on huomattava, että tämä tekniikka käyttää sanojen laukku joka edustaa dokumentteja järjestämättömänä sanakokoelmana, kielioppia ja sanajärjestystä huomioimatta. Tätä yksinkertaistettua esitystapaa käytetään yleisesti luonnollisen kielen käsittelyssä ja tiedonhaussa. Alla esittelemme sekoitusmallin graafisen mallin:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Kuva 2: Dirichlet-Multinomial Mixture -mallin graafinen malli

Tietty malli käyttää Multinomi Diskreetti jakauma generatiiviselle jakaumille ja Dirichlet-jakaumille priorille. ℓ on aktiivisten klusteriemme koko, n asiakirjojen kokonaismäärä, β ohjaa a priori odotettua klusterien määrää, kun taas α ohjaa kullekin klusterille määritettyjen sanojen määrää. Arvioidaksesi todennäköisyydet, jotka vaaditaan Kaatunut Gibbs-näytteenotin käytämme seuraava yhtälö:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Yhtälö 5: Gibbs Samplerin käyttämät todennäköisyydet DMMM:lle

Missä Γ on gammafunktio, z_i on asiakirjan x klusterimääritys_i, x_1:n on täydellinen tietojoukko, z_-i on joukko klusterimäärityksiä ilman yhtä i^th asiakirja, x_-i on täydellinen tietojoukko i^th asiakirja, N_k(z_-i) on klusteriin k määritettyjen havaintojen määrä ilman i:tä^th asiakirja, N_z_=k(x_-i) on vektori, jossa on lukujen summat jokaiselle sanalle kaikille klusteriin k kohdistetuille asiakirjoille, paitsi i^th asiakirja ja N(x_i) on harvalukuinen vektori asiakirjan x jokaisen sanan lukumäärällä_i. Lopuksi, kuten yllä näemme, käyttämällä Collapsed Gibbs -sampleria kiinalaisen ravintolaprosessin kanssa θ_jk muuttuja, joka tallentaa sanan j todennäköisyyden aiheeseen k, voidaan integroida pois.

Aikaleima: Kesäkuu 30, 2014Heinäkuu 18, 2022

Aikaleima: Kesäkuu 23, 2014

Asiakirjojen ja gaussialaisten tietojen ryhmittely Dirichlet-prosessisekoitusmalleilla

Julkaissut Platon

1. Dirichlet Multivariate Normal Mixture -malli

2. Dirichlet-Multinomial Mixture Model

Lisää aiheesta Datumbox

5 vinkkiä multi-GPU-koulutukseen Keran kanssa

Uusi blogisarja - TorchVision -kehittäjän muistelmia

Direichlet-jakautumiseen perustuva äärellinen sekoitusmalli

Ominaisuuksien valintamenetelmien käyttö tekstiluokittelussa

Kuinka rakentaa oma Facebook Sentiment Analysis Tool -työkalu

Tietojen Envelopment Analysis -opetusohjelma

Keras-erän normalisointikerros on rikki

Poraus Sparkin ALS-suositusalgoritmiin

Sivujen sosiaalisen median suosion mittaaminen DEA: n kanssa JAVA: ssa

Kurkistus TorchVision v0.11 - Muistoja TorchVision -kehittäjältä - 2

Uusi blogisarja - TorchVision -kehittäjän muistelmia

Dirichlet-prosessiseosmalli

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili