Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.

Asiakirjojen ja gaussialaisten tietojen ryhmittely Dirichlet-prosessisekoitusmalleilla

Tämä artikkeli on opetusohjelman viides osa Klusterointi DPMM:llä. Aiemmissa viesteissä käsittelimme yksityiskohtaisesti menetelmän teoreettista taustaa ja kuvailimme sen matemaattisia esityksiä ja tapoja rakentaa se. Tässä viestissä yritämme yhdistää teorian käytäntöön ottamalla käyttöön kaksi DPMM-mallia: Dirichlet Multivariate Normal Mixture -mallin, jota voidaan käyttää Gaussin datan klusterointiin, ja Dirichlet-Multinomial Mixture -mallin, jota käytetään asiakirjojen klusterointiin.

Päivitys: Datumbox Machine Learning Framework on nyt avoimen lähdekoodin ja ilmainen download. Tutustu pakettiin com.datumbox.framework.machinelearning.clustering nähdäksesi Dirichlet-prosessisekoitusmallien käyttöönotto Javassa.

1. Dirichlet Multivariate Normal Mixture -malli

Ensimmäinen tarkastelemamme Dirichlet-prosessin seosmalli on Dirichlet Multivariate Normal Mixture -malli, jota voidaan käyttää klusteroimaan jatkuville tietojoukoille. Seosmalli määritellään seuraavasti:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Yhtälö 1: Dirichlet-monimuuttuja normaalisekoitusmalli

Kuten yllä näemme, kyseinen malli olettaa, että generatiivinen jakauma on moninominen Gaussin jakauma, ja käyttää kiinalaisen ravintolan prosessia kuten aiemmin klusteritehtävissä. Lisäksi perusjakelulle G0 se käyttää Normal-Inverse-Wishart ennen, joka on konjugoida ennen Multivariate Normaalijakauma tuntemattomalla keskiarvo- ja kovarianssimatriisilla. Alla esittelemme sekoitusmallin graafisen mallin:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Kuva 1: Dirichlet Multivariate Normal Mixture -mallin graafinen malli

Kuten aiemmin keskustelimme, jotta voimme arvioida klusteritehtävät, käytämme Tiivistetty Gibbs-näytteenotto joka vaatii valitsemisen sopivat konjugaattipriorit. Lisäksi meidän on päivitettävä annetut parametrit jälkikäteen ennakko ja todisteet. Alla näemme MAP-arviot yhden klusterin parametreista:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Yhtälö 2: MAP-arviot klusteriparametreista

Missä d on tietojemme ulottuvuus ja Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai. on näytteen keskiarvo. Lisäksi meillä on useita Normal-Inverse-Wishartin hyperparametrejä, kuten μ0 joka on alkukeskiarvo κ0 on keskimääräinen murtoluku, joka toimii tasoitusparametrina, ν0 on vapausaste, joka on asetettu dimensioiden lukumäärään ja Ψ0 on pareittainen poikkeamatulo, joka asetetaan dxd-identiteettimatriisiin kerrottuna vakiolla. Tästä eteenpäin kaikki G:n aiemmat hyperparametrit0 merkitään λ:lla merkinnän yksinkertaistamiseksi. Lopuksi, kun on kaikki edellä mainitut, voimme arvioida Collapsed Gibbs Samplerin vaatimat todennäköisyydet. Havainnon i todennäköisyys kuulua klusteriin k ottaen huomioon klusterin määritykset, tietojoukon ja kaikki DP:n ja G:n hyperparametrit α ja λ0 on annettu alla:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Yhtälö 3: Gibbs Samplerin käyttämät todennäköisyydet MNMM:lle

Missä zi on havainnon x klusteriosoitusi, x1:n on täydellinen tietojoukko, z-i on joukko klusterimäärityksiä ilman yhtä ith havainto, x-i on täydellinen tietojoukko ith havainto, ck,-i on klusteriin k määritettyjen havaintojen kokonaismäärä ilman i:täth tarkkailu samalla Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai. ja Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai. ovat klusterin k keskiarvo ja kovarianssimatriisi ilman i:täth havainto.

2. Dirichlet-Multinomial Mixture Model

Dirichlet-Multinomial Mixture -mallia käytetään asiakirjojen klusterianalyysiin. Tietyn mallin hierarkia on hieman monimutkaisempi, koska se mallintaa asiakirjojen aiheita/luokkia, sanatodennäköisyyksiä kunkin aiheen sisällä, klusterimäärityksiä ja dokumenttien generatiivista jakautumista. Sen tavoitteena on suorittaa ohjaamatonta oppimista ja klusteroida dokumenttiluettelo kohdistamalla ne ryhmiin. Seosmalli määritellään seuraavasti:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Yhtälö 4: Dirichlet-Multinominen sekoitusmalli

Missä φ mallintaa aiheen todennäköisyyksiä, zi on aiheen valitsin, θk ovat sanatodennäköisyydet kussakin klusterissa ja xi, j edustaa asiakirjan sanoja. Meidän on huomattava, että tämä tekniikka käyttää sanojen laukku joka edustaa dokumentteja järjestämättömänä sanakokoelmana, kielioppia ja sanajärjestystä huomioimatta. Tätä yksinkertaistettua esitystapaa käytetään yleisesti luonnollisen kielen käsittelyssä ja tiedonhaussa. Alla esittelemme sekoitusmallin graafisen mallin:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Kuva 2: Dirichlet-Multinomial Mixture -mallin graafinen malli

Tietty malli käyttää Multinomi Diskreetti jakauma generatiiviselle jakaumille ja Dirichlet-jakaumille priorille. ℓ on aktiivisten klusteriemme koko, n asiakirjojen kokonaismäärä, β ohjaa a priori odotettua klusterien määrää, kun taas α ohjaa kullekin klusterille määritettyjen sanojen määrää. Arvioidaksesi todennäköisyydet, jotka vaaditaan Kaatunut Gibbs-näytteenotin käytämme seuraava yhtälö:

Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Asiakirjojen ja Gaussin datan klusterointi Dirichlet Process Mixture Models PlatoBlockchain Data Intelligencellä. Pystysuuntainen haku. Ai.
Yhtälö 5: Gibbs Samplerin käyttämät todennäköisyydet DMMM:lle

Missä Γ on gammafunktio, zi on asiakirjan x klusterimääritysi, x1:n on täydellinen tietojoukko, z-i on joukko klusterimäärityksiä ilman yhtä ith asiakirja, x-i on täydellinen tietojoukko ith asiakirja, Nk(z-i) on klusteriin k määritettyjen havaintojen määrä ilman i:täth asiakirja, Nz=k(x-i) on vektori, jossa on lukujen summat jokaiselle sanalle kaikille klusteriin k kohdistetuille asiakirjoille, paitsi ith asiakirja ja N(xi) on harvalukuinen vektori asiakirjan x jokaisen sanan lukumäärälläi. Lopuksi, kuten yllä näemme, käyttämällä Collapsed Gibbs -sampleria kiinalaisen ravintolaprosessin kanssa θjk muuttuja, joka tallentaa sanan j todennäköisyyden aiheeseen k, voidaan integroida pois.

Aikaleima:

Lisää aiheesta Datumbox