Dirichlet-prosessin sekoitusmalli PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Dirichlet-prosessiseosmalli

Tämä blogi on sarjan neljäs osa Klusterointi Dirichlet-prosessiseosmalleilla. Aiemmissa artikkeleissa keskustelimme äärellisistä Dirichlet-sekoitusmalleista ja otimme niiden mallin rajan äärettömille k-klustereille, mikä johti meidät Dirichlet-prosessien käyttöönottoon. Kuten näimme, tavoitteemme on rakentaa sekoitusmalli, joka ei vaadi meitä määrittelemään k klusterien / komponenttien määrää alusta alkaen. Jälkeen esittämällä erilaisia ​​esityksiä Dirichlet-prosesseista, on nyt aika käyttää tosiasiallisesti DP: itä äärettömän sekoitusmallin rakentamiseen, joka antaa meille mahdollisuuden ryhmitellä. Tämän artikkelin tavoitteena on määritellä Dirichlet-prosessisekoitusmallit ja keskustella kiinalaisen ravintolaprosessin ja Gibbs-näytteenoton käytöstä. Jos et ole lukenut aiempia viestejä, on erittäin suositeltavaa tehdä niin, koska aihe on vähän teoreettinen ja vaatii hyvää ymmärrystä mallin rakentamisesta.

Päivitys: Datumbox Machine Learning Framework on nyt avoimen lähdekoodin ja ilmainen download. Tutustu pakettiin com.datumbox.framework.machinelearning.clustering nähdäksesi Dirichlet-prosessisekoitusmallien käyttöönotto Javassa.

1. Dirichlet-prosessiseosmallin määritelmä

Dirichlet-prosessien käyttäminen antaa meille mahdollisuuden sekoitusmallille, jossa on ääretön komponentti, jonka voidaan ajatella ottavan äärellisen mallin raja k: lle äärettömyyteen. Oletetaan, että meillä on seuraava malli:

kuva
kuva
kuva

Kaava 1: Dirichlet-prosessiseosmalli

Missä G on määritelty kuva ja kuva käytetään lyhyenä merkintänä kuva mikä on deltafunktio, joka vie yhden, jos kuva ja 0 muualla. Θi ovat klusteriparametreja, joista otetaan näytteitä G: stä. Generatiivinen jakauma F määritetään klusteriparametreilla θi ja sitä käytetään luomaan xi havaintoja. Viimeinkin voimme määritellä tiheysjakauman kuva mikä on seosjakaumamme (laskettava ääretön seos) sekoitussuhteilla kuva ja komponenttien sekoittaminen kuva.

kuva

Kuva 1: Dirichlet-prosessiseoksen mallin graafinen malli

Yllä on DPMM: n vastaava graafinen malli. G0 on DP: n perusjakauma ja se valitaan yleensä konjugaatiksi ennen generatiivista jakaumaa F, jotta laskennat olisivat helpompia ja houkuttelevia matemaattisia ominaisuuksia hyödynnettävissä. Α on Dirichlet-prosessin skalaarinen hyperparametri ja vaikuttaa saamien klustereiden lukumäärään. Mitä suurempi α-arvo, sitä enemmän rypäleitä; mitä pienempi α, sitä vähemmän klustereita. Meidän on huomattava, että arvo α ilmaisee uskon vahvuus julkaisussa G0. Suuri arvo osoittaa, että suurin osa näytteistä on erillisiä ja niiden arvot keskittyvät G: hen0. G on satunnainen jakauma DP: stä otetun parametritilan Θ yli, joka antaa todennäköisyydet parametreille. Θi on parametrivektori, joka on vedetty G-jakaumasta ja sisältää klusterin parametrit, F-jakauma parametroidaan θi ja xi on datapiste, jonka generatiivinen jakelu F.

On tärkeää huomata, että θi ovat elementtejä space-parametritilassa ja ne ”konfiguroivat” klusterimme. Niitä voidaan pitää myös piilevinä muuttujina x: lläi joka kertoo meille mistä komponentista / klusterista xi tulee ja mitkä ovat tämän komponentin parametrit. Siten jokaiselle x: llei että havaitsemme, piirrämme θi G-jakaumasta. Jokaisella piirtämisellä jakauma muuttuu edellisistä valinnoista riippuen. Kuten näimme Blackwell-MacQueen urn -mallissa, G-jakauma voidaan integroida ja tulevaisuuden selei riippuvat vain G: stä0: kuva. Parametrien θi arviointi edellisestä kaavasta ei ole aina mahdollista, koska monet toteutukset (kuten kiinalainen ravintolaprosessi) sisältävät eksponentiaalisesti kasvavat k komponentit. Siten käytetään likimääräisiä laskentamenetelmiä, kuten Gibbs-näytteenotto. Lopuksi meidän on huomattava, että vaikka k-klusterit ovat äärettömiä, aktiivisten klusterien lukumäärä on kuva. Siten θi toistaa ja osoittaa klusterointivaikutusta.

2. Määrittelemällä ääretön sekoitusmalli kiinalaisella ravintolaprosessilla

Edellisessä segmentissä määritelty malli on matemaattisesti vankka, silti sillä on suuri haitta: jokaiselle uudelle x: llei että havaitsemme, meidän on otettava uusi θi ottaen huomioon aikaisemmat values-arvot. Ongelmana on, että monissa tapauksissa näiden parametrien näytteenotto voi olla vaikea ja laskennallisesti kallis tehtävä.

Vaihtoehtoinen lähestymistapa on käyttää kiinalaista ravintolaprosessia piilevien muuttujien z mallintamiseeni klusteritehtävistä. Tällä tavalla using: n käytön sijastai Käytämme piilevää muuttujaa z merkitsemään sekä klusterin parametreja että klusterimäärityksiäi osoittaa klusterin tunnus ja määrittää klusteriparametrit tämän arvon avulla. Seurauksena on, että meidän ei enää tarvitse ottaa näytteitä time joka kerta kun saamme uuden havainnon, vaan saamme sen sijaan klusterimäärityksen ottamalla näytteen zi CRP: ltä. Tämän järjestelmän avulla uudesta θ otetaan näytteitä vain silloin, kun meidän on luotava uusi klusteri. Seuraavassa esittelemme tämän lähestymistavan mallin:

kuva
kuva
kuva

Kaava 2: Seosmalli CRP: n kanssa

Yllä oleva on generatiivinen malli, joka kuvaa kuinka xi ja klusterit luodaan. Klusterianalyysin suorittamiseen on käytettävä havaintoja xi ja arvioi klusteritehtävät zi.

3. Seoksen mallin päätelmät ja Gibbs-näytteenotto

Valitettavasti koska Dirichlet-prosessit eivät ole parametrejä, me ei voi käyttää EM-algoritmia estimoida piilevät muuttujat, jotka tallentavat klusterimääritykset. Tehtävien arvioimiseksi käytämme Pudotut Gibbs-näytteet.

Collapsed Gibbs -näytteenotto on yksinkertainen Markov Chain Monte Carlo (MCMC) -algoritmi. Se on nopea ja antaa meille mahdollisuuden integroida joitain muuttujia samalla kun näytteitä toisesta muuttujasta. Siitä huolimatta nämä algoritmit vaativat meitä valitsemaan G0 joka on konjugaatti ennen F-generatiivista jakautumista, jotta pystytään ratkaisemaan analyyttisesti yhtälöt ja pystyä ottamaan näytteitä suoraan kuva.

Ryhmittymien Gibbs-näytteenottojen vaiheet, joita me arvioimme klusterimäärityksiin, ovat seuraavat:

  • Alusta zi klusterimääritykset satunnaisesti
  • Toista kunnes lähentyminen
    • Valitse satunnaisesti axi
    • Pidä toinen zj kiinteä jokaiselle j ≠ i: lle: kuva
    • Määritä uusi arvo z: llei laskemalla ”CRP-todennäköisyys”, joka riippuu z: stäj ja xj kaikista j ≠ i: kuva

Seuraavassa artikkelissa keskitymme siihen, miten rypäleanalyysi suoritetaan Dirichlet Process Mixture -malleja käyttämällä. Määrittelemme kaksi erilaista Dirichlet-prosessisekoitusmallia, jotka käyttävät kiinalaista ravintolaprosessia ja Collapsed Gibbs -näytteenottoa ryhmittelyyn jatkuvissa tietoaineistoissa ja asiakirjoissa.

Aikaleima:

Lisää aiheesta Datumbox