Model mešanice Dirichletovih procesov PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Dirichletov model mešanice procesa

Ta objava v spletnem dnevniku je četrti del serije o Grozdenje z mešanimi modeli Dirichletovega procesa. V prejšnjih člankih smo razpravljali o modelih končne Dirichletove mešanice in omejili smo njihov model za neskončne k grozde, kar nas je pripeljalo do uvedbe Dirichletovih procesov. Kot smo videli, je naš cilj zgraditi mešani model, ki ne zahteva, da določimo število k grozdov/komponent od začetka. Po predstavljajo različne predstavitve Dirichletovih procesov, je zdaj čas, da dejansko uporabimo DP za izdelavo neskončnega modela mešanice, ki nam omogoča izvajanje združevanja v gruče. Cilj tega članka je opredeliti modele mešanic Dirichletovega postopka in razpravljati o uporabi kitajskega restavracijskega postopka in Gibbsovega vzorčenja. Če niste prebrali prejšnjih objav, je zelo priporočljivo, da to storite, saj je tema nekoliko teoretična in zahteva dobro razumevanje konstrukcije modela.

Posodobitev: Okvir za strojno učenje Datebox je zdaj odprtokoden in brez njega prenesi. Oglejte si paket com.datumbox.framework.machinelearning.clustering in si oglejte izvedbo modelov mešanic Dirichlet Process Mešanice na Javi.

1. Opredelitev modela mešanice Dirichletovega procesa

Uporaba Dirichletovih procesov nam omogoča, da imamo mešani model z neskončnimi komponentami, za katere lahko mislimo, da prevzamejo mejo končnega modela za k v neskončnost. Predpostavimo, da imamo naslednji model:

slika
slika
slika

Enačba 1: Model mešanice Dirichletovega postopka

Kjer je G definiran kot slika in slika uporablja se kot kratka notacija za slika kar je delta funkcija, ki sprejme 1, če slika in 0 drugje. θi so parametri grozda, ki so vzorčeni iz G. Generativna porazdelitev F je konfigurirana s parametri grozda θi in se uporablja za ustvarjanje xi opazovanja. Končno lahko definiramo porazdelitev gostote slika ki je naša porazdelitev mešanice (šteta neskončna mešanica) z mešalnimi razmerji slika in mešanje komponent slika.

slika

Slika 1: Grafični model modela mešanice Dirichletovega procesa

Zgoraj lahko vidimo enakovreden grafični model DPMM. G0 je osnovna porazdelitev DP in je običajno izbrana kot konjugirana pred našo generativno porazdelitvijo F, da olajšamo izračune in izkoristimo privlačne matematične lastnosti. α je skalarni hiperparameter Dirichletovega procesa in vpliva na število grozdov, ki jih bomo dobili. Večja kot je vrednost α, več je grozdov; manjši kot je α, manj je grozdov. Upoštevati moramo, da vrednost α izraža moč vere v G0. Velika vrednost pomeni, da bo večina vzorcev razločnih in da bodo vrednosti osredotočene na G0. G je naključna porazdelitev v prostoru parametrov Θ, vzorčena iz DP, ki parametrom dodeli verjetnosti. θi je vektor parametrov, ki je narisan iz porazdelitve G in vsebuje parametre gruče, porazdelitev F je parametrizirana z θi in xi je podatkovna točka, ki jo ustvari generativna porazdelitev F.

Pomembno je omeniti, da je θi so elementi prostora parametrov Θ in "konfigurirajo" naše grozde. Lahko jih vidimo tudi kot latentne spremenljivke na xi ki nam povedo, iz katere komponente/gruče je xi prihaja iz in kakšni so parametri te komponente. Tako za vsak xi ki ga opazujemo, narišemo θi iz G distribucije. Z vsakim žrebanjem se porazdelitev spremeni glede na prejšnje izbire. Kot smo videli v shemi žare Blackwell-MacQueen, lahko distribucijo G integriramo in naše prihodnje izbire θi odvisno samo od G0: slika. Ocenjevanje parametrov θi iz prejšnje formule ni vedno izvedljivo, ker veliko izvedb (kot je proces kitajske restavracije) vključuje oštevanje skozi eksponentno naraščajočih k komponent. Zato se uporabljajo približne računske metode, kot je Gibbsovo vzorčenje. Na koncu moramo opozoriti, da čeprav je k gruč neskončno, je število aktivnih gruč enako slika. Tako je θi se bo ponovil in pokazal učinek združevanja.

2. Uporaba postopka kitajske restavracije za definiranje modela neskončne mešanice

Model, opredeljen v prejšnjem segmentu, je matematično soliden, vendar ima veliko pomanjkljivost: za vsak nov xi ki ga opazimo, moramo vzorčiti nov θi ob upoštevanju prejšnjih vrednosti θ. Težava je v tem, da je lahko v mnogih primerih vzorčenje teh parametrov težka in računsko draga naloga.

Alternativni pristop je uporaba postopka kitajske restavracije za modeliranje latentnih spremenljivk zi dodelitev gruče. Na ta način namesto uporabe θi za označevanje tako parametrov gruče kot dodelitev gruče uporabljamo latentno spremenljivko zi da označite ID gruče in nato uporabite to vrednost za dodelitev parametrov gruče. Posledično nam ni več treba vzorčiti θ vsakič, ko dobimo novo opazovanje, ampak namesto tega dobimo dodelitev gruče z vzorčenjem zi iz CRP. S to shemo se nov θ vzorči le, ko moramo ustvariti nov grozd. Spodaj predstavljamo model tega pristopa:

slika
slika
slika

Enačba 2: Model zmesi s CRP

Zgoraj je generativni model, ki opisuje, kako podatki xi in grozdi so ustvarjeni. Za izvedbo analize grozdov moramo uporabiti opazovanja xi in ocenite dodelitve grozdov zi.

3. Sklepanje o modelu mešanice in Gibbsovo vzorčenje

Ker so Dirichletovi procesi na žalost neparametrični, mi ne more uporabljati algoritma EM za oceno latentnih spremenljivk, ki shranjujejo dodelitve gruč. Za oceno nalog bomo uporabili Strnjeno Gibbsovo vzorčenje.

Strnjeno Gibbsovo vzorčenje je preprost algoritem Markovove verige Monte Carlo (MCMC). Je hiter in nam omogoča integracijo nekaterih spremenljivk med vzorčenjem druge spremenljivke. Kljub temu ta algoritem zahteva, da izberemo G0 ki je konjugiran aprior generativne porazdelitve F, da bi lahko analitično rešili enačbe in vzorčili neposredno iz slika.

Koraki strnjenega Gibbsovega vzorčenja, ki jih bomo uporabili za oceno dodelitev gruč, so naslednji:

  • Inicializirajte zi naključne dodelitve gruče
  • Ponavljajte do konvergence
    • Naključno izberite sekiroi
    • Obdrži drugi zj določeno za vsak j≠i: slika
    • Z dodelite novo vrednosti z izračunom »verjetnosti CRP«, ki je odvisna od zj in xj vseh j≠i: slika

V naslednjem članku se bomo osredotočili na to, kako izvesti analizo grozdov z uporabo modelov mešanice Dirichletovih procesov. Opredelili bomo dva različna modela mešanice Dirichletovega procesa, ki uporabljata postopek kitajske restavracije in strnjeno Gibbsovo vzorčenje, da bi izvedli združevanje v skupine neprekinjenih naborov podatkov in dokumentov.

Časovni žig:

Več od Datumbox