Dirichletov model mešanice procesa

Ponovno objavil Platon

Spremljevalci: 0

Ta objava v spletnem dnevniku je četrti del serije o Grozdenje z mešanimi modeli Dirichletovega procesa. V prejšnjih člankih smo razpravljali o modelih končne Dirichletove mešanice in omejili smo njihov model za neskončne k grozde, kar nas je pripeljalo do uvedbe Dirichletovih procesov. Kot smo videli, je naš cilj zgraditi mešani model, ki ne zahteva, da določimo število k grozdov/komponent od začetka. Po predstavljajo različne predstavitve Dirichletovih procesov, je zdaj čas, da dejansko uporabimo DP za izdelavo neskončnega modela mešanice, ki nam omogoča izvajanje združevanja v gruče. Cilj tega članka je opredeliti modele mešanic Dirichletovega postopka in razpravljati o uporabi kitajskega restavracijskega postopka in Gibbsovega vzorčenja. Če niste prebrali prejšnjih objav, je zelo priporočljivo, da to storite, saj je tema nekoliko teoretična in zahteva dobro razumevanje konstrukcije modela.

Posodobitev: Okvir za strojno učenje Datebox je zdaj odprtokoden in brez njega prenesi. Oglejte si paket com.datumbox.framework.machinelearning.clustering in si oglejte izvedbo modelov mešanic Dirichlet Process Mešanice na Javi.

1. Opredelitev modela mešanice Dirichletovega procesa

Uporaba Dirichletovih procesov nam omogoča, da imamo mešani model z neskončnimi komponentami, za katere lahko mislimo, da prevzamejo mejo končnega modela za k v neskončnost. Predpostavimo, da imamo naslednji model:

Enačba 1: Model mešanice Dirichletovega postopka

Kjer je G definiran kot in uporablja se kot kratka notacija za kar je delta funkcija, ki sprejme 1, če in 0 drugje. θ_i so parametri grozda, ki so vzorčeni iz G. Generativna porazdelitev F je konfigurirana s parametri grozda θ_i in se uporablja za ustvarjanje x_i opazovanja. Končno lahko definiramo porazdelitev gostote ki je naša porazdelitev mešanice (šteta neskončna mešanica) z mešalnimi razmerji in mešanje komponent .

slika

Slika 1: Grafični model modela mešanice Dirichletovega procesa

Zgoraj lahko vidimo enakovreden grafični model DPMM. G₀ je osnovna porazdelitev DP in je običajno izbrana kot konjugirana pred našo generativno porazdelitvijo F, da olajšamo izračune in izkoristimo privlačne matematične lastnosti. α je skalarni hiperparameter Dirichletovega procesa in vpliva na število grozdov, ki jih bomo dobili. Večja kot je vrednost α, več je grozdov; manjši kot je α, manj je grozdov. Upoštevati moramo, da vrednost α izraža moč vere v G₀. Velika vrednost pomeni, da bo večina vzorcev razločnih in da bodo vrednosti osredotočene na G₀. G je naključna porazdelitev v prostoru parametrov Θ, vzorčena iz DP, ki parametrom dodeli verjetnosti. θ_i je vektor parametrov, ki je narisan iz porazdelitve G in vsebuje parametre gruče, porazdelitev F je parametrizirana z θ_i in x_i je podatkovna točka, ki jo ustvari generativna porazdelitev F.

Pomembno je omeniti, da je θ_i so elementi prostora parametrov Θ in "konfigurirajo" naše grozde. Lahko jih vidimo tudi kot latentne spremenljivke na x_i ki nam povedo, iz katere komponente/gruče je x_i prihaja iz in kakšni so parametri te komponente. Tako za vsak x_i ki ga opazujemo, narišemo θ_i iz G distribucije. Z vsakim žrebanjem se porazdelitev spremeni glede na prejšnje izbire. Kot smo videli v shemi žare Blackwell-MacQueen, lahko distribucijo G integriramo in naše prihodnje izbire θ_i odvisno samo od G₀: . Ocenjevanje parametrov θi iz prejšnje formule ni vedno izvedljivo, ker veliko izvedb (kot je proces kitajske restavracije) vključuje oštevanje skozi eksponentno naraščajočih k komponent. Zato se uporabljajo približne računske metode, kot je Gibbsovo vzorčenje. Na koncu moramo opozoriti, da čeprav je k gruč neskončno, je število aktivnih gruč enako . Tako je θ_i se bo ponovil in pokazal učinek združevanja.

2. Uporaba postopka kitajske restavracije za definiranje modela neskončne mešanice

Model, opredeljen v prejšnjem segmentu, je matematično soliden, vendar ima veliko pomanjkljivost: za vsak nov x_i ki ga opazimo, moramo vzorčiti nov θ_i ob upoštevanju prejšnjih vrednosti θ. Težava je v tem, da je lahko v mnogih primerih vzorčenje teh parametrov težka in računsko draga naloga.

Alternativni pristop je uporaba postopka kitajske restavracije za modeliranje latentnih spremenljivk z_i dodelitev gruče. Na ta način namesto uporabe θ_i za označevanje tako parametrov gruče kot dodelitev gruče uporabljamo latentno spremenljivko z_i da označite ID gruče in nato uporabite to vrednost za dodelitev parametrov gruče. Posledično nam ni več treba vzorčiti θ vsakič, ko dobimo novo opazovanje, ampak namesto tega dobimo dodelitev gruče z vzorčenjem z_i iz CRP. S to shemo se nov θ vzorči le, ko moramo ustvariti nov grozd. Spodaj predstavljamo model tega pristopa:

Enačba 2: Model zmesi s CRP

Zgoraj je generativni model, ki opisuje, kako podatki x_i in grozdi so ustvarjeni. Za izvedbo analize grozdov moramo uporabiti opazovanja x_i in ocenite dodelitve grozdov z_i.

3. Sklepanje o modelu mešanice in Gibbsovo vzorčenje

Ker so Dirichletovi procesi na žalost neparametrični, mi ne more uporabljati algoritma EM za oceno latentnih spremenljivk, ki shranjujejo dodelitve gruč. Za oceno nalog bomo uporabili Strnjeno Gibbsovo vzorčenje.

Strnjeno Gibbsovo vzorčenje je preprost algoritem Markovove verige Monte Carlo (MCMC). Je hiter in nam omogoča integracijo nekaterih spremenljivk med vzorčenjem druge spremenljivke. Kljub temu ta algoritem zahteva, da izberemo G₀ ki je konjugiran aprior generativne porazdelitve F, da bi lahko analitično rešili enačbe in vzorčili neposredno iz .

Koraki strnjenega Gibbsovega vzorčenja, ki jih bomo uporabili za oceno dodelitev gruč, so naslednji:

Inicializirajte z_i naključne dodelitve gruče
Ponavljajte do konvergence

Naključno izberite sekiro_i
Obdrži drugi z_j določeno za vsak j≠i:
Z dodelite novo vrednost_i z izračunom »verjetnosti CRP«, ki je odvisna od z_j in x_j vseh j≠i:

V naslednjem članku se bomo osredotočili na to, kako izvesti analizo grozdov z uporabo modelov mešanice Dirichletovih procesov. Opredelili bomo dva različna modela mešanice Dirichletovega procesa, ki uporabljata postopek kitajske restavracije in strnjeno Gibbsovo vzorčenje, da bi izvedli združevanje v skupine neprekinjenih naborov podatkov in dokumentov.

Časovni žig: Junij 23, 2014Julij 18, 2022

Časovni žig: Jan 21, 2018

Dirichletov model mešanice procesa

Ponovno objavil Platon

1. Opredelitev modela mešanice Dirichletovega procesa

2. Uporaba postopka kitajske restavracije za definiranje modela neskončne mešanice

3. Sklepanje o modelu mešanice in Gibbsovo vzorčenje

Več od Datumbox

Izdano je datumbox Framework Machine Learning Framework različice 0.8.0

Dirichlet obdeluje kitajski restavracijski postopek in druge predstavitve

Novo odprtokodno ogrodje strojnega učenja, napisano v Javi

Datumbox Okvir strojnega učenja 0.6.0 Objavljen

Grozdanje dokumentov in Gaussovih podatkov z modeli zmesi Dirichlet Process Mešanica

Končni model mešanice, ki temelji na Dirichletovi distribuciji

Plast Normalizacije serije se razbije

Kratek vpogled v TorchVision v0.11 – Spomini razvijalca TorchVision – 2

Grozdanje z modelom zmesi Dirichlet Process Java

Uporaba GPU kartice NVIDIA z orodjem dstat Linux

Izšel je Datumbox Framework Machine Learning Framework v0.8.2

5 nasvetov za trening z več GPU-jem s Kerasom

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun