Proces Dirichlet Proces kitajskih restavracij in druge predstavitve PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Dirichlet obdeluje kitajski restavracijski postopek in druge predstavitve

Ta članek je tretji del v seriji o grozdu z modeli mešanic procesnih mešanic Dirichlet. Prejšnjič smo definirali model končnih mešanic na podlagi Dirichletove distribucije in postavljali smo vprašanja, kako lahko ta poseben model naredimo neskončen. Na kratko smo razpravljali o zamisli o prevzemu meje modela, kadar se število klastov nagiba v neskončnost, a ker smo poudarili, da obstoj takega predmeta ni nepomemben (z drugimi besedami, kako dejansko "vzamemo mejo modela" ”?). Kot opomnik je razlog, da želimo sprejeti make k neskončno, ker bomo na ta način imeli neparametrični model, ki ne zahteva, da vnaprej določimo skupno število skupin v podatkih.

Posodobitev: Okvir za strojno učenje Datebox je zdaj odprtokoden in brez njega prenesi. Oglejte si paket com.datumbox.framework.machinelearning.clustering in si oglejte izvedbo modelov mešanic Dirichlet Process Mešanice na Javi.

Čeprav je naš cilj zgraditi model, ki bo sposoben izvajati združevanje v naborih podatkov, moramo razpravljati o procesih Dirichlet. Podali bomo tako stroge matematične definicije kot bolj intuitivne razlage DP in razpravljali bomo o načinih konstruiranja postopka. Te konstrukcije / predstavitve je mogoče razumeti kot način za iskanje pojavnosti Dirichletovega procesa v "resničnem življenju".

Kljub temu, da sem poskušal svoje raziskovalno poročilo prilagoditi tako, da bo lažje slediti tem objavam na spletnem dnevniku, je še vedno pomembno, da določimo potrebna matematična orodja in distribucije, preden se lotimo uporabe modelov. Modeli Dirichlet Process so tema aktivnih raziskav, vendar je pred njihovo uporabo potrebno dobro razumeti statistiko in stohastične procese. Druga težava je, da bomo lahko, kot bomo videli v tem članku, Dirichlet procese predstavljali / konstruirali na številne načine. Posledično več akademskih prispevkov uporablja popolnoma drugačne oznake / konvencije in težavo preučuje z različnih vidikov. V tej objavi jih skušam razložiti čim bolj preprosto in uporabim isti zapis. Upajmo, da bodo stvari postale jasnejše z dvema prihajajočima člankoma, ki se osredotočata na definicijo modelov Dirichlet procesa mešanja in na to, kako jih dejansko uporabiti za izvajanje grozdne analize.

1. Opredelitev postopka Dirichlet

Dirichletov postopek v Θ prostoru je stohastičen proces. Gre za porazdelitev verjetnosti na „porazdelitev verjetnosti čez Θ prostor“ in a črpanje iz nje je diskretna porazdelitev. Uradno je Dirichletova distribucija porazdelitev po verjetnostnih ukrepih. A verjetnostni ukrep je funkcija podskupin prostora Θ do [0,1]. G je naključna mera verjetnosti, porazdeljena s DP, označena kot slika, če za katero koli particijo (A1,… An) prostora Θ imamo to slika.

slika

Slika 1: Robovi na končnih particijah so razdeljeni v Dirichletu.

DP ima dva parametra: Prvi je osnovna porazdelitev G0 ki služi kot sredica slika. Drugi je trdnostni parameter α, ki je strogo pozitiven in deluje kot obratna varianca slika. Določa obseg ponovitve vrednosti porazdelitve izhoda. Višja kot je vrednost a, manjša je ponovitev; manjša kot je vrednost, večja je ponovitev vrednosti porazdelitve proizvodnje. Končno je Θ prostor s parametrom, na katerem definiramo DP. Poleg tega je prostor Θ tudi definicijski prostor G0 ki je enak tistemu iz G.

Preprostejša in več intuitiven način razložiti postopek Dirichleta je naslednje. Predpostavimo, da imamo prostor Θ, ki ga lahko poljubno delimo (A1,…, An) in porazdelitev verjetnosti G, ki jim dodeli verjetnosti. G je specifična porazdelitev verjetnosti nad Θ, vendar obstaja še veliko drugih. Dirichletov postopek na Θ modelih natanko to; gre za porazdelitev na vse možne porazdelitve verjetnosti na prostor Θ. Dirichletov postopek je parametriziran z G0 osnovna funkcija in parameter koncentracije α. Lahko rečemo, da se G porazdeli glede na DP s parametroma α in G0 če skupna porazdelitev verjetnosti, ki jih G pripiše particijam Θ, sledi razdelitvi Dirichleta. Lahko pa rečemo, da verjetnosti, ki jih G pripiše kateri koli končni particiji Θ, sledijo Dirichletovi porazdelitvi.

slika

Slika 2: Grafični model Dirichletovega procesa

Končno zgoraj lahko vidimo grafični model DP. Upoštevati moramo, da je α skalarni hiperparameter, G0 je osnovna porazdelitev DP, G naključna porazdelitev na Θ prostor parametrov, odvzetega iz DP, ki dodeli verjetnosti parametrom in θi je vektor parametrov, ki ga črpamo iz porazdelitve G in je element Θ prostora.

2. Posteriorni procesi Dirichlet

O posteriornih procesih Dirichleta je spregovoril Ferguson. Začnemo z risanjem naključne mere verjetnosti G iz Dirichletovega procesa, slika. Ker je G porazdelitev verjetnosti nad Θ, lahko vzamemo tudi vzorce iz te porazdelitve in potegnemo neodvisne enakovredno porazdeljene vzorce θ1,…, Θn ~ G. Ker so risbe iz Dirichletovega procesa diskretne porazdelitve, jih lahko predstavljamo slika Kje slika je kratek zapis za slika kar je delta funkcija, ki sprejme 1, če slika in drugje 0. Zanimiv učinek tega je, da je G tako definiran, da obstaja velika verjetnost, da imajo različni vzorci enako vrednost slika. Kot bomo videli kasneje, to ustvarja učinek grozda, ki ga lahko uporabimo za izvajanje analize grozdov na naboru podatkov.

Z uporabo zgornjih definicij in opažanj želimo oceniti zadnjo stran Dirichletovega procesa glede na vzorce θ. Kljub temu, ker to vemo slika in slika z uporabo Bayesovih pravil in povezave med Dirichletom in Multinomialom imamo to slikain slika.

slika

Enačba 1: Posteriorni Dirichletov postopek

Ta lastnost je zelo pomembna in jo uporabljajo različni predstavniki DP.

3. Dirichlet predstavitve procesa

V prejšnjih segmentih smo opredelili postopek Dirichlet in predstavili njegov teoretični model. Pomembno vprašanje, na katerega moramo odgovoriti, je, kako vemo, da tak predmet obstaja in kako zmoremo konstruirati in predstavljati Dirichletov postopek.

Prve znake obstoja je dal Ferguson ki je uporabil teorem o doslednosti Kolmogorov, je dal definicijo Dirichletovega procesa in opisal postopek Posterior Dirichlet. Nadaljuje raziskovanje, Blackwell in MacQueen uporabil teorem de Finettija za dokazovanje obstoja take naključne mere verjetnosti in uvedel shemo urna Blackwell-MacQueen, ki izpolnjuje lastnosti Dirichletovega procesa. Leta 1994 Sethuraman zagotovil dodaten preprost in neposreden način izdelave DP z uvedbo konstrukcije za razbijanje palic. Končno je predstavil še eno predstavitev Aldous ki je predstavil kitajski proces restavracij kot učinkovit način konstruiranja Dirichletovega procesa.

Različne predstavitve Dirichletovega procesa so matematično enakovredne, vendar se njihova formulacija razlikuje, saj problem preučujejo z različnih vidikov. Spodaj predstavljamo najpogostejše predstavitve, ki jih najdemo v literaturi, in se osredotočamo na kitajski postopek restavracij, ki zagotavlja preprost in računalniško učinkovit način za gradnjo algoritmov za sklepanje za Dirichlet proces.

3.1 Shema urn Blackwell-MacQueen

Shemo urne Blackwell-MacQueen lahko uporabite za predstavljanje Dirichletovega procesa in jo je uvedel Blackwell in MacQueen. Temelji na shemi Pólya urne, ki jo je mogoče videti kot nasprotni model vzorčenja brez zamenjave. V shemi Pólya urne predpostavljamo, da imamo nepregledno urno, ki vsebuje barvne kroglice in kroglice narišemo naključno. Ko narišemo kroglico, opazujemo njeno barvo, jo postavimo nazaj v urno in dodamo dodatno kroglico iste barve. Podobno shemo uporabljajo Blackwell in MacQueen za izdelavo Dirichletovega procesa.

Ta shema ustvari zaporedje θ1, θ2,… Z pogojne verjetnosti slika. V tej shemi predpostavljamo, da je G0 je porazdelitev po barvah in vsaki θn predstavlja barvo kroglice, ki je nameščena v urni. The algoritem je, kot sledi:

· Začnemo s prazno urno.

· Z verjetnostjo sorazmerno z α rišemo slika in v urno dodamo kroglico te barve.

· Z verjetnostjo, sorazmerno n-1, narišemo naključno kroglico iz urne, opazujemo njeno barvo, jo postavimo nazaj k urni in v urno dodamo dodatno kroglico iste barve.

Prej smo začeli s postopkom Dirichlet in izpeljali shemo Blackwell-MacQueen. Zdaj začnimo obratno od sheme Blackwell-MacQueen in izpeljemo DP. Ker je θi so bili na Gid izrisani na enak način, njihova skupna porazdelitev bo invazivna na kakršne koli končne permutacije in so zato izmenljive. Posledično z uporabo teorema de Finetti moramo ugotoviti, da mora obstajati porazdelitev ukrepov, da bi postali ti, in ta distribucija je Dirichletov proces. Kot rezultat tega dokazujemo, da je urna shema Blackwell-MacQueen reprezentanca DP in nam daje konkreten način, da jo konstruiramo. Kot bomo videli kasneje, je ta shema matematično enakovredna kitajskemu restavracijskemu postopku.

3.2 Konstrukcija, ki lomi palice

Konstrukcija razbijanja palic je alternativni način predstavljanja Dirichletovega procesa, ki ga je uvedel podjetje Sethuraman. Gre za konstruktiven način oblikovanja slika distribucijo in uporablja po analogiji: Predvidevamo, da imamo palico dolžine 1, jo razbijemo na položaju β1 in dodelimo π1 enaka dolžini dela palice, ki smo ga zlomili. Isti postopek ponovimo, da dobimo π2, π3,… Itd; zaradi načina, kako je definirana ta shema, lahko nadaljujemo z neštetokrat.

Na podlagi zgoraj navedenega πk lahko modeliramo kot slika, kje za slika medtem ko kot v prejšnjih shemah θ vzorčijo neposredno s porazdelitvijo baze slika. Posledično lahko porazdelitev G zapišemo kot vsoto delta funkcij, tehtanih z πk verjetnosti, ki je enaka slika. Tako nam konstrukcija za razbijanje palic omogoča preprost in intuitiven način, kako sestaviti Dirichletov postopek.

3.3 Proces kitajske restavracije

Kitajski postopek restavracij, ki ga je uvedel Aldous, je še en učinkovit način predstavljanja Dirichletovega procesa in ga je mogoče neposredno povezati s shemo urne Blackwell-MacQueen. Ta shema uporablja po analogiji: Predvidevamo, da obstaja kitajska restavracija z neskončno veliko miz. Ko stranke vstopijo v restavracijo, naključno sedejo za katero koli zasedeno mizo ali pa se odločijo sedeti za prvo razpoložljivo prazno mizo.

CRP definira porazdelitev na prostor particij pozitivnih celih števil. Začnemo z risanjem θ1,… Θn iz sheme urn Blackwell-MacQueen. Kot smo razpravljali v prejšnjih odsekih, pričakujemo, da bo viden učinek grozda in bo tako skupno število edinstvenih vrednosti θ k bistveno manjše od n. Tako to določa particijo niza {1,2, ..., n} v k skupinah. Posledično risanje iz sheme urnika Blackwell-MacQueen povzroči naključno particijo nabora {1,2,…, n}. Kitajska restavracija je to posledica razdelitev na predelne stene. Algoritem je naslednji:

· Začnemo s prazno restavracijo.

· 1st stranka sedi vedno na 1st miza

· N + 1th stranka ima 2 možnosti:

o Z verjetnostjo sedite na 1. nezasedeno mizo slika

o Z verjetnostjo sedite na katero izmed kth zasedenih miz slika
Kje slika je število ljudi, ki sedijo za to mizo

Kjer je α disperzijska vrednost DP in n skupno število strank v restavraciji v določenem času. Latentna spremenljivka zi shrani številko tabele ith odjemalec in vzame vrednosti od 1 do kn kjer kn je skupno število zasedenih miz, ko je v restavraciji n kupcev. Opozoriti moramo, da je kn bo vedno manj ali enak n in v povprečju znaša približno slika. Na koncu moramo opozoriti, da je verjetnost razporeditve tabel slika je invariantno do permutacij. Tako je zi je izmenljivo, kar pomeni, da imajo mize z enako velikostjo kupcev enako verjetnost.

Kitajski restavracijski postopek je močno povezan s Pólya urno shemo in Dirichlet Process. CRP je način, kako določiti a razdelitev na predelne stene (razpredelnice tabele) n točk in jih je mogoče uporabiti kot prednost na prostoru latentne spremenljivke zi ki določa dodelitve grozda. CRP je enakovredna Pólyevi shemi urn z le razliko, da ne dodeljuje parametrov vsaki tabeli / grozdu. Iti od CRP do Pólyine urne sheme rišemo slika za vse tabele k = 1,2… in nato za vsako xi ki je združena v tabelo zi dodelite a slika. Z drugimi besedami, dodelite novemu xi parameter θ tabele. Končno od takrat ne moremo dodeliti θ do neskončnih tabel od začetka, lahko samo dodelimo novo θ vsakič, ko nekdo sedi za novo mizo. Zaradi vsega navedenega nam lahko CRP pomaga sestaviti računsko učinkovite algoritme za izvajanje analize grozdov na naboru podatkov.

V tej objavi smo razpravljali o postopku Dirichlet in več načinih, kako ga zgraditi. Zgornje ideje bomo uporabili v naslednjem članku. Uvedli bomo model mešanice procesa Dirichlet in uporabili bomo predstavništvo kitajskih restavracij za izdelavo Dirichletovega procesa in predoblikovanje grozdne analize. Če ste izpustili nekaj točk, ne skrbite, saj se bodo stvari z jasnimi začetki začele jasneje razviti z naslednjimi dvema člankoma.

Upam, da se vam zdi ta objava zanimiva. Če ste to storili, si vzemite trenutek, da ga delite na Facebooku in Twitterju. 🙂

Časovni žig:

Več od Datumbox