Dirichleti protsessisegude mudel PlatoBlockchain andmete intelligentsus. Vertikaalne otsing. Ai.

Dirichleti protsessi segumudel

See blogipostitus on sarja neljas osa Klasterdamine Dirichleti protsessisegude mudelitega. Eelmistes artiklites arutasime lõplikke Dirichleti segumudeleid ja võtsime nende mudeli piirid lõpmatu k klastri jaoks, mis viis meid Dirichleti protsesside kasutuselevõtuni. Nagu nägime, on meie eesmärk luua segumudel, mis ei nõua meilt algusest peale k klastri/komponendi arvu määramist. Pärast esitledes Dirichlet' protsesside erinevaid esitusi, on nüüd aeg reaalselt kasutada DP-sid, et konstrueerida lõpmatu segumudel, mis võimaldab meil rühmitada. Selle artikli eesmärk on määratleda Dirichlet' protsessi segumudelid ning arutada Hiina restoraniprotsessi ja Gibbsi proovide võtmise kasutamist. Kui te pole eelnevaid postitusi lugenud, siis on tungivalt soovitatav seda teha, kuna teema on veidi teoreetiline ja eeldab head arusaamist mudeli ehitamisest.

Värskendus: Datumboxi masinõppe raamistik on nüüd avatud lähtekoodiga ja tasuta lae alla. Tutvuge paketiga com.datumbox.framework.machinelearning.clustering, et näha Dirichleti protsessisegude mudelite rakendamist Javas.

1. Dirichlet' protsessi segumudeli definitsioon

Dirichleti protsesside kasutamine võimaldab meil luua lõpmatute komponentidega segumudeli, mida võib arvata kui k lõpliku mudeli piiri võtmist lõpmatusse. Oletame, et meil on järgmine mudel:

pilt
pilt
pilt

Valem 1: Dirichlet' protsessi segumudel

Kus G on määratletud kui pilt ja pilt kasutatakse lühimärgena pilt mis on deltafunktsioon, mis võtab 1 kui pilt ja 0 mujal. θi on klastri parameetrid, mis on võetud G-st. Generatiivne jaotus F on konfigureeritud klastri parameetritega θi ja seda kasutatakse x genereerimiseksi tähelepanekud. Lõpuks saame määratleda tiheduse jaotuse pilt mis on meie segujaotus (loendatav lõpmatu segu) koos segamisproportsioonidega pilt ja komponentide segamine pilt.

pilt

Joonis 1: Dirichlet' protsessi segumudeli graafiline mudel

Ülalpool näeme DPMM-i samaväärset graafilist mudelit. G0 on DP põhijaotus ja see valitakse tavaliselt konjugeerimiseks enne generatiivset jaotust F, et hõlbustada arvutusi ja kasutada ahvatlevaid matemaatilisi omadusi. α on Dirichleti protsessi skalaarne hüperparameeter ja see mõjutab saadavate klastrite arvu. Mida suurem on α väärtus, seda rohkem on klastreid; mida väiksem on α, seda vähem klastreid. Peaksime märkima, et α väärtus väljendab usu tugevus aastal G0. Suur väärtus näitab, et enamik proove on erinevad ja nende väärtused on keskendunud G-le0. G on juhuslik jaotus Θ parameetriruumis, mis on võetud DP-st, mis määrab parameetritele tõenäosused. θi on parameetrivektor, mis on koostatud G jaotusest ja sisaldab klastri parameetreid, F jaotus on parameetritega θi ja xi on generatiivse jaotuse F genereeritud andmepunkt.

Oluline on märkida, et θi on parameetriruumi Θ elemendid ja need "konfigureerivad" meie klastreid. Neid võib näha ka x-i varjatud muutujatenai mis ütlevad meile, millisest komponendist/klastrist on xi pärit ja millised on selle komponendi parameetrid. Seega iga x kohtai mida me vaatleme, joonistame θi G jaotusest. Iga loosi korral muutub jaotus olenevalt eelmistest valikutest. Nagu nägime Blackwell-MacQueeni urniskeemist, saab G-jaotuse integreerida ja meie tulevased θ-valikudi sõltuvad ainult G-st0: pilt. Parameetrite θi hindamine eelmisest valemist ei ole alati teostatav, kuna paljud rakendused (nt Hiina restoraniprotsess) hõlmavad loendamist eksponentsiaalselt suurenev k komponent. Seega kasutatakse ligikaudseid arvutusmeetodeid, näiteks Gibbsi proovivõttu. Lõpuks peaksime märkima, et kuigi k klastreid on lõpmatu arv, on aktiivsete klastrite arv sama pilt. Seega θi kordab ja avaldab rühmitusefekti.

2. Hiina restoraniprotsessi kasutamine lõpmatu segumudeli määratlemiseks

Eelmises segmendis määratletud mudel on matemaatiliselt kindel, kuid sellel on suur puudus: iga uue x puhuli mida me vaatleme, peame proovima uue θi võttes arvesse θ varasemaid väärtusi. Probleem on selles, et paljudel juhtudel võib nende parameetrite valimi võtmine olla keeruline ja arvutuslikult kulukas ülesanne.

Alternatiivne lähenemisviis on kasutada Hiina restorani protsessi varjatud muutujate z modelleerimiseksi klastriülesannetest. Sel viisil θ asemeli nii klastri parameetrite kui ka klastri määrangute tähistamiseks kasutame varjatud muutujat zi klastri ID märkimiseks ja seejärel kasutage seda väärtust klastri parameetrite määramiseks. Selle tulemusena ei pea me enam valima θ iga kord, kui saame uue vaatluse, vaid selle asemel saame klastri määramise, valides z.i CRP-st. Selle skeemi abil võetakse uus θ valim ainult siis, kui peame looma uue klastri. Allpool tutvustame selle lähenemisviisi mudelit:

pilt
pilt
pilt

Valem 2: CRP-ga segumudel

Ülaltoodud on generatiivne mudel, mis kirjeldab, kuidas andmed xi ja klastrid luuakse. Klasteranalüüsi tegemiseks peame kasutama vaatlusi xi ja hinnata klastri ülesandeid zi.

3. Segumudeli järeldus ja Gibbsi proovide võtmine

Kahjuks kuna Dirichleti protsessid on mitteparameetrilised, siis me ei saa kasutada EM-algoritmi et hinnata varjatud muutujaid, mis salvestavad klastri ülesandeid. Ülesannete hindamiseks kasutame Gibbsi proovivõtt ahendatud.

Collapsed Gibbs Sampling on lihtne Markovi ahela Monte Carlo (MCMC) algoritm. See on kiire ja võimaldab meil integreerida mõned muutujad, samal ajal kui võtame teise muutuja valimi. Sellegipoolest nõuavad need algoritmid, et valiksime G0 mis on F generatiivse jaotuse konjugaatprior, et oleks võimalik võrrandeid analüütiliselt lahendada ja võtta otse valimi pilt.

Ahendatud Gibbsi proovivõtu etapid, mida kasutame klastri määramiste hindamiseks, on järgmised:

  • Initsialiseerige zi klastri ülesandeid juhuslikult
  • Korrake kuni lähenemiseni
    • Valige juhuslikult axi
    • Hoidke teine ​​zj fikseeritud iga j≠i jaoks: pilt
    • Määrake z-le uus väärtusi z-st sõltuva “CRP tõenäosuse” arvutamisegaj ja xj kõigist j≠i: pilt

Järgmises artiklis keskendume sellele, kuidas teha klastrianalüüsi Dirichlet Process Mixture mudelite abil. Me määratleme kaks erinevat Dirichleti protsessi segumudelit, mis kasutavad pidevate andmekogumite ja dokumentide rühmitamiseks Hiina restoraniprotsessi ja ahendatud Gibbsi proovivõttu.

Ajatempel:

Veel alates Datumbox