Lõpliku segu mudel, mis põhineb Dirichleti jaotusel

Taasavaldanud Platon

järgijaid: 0

See ajaveebi postitus on Dirichlet Processi segumudeleid käsitleva artiklisarja teine osa. Eelmises artiklis oli meil ülevaade mitmetest klastrianalüüsi tehnikatest ja arutasime mõningaid probleeme/piiranguid, mis nende kasutamisel esile kerkivad. Lisaks tutvustasime lühidalt Dirichleti protsessisegude mudeleid, rääkisime nende kasulikkusest ja tutvustasime mõningaid nende rakendusi.

Värskendus: Datumboxi masinõppe raamistik on nüüd avatud lähtekoodiga ja tasuta lae alla. Tutvuge paketiga com.datumbox.framework.machinelearning.clustering, et näha Dirichleti protsessisegude mudelite rakendamist Javas.

Dirichleti protsessisegude mudeleid võib alguses olla raske alla neelata peamiselt seetõttu, et need on lõpmatud segumudelid, millel on palju erinevaid esitusi. Õnneks on hea viis teemale lähenemiseks alustada Dirichleti jaotusega lõplike segude mudelitest ja seejärel liikuda lõpmatute mudeliteni.

Sellest tulenevalt tutvustan selles artiklis lühidalt mõningaid olulisi jaotusi, mida vajame, me kasutame neid Dirichlet Priori koos mitmenomilise tõenäosusega mudeli konstrueerimiseks ja seejärel liigume Dirichleti jaotusel põhineva lõpliku segu mudeli juurde.

1. Beetaversiooni levitamine

. Beeta levitamine on pidevate jaotuste perekond, mis on määratletud vahemikus [0,1]. Selle parameetriks on kaks positiivset parameetrit a ja b ning selle vorm sõltub suuresti nende kahe parameetri valikust.

pilt

Joonis 1: Beeta jaotus erinevate a, b parameetrite jaoks

Beetajaotust kasutatakse tavaliselt tõenäosuste jaotuse modelleerimiseks ja sellel on järgmine tõenäosustihedus:

1. võrrand: beeta-PDF

Kus Γ(x) on gammafunktsioon ja a, b jaotuse parameetrid. Beetat kasutatakse tavaliselt tõenäosusväärtuste jaotusena ja see annab meile tõenäosuse, et modelleeritud tõenäosus võrdub konkreetse väärtusega P = p0. Oma määratluse järgi on beetajaotus võimeline modelleerima binaarsete tulemuste tõenäosust, mille väärtused on tõesed või väärad. Parameetreid a ja b võib pidada vastavalt edu ja ebaõnnestumise pseudoarvudeks. Seega modelleerib beeta jaotus õnnestumise tõenäosust a õnnestumiste ja b ebaõnnestumiste korral.

2. Dirichleti jaotus

. Dirichleti levitamine on beeta jaotuse üldistus mitme tulemuse jaoks (või teisisõnu kasutatakse seda mitme tulemusega sündmuste puhul). See on parameetris k parameetriga a_i mis peab olema positiivne. Dirichleti jaotus võrdub beeta jaotusega, kui muutujate arv k = 2.

pilt

Joonis 2: Dirichleti jaotus erinevate a_i parameetrid

Dirichleti jaotust kasutatakse tavaliselt tõenäosuste jaotuse modelleerimiseks ja sellel on järgmine tõenäosustihedus:

Võrrand 2: Dirichlet PDF

Kui Γ(x) on gammafunktsioon, siis p_i võta väärtused [0,1] ja Σp_i=1. Dirichlet' jaotus modelleerib p ühisjaotust_i ja annab tõenäosuse, et P₁=p₁,P₂=p₂,….,P_k-1=p_k-1 koos P-ga_k=1 – ΣP_i. Nagu Beeta puhul, on ka a_i parameetreid võib pidada iga i sündmuse esinemiste pseudoarvudeks. Dirichleti jaotust kasutatakse k rivaalisündmuse esinemise tõenäosuse modelleerimiseks ja seda tähistatakse sageli kui Dirichlet(a).

3. Dirichlet Prior multinomiaalse tõenäosusega

Nagu varem mainitud, võib Dirichleti jaotust vaadelda kui tõenäosusjaotuste jaotust. Juhtudel, kui tahame modelleerida k sündmuse toimumise tõenäosust, tuleks kasutada Bayesi lähenemisviisi Multinomaalne tõenäosus ja Dirichlet Priors .

Allpool näeme sellise mudeli graafilist mudelit.

pilt

Joonis 3: Multinomiaalse tõenäosusega Dirichlet Priorite graafiline mudel

Ülaltoodud graafilises mudelis on α ak-mõõtmeline vektor Dirichlet priorsi hüperparameetritega, p on ak-mõõtmeline vektor tõenäosusväärtustega ja x_i on skalaarväärtus vahemikus 1 kuni k, mis annab meile teada, milline sündmus on toimunud. Lõpuks peaksime tähele panema, et P järgib Dirichleti jaotust, mis on parameetritega konfigureeritud vektoriga α ja seega P ~ Dirichlet(α), samas kui x_i muutujad järgivad diskreetset jaotust (Multinomial), mis on parameetritega p-tõenäosuste vektoriga. Sarnaseid hierarhilisi mudeleid saab kasutada dokumentide klassifitseerimisel, et esitada märksõnade sageduste jaotusi erinevatel teemadel.

4. Lõpliku segu mudel Dirichleti jaotusega

Dirichlet Distributioni abil saame konstrueerida a Lõpliku segu mudel mida saab kasutada klastrite moodustamiseks. Oletame, et meil on järgmine mudel:

Valem 3: Dirichleti jaotusega lõpliku segu mudel

Ülaltoodud mudel eeldab järgmist: Meil on andmestik X, millel on n vaatlust ja me tahame sellel teha klastrianalüüsi. K on konstantne lõplik arv, mis näitab kasutatavate klastrite/komponentide arvu. C_i muutujad salvestavad vaatluse X klastri määramise_i, võtavad nad väärtused 1 kuni k ja järgivad diskreetset jaotust parameetriga p, mis on komponentide segunemise tõenäosus. F on meie X generatiivne jaotus ja see on parameetritega parameetritega määratud mis sõltub iga vaatluse klastri määramisest. Kokku on meil k ainulaadset parameetrid, mis on võrdsed meie klastrite arvuga. The muutuja salvestab parameetrid, mis parameetriseerivad generatiivset F-jaotust ja eeldame, et see järgib baasi G₀ levitamine. Muutuja p salvestab segu protsendid iga k klastri jaoks ja järgib Dirichlet'i parameetritega α / k. Lõpuks on α ak-mõõtmeline vektor Dirichlet' jaotuse hüperparameetritega (pseudoarvudega) [2].

pilt

Joonis 4: Lõpliku segu mudeli graafiline mudel Dirichleti jaotusega

Lihtsam ja vähem matemaatiline viis mudeli selgitamiseks on järgmine. Eeldame, et meie andmeid saab rühmitada k klastritesse. Igal klastril on oma parameetrid ja neid parameetreid kasutatakse meie andmete genereerimiseks. Parameetrid eeldatakse, et nad järgivad mingit jaotust G₀. Iga vaatlus on kujutatud vektoriga x_i ja c_i väärtus, mis näitab klastrit, kuhu see kuulub. Järelikult c_i võib vaadelda kui muutujat, mis järgneb diskreetsele jaotusele parameetriga p, mis pole midagi muud kui segutõenäosused, st iga klastri esinemise tõenäosus. Arvestades, et käsitleme oma probleemi Bayesi viisil, ei käsitle me parameetrit p konstantse tundmatu vektorina. Selle asemel eeldame, et P järgneb Dirichletile, mida parameetrid on hüperparameetrid α / k.

5. Töötamine lõpmatu k-klastriga

Eelmine segumudel võimaldab meil läbi viia juhendamata õppimist, järgib Bayesi lähenemisviisi ja seda saab laiendada hierarhilise struktuuriga. Sellegipoolest on see piiratud mudel, kuna see kasutab konstantset eelnevalt määratletud k arvu klastreid. Seetõttu tuleb meil enne klastrianalüüsi läbiviimist määratleda komponentide arv ja nagu me varem arutasime enamiku rakenduste puhul, on see teadmata ja seda ei saa kergesti hinnata.

Üks viis selle lahendamiseks on ette kujutada, et k-l on väga suur väärtus, mis kaldub lõpmatuseni. Teisisõnu võime ette kujutada selle mudeli piiri, kui k kaldub lõpmatuseni. Kui see on nii, siis näeme, et vaatamata sellele, et klastrite arv k on lõpmatu, ei saa tegelik aktiivsete klastrite arv (need, millel on vähemalt üks vaatlus) olla suurem kui n (mis on vaatluste koguarv meie andmekogumis). Tegelikult nagu me hiljem näeme, on aktiivsete klastrite arv oluliselt väiksem kui n ja need on võrdelised .

Loomulikult on k piiri viimine lõpmatusse mittetriviaalne. Tekivad mitmed küsimused, näiteks kas sellist limiiti on võimalik võtta, kuidas see mudel välja näeks ja kuidas me saame ehitada ja kasutada sellist mudelit.

Järgmises artiklis keskendume täpselt neile küsimustele: defineerime Dirichlet' protsessi, tutvustame DP erinevaid esitusi ja lõpuks keskendume Hiina restoraniprotsessile, mis on intuitiivne ja tõhus viis Dirichlet' protsessi konstrueerimiseks.

Loodan, et see postitus oli teile kasulik. Kui jagasite, võtke hetk, et jagada artiklit Facebookis ja Twitteris. 🙂

Ajatempel: Võib 12 2014Juuli 17, 2022

Ajatempel: November 9, 2014

Lõpliku segu mudel, mis põhineb Dirichleti jaotusel

Taasavaldanud Platon

1. Beetaversiooni levitamine

2. Dirichleti jaotus

3. Dirichlet Prior multinomiaalse tõenäosusega

4. Lõpliku segu mudel Dirichleti jaotusega

5. Töötamine lõpmatu k-klastriga

Veel alates Datumbox

NVIDIA kaartide GPU kasutuse saamine Linuxi dstat tööriistaga

DEA-ga lehtede sotsiaalmeedia populaarsuse mõõtmine JAVA-s

Uus Java keeles kirjutatud avatud lähtekoodiga masinõppe raamistik

Naiivse Bayesi tekstiklassifikaatori väljatöötamine JAVA-s

Datumboxi masinõppe raamistik 0.6.0 Välja antud

Kuidas luua oma Facebooki sentimentide analüüsi tööriist

Datumboxi masinõppe raamistiku versioon 0.8.0 on välja antud

Uus ajaveebisari – TorchVisioni arendaja memuaarid

Kerase partii normaliseerimise kiht on katki

Sparki ALS-i soovituse algoritmi uurimine

TorchVisioni moderniseerimise teekond – TorchVisioni arendaja memuaarid – 3

Kuidas installida ja kasutada Datumboxi masinõppe raamistikku

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto