Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.

Dokumentumok és Gauss-adatok klaszterezése Dirichlet folyamatkeverék modellekkel

Ez a cikk az oktatóanyag ötödik része Klaszterezés DPMM-mel. Az előző bejegyzésekben részletesen kitértünk a módszer elméleti hátterére, valamint ismertettük annak matematikai reprezentációit és megalkotásának módjait. Ebben a bejegyzésben megpróbáljuk összekapcsolni az elméletet a gyakorlattal két DPMM modell bevezetésével: a Dirichlet Multivariate Normal Mixture Model, amely a Gauss-adatok klaszterezésére használható, és a Dirichlet-Multinomial Mixture Model, amely dokumentumok klaszterezésére szolgál.

Frissítés: A Datumbox Machine Learning Framework nyílt forráskódú és ingyenes letöltés. Tekintse meg a com.datumbox.framework.machinelearning.clustering csomagot a Dirichlet Process Mixture Models Java-ban való megvalósításának megtekintéséhez.

1. A Dirichlet többváltozós normál keverékmodell

Az első Dirichlet-folyamat keverékmodell, amelyet megvizsgálunk, a Dirichlet Multivariate Normal Mixture Model, amely folyamatos adathalmazokon klaszterezésre használható. A keverékmodell meghatározása a következő:

Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
1. egyenlet: Dirichlet többváltozós normál keverékmodell

Amint fentebb láthatjuk, az adott modell feltételezi, hogy a generatív eloszlás a multinomiális Gauss-eloszlás, és a kínai étterem eljárást használja, mint korábban a klaszter-hozzárendeléseknél. Ezenkívül a G alapeloszláshoz0 a Normal-Inverse-Wishart előzőt használja, amely az konjugált előtt Többváltozós Normál eloszlás ismeretlen átlaggal és kovariancia mátrixszal. Az alábbiakban bemutatjuk a keverékmodell grafikus modelljét:

Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
1. ábra: Dirichlet többváltozós normál keverékmodell grafikus modellje

Amint azt korábban tárgyaltuk, a klaszter-hozzárendelések becsléséhez használjuk a Összecsukott Gibbs-mintavétel amihez ki kell választani a megfelelő konjugált priorok. Ezenkívül frissítenünk kell a megadott paramétereket az előzetes és a bizonyíték. Az alábbiakban látjuk a MAP becslések az egyik klaszter paraméterei közül:

Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
2. egyenlet: MAP becslések a klaszterparamétereken

Ahol d az adataink dimenziója és Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai. a minta átlaga. Ezen túlmenően a Normal-Inverse-Wishartnak számos hiperparamétere van, mint például a μ0 ami a kezdeti átlag, κ0 a simítási paraméterként működő átlagos tört, ν0 a szabadságfok, amely a dimenziók számára és Ψ-re van beállítva0 a páronkénti eltérés szorzata, amely a dxd azonosságmátrixra van beállítva, megszorozva egy konstanssal. Mostantól a G összes korábbi hiperparamétere0 λ-val lesz jelölve a jelölés egyszerűsítése érdekében. Végül a fentiek birtokában megbecsülhetjük a Collapsed Gibbs Sampler által megkövetelt valószínűségeket. Annak a valószínűsége, hogy az i megfigyelés a k klaszterhez tartozik, a klaszter-hozzárendelések, az adatkészlet, valamint a DP és G összes α és λ hiperparamétere alapján0 lent van megadva:

Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
3. egyenlet: A Gibbs Sampler által az MNMM-hez használt valószínűségek

Ahol zi az x megfigyelés klaszter hozzárendelései, x1:n a teljes adatkészlet, z-i a fürt-hozzárendelések halmaza az i nélkülth megfigyelés, x-i a teljes adatkészlet, kivéve az ith megfigyelés, ck,-én a k klaszterhez rendelt megfigyelések teljes száma, kivéve az i-tth megfigyelés közben Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai. és a Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai. a k klaszter átlaga és kovarianciamátrixa, kivéve az i-tth megfigyelés.

2. A Dirichlet-Multinomiális keverékmodell

A Dirichlet-Multinomial Mixture Model a dokumentumok klaszteranalízisére szolgál. Az adott modell kissé bonyolultabb hierarchiával rendelkezik, mivel modellezi a dokumentumok témáit/kategóriáit, az egyes témákon belüli szóvalószínűségeket, a klaszter-hozzárendeléseket és a dokumentumok generatív eloszlását. Célja, hogy felügyelet nélküli tanulást hajtson végre, és csoportokhoz rendelje a dokumentumok listáját. A keverékmodell meghatározása a következő:

Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
4. egyenlet: Dirichlet-multinomiális keverékmodell

Ahol φ modellezi a témavalószínűségeket, zi egy témaválasztó, θk a szó valószínűségei minden klaszterben és xi, j a dokumentum szavait jelenti. Meg kell jegyeznünk, hogy ez a technika a zsák-szavas keret amely a dokumentumokat a szavak rendezetlen gyűjteményeként ábrázolja, figyelmen kívül hagyva a nyelvtant és a szórendet. Ezt az egyszerűsített ábrázolást gyakran használják a természetes nyelvi feldolgozásban és információkeresésben. Az alábbiakban bemutatjuk a keverékmodell grafikus modelljét:

Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
2. ábra: A Dirichlet-Multinomiális keverékmodell grafikus modellje

Az adott modell használ Multinomiális Diszkrét eloszlás a generatív eloszláshoz és Dirichlet eloszláshoz a priorokhoz. A ℓ az aktív klasztereink mérete, az n a dokumentumok teljes száma, a β a klaszterek a priori várható számát, míg az α az egyes klaszterekhez rendelt szavak számát. A megkövetelt valószínűségek becsléséhez Összecsukott Gibbs Sampler használjuk a következő egyenlet:

Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
Dokumentumok és Gauss-adatok klaszterezése a Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence segítségével. Függőleges keresés. Ai.
5. egyenlet: A Gibbs Sampler által a DMMM-hez használt valószínűségek

Ahol Γ a gammafüggvény, zi az x dokumentum klaszter-hozzárendelései, x1:n a teljes adatkészlet, z-i a fürt-hozzárendelések halmaza az i nélkülth dokumentum, x-i a teljes adatkészlet, kivéve az ith dokumentum, Nk(z-i) a k klaszterhez rendelt megfigyelések száma i nélkülth dokumentum, Nz=k(x-i) egy vektor, amely minden szóhoz tartozó számok összegét tartalmazza a k klaszterhez rendelt összes dokumentumhoz, kivéve ith dokumentum és N(xi) az a ritka vektor, amely az x dokumentum egyes szavainak számát tartalmazzai. Végül, amint fentebb láthatjuk, a Collapsed Gibbs Sampler és a Chinese Restaurant Process segítségével a θjk változó, amely a j szó valószínűségét tárolja a k témakörben, integrálható.

Időbélyeg:

Még több Datumbox