Grupowanie dokumentów i danych Gaussa za pomocą modeli mieszanin procesowych Dirichleta

Opublikowane ponownie przez Plato

Obserwuje: 0

30 czerwca 2014 r.
Wasilis Wryniotis
. Bez komentarza

Ten artykuł jest piątą częścią samouczka na Klastrowanie z DPMM. W poprzednich postach szczegółowo omówiliśmy podstawy teoretyczne metody oraz opisaliśmy jej matematyczne reprezentacje i sposoby jej konstruowania. W tym poście postaramy się powiązać teorię z praktyką, wprowadzając dwa modele DPMM: model wielowymiarowej mieszaniny normalnej Dirichleta, który można wykorzystać do grupowania danych gaussowskich, oraz model mieszaniny wielomianowej Dirichleta, który służy do grupowania dokumentów.

Aktualizacja: Platforma uczenia maszynowego Datumbox jest teraz open-source i bezpłatna pobieranie. Zapoznaj się z pakietem com.datumbox.framework.machinelearning.clustering, aby zobaczyć implementację modeli mieszania procesów Dirichleta w Javie.

1. Model wielowymiarowej normalnej mieszaniny Dirichleta

Pierwszym modelem mieszanki Dirichlet Process, który zbadamy, jest model Dirichlet Multivariate Normal Mixture Model, który można wykorzystać do wykonywania klastrów na ciągłych zestawach danych. Model mieszaniny definiuje się następująco:

Równanie 1: Wielowymiarowy model normalnej mieszaniny Dirichleta

Jak widać powyżej, konkretny model zakłada, że dystrybucja generatywna jest wielomianową dystrybucją Gaussa i wykorzystuje proces restauracji chińskiej jak wcześniej dla przypisania klastra. Ponadto dla rozkładu bazowego G₀ używa wcześniejszej wartości Normal-Inverse-Wishart, która jest koniugat przed wielowymiarowego rozkładu normalnego z nieznaną średnią i macierzą kowariancji. Poniżej przedstawiamy Model Graficzny modelu mieszanki:

Grupowanie dokumentów i danych gaussowskich za pomocą modeli Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
Rysunek 1: Model graficzny wielowymiarowego modelu normalnej mieszaniny Dirichleta

Jak wspomnieliśmy wcześniej, aby móc oszacować przypisania klastrów, użyjemy Zwinięte próbkowanie Gibbsa co wymaga wybrania odpowiedni sprzężony przeor. Ponadto będziemy musieli zaktualizować podane parametry a posteriori przeor i dowody”. Poniżej widzimy Szacunki MAP parametrów dla jednego z klastrów:

Grupowanie dokumentów i danych gaussowskich za pomocą modeli Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
Równanie 2: Szacunki MAP dotyczące parametrów skupień

Gdzie d jest wymiarem naszych danych i jest średnią próbki. Ponadto mamy kilka hiperparametrów wartości normalnej-odwrotnej-Wishart, takich jak μ₀ która jest początkową średnią, κ₀ to średni ułamek, który działa jako parametr wygładzający, ν₀ jest stopniami swobody ustawionymi na liczbę wymiarów i Ψ₀ jest iloczynem odchylenia parami, który jest ustawiony na macierz jednostkową dxd pomnożoną przez stałą. Od teraz wszystkie poprzednie hiperparametry G₀ będzie oznaczane przez λ, aby uprościć notację. Wreszcie mając wszystko powyższe, możemy oszacować prawdopodobieństwa wymagane przez Collapsed Gibbs Sampler. Prawdopodobieństwo, że obserwacja i będzie należeć do klastra k, biorąc pod uwagę przypisania klastra, zbiór danych i wszystkie hiperparametry α i λ DP i G₀podano poniżej:

Grupowanie dokumentów i danych gaussowskich za pomocą modeli Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Równanie 3: Prawdopodobieństwa używane przez Gibbs Sampler dla MNMM

Gdzie z_i jest przypisaniem do klastra obserwacji x_iX_1:nie jest kompletnym zbiorem danych, z_-i jest zbiorem przypisań skupień bez jednego z i^th obserwacja, x_-i jest kompletnym zbiorem danych z wyłączeniem i^th obserwacja, c_k_,-ja to łączna liczba obserwacji przypisanych do skupienia k z wyłączeniem i^th obserwacja podczas i są średnią i macierzą kowariancji skupienia k z wyłączeniem i^th obserwacja.

2. Model mieszaniny wielomianowej Dirichleta

Model Dirichleta-Multinomial Mixture służy do przeprowadzania analizy skupień dokumentów. Poszczególny model ma nieco bardziej skomplikowaną hierarchię, ponieważ modeluje tematy/kategorie dokumentów, prawdopodobieństwa słów w każdym temacie, przypisania klastrów i generatywną dystrybucję dokumentów. Jego celem jest przeprowadzanie nienadzorowanej nauki i grupowanie listy dokumentów poprzez przypisywanie ich do grup. Model mieszaniny definiuje się następująco:

Równanie 4: Dirichlet-wielomianowy model mieszaniny

Gdzie φ modeluje prawdopodobieństwa tematu, z_i to selektor tematów, θ_k są prawdopodobieństwami słów w każdym skupieniu i x_{i, j} reprezentuje słowa dokumentu. Należy zauważyć, że ta technika wykorzystuje ramy bag-of-words który reprezentuje dokumenty jako nieuporządkowany zbiór słów, bez względu na gramatykę i kolejność słów. Ta uproszczona reprezentacja jest powszechnie stosowana w przetwarzaniu języka naturalnego i wyszukiwaniu informacji. Poniżej przedstawiamy Model Graficzny modelu mieszanki:

Grupowanie dokumentów i danych gaussowskich za pomocą modeli Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
Rysunek 2: Graficzny model wielomianowego modelu mieszaniny Dirichleta

Konkretny model wykorzystuje Wielomianowy rozkład dyskretny dla rozkładu generatywnego i rozkłady Dirichleta dla a priori. ℓ to rozmiar naszych aktywnych klastrów, n całkowita liczba dokumentów, β kontroluje a priori oczekiwaną liczbę klastrów, podczas gdy α kontroluje liczbę słów przypisanych do każdego klastra. Aby oszacować prawdopodobieństwa wymagane przez Zwinięty próbnik Gibbsa Używamy następujące równanie:

Grupowanie dokumentów i danych gaussowskich za pomocą modeli Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.
Równanie 5: Prawdopodobieństwa używane przez Gibbs Sampler dla DMMM

Gdzie Γ jest funkcją gamma, z_i jest przypisaniem do klastra dokumentu x_iX_1:nie jest kompletnym zbiorem danych, z_-i jest zbiorem przypisań skupień bez jednego z i^th dokument, x_-i jest kompletnym zbiorem danych z wyłączeniem i^th dokument, N_k(z_-i) to liczba obserwacji przypisanych do skupienia k z wyłączeniem i^th dokument, N_z_=k(x_-i) jest wektorem z sumami zliczeń dla każdego słowa dla wszystkich dokumentów przypisanych do skupienia k wyłączając i^th dokument i N(x_i) jest rzadkim wektorem z liczbą każdego słowa w dokumencie x_i. Wreszcie, jak widać powyżej, używając Collapsed Gibbs Sampler z chińską restauracją Przetwórz θ_jk zmienna przechowująca prawdopodobieństwo wystąpienia słowa j w temacie k może zostać zintegrowana na zewnątrz.

Znak czasu: 30 czerwca 2014 r.18 lipca 2022 r.

Znak czasu: 20 maja 2014 r.

Grupowanie dokumentów i danych gaussowskich za pomocą modeli mieszanin procesów Dirichleta

Opublikowane ponownie przez Plato

1. Model wielowymiarowej normalnej mieszaniny Dirichleta

2. Model mieszaniny wielomianowej Dirichleta

Więcej z Skrzynka odniesienia

Jak tworzyć kopie zapasowe S3 za pomocą DejaDup na Ubuntu 20.10

Wydano Datumbox Machine Learning Framework wersja 0.8.0

Nowa seria blogów – Wspomnienia dewelopera TorchVision

Uzyskanie wykorzystania GPU kart NVIDIA za pomocą narzędzia Linux dstat

Podróż modernizacji TorchVision – Wspomnienia dewelopera TorchVision – 3

Opracowanie naiwnego klasyfikatora tekstu Bayesa w JAVA

Korzystanie z metod wyboru cech w klasyfikacji tekstu

Model mieszanki procesowej Dirichleta

Pomiar popularności stron w mediach społecznościowych za pomocą DEA w JAVA

Wydano Datumbox Machine Learning Framework 0.6.0

Samouczek dotyczący analizy obwiedni danych

The Dirichlet Process the Chinese Restaurant Process i inne oświadczenia

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto