Model mieszanki procesowej Dirichleta

Opublikowane ponownie przez Plato

Obserwuje: 0

23 czerwca 2014 r.
Wasilis Wryniotis
. 2 komentarzy

Ten wpis na blogu jest czwartą częścią serii poświęconej Klastrowanie za pomocą modeli mieszanin procesowych Dirichleta. W poprzednich artykułach omawialiśmy modele skończonych mieszanin Dirichleta i przyjęliśmy limit ich modelu dla nieskończonych k klastrów, co doprowadziło nas do wprowadzenia procesów Dirichleta. Jak widzieliśmy, naszym celem jest zbudowanie modelu mieszanego, który nie wymaga od nas określenia liczby k klastrów/komponentów od początku. Później prezentacja różnych reprezentacji Procesów Dirichleta, nadszedł czas, aby faktycznie użyć DP do skonstruowania nieskończonego modelu mieszanki, który umożliwi nam tworzenie klastrów. Celem tego artykułu jest zdefiniowanie modeli mieszania procesów Dirichleta i omówienie wykorzystania chińskiego procesu restauracyjnego i próbkowania Gibbsa. Jeśli nie czytałeś poprzednich postów, zdecydowanie zalecamy to zrobić, ponieważ temat jest trochę teoretyczny i wymaga dobrego zrozumienia budowy modelu.

Aktualizacja: Platforma uczenia maszynowego Datumbox jest teraz open-source i bezpłatna pobieranie. Zapoznaj się z pakietem com.datumbox.framework.machinelearning.clustering, aby zobaczyć implementację modeli mieszania procesów Dirichleta w Javie.

1. Definicja modelu mieszaniny procesowej Dirichleta

Korzystanie z Procesów Dirichleta pozwala nam mieć model mieszany z nieskończonymi składnikami, które można uważać za przyjmujące granicę modelu skończonego dla k do nieskończoności. Załóżmy, że mamy następujący model:

Równanie 1: Model mieszaniny procesowej Dirichleta

Gdzie G jest zdefiniowane jako i używany jako skrócona notacja dla która jest funkcją delta przyjmującą 1 jeśli i 0 gdzie indziej. θ_i są parametrami klastra, które są próbkowane z G. Rozkład generatywny F jest konfigurowany przez parametry klastra θ_i i służy do generowania x_i obserwacje. Na koniec możemy zdefiniować rozkład gęstości czyli nasz rozkład mieszanki (przeliczalna nieskończona mieszanka) z proporcjami mieszania i mieszanie składników .

obraz

Rysunek 1: Model graficzny modelu mieszaniny procesowej Dirichleta

Powyżej widzimy odpowiednik modelu graficznego DPMM. G₀ jest podstawowym rozkładem DP i jest zwykle wybierany do sprzężenia przed naszym rozkładem generatywnym F, aby ułatwić obliczenia i wykorzystać atrakcyjne właściwości matematyczne. α jest skalarnym hiperparametrem procesu Dirichleta i wpływa na liczbę klastrów, które otrzymamy. Im większa wartość α, tym więcej skupisk; im mniejsza α, tym mniej skupisk. Należy zauważyć, że wartość α wyraża siła wiary NS₀. Duża wartość wskazuje, że większość próbek będzie odrębna i będzie miała wartości skoncentrowane na G₀. G jest losowym rozkładem w przestrzeni parametrów pobranej z DP, który przypisuje prawdopodobieństwa parametrom. θ_i jest wektorem parametrów, który jest pobierany z rozkładu G i zawiera parametry klastra, rozkład F jest sparametryzowany przez θ_i i x_i to punkt danych generowany przez generatywną dystrybucję F.

Ważne jest, aby pamiętać, że θ_i są elementami przestrzeni parametrów Θ i „konfigurują” nasze klastry. Mogą być również postrzegane jako zmienne latentne na x_i które mówią nam, z którego komponentu/klastra x_i pochodzi i jakie są parametry tego komponentu. Tak więc dla każdego x_i że obserwujemy, rysujemy θ_i z dystrybucji G. Przy każdym losowaniu rozkład zmienia się w zależności od poprzednich wyborów. Jak widzieliśmy w schemacie urny Blackwella-MacQueena, dystrybucję G można zintegrować, a nasze przyszłe wybory θ_i zależy tylko od G₀: . Oszacowanie parametrów θi z poprzedniej formuły nie zawsze jest wykonalne, ponieważ wiele implementacji (np. Chinese Restaurant Process) wiąże się z wyliczaniem przez wykładniczo rosnący k składowych. Stosowane są zatem przybliżone metody obliczeniowe, takie jak próbkowanie Gibbsa. Na koniec powinniśmy zauważyć, że chociaż k skupień jest nieskończonych, liczba aktywnych skupień wynosi . Tak więc_i powtórzy się i wykaże efekt klastrowania.

2. Wykorzystanie chińskiego procesu restauracyjnego do zdefiniowania modelu nieskończonej mieszanki

Model zdefiniowany w poprzednim segmencie jest matematycznie solidny, ma jednak poważną wadę: dla każdego nowego x_i które obserwujemy, musimy próbkować nowy θ_i biorąc pod uwagę poprzednie wartości θ. Problem w tym, że w wielu przypadkach próbkowanie tych parametrów może być trudnym i kosztownym obliczeniowo zadaniem.

Alternatywnym podejściem jest wykorzystanie chińskiego procesu restauracyjnego do modelowania ukrytych zmiennych z_i zadań klastrowych. W ten sposób zamiast używać θ_i do oznaczenia zarówno parametrów klastra, jak i przypisania do klastra, używamy zmiennej latentnej z_i aby wskazać identyfikator klastra, a następnie użyć tej wartości do przypisania parametrów klastra. W rezultacie nie musimy już próbkować a θ za każdym razem, gdy otrzymujemy nową obserwację, ale zamiast tego otrzymujemy przypisanie klastra przez próbkowanie z_i z CRP. W tym schemacie nowe θ jest próbkowane tylko wtedy, gdy musimy utworzyć nowy klaster. Poniżej przedstawiamy model tego podejścia:

Równanie 2: Model mieszany z CRP

Powyższe jest modelem generatywnym, który opisuje, w jaki sposób dane x_i a klastry są generowane. Aby przeprowadzić analizę skupień musimy wykorzystać obserwacje x_i i oszacuj przypisania klastrów z_i.

3. Wnioskowanie modelu mieszanego i próbkowanie Gibbsa

Niestety, ponieważ procesy Dirichleta są nieparametryczne, my nie mogę użyć algorytmu EM aby oszacować ukryte zmienne, które przechowują przypisania klastrów. W celu oszacowania przydziałów posłużymy się Zwinięte próbkowanie Gibbsa.

Zwinięte próbkowanie Gibbsa jest prostym algorytmem Markov Chain Monte Carlo (MCMC). Jest szybki i umożliwia nam zintegrowanie niektórych zmiennych podczas próbkowania innej zmiennej. Niemniej jednak ten algorytm wymaga od nas wybrania G₀ który jest sprzężoną przed rozkładem generatywnym F, aby móc analitycznie rozwiązać równania i móc pobierać próbki bezpośrednio z .

Kroki Collapsed Gibbs Sampling, których użyjemy do oszacowania przypisania klastrów, są następujące:

Zainicjuj z_i przypisania klastrów losowo
Powtarzaj aż do zbieżności

Wybierz losowo topór_i
Zachowaj pozostałe z_j ustalone dla każdego j≠i:
Przypisz nową wartość do z_i obliczając „prawdopodobieństwo CRP”, które zależy od z_j i x_j wszystkich j≠i:

W następnym artykule skupimy się na tym, jak przeprowadzić analizę skupień przy użyciu modeli Dirichlet Process Mixture. Zdefiniujemy dwa różne modele mieszania procesów Dirichleta, które wykorzystują proces restauracji chińskiej i próbkowanie zwiniętego Gibbsa w celu wykonywania klastrów na ciągłych zestawach danych i dokumentach.

Znak czasu: 23 czerwca 2014 r.18 lipca 2022 r.

Znak czasu: Jan 21, 2018

Model mieszanki procesowej Dirichleta

Opublikowane ponownie przez Plato

1. Definicja modelu mieszaniny procesowej Dirichleta

2. Wykorzystanie chińskiego procesu restauracyjnego do zdefiniowania modelu nieskończonej mieszanki

3. Wnioskowanie modelu mieszanego i próbkowanie Gibbsa

Więcej z Skrzynka odniesienia

Wydano Datumbox Machine Learning Framework wersja 0.8.0

The Dirichlet Process the Chinese Restaurant Process i inne oświadczenia

Nowa platforma uczenia maszynowego typu open source napisana w języku Java

Wydano Datumbox Machine Learning Framework 0.6.0

Grupowanie dokumentów i danych gaussowskich za pomocą modeli mieszanin procesów Dirichleta

Model mieszanki skończonej oparty na rozkładzie Dirichleta

Warstwa normalizacji wsadowej w Kerasie jest uszkodzona

Zajawka TorchVision v0.11 – Wspomnienia dewelopera TorchVision – 2

Klastrowanie z Dirichlet Process Mixture Model w Javie

Uzyskanie wykorzystania GPU kart NVIDIA za pomocą narzędzia Linux dstat

Wydano Datumbox Machine Learning Framework v0.8.2

5 wskazówek dotyczących treningu z wieloma GPU z Kerasem

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto