Finite Mixture Model Based On Dirichlet Distribution

Publisert av Platon

Følgere: 0

Dette blogginnlegget er den andre delen av en artikkelserie om Dirichlet Process-blandingsmodeller. I forrige artikkel hadde vi en oversikt over flere klyngeanalyseteknikker og vi diskuterte noen av problemene / begrensningene som stiger ved å bruke dem. Videre presenterte vi kort Dirichlet Process Mixture Modeller, vi snakket om hvorfor de er nyttige, og vi presenterte noen av deres applikasjoner.

Oppdatering: Datumbox Machine Learning Framework er nå åpen kildekode og gratis å nedlasting. Sjekk ut pakken com.datumbox.framework.machinelearning.clustering for å se implementeringen av Dirichlet Process Mixture Models i Java.

Dirichlet Process Mixture Modeller kan være litt vanskelig å svelge i begynnelsen, først og fremst fordi de er uendelige blandingsmodeller med mange forskjellige representasjoner. Heldigvis er en god måte å nærme seg emnet på ved å starte fra Finite Mixture Modeller med Dirichlet Distribution og deretter flytte til de uendelige.

Derfor vil jeg i denne artikkelen kort presentere noen viktige distribusjoner som vi trenger, vi vil bruke dem til å konstruere Dirichlet Prior med multinomial Likelihood-modell, og deretter vil vi gå til Finite Mixture Model basert på Dirichlet Distribution.

1. Betadistribusjon

De Betadistribusjon er en familie av kontinuerlige fordelinger som er definert i intervallet [0,1]. Den er parameterisert av to positive parametere a og b, og dens form avhenger sterkt av valget av de to parametrene.

bilde

Figur 1: Betadistribusjon for forskjellige parametere a, b

Beta-fordelingen brukes ofte til å modellere en fordeling over sannsynligheter og har følgende sannsynlighetstetthet:

Likning 1: Beta PDF

Der Γ (x) er gammafunksjonen og a, b fordelingsparametrene. Beta brukes ofte som en fordeling av sannsynlighetsverdier og gir oss sannsynligheten for at den modellerte sannsynligheten er lik en bestemt verdi P = p0. Etter sin definisjon er Beta-fordelingen i stand til å modellere sannsynligheten for binære utfall som tar verdier sanne eller falske. Parametrene a og b kan betraktes som henholdsvis pseudoteller for suksess og fiasko. Dermed modellerer Beta Distribution sannsynligheten for suksess gitt suksesser og b-feil.

2. Dirichlet Distribusjon

De Dirichlet Distribusjon er generalisering av Betadistribusjon for flere utfall (eller med andre ord den brukes til arrangementer med flere utfall). Den er parameterisert med k-parametere a_i som må være positivt. Dirichlet-fordeling er lik Beta-fordelingen når antall variabler k = 2.

bilde

Figur 2: Dirichlet-distribusjon for forskjellige a_i parametere

Dirichlet-fordelingen brukes ofte til å modellere en fordeling over sannsynligheter og har følgende sannsynlighetstetthet:

Likning 2: Dirichlet PDF

Der Γ (x) er gammafunksjonen, blir p_i ta verdier i [0,1] og Σp_i= 1. Dirichlet-distribusjonen modellerer felles distribusjon av s_i og gir sannsynligheten for P₁=p₁,P₂=p₂, ...., P_k-1=p_k-1 med P_k= 1 - ΣP_i. Som i tilfellet med Beta, er a_i parametere kan betraktes som pseudeteller for utseendet til hver i-hendelse. Dirichlet-fordelingen brukes til å modellere sannsynligheten for at k rivaliserende hendelser oppstår, og blir ofte betegnet som Dirichlet (a).

3. Dirichlet Prior med multinomial sannsynlighet

Som nevnt tidligere kan Dirichlet-fordelingen sees på som en fordeling over sannsynlighetsfordelinger. I tilfeller der vi ønsker å modellere sannsynligheten for at k hendelser oppstår, vil en Bayesisk tilnærming være å bruke Multinomial Likelihood og Dirichlet Priors .

Nedenfor kan vi se den grafiske modellen til en slik modell.

bilde

Figur 3: grafisk modell av Dirichlet Priors med multinomial sannsynlighet

I den ovennevnte grafiske modellen er α ak dimensjonsvektor med hyperparametrene til Dirichlet priors, p er ak dimensjonsvektor med sannsynlighetsverdiene og x_i er en skalarverdi fra 1 til k som forteller oss hvilken hendelse som har skjedd. Til slutt skal vi merke oss at P følger Dirichlet-fordelingen parametrisert med vektor α og dermed P ~ Dirichlet (α), mens x_i variabler følger den diskrete fordelingen (multinomial) parameterisert med p-vektoren for sannsynligheter. Lignende hierarkiske modeller kan brukes i dokumentklassifisering for å representere fordelingen av søkeordfrekvenser for forskjellige emner.

4. Endelig blandingsmodell med Dirichlet-distribusjon

Ved å bruke Dirichlet Distribution kan vi konstruere en Endelig blandingsmodell som kan brukes til å utføre klynging. La oss anta at vi har følgende modell:

Ligning 3: Endelig blandingsmodell med dirikletfordeling

Ovennevnte modell forutsetter følgende: Vi har et datasett X med n observasjoner, og vi vil utføre klyngeanalyse på det. K er et konstant endelig tall som viser antall klynger / komponenter som vi vil bruke. C_i variabler lagrer klyngetildelingen av observasjon X_i, tar de verdiene fra 1 til k og følger Diskret fordeling med parameteren p som er blandingssannsynlighetene til komponentene. F er den generative fordelingen av vår X, og den er parameterisert med en parameter som avhenger av klyngetildelingen til hver observasjon. Totalt har vi k unike parametere lik antall klynger. De variabel lagrer parametrene som parameteriserer den generative F-distribusjonen, og vi antar at den følger en base G₀ fordeling. P-variabelen lagrer blandingsprosentene for hver av k-klyngene og følger Dirichlet med parametrene α / k. Til slutt er α en dimensjonsvektor med hyperparametrene (pseudocounts) for Dirichlet-fordeling [2].

bilde

Figur 4: Grafisk modell for endelig blandingsmodell med dirikletfordeling

En enklere og mindre matematisk måte å forklare modellen på er følgende. Vi antar at dataene våre kan grupperes i k klynger. Hver klynge har sine egne parametere og disse parameterne brukes til å generere dataene våre. Parametrene antas å følge noen fordeling G₀. Hver observasjon er representert med en vektor x_i og ac_i verdi som indikerer klyngen den tilhører. Følgelig ble c_i kan sees på som en variabel som følger Diskret fordeling med en parameter p som ikke er noe annet enn blandingssannsynlighetene, dvs. sannsynligheten for at hver klynge skal forekomme. Gitt at vi håndterer problemet vårt på en Bayesisk måte, behandler vi ikke parameteren p som en konstant ukjent vektor. I stedet antar vi at P følger Dirichlet som er parameterisert av hyperparametere α / k.

5. Arbeide med uendelige k-klynger

Den forrige blandingsmodellen lar oss utføre læring uten tilsyn, følger en Bayesisk tilnærming og kan utvides til å ha en hierarkisk struktur. Likevel er det en endelig modell fordi den bruker et konstant forhåndsdefinert k antall klynger. Som et resultat krever det at vi definerer antall komponenter før vi utfører klyngeanalyse, og som vi diskuterte tidligere i de fleste applikasjoner, er dette ukjent og kan ikke enkelt estimeres.

En måte å løse dette på er å forestille seg at k har en veldig stor verdi som har en tendens til uendelig. Med andre ord kan vi forestille oss grensen for denne modellen når k har en tendens til uendelig. Hvis dette er tilfelle, kan vi se at til tross for at antall klynger k er uendelig, kan det faktiske antall klynger som er aktive (de som har minst en observasjon), ikke være større enn n (som er det totale antallet observasjoner i datasettet vårt). Som vi vil se senere, vil antallet aktive klynger være betydelig mindre enn n, og de vil være proporsjonale med .

Selvfølgelig er det ikke trivielt å ta grensen på k til uendelig. Flere spørsmål dukker opp som om det er mulig å ta en slik grense, hvordan ville denne modellen se ut og hvordan kan vi konstruere og bruke en slik modell.

I neste artikkel vil vi fokusere på nøyaktig disse spørsmålene: vi vil definere Dirichlet-prosessen, vi vil presentere de forskjellige representasjonene av DP og til slutt vil vi fokusere på den kinesiske restaurantprosessen, som er en intuitiv og effektiv måte å konstruere en Dirichlet-prosess på.

Jeg håper du syntes dette innlegget var nyttig. Hvis du gjorde det, ta deg tid til å dele artikkelen på Facebook og Twitter. 🙂

Tidstempel: Kan 12, 2014Juli 17, 2022

Tidstempel: November 9, 2014

Endelig blandingsmodell basert på Dirichlet Distribution

Publisert av Platon

1. Betadistribusjon

2. Dirichlet Distribusjon

3. Dirichlet Prior med multinomial sannsynlighet

4. Endelig blandingsmodell med Dirichlet-distribusjon

5. Arbeide med uendelige k-klynger

Mer fra Datoboks

Få GPU-bruk av NVIDIA-kort med Linux dstat-verktøyet

Måling av sosiale medier popularitet av sider med DEA i JAVA

Ny åpen kildekode Machine Learning Framework skrevet i Java

Utvikle en Naive Bayes tekstklassifisering i JAVA

Datumbox Machine Learning Framework 0.6.0 utgitt

Slik bygger du ditt eget Facebook Sentiment Analysis Tool

Datumbox Machine Learning Framework versjon 0.8.0 utgitt

Ny blogg -serie - Memoarer fra en TorchVision -utvikler

Batch Normalization-laget til Keras er ødelagt

Boring i Sparks ALS-anbefalingsalgoritme

Reisen med å modernisere TorchVision – Memoirs of a TorchVision-utvikler – 3

Hvordan installere og bruke Datumbox Machine Learning Framework

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn