Dirichlet Distribution PlatoBlockchain 데이터 인텔리전스를 기반으로 한 유한 혼합 모델. 수직 검색. 일체 포함.

Dirichlet Distribution을 기반으로 한 유한 혼합물 모델

이 블로그 게시물은 Dirichlet Process 혼합 모델에 대한 기사 시리즈의 두 번째 부분입니다. 이전 기사에서 우리는 여러 군집 분석 기술 개요 우리는 그것들을 사용함으로써 발생하는 몇 가지 문제 / 제한에 대해 논의했습니다. 또한, 우리는 Dirichlet Process Mixture Models를 간략히 소개했고, 왜 이것이 유용한 지에 대해 이야기했고, 그들의 적용을 보여주었습니다.

업데이트 : Datumbox Machine Learning Framework는 이제 오픈 소스이며 무료로 제공됩니다. 다운로드. com.datumbox.framework.machinelearning.clustering 패키지를 확인하여 Java에서 Dirichlet Process Mixture Models의 구현을 확인하십시오.

Dirichlet Process Mixture Model은 다양한 표현이 가능한 무한 혼합 모델이기 때문에 처음에는 조금 삼키기가 어려울 수 있습니다. 다행스럽게도 주제에 접근하는 좋은 방법은 Dirichlet Distribution을 사용하는 유한 혼합물 모델에서 시작하여 무한 모델로 이동하는 것입니다.

결과적으로이 기사에서는 필요한 중요한 분포를 간략하게 소개하고이를 사용하여 다항식 우도 모델을 사용한 Dirichlet Prior 모델을 구성한 다음 Dirichlet Distribution을 기반으로 유한 혼합물 모델로 이동합니다.

1. 베타 배포

XNUMXD덴탈의 베타 배포 는 [0,1] 간격으로 정의 된 연속 분포 군입니다. 그것은 두 개의 긍정적 인 매개 변수 a와 b에 의해 매개 변수화되며 그 형식은 두 매개 변수의 선택에 크게 의존합니다.

영상

그림 1 : 다양한 a, b 매개 변수에 대한 베타 분포

베타 분포는 일반적으로 확률에 대한 분포를 모델링하는 데 사용되며 다음 확률 밀도를 갖습니다.

영상

방정식 1 : 베타 PDF

여기서 Γ (x)는 감마 함수이고 a는 b 분포의 모수입니다. 베타는 일반적으로 확률 값의 분포로 사용되며 모델링 된 확률이 특정 값 P = p0과 같을 가능성을 제공합니다. 정의에 따라 베타 분포는 값이 true 또는 false 인 이진 결과의 확률을 모델링 할 수 있습니다. 매개 변수 a와 b는 각각 성공과 실패의 의사 카운트로 간주 될 수 있습니다. 따라서 베타 분포는 성공과 실패에 따른 성공 확률을 모델링합니다.

2. 디리클레 배포

XNUMXD덴탈의 디리클레 배포 여러 결과에 대한 베타 배포의 일반화입니다 (즉, 여러 결과가있는 이벤트에 사용됨). k 개의 매개 변수로 매개 변수화됩니다.i 긍정적이어야합니다. 변수 개수 k = 2 인 경우 디리클레 분포는 베타 분포와 같습니다.

영상

그림 2 : 다양한 A에 대한 디 리틀 렛 분포i 매개 변수

Dirichlet 분포는 일반적으로 확률에 대한 분포를 모델링하는 데 사용되며 다음 확률 밀도를 갖습니다.

영상

방정식 2 : Dirichlet PDF

Γ (x)가 감마 함수 인 경우 pi [0,1] 및 Σp의 값을 가져옵니다i= 1 Dirichlet 분포는 p의 결합 분포를 모델링합니다.i 그리고 P의 가능성을 준다1=p1,P2=p2,….,피k-1=pk-1 P로k= 1 – ΣPi. 베타의 경우와 마찬가지로i 매개 변수는 각 i 이벤트의 의사 수로 간주 될 수 있습니다. Dirichlet 분포는 경쟁 이벤트 발생 확률을 모델링하는 데 사용되며 종종 Dirichlet (a)으로 표시됩니다.

3. 다항식 가능성이있는 디 리클 렛

앞에서 언급했듯이 Dirichlet 분포는 확률 분포에 대한 분포로 볼 수 있습니다. k 개의 사건이 발생할 확률을 모델링하려는 경우 베이지안 접근법을 사용하는 것이 좋습니다. 다항식 가능성과 디 리클 렛 이전 .

아래에서 이러한 모델의 그래픽 모델을 볼 수 있습니다.

영상

그림 3 : 다 항적 가능성을 갖는 디 리클 렛 사전의 그래픽 모델

위의 그래픽 모델에서 α는 Dirichlet priors의 하이퍼 파라미터가있는 ak 차원 벡터이고, p는 확률 값이있는 ak 차원 벡터이며 xi 1에서 k까지의 스칼라 값으로 어떤 이벤트가 발생했는지 알려줍니다. 마지막으로 P는 벡터 α와 P ~ Dirichlet (α)로 매개 변수화 된 Dirichlet 분포를 따르고 x는i 변수는 확률의 p 벡터로 매개 변수화 된 이산 분포 (다항식)를 따릅니다. 서로 다른 주제에 대한 키워드 빈도 분포를 나타 내기 위해 문서 분류에 유사한 계층 적 모델을 사용할 수 있습니다.

4. Dirichlet 분포가있는 유한 혼합물 모델

Dirichlet Distribution을 사용하여 유한 혼합물 모델 클러스터링을 수행하는 데 사용할 수 있습니다. 다음과 같은 모델이 있다고 가정 해 봅시다.

영상

영상

영상

영상

방정식 3 : Dirichlet 분포를 갖는 유한 혼합물 모델

위의 모델은 다음을 가정합니다. 관측치가 n 인 데이터 세트 X가 있으며 이에 대한 군집 분석을 수행하려고합니다. k는 우리가 사용할 클러스터 / 컴포넌트 수를 나타내는 상수 유한 숫자입니다. ci 변수는 관측 값 X의 군집 할당을 저장합니다.i1에서 k까지의 값을 취하고 성분의 혼합 확률 인 매개 변수 p를 갖는 이산 분포를 따릅니다. F는 X의 생성 분포이며 매개 변수로 매개 변수화됩니다. 영상 각 관측치의 군집 할당에 따라 다릅니다. 전체적으로 우리는 고유 한 k를 가진다 영상 매개 변수는 클러스터 수와 같습니다. 그만큼 영상 변수는 생성 F 분포를 매개 변수화하는 매개 변수를 저장하며 기본 G를 따르는 것으로 가정합니다.0 분포. p 변수는 k 개의 클러스터 중 하나에 대한 혼합 백분율을 저장하고 매개 변수 α / k로 Dirichlet을 따릅니다. 마지막으로 α는 Dirichlet 분포의 하이퍼 파라미터 (의사 계수)를 갖는 ak 차원 벡터입니다 [2].

영상

그림 4 : Dirichlet 분포가있는 유한 혼합물 모델의 그래픽 모델

모델을 설명하는 더 간단하고 수학적 방법은 다음과 같습니다. 데이터를 k 개의 클러스터로 그룹화 할 수 있다고 가정합니다. 각 클러스터에는 고유 한 매개 변수가 있습니다 영상 이러한 매개 변수는 데이터를 생성하는 데 사용됩니다. 매개 변수 영상 일부 분포 G를 따르는 것으로 가정0. 각 관측치는 벡터 x로 표시됩니다i 그리고 aci 값이 속한 클러스터를 나타냅니다. 결과적으로 ci 는 혼합 확률, 즉 각 군집의 발생 확률에 불과한 매개 변수 p를 갖는 이산 분포를 따르는 변수로 볼 수 있습니다. 우리가 베이지안 방식으로 문제를 처리한다고 가정하면, 매개 변수 p를 상수 미지의 벡터로 취급하지 않습니다. 대신 P는 하이퍼 파라미터 α / k로 매개 변수화 된 Dirichlet을 따르는 것으로 가정합니다.

5. 무한 k 클러스터 작업

이전의 혼합 모델은 감독되지 않은 학습을 수행하고 베이지안 접근법을 따르며 계층 구조를 갖도록 확장 될 수 있습니다. 그럼에도 불구하고, 그것은 미리 정의 된 일정한 수의 클러스터를 사용하기 때문에 유한 모델입니다. 결과적으로 클러스터 분석을 수행하기 전에 구성 요소의 수를 정의해야하며 대부분의 응용 프로그램에서 앞에서 논의한 바와 같이 이것은 알려지지 않았으며 쉽게 추정 할 수 없습니다.

이것을 해결하는 한 가지 방법은 k가 무한대 경향이있는 매우 큰 값을 가지고 있다고 상상하는 것입니다. 다시 말해 k가 무한대 일 때이 모델의 한계를 상상할 수 있습니다. 이 경우 군집 수 k가 무한대 임에도 불구하고 활성화 된 실제 군집 수 (최소한 관측치가있는 군집 수)는 n보다 클 수 없습니다 (즉 데이터 세트의 총 관측 값 수). 실제로 나중에 볼 수 있듯이 활성 클러스터의 수는 n보다 현저히 적으며 영상.

물론 k를 무한대로 제한하는 것은 쉽지 않습니다. 이러한 한계를 극복 할 수 있는지,이 모델이 어떻게 보일지, 우리는 어떻게 구성 할 수 있습니까 그런 모델을 사용하십시오.

다음 기사에서는 이러한 질문에 정확하게 초점을 맞출 것입니다. Dirichlet Process를 정의하고 DP의 다양한 표현을 제시하고 마지막으로 Dirichlet Process를 구성하는 직관적이고 효율적인 방법 인 Chinese Restaurant Process에 중점을 둘 것입니다.

이 게시물이 도움이 되었기를 바랍니다. 그렇다면 Facebook과 Twitter에서 기사를 공유하십시오. 🙂

타임 스탬프 :

더보기 데이텀 박스