Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.

Dirichlet Process Mixture Models로 문서 및 가우스 데이터 클러스터링

이 기사는 튜토리얼의 다섯 번째 부분입니다. DPMM을 사용한 클러스터링. 이전 글에서 우리는 방법의 이론적 배경을 자세하게 다루었 고 수학적 표현과 방법을 설명했습니다. 이 게시물에서는 가우시안 데이터를 군집화하는 데 사용할 수있는 Dirichlet Multivariate Normal Mixture Model과 문서를 군집화하는 데 사용되는 Dirichlet-Multinomial Mixture Model의 두 가지 모델 DPMM을 도입하여 이론과 실제를 연결하려고합니다.

업데이트 : Datumbox Machine Learning Framework는 이제 오픈 소스이며 무료로 제공됩니다. 다운로드. com.datumbox.framework.machinelearning.clustering 패키지를 확인하여 Java에서 Dirichlet Process Mixture Models의 구현을 확인하십시오.

1. Dirichlet 다변량 정규 혼합 모형

검토 할 첫 번째 Dirichlet Process 혼합 모델은 연속 데이터 세트에서 클러스터링을 수행하는 데 사용할 수있는 Dirichlet Multivariate Normal Mixture Model입니다. 혼합 모델은 다음과 같이 정의됩니다.

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
방정식 1 : 디리클레 다변량 정규 혼합 모형

위에서 볼 수 있듯이 특정 모델은 생성 분포가 다항 가우스 분포라고 가정하고 군집 할당 이전에 중식당 프로세스를 사용합니다. 또한 기본 분포 G의 경우0 그것은 보통 역 위시 아트를 사용합니다. 켤레 사전 평균 및 공분산 행렬을 알 수없는 다변량 정규 분포. 아래는 혼합 모델의 그래픽 모델입니다.

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
그림 1 : Dirichlet 다변량 정규 혼합 모델의 그래픽 모델

앞에서 설명한 것처럼 클러스터 할당을 추정 할 수 있도록 축소 된 깁스 샘플링 이를 선택해야합니다 적절한 접합체 선행. 또한 우리는 주어진 매개 변수를 업데이트해야합니다 이전과 증거. 아래에서 우리는 MAP 추정 클러스터 중 하나에 대한 매개 변수

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
방정식 2 : 군집 모수에 대한 MAP 추정

여기서 d는 데이터의 차원이며 Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함. 표본 평균입니다. 또한 μ와 같은 Normal-Inverse-Wishart의 여러 하이퍼 파라미터가 있습니다.0 초기 평균 인 κ0 평활 매개 변수로 작용하는 평균 분수입니다.0 차원 수와 Ψ로 설정된 자유도입니다.0 는 dxd 항등 행렬에 상수를 곱한 값으로 설정됩니다. 지금부터 G의 모든 이전 하이퍼 파라미터0 표기법을 단순화하기 위해 λ로 표시됩니다. 마지막으로 위의 모든 것을 가짐으로써 Collapsed Gibbs Sampler에 필요한 확률을 추정 할 수 있습니다. 클러스터 할당, 데이터 세트 및 DP 및 G의 모든 하이퍼 파라미터 α 및 λ가 주어지면 관측치 i가 클러스터 k에 속할 확률0 아래에 주어진다 :

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
방정식 3 : Gibbs Sampler에서 MNMM에 사용하는 확률

어디 zi 관측 값 x의 군집 할당입니다.i, X1 : n 완전한 데이터 세트, z-i i 중 하나가없는 클러스터 할당 세트입니다.th 관찰, x-i i를 제외한 완전한 데이터 세트th 관찰, ck,-나는 i를 제외한 군집 k에 할당 된 총 관측치 수th 관찰하는 동안 Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함. i를 제외하고 군집 k의 평균 및 공분산 행렬입니다.th 관측.

2. Dirichlet-Multinomial Mixture 모델

Dirichlet-Multinomial Mixture Model은 문서의 군집 분석을 수행하는 데 사용됩니다. 특정 모델은 문서의 주제 / 카테고리, 각 주제 내의 단어 확률, 클러스터 지정 및 문서의 생성 분포를 모델링하므로 약간 더 복잡한 계층 구조를 갖습니다. 목표는 비지도 학습을 수행하고 문서를 그룹에 할당하여 문서 목록을 클러스터링하는 것입니다. 혼합 모델은 다음과 같이 정의됩니다.

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
방정식 4 : 디리클레 다항식 혼합 모형

φ가 주제 확률을 모델링하는 경우 zi 주제 선택기, θk 각 군집의 단어 확률과 x나는 j 문서 단어를 나타냅니다. 이 기술은 bag-of-words 프레임 워크 문법과 단어 순서를 무시하고 정렬되지 않은 단어 모음으로 문서를 나타냅니다. 이 단순화 된 표현은 일반적으로 자연어 처리 및 정보 검색에 사용됩니다. 아래는 혼합 모델의 그래픽 모델입니다.

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
그림 2 : Dirichlet-Multinomial Mixture 모델의 그래픽 모델

특정 모델은 다항 이산 분포 이전의 생성 분포와 Dirichlet 분포에 대해. ℓ는 활성 클러스터의 크기, n은 전체 문서 수, β는 사전에 예상되는 클러스터 수를 제어하고 α는 각 클러스터에 지정된 단어 수를 제어합니다. 요구되는 확률을 추정하기 위해 축소 된 깁스 샘플러 우리는 다음 방정식:

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
방정식 5 : Gibbs Sampler에서 DMMM에 사용하는 확률

Γ가 감마 함수 인 경우 zi 문서 x의 클러스터 할당i, X1 : n 완전한 데이터 세트, z-i i 중 하나가없는 클러스터 할당 세트입니다.th 문서, x-i i를 제외한 완전한 데이터 세트th 문서, Nk(z-i)는 i를 제외한 군집 k에 지정된 관측치의 수입니다.th 문서, Nz=k(x-i)는 i를 제외하고 클러스터 k에 할당 된 모든 문서에 대한 각 단어의 개수 합계를 가진 벡터입니다.th 문서와 N (xi)는 문서 x의 각 단어 수를 가진 희소 벡터입니다.i. 마지막으로 위에서 볼 수 있듯이 중국 식당 프로세스에서 축소 된 깁스 샘플러를 사용하면jk 주제 k에서 단어 j의 확률을 저장하는 변수는 통합 될 수있다.

타임 스탬프 :

더보기 데이텀 박스