Dirichlet 공정 혼합 모델을 사용하여 문서 및 가우스 데이터 클러스터링

플라톤에 의해 재발행

팔로워 : 0

이 기사는 튜토리얼의 다섯 번째 부분입니다. DPMM을 사용한 클러스터링. 이전 글에서 우리는 방법의 이론적 배경을 자세하게 다루었 고 수학적 표현과 방법을 설명했습니다. 이 게시물에서는 가우시안 데이터를 군집화하는 데 사용할 수있는 Dirichlet Multivariate Normal Mixture Model과 문서를 군집화하는 데 사용되는 Dirichlet-Multinomial Mixture Model의 두 가지 모델 DPMM을 도입하여 이론과 실제를 연결하려고합니다.

업데이트 : Datumbox Machine Learning Framework는 이제 오픈 소스이며 무료로 제공됩니다. 다운로드. com.datumbox.framework.machinelearning.clustering 패키지를 확인하여 Java에서 Dirichlet Process Mixture Models의 구현을 확인하십시오.

1. Dirichlet 다변량 정규 혼합 모형

검토 할 첫 번째 Dirichlet Process 혼합 모델은 연속 데이터 세트에서 클러스터링을 수행하는 데 사용할 수있는 Dirichlet Multivariate Normal Mixture Model입니다. 혼합 모델은 다음과 같이 정의됩니다.

방정식 1 : 디리클레 다변량 정규 혼합 모형

위에서 볼 수 있듯이 특정 모델은 생성 분포가 다항 가우스 분포라고 가정하고 군집 할당 이전에 중식당 프로세스를 사용합니다. 또한 기본 분포 G의 경우₀ 그것은 보통 역 위시 아트를 사용합니다. 켤레 사전 평균 및 공분산 행렬을 알 수없는 다변량 정규 분포. 아래는 혼합 모델의 그래픽 모델입니다.

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
그림 1 : Dirichlet 다변량 정규 혼합 모델의 그래픽 모델

앞에서 설명한 것처럼 클러스터 할당을 추정 할 수 있도록 축소 된 깁스 샘플링 이를 선택해야합니다 적절한 접합체 선행. 또한 우리는 주어진 매개 변수를 업데이트해야합니다 이전과 증거. 아래에서 우리는 MAP 추정 클러스터 중 하나에 대한 매개 변수

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
방정식 2 : 군집 모수에 대한 MAP 추정

여기서 d는 데이터의 차원이며 표본 평균입니다. 또한 μ와 같은 Normal-Inverse-Wishart의 여러 하이퍼 파라미터가 있습니다.₀ 초기 평균 인 κ₀ 평활 매개 변수로 작용하는 평균 분수입니다.₀ 차원 수와 Ψ로 설정된 자유도입니다.₀ 는 dxd 항등 행렬에 상수를 곱한 값으로 설정됩니다. 지금부터 G의 모든 이전 하이퍼 파라미터₀ 표기법을 단순화하기 위해 λ로 표시됩니다. 마지막으로 위의 모든 것을 가짐으로써 Collapsed Gibbs Sampler에 필요한 확률을 추정 할 수 있습니다. 클러스터 할당, 데이터 세트 및 DP 및 G의 모든 하이퍼 파라미터 α 및 λ가 주어지면 관측치 i가 클러스터 k에 속할 확률₀아래에 주어진다 :

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.

방정식 3 : Gibbs Sampler에서 MNMM에 사용하는 확률

어디 z_i 관측 값 x의 군집 할당입니다._i, X_{1 : n} 완전한 데이터 세트, z_-i i 중 하나가없는 클러스터 할당 세트입니다.^th 관찰, x_-i i를 제외한 완전한 데이터 세트^th 관찰, c_k_,-나는 i를 제외한 군집 k에 할당 된 총 관측치 수^th 관찰하는 동안 및 i를 제외하고 군집 k의 평균 및 공분산 행렬입니다.^th 관측.

2. Dirichlet-Multinomial Mixture 모델

Dirichlet-Multinomial Mixture Model은 문서의 군집 분석을 수행하는 데 사용됩니다. 특정 모델은 문서의 주제 / 카테고리, 각 주제 내의 단어 확률, 클러스터 지정 및 문서의 생성 분포를 모델링하므로 약간 더 복잡한 계층 구조를 갖습니다. 목표는 비지도 학습을 수행하고 문서를 그룹에 할당하여 문서 목록을 클러스터링하는 것입니다. 혼합 모델은 다음과 같이 정의됩니다.

방정식 4 : 디리클레 다항식 혼합 모형

φ가 주제 확률을 모델링하는 경우 z_i 주제 선택기, θ_k 각 군집의 단어 확률과 x_{나는 j} 문서 단어를 나타냅니다. 이 기술은 bag-of-words 프레임 워크 문법과 단어 순서를 무시하고 정렬되지 않은 단어 모음으로 문서를 나타냅니다. 이 단순화 된 표현은 일반적으로 자연어 처리 및 정보 검색에 사용됩니다. 아래는 혼합 모델의 그래픽 모델입니다.

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
그림 2 : Dirichlet-Multinomial Mixture 모델의 그래픽 모델

특정 모델은 다항 이산 분포 이전의 생성 분포와 Dirichlet 분포에 대해. ℓ는 활성 클러스터의 크기, n은 전체 문서 수, β는 사전에 예상되는 클러스터 수를 제어하고 α는 각 클러스터에 지정된 단어 수를 제어합니다. 요구되는 확률을 추정하기 위해 축소 된 깁스 샘플러 우리는 다음 방정식:

Dirichlet 프로세스 혼합 모델 PlatoBlockchain Data Intelligence를 사용하여 문서 및 가우스 데이터를 클러스터링합니다. 수직 검색. 일체 포함.
방정식 5 : Gibbs Sampler에서 DMMM에 사용하는 확률

Γ가 감마 함수 인 경우 z_i 문서 x의 클러스터 할당_i, X_{1 : n} 완전한 데이터 세트, z_-i i 중 하나가없는 클러스터 할당 세트입니다.^th 문서, x_-i i를 제외한 완전한 데이터 세트^th 문서, N_k(z_-i)는 i를 제외한 군집 k에 지정된 관측치의 수입니다.^th 문서, N_z_=k(x_-i)는 i를 제외하고 클러스터 k에 할당 된 모든 문서에 대한 각 단어의 개수 합계를 가진 벡터입니다.^th 문서와 N (x_i)는 문서 x의 각 단어 수를 가진 희소 벡터입니다._i. 마지막으로 위에서 볼 수 있듯이 중국 식당 프로세스에서 축소 된 깁스 샘플러를 사용하면_jk 주제 k에서 단어 j의 확률을 저장하는 변수는 통합 될 수있다.

타임 스탬프 : ２０２３년 ６월 ２８일2022 년 7 월 18 일

타임 스탬프 : 23년 2014월 XNUMX일

Dirichlet Process Mixture Models로 문서 및 가우스 데이터 클러스터링

플라톤에 의해 재발행

1. Dirichlet 다변량 정규 혼합 모형

2. Dirichlet-Multinomial Mixture 모델

더보기 데이텀 박스

Keras를 사용한 다중 GPU 교육을위한 5 가지 팁

새 블로그 시리즈 – TorchVision 개발자의 회고록

Dirichlet Distribution을 기반으로 한 유한 혼합물 모델

텍스트 분류에서 기능 선택 방법 사용

자신 만의 Facebook Sentiment Analysis Tool을 구축하는 방법

데이터 엔벨로프 분석 학습서

Keras의 배치 정규화 계층이 손상되었습니다.

Spark의 ALS 권장 사항 알고리즘으로 드릴

JAVA에서 DEA를 사용하여 페이지의 소셜 미디어 인기도 측정

TorchVision v0.11 살짝 엿보기 – TorchVision 개발자의 회고록 – 2

새 블로그 시리즈 – TorchVision 개발자의 회고록

Dirichlet Process Mixture 모델

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정