Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet

Bài viết này là phần thứ năm của hướng dẫn về Phân cụm với DPMM. Trong các bài viết trước, chúng tôi đã trình bày chi tiết về nền tảng lý thuyết của phương pháp và chúng tôi đã mô tả các biểu diễn toán học của nó và các cách để xây dựng nó. Trong bài đăng này, chúng tôi sẽ cố gắng liên kết lý thuyết với thực tiễn bằng cách giới thiệu hai mô hình DPMM: Mô hình hỗn hợp thông thường đa biến Dirichlet có thể được sử dụng để phân cụm dữ liệu Gaussian và Mô hình hỗn hợp đa pha Dirichlet được sử dụng để phân cụm tài liệu.

Cập nhật: Khung học máy của Datumbox hiện là nguồn mở và miễn phí tải về. Kiểm tra gói com.datumbox.framework.machinelearning.clustering để xem việc triển khai Mô hình hỗn hợp quy trình Dirichlet trong Java.

1. Mô hình hỗn hợp thông thường đa biến Dirichlet

Mô hình hỗn hợp Dirichlet Process đầu tiên mà chúng ta sẽ kiểm tra là Mô hình hỗn hợp thông thường đa biến Dirichlet có thể được sử dụng để thực hiện phân cụm trên các bộ dữ liệu liên tục. Mô hình hỗn hợp được định nghĩa như sau:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Công thức 1: Mô hình hỗn hợp thông thường đa biến Dirichlet

Như chúng ta có thể thấy ở trên, mô hình cụ thể giả định rằng Phân phối tổng hợp là Phân phối Gauss đa cấp và sử dụng quy trình Nhà hàng Trung Quốc như trước cho các bài tập cụm. Ngoài ra, đối với phân phối cơ sở G0 nó sử dụng Bình thường-Nghịch đảo-Wishart trước đó là liên hợp trước của đa biến Phân phối chuẩn với ma trận trung bình và hiệp phương sai chưa biết. Dưới đây chúng tôi trình bày Mô hình đồ họa của mô hình hỗn hợp:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Hình 1: Mô hình đồ họa của mô hình hỗn hợp thông thường đa biến Dirichlet

Như chúng ta đã thảo luận trước đó, để có thể ước tính các bài tập cụm, chúng tôi sẽ sử dụng Lấy mẫu Gibbs bị sập trong đó yêu cầu chọn linh mục liên hợp thích hợp. Hơn nữa, chúng ta sẽ cần cập nhật các thông số sau trước và bằng chứng. Dưới đây chúng ta thấy Ước tính MAP của các tham số cho một trong các cụm:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Công thức 2: Ước tính MAP về Thông số cụm

Trong đó d là chiều của dữ liệu của chúng tôi và Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. là giá trị trung bình mẫu. Ngoài ra, chúng tôi có một số siêu đường kính của Wishart bình thường-nghịch đảo như0 đó là trung bình ban đầu, κ0 là phần trung bình hoạt động như một tham số làm mịn,0 là mức độ tự do được đặt thành số lượng kích thước và0 là sản phẩm độ lệch cặp được đặt thành ma trận nhận dạng dxd nhân với một hằng số. Từ giờ trở đi tất cả các siêu âm trước của G0 sẽ được ký hiệu là để đơn giản hóa ký hiệu. Cuối cùng, bằng cách có tất cả những điều trên, chúng ta có thể ước tính các xác suất được yêu cầu bởi Bộ lấy mẫu Gibbs Sụp đổ. Xác suất quan sát i thuộc về cụm k với các phép gán cụm, tập dữ liệu và tất cả các siêu đường kính α và của DP và G0 được đưa ra dưới đây:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Công thức 3: Xác suất được sử dụng bởi Gibbs Sampler cho MNMM

Trong đó zi là phân công cụm quan sát xi, x1: n là bộ dữ liệu hoàn chỉnh, z-i là tập hợp các phép gán cụm mà không có một trong các ith quan sát, x-i là bộ dữ liệu hoàn chỉnh không bao gồm ith quan sát, ck,-Tôi là tổng số quan sát được gán cho cụm k không bao gồm ith quan sát trong khi Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. là ma trận trung bình và hiệp phương sai của cụm k loại trừ ith quan sát.

2. Mô hình hỗn hợp đa pha Dirichlet

Mô hình hỗn hợp đa pha Dirichlet được sử dụng để thực hiện phân tích cụm tài liệu. Mô hình cụ thể có một hệ thống phân cấp phức tạp hơn một chút vì nó mô hình các chủ đề / danh mục của tài liệu, xác suất từ ​​trong mỗi chủ đề, phân công cụm và phân phối tổng quát của tài liệu. Mục tiêu của nó là thực hiện việc học tập không giám sát và tập hợp một danh sách các tài liệu bằng cách gán chúng cho các nhóm. Mô hình hỗn hợp được định nghĩa như sau:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Công thức 4: Mô hình hỗn hợp đa pha Dirichlet

Trong đó φ mô hình xác suất chủ đề, zi là một công cụ chọn chủ đề,k là xác suất từ ​​trong mỗi cụm và xtôi, j đại diện cho các từ tài liệu. Chúng ta nên lưu ý rằng kỹ thuật này sử dụng khuôn khổ từ đại diện cho các tài liệu như một bộ sưu tập các từ không có thứ tự, coi thường ngữ pháp và trật tự từ. Biểu diễn đơn giản này thường được sử dụng trong xử lý ngôn ngữ tự nhiên và truy xuất thông tin. Dưới đây chúng tôi trình bày Mô hình đồ họa của mô hình hỗn hợp:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Hình 2: Mô hình đồ họa của mô hình hỗn hợp đa pha Dirichlet

Mô hình cụ thể sử dụng Phân phối rời rạc đa chiều cho phân phối rộng rãi và phân phối Dirichlet cho các linh mục. Là kích thước của các cụm hoạt động của chúng tôi, n tổng số tài liệu, kiểm soát số lượng cụm dự kiến ​​tiên nghiệm trong khi α kiểm soát số lượng từ được gán cho mỗi cụm. Để ước tính xác suất được yêu cầu bởi Sụp đổ Gibbs Sampler chúng tôi sử dụng phương trình sau:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Công thức 5: Xác suất được sử dụng bởi Gibbs Sampler cho DMMM

Trong đó Γ là hàm gamma, zi là sự phân công cụm của tài liệu xi, x1: n là bộ dữ liệu hoàn chỉnh, z-i là tập hợp các phép gán cụm mà không có một trong các ith tài liệu, x-i là bộ dữ liệu hoàn chỉnh không bao gồm ith tài liệu, Nk(z-i) là số lượng quan sát được gán cho cụm k không bao gồm ith tài liệu, Nz=k(x-i) là một vectơ với tổng số đếm cho mỗi từ cho tất cả các tài liệu được gán cho cụm k không bao gồm ith tài liệu và N (xi) là vectơ thưa thớt với số lượng của mỗi từ trong tài liệu xi. Cuối cùng, như chúng ta có thể thấy ở trên, bằng cách sử dụng Bộ lấy mẫu Gibbs thu gọn với Quy trình nhà hàng Trung Quốc,jk biến lưu trữ xác suất của từ j trong chủ đề k có thể được tích hợp.

Dấu thời gian:

Thêm từ Hộp dữ liệu