Phân cụm tài liệu và dữ liệu Gaussian với các mô hình hỗn hợp quy trình Dirichlet

Được xuất bản lại bởi Plato

Người theo dõi: 0

Bài viết này là phần thứ năm của hướng dẫn về Phân cụm với DPMM. Trong các bài viết trước, chúng tôi đã trình bày chi tiết về nền tảng lý thuyết của phương pháp và chúng tôi đã mô tả các biểu diễn toán học của nó và các cách để xây dựng nó. Trong bài đăng này, chúng tôi sẽ cố gắng liên kết lý thuyết với thực tiễn bằng cách giới thiệu hai mô hình DPMM: Mô hình hỗn hợp thông thường đa biến Dirichlet có thể được sử dụng để phân cụm dữ liệu Gaussian và Mô hình hỗn hợp đa pha Dirichlet được sử dụng để phân cụm tài liệu.

Cập nhật: Khung học máy của Datumbox hiện là nguồn mở và miễn phí tải về. Kiểm tra gói com.datumbox.framework.machinelearning.clustering để xem việc triển khai Mô hình hỗn hợp quy trình Dirichlet trong Java.

1. Mô hình hỗn hợp thông thường đa biến Dirichlet

Mô hình hỗn hợp Dirichlet Process đầu tiên mà chúng ta sẽ kiểm tra là Mô hình hỗn hợp thông thường đa biến Dirichlet có thể được sử dụng để thực hiện phân cụm trên các bộ dữ liệu liên tục. Mô hình hỗn hợp được định nghĩa như sau:

Công thức 1: Mô hình hỗn hợp thông thường đa biến Dirichlet

Như chúng ta có thể thấy ở trên, mô hình cụ thể giả định rằng Phân phối tổng hợp là Phân phối Gauss đa cấp và sử dụng quy trình Nhà hàng Trung Quốc như trước cho các bài tập cụm. Ngoài ra, đối với phân phối cơ sở G₀ nó sử dụng Bình thường-Nghịch đảo-Wishart trước đó là liên hợp trước của đa biến Phân phối chuẩn với ma trận trung bình và hiệp phương sai chưa biết. Dưới đây chúng tôi trình bày Mô hình đồ họa của mô hình hỗn hợp:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Hình 1: Mô hình đồ họa của mô hình hỗn hợp thông thường đa biến Dirichlet

Như chúng ta đã thảo luận trước đó, để có thể ước tính các bài tập cụm, chúng tôi sẽ sử dụng Lấy mẫu Gibbs bị sập trong đó yêu cầu chọn linh mục liên hợp thích hợp. Hơn nữa, chúng ta sẽ cần cập nhật các thông số sau trước và bằng chứng. Dưới đây chúng ta thấy Ước tính MAP của các tham số cho một trong các cụm:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Công thức 2: Ước tính MAP về Thông số cụm

Trong đó d là chiều của dữ liệu của chúng tôi và là giá trị trung bình mẫu. Ngoài ra, chúng tôi có một số siêu đường kính của Wishart bình thường-nghịch đảo như₀ đó là trung bình ban đầu, κ₀ là phần trung bình hoạt động như một tham số làm mịn,₀ là mức độ tự do được đặt thành số lượng kích thước và₀ là sản phẩm độ lệch cặp được đặt thành ma trận nhận dạng dxd nhân với một hằng số. Từ giờ trở đi tất cả các siêu âm trước của G₀ sẽ được ký hiệu là để đơn giản hóa ký hiệu. Cuối cùng, bằng cách có tất cả những điều trên, chúng ta có thể ước tính các xác suất được yêu cầu bởi Bộ lấy mẫu Gibbs Sụp đổ. Xác suất quan sát i thuộc về cụm k với các phép gán cụm, tập dữ liệu và tất cả các siêu đường kính α và của DP và G₀được đưa ra dưới đây:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Công thức 3: Xác suất được sử dụng bởi Gibbs Sampler cho MNMM

Trong đó z_i là phân công cụm quan sát x_i, x_{1: n} là bộ dữ liệu hoàn chỉnh, z_-i là tập hợp các phép gán cụm mà không có một trong các i^th quan sát, x_-i là bộ dữ liệu hoàn chỉnh không bao gồm i^th quan sát, c_k_,-Tôi là tổng số quan sát được gán cho cụm k không bao gồm i^th quan sát trong khi và là ma trận trung bình và hiệp phương sai của cụm k loại trừ i^th quan sát.

2. Mô hình hỗn hợp đa pha Dirichlet

Mô hình hỗn hợp đa pha Dirichlet được sử dụng để thực hiện phân tích cụm tài liệu. Mô hình cụ thể có một hệ thống phân cấp phức tạp hơn một chút vì nó mô hình các chủ đề / danh mục của tài liệu, xác suất từ trong mỗi chủ đề, phân công cụm và phân phối tổng quát của tài liệu. Mục tiêu của nó là thực hiện việc học tập không giám sát và tập hợp một danh sách các tài liệu bằng cách gán chúng cho các nhóm. Mô hình hỗn hợp được định nghĩa như sau:

Công thức 4: Mô hình hỗn hợp đa pha Dirichlet

Trong đó φ mô hình xác suất chủ đề, z_i là một công cụ chọn chủ đề,_k là xác suất từ trong mỗi cụm và x_{tôi, j} đại diện cho các từ tài liệu. Chúng ta nên lưu ý rằng kỹ thuật này sử dụng khuôn khổ từ đại diện cho các tài liệu như một bộ sưu tập các từ không có thứ tự, coi thường ngữ pháp và trật tự từ. Biểu diễn đơn giản này thường được sử dụng trong xử lý ngôn ngữ tự nhiên và truy xuất thông tin. Dưới đây chúng tôi trình bày Mô hình đồ họa của mô hình hỗn hợp:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Hình 2: Mô hình đồ họa của mô hình hỗn hợp đa pha Dirichlet

Mô hình cụ thể sử dụng Phân phối rời rạc đa chiều cho phân phối rộng rãi và phân phối Dirichlet cho các linh mục. Là kích thước của các cụm hoạt động của chúng tôi, n tổng số tài liệu, kiểm soát số lượng cụm dự kiến tiên nghiệm trong khi α kiểm soát số lượng từ được gán cho mỗi cụm. Để ước tính xác suất được yêu cầu bởi Sụp đổ Gibbs Sampler chúng tôi sử dụng phương trình sau:

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Công thức 5: Xác suất được sử dụng bởi Gibbs Sampler cho DMMM

Trong đó Γ là hàm gamma, z_i là sự phân công cụm của tài liệu x_i, x_{1: n} là bộ dữ liệu hoàn chỉnh, z_-i là tập hợp các phép gán cụm mà không có một trong các i^th tài liệu, x_-i là bộ dữ liệu hoàn chỉnh không bao gồm i^th tài liệu, N_k(z_-i) là số lượng quan sát được gán cho cụm k không bao gồm i^th tài liệu, N_z_=k(x_-i) là một vectơ với tổng số đếm cho mỗi từ cho tất cả các tài liệu được gán cho cụm k không bao gồm i^th tài liệu và N (x_i) là vectơ thưa thớt với số lượng của mỗi từ trong tài liệu x_i. Cuối cùng, như chúng ta có thể thấy ở trên, bằng cách sử dụng Bộ lấy mẫu Gibbs thu gọn với Quy trình nhà hàng Trung Quốc,_jk biến lưu trữ xác suất của từ j trong chủ đề k có thể được tích hợp.

Dấu thời gian: 30 Tháng Sáu, 201418 Tháng Bảy, 2022

Dấu thời gian: 4 Tháng Năm, 2015

Phân cụm tài liệu và dữ liệu gaussian với Mô hình hỗn hợp quy trình Dirichlet

Được xuất bản lại bởi Plato

1. Mô hình hỗn hợp thông thường đa biến Dirichlet

2. Mô hình hỗn hợp đa pha Dirichlet

Thêm từ Hộp dữ liệu

Phát hành khung máy học Datumbox v0.8.2

Sử dụng các phương thức chọn tính năng trong phân loại văn bản

Hướng dẫn phân tích bao bọc dữ liệu

Mô hình hỗn hợp quy trình Dirichlet

Lớp Batch Chuẩn hóa của Keras bị hỏng

Phân cụm với Mô hình hỗn hợp quy trình Dirichlet trong Java

Sử dụng Trí tuệ nhân tạo để giải quyết Trò chơi 2048 (mã JAVA)

Khung học máy mã nguồn mở mới được viết bằng Java

Hành trình hiện đại hóa TorchVision - Hồi ức của một nhà phát triển TorchVision - 3

Dirichlet Xử lý quy trình nhà hàng Trung Quốc và các đại diện khác

Datumbox Machine Learning Framework phiên bản 0.8.0 được phát hành

Đã phát hành khung máy học Datumbox 0.6.0

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản