- 30 Tháng Sáu, 2014
- Vasilis Vryniotis
- . Miễn bình luận
Bài viết này là phần thứ năm của hướng dẫn về Phân cụm với DPMM. Trong các bài viết trước, chúng tôi đã trình bày chi tiết về nền tảng lý thuyết của phương pháp và chúng tôi đã mô tả các biểu diễn toán học của nó và các cách để xây dựng nó. Trong bài đăng này, chúng tôi sẽ cố gắng liên kết lý thuyết với thực tiễn bằng cách giới thiệu hai mô hình DPMM: Mô hình hỗn hợp thông thường đa biến Dirichlet có thể được sử dụng để phân cụm dữ liệu Gaussian và Mô hình hỗn hợp đa pha Dirichlet được sử dụng để phân cụm tài liệu.
Cập nhật: Khung học máy của Datumbox hiện là nguồn mở và miễn phí tải về. Kiểm tra gói com.datumbox.framework.machinelearning.clustering để xem việc triển khai Mô hình hỗn hợp quy trình Dirichlet trong Java.
1. Mô hình hỗn hợp thông thường đa biến Dirichlet
Mô hình hỗn hợp Dirichlet Process đầu tiên mà chúng ta sẽ kiểm tra là Mô hình hỗn hợp thông thường đa biến Dirichlet có thể được sử dụng để thực hiện phân cụm trên các bộ dữ liệu liên tục. Mô hình hỗn hợp được định nghĩa như sau:
Công thức 1: Mô hình hỗn hợp thông thường đa biến Dirichlet
Như chúng ta có thể thấy ở trên, mô hình cụ thể giả định rằng Phân phối tổng hợp là Phân phối Gauss đa cấp và sử dụng quy trình Nhà hàng Trung Quốc như trước cho các bài tập cụm. Ngoài ra, đối với phân phối cơ sở G0 nó sử dụng Bình thường-Nghịch đảo-Wishart trước đó là liên hợp trước của đa biến Phân phối chuẩn với ma trận trung bình và hiệp phương sai chưa biết. Dưới đây chúng tôi trình bày Mô hình đồ họa của mô hình hỗn hợp:
Hình 1: Mô hình đồ họa của mô hình hỗn hợp thông thường đa biến Dirichlet
Như chúng ta đã thảo luận trước đó, để có thể ước tính các bài tập cụm, chúng tôi sẽ sử dụng Lấy mẫu Gibbs bị sập trong đó yêu cầu chọn linh mục liên hợp thích hợp. Hơn nữa, chúng ta sẽ cần cập nhật các thông số sau trước và bằng chứng. Dưới đây chúng ta thấy Ước tính MAP của các tham số cho một trong các cụm:
Công thức 2: Ước tính MAP về Thông số cụm
Trong đó d là chiều của dữ liệu của chúng tôi và là giá trị trung bình mẫu. Ngoài ra, chúng tôi có một số siêu đường kính của Wishart bình thường-nghịch đảo như0 đó là trung bình ban đầu, κ0 là phần trung bình hoạt động như một tham số làm mịn,0 là mức độ tự do được đặt thành số lượng kích thước và0 là sản phẩm độ lệch cặp được đặt thành ma trận nhận dạng dxd nhân với một hằng số. Từ giờ trở đi tất cả các siêu âm trước của G0 sẽ được ký hiệu là để đơn giản hóa ký hiệu. Cuối cùng, bằng cách có tất cả những điều trên, chúng ta có thể ước tính các xác suất được yêu cầu bởi Bộ lấy mẫu Gibbs Sụp đổ. Xác suất quan sát i thuộc về cụm k với các phép gán cụm, tập dữ liệu và tất cả các siêu đường kính α và của DP và G0 được đưa ra dưới đây:
Công thức 3: Xác suất được sử dụng bởi Gibbs Sampler cho MNMM
Trong đó zi là phân công cụm quan sát xi, x1: n là bộ dữ liệu hoàn chỉnh, z-i là tập hợp các phép gán cụm mà không có một trong các ith quan sát, x-i là bộ dữ liệu hoàn chỉnh không bao gồm ith quan sát, ck,-Tôi là tổng số quan sát được gán cho cụm k không bao gồm ith quan sát trong khi và là ma trận trung bình và hiệp phương sai của cụm k loại trừ ith quan sát.
2. Mô hình hỗn hợp đa pha Dirichlet
Mô hình hỗn hợp đa pha Dirichlet được sử dụng để thực hiện phân tích cụm tài liệu. Mô hình cụ thể có một hệ thống phân cấp phức tạp hơn một chút vì nó mô hình các chủ đề / danh mục của tài liệu, xác suất từ trong mỗi chủ đề, phân công cụm và phân phối tổng quát của tài liệu. Mục tiêu của nó là thực hiện việc học tập không giám sát và tập hợp một danh sách các tài liệu bằng cách gán chúng cho các nhóm. Mô hình hỗn hợp được định nghĩa như sau:
Công thức 4: Mô hình hỗn hợp đa pha Dirichlet
Trong đó φ mô hình xác suất chủ đề, zi là một công cụ chọn chủ đề,k là xác suất từ trong mỗi cụm và xtôi, j đại diện cho các từ tài liệu. Chúng ta nên lưu ý rằng kỹ thuật này sử dụng khuôn khổ từ đại diện cho các tài liệu như một bộ sưu tập các từ không có thứ tự, coi thường ngữ pháp và trật tự từ. Biểu diễn đơn giản này thường được sử dụng trong xử lý ngôn ngữ tự nhiên và truy xuất thông tin. Dưới đây chúng tôi trình bày Mô hình đồ họa của mô hình hỗn hợp:
Hình 2: Mô hình đồ họa của mô hình hỗn hợp đa pha Dirichlet
Mô hình cụ thể sử dụng Phân phối rời rạc đa chiều cho phân phối rộng rãi và phân phối Dirichlet cho các linh mục. Là kích thước của các cụm hoạt động của chúng tôi, n tổng số tài liệu, kiểm soát số lượng cụm dự kiến tiên nghiệm trong khi α kiểm soát số lượng từ được gán cho mỗi cụm. Để ước tính xác suất được yêu cầu bởi Sụp đổ Gibbs Sampler chúng tôi sử dụng phương trình sau:
Công thức 5: Xác suất được sử dụng bởi Gibbs Sampler cho DMMM
Trong đó Γ là hàm gamma, zi là sự phân công cụm của tài liệu xi, x1: n là bộ dữ liệu hoàn chỉnh, z-i là tập hợp các phép gán cụm mà không có một trong các ith tài liệu, x-i là bộ dữ liệu hoàn chỉnh không bao gồm ith tài liệu, Nk(z-i) là số lượng quan sát được gán cho cụm k không bao gồm ith tài liệu, Nz=k(x-i) là một vectơ với tổng số đếm cho mỗi từ cho tất cả các tài liệu được gán cho cụm k không bao gồm ith tài liệu và N (xi) là vectơ thưa thớt với số lượng của mỗi từ trong tài liệu xi. Cuối cùng, như chúng ta có thể thấy ở trên, bằng cách sử dụng Bộ lấy mẫu Gibbs thu gọn với Quy trình nhà hàng Trung Quốc,jk biến lưu trữ xác suất của từ j trong chủ đề k có thể được tích hợp.
- AI
- nghệ thuật ai
- máy phát điện nghệ thuật ai
- ai rô bốt
- trí tuệ nhân tạo
- chứng nhận trí tuệ nhân tạo
- robot trí tuệ nhân tạo
- robot trí tuệ nhân tạo
- phần mềm trí tuệ nhân tạo
- blockchain
- hội nghị blockchain ai
- thiên tài
- trí tuệ nhân tạo đàm thoại
- hội nghị tiền điện tử ai
- dall's
- Hộp dữ liệu
- học kĩ càng
- google ai
- học máy
- Học máy & thống kê
- plato
- Plato ai
- Thông tin dữ liệu Plato
- Trò chơi Plato
- PlatoDữ liệu
- Platogaming
- quy mô ai
- cú pháp
- zephyrnet