Mô hình hỗn hợp hữu hạn dựa trên Dirichlet Distribution PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Mô hình hỗn hợp hữu hạn dựa trên phân phối Dirichlet

Bài đăng trên blog này là phần thứ hai của loạt bài viết về các mô hình hỗn hợp Quy trình Dirichlet. Trong bài viết trước, chúng tôi đã có một tổng quan về một số kỹ thuật Phân tích cụm và chúng tôi đã thảo luận về một số vấn đề / hạn chế phát sinh khi sử dụng chúng. Hơn nữa, chúng tôi đã trình bày ngắn gọn các Mô hình Hỗn hợp Quy trình Dirichlet, chúng tôi đã nói về lý do tại sao chúng hữu ích và chúng tôi đã trình bày một số ứng dụng của chúng.

Cập nhật: Khung học máy của Datumbox hiện là nguồn mở và miễn phí tải về. Kiểm tra gói com.datumbox.framework.machinelearning.clustering để xem việc triển khai Mô hình hỗn hợp quy trình Dirichlet trong Java.

Các mô hình hỗn hợp quy trình Dirichlet có thể hơi khó nuốt khi bắt đầu chủ yếu vì chúng là các mô hình hỗn hợp vô hạn với nhiều biểu diễn khác nhau. May mắn thay, một cách tốt để tiếp cận chủ đề là bắt đầu từ Mô hình hỗn hợp hữu hạn với Phân phối Dirichlet và sau đó chuyển sang mô hình vô hạn.

Do đó, trong bài viết này, tôi sẽ trình bày ngắn gọn một số phân phối quan trọng mà chúng ta sẽ cần, chúng ta sẽ sử dụng chúng để xây dựng mô hình Dirichlet Prior với Multinomial Likel Khả năng xảy ra và sau đó chúng ta sẽ chuyển sang Mô hình Hỗn hợp Hữu hạn dựa trên Phân phối Dirichlet.

1. Phân phối Beta

Sản phẩm Phân phối beta là một họ các phân phối liên tục được xác định trong khoảng [0,1]. Nó được tham số hóa bởi hai tham số dương a và b và dạng của nó phụ thuộc rất nhiều vào việc lựa chọn hai tham số đó.

hình ảnh

Hình 1: Phân phối Beta cho các tham số a, b khác nhau

Phân phối Beta thường được sử dụng để lập mô hình phân phối theo xác suất và có mật độ xác suất sau:

hình ảnh

Phương trình 1: PDF beta

Trong đó Γ (x) là hàm gamma và a, b là các tham số của phân phối. Beta thường được sử dụng như một phân phối của các giá trị xác suất và cho chúng ta khả năng xác suất được mô hình hóa tương đương với một giá trị cụ thể P = p0. Theo định nghĩa của nó Phân phối beta có thể mô hình hóa xác suất của các kết quả nhị phân nhận các giá trị đúng hoặc sai. Các tham số a và b có thể được coi là số giả của thành công và thất bại tương ứng. Do đó, Phân phối Beta mô hình hóa xác suất thành công cho một thành công và b thất bại.

2. Phân phối Dirichlet

Sản phẩm Phân phối Dirichlet là tổng quát của Phân phối Beta cho nhiều kết quả (hay nói cách khác nó được sử dụng cho các sự kiện có nhiều kết quả). Nó được tham số hóa với k tham số ai mà phải là tích cực. Phân phối Dirichlet bằng với Phân phối Beta khi số biến k = 2.

hình ảnh

Hình 2: Phân phối Dirichlet cho cáci thông số

Phân phối Dirichlet thường được sử dụng để lập mô hình phân phối theo xác suất và có mật độ xác suất sau:

hình ảnh

Phương trình 2: Dirichlet PDF

Trong đó Γ (x) là hàm gamma, pi lấy các giá trị trong [0,1] và Σpi= 1. Phân phối Dirichlet mô hình phân phối chung của pi và đưa ra khả năng P1=p1,P2=p2,…., Trk-1=pk-1 với Pk= 1 - ΣPi. Như trong trường hợp của Beta,i các tham số có thể được coi là số lượng giả của các lần xuất hiện của mỗi sự kiện thứ i. Phân phối Dirichlet được sử dụng để mô hình hóa xác suất của k sự kiện đối thủ xảy ra và thường được ký hiệu là Dirichlet (a).

3. Dirichlet Trước với Khả năng Đa thức

Như đã đề cập trước đó, phân phối Dirichlet có thể được coi là một phân phối trên các phân phối xác suất. Trong trường hợp chúng ta muốn mô hình hóa xác suất của k sự kiện xảy ra, phương pháp tiếp cận Bayes sẽ sử dụng Khả năng xảy ra đa thức và các nguyên tố Dirichlet .

Dưới đây chúng ta có thể thấy mô hình đồ họa của một mô hình như vậy.

hình ảnh

Hình 3: Mô hình đồ thị của Dirichlet Priors với khả năng đa thức

Trong mô hình đồ họa trên, α là vectơ chiều ak với siêu tham số của giá trị gốc Dirichlet, p là vectơ chiều ak với các giá trị xác suất và xi là một giá trị vô hướng từ 1 đến k cho chúng ta biết sự kiện nào đã xảy ra. Cuối cùng, chúng ta cần lưu ý rằng P tuân theo phân phối Dirichlet được tham số hóa với vectơ α và do đó P ~ Dirichlet (α), trong khi xi các biến tuân theo phân phối rời rạc (Đa thức) được tham số hóa với véc tơ xác suất p. Các mô hình phân cấp tương tự có thể được sử dụng trong phân loại tài liệu để biểu thị sự phân bố tần số từ khóa cho các chủ đề khác nhau.

4. Mô hình hỗn hợp hữu hạn với phân phối Dirichlet

Bằng cách sử dụng Phân phối Dirichlet, chúng ta có thể xây dựng một Mô hình hỗn hợp hữu hạn có thể được sử dụng để thực hiện phân cụm. Giả sử rằng chúng ta có mô hình sau:

hình ảnh

hình ảnh

hình ảnh

hình ảnh

Phương trình 3: Mô hình hỗn hợp hữu hạn với phân phối Dirichlet

Mô hình trên giả định như sau: Chúng ta có một tập dữ liệu X với n quan sát và chúng ta muốn thực hiện phân tích cụm trên đó. K là một số hữu hạn không đổi cho biết số lượng cụm / thành phần mà chúng ta sẽ sử dụng. Các ci các biến lưu trữ sự gán cụm của quan sát Xi, chúng nhận các giá trị từ 1 đến k và tuân theo Phân phối rời rạc với tham số p là xác suất hỗn hợp của các thành phần. F là phân phối tổng quát của X của chúng ta và nó được tham số hóa với một tham số hình ảnh điều này phụ thuộc vào sự phân công cụm của mỗi quan sát. Tổng cộng chúng tôi có k duy nhất hình ảnh các tham số bằng với số lượng các cụm của chúng tôi. Các hình ảnh biến lưu trữ các tham số tham số hóa Phân phối F tổng quát và chúng tôi giả định rằng nó tuân theo một cơ sở G0 sự phân phối. Biến p lưu trữ tỷ lệ phần trăm hỗn hợp cho mỗi một trong k cụm và theo sau Dirichlet với các tham số α / k. Cuối cùng, α là vectơ chiều ak với các siêu tham số (số lượng giả) của phân phối Dirichlet [2].

hình ảnh

Hình 4: Mô hình đồ thị của Mô hình hỗn hợp hữu hạn với phân phối Dirichlet

Một cách đơn giản hơn và ít toán học hơn để giải thích mô hình là như sau. Chúng tôi giả định rằng dữ liệu của chúng tôi có thể được nhóm thành k cụm. Mỗi cụm có các thông số riêng hình ảnh và những thông số đó được sử dụng để tạo dữ liệu của chúng tôi. Những thông số hình ảnh được giả định tuân theo một số phân phối G0. Mỗi quan sát được biểu diễn bằng một vectơ xi và aci giá trị cho biết cụm mà nó thuộc về. Do đó, ci có thể được xem như một biến tuân theo Phân phối Rời rạc với tham số p không là gì khác ngoài các xác suất hỗn hợp, tức là xác suất xuất hiện của mỗi cụm. Cho rằng chúng ta xử lý vấn đề của mình theo cách Bayes, chúng ta không coi tham số p là một vectơ không xác định hằng số. Thay vào đó, chúng ta giả định rằng P theo sau Dirichlet được tham số hóa bởi siêu tham số α / k.

5. Làm việc với k cụm vô hạn

Mô hình hỗn hợp trước đây cho phép chúng tôi thực hiện học tập không giám sát, theo cách tiếp cận Bayes và có thể được mở rộng để có cấu trúc phân cấp. Tuy nhiên, nó là một mô hình hữu hạn vì nó sử dụng k số cụm được xác định trước không đổi. Do đó, nó yêu cầu chúng ta xác định số lượng các thành phần trước khi thực hiện Phân tích cụm và như chúng ta đã thảo luận trước đó trong hầu hết các ứng dụng, điều này là không xác định và không thể dễ dàng ước tính.

Một cách để giải quyết điều này là tưởng tượng rằng k có giá trị rất lớn có xu hướng đến vô cùng. Nói cách khác, chúng ta có thể hình dung giới hạn của mô hình này khi k có xu hướng đến vô cùng. Nếu đúng như vậy, thì chúng ta có thể thấy rằng mặc dù số lượng cụm k là vô hạn, nhưng số lượng thực tế các cụm đang hoạt động (những cụm có ít nhất một quan sát), không thể lớn hơn n (là tổng số quan sát trong tập dữ liệu của chúng tôi). Trên thực tế, như chúng ta sẽ thấy ở phần sau, số lượng cụm hoạt động sẽ ít hơn đáng kể so với n và chúng sẽ tỷ lệ với hình ảnh.

Tất nhiên, lấy giới hạn của k đến vô cùng là không tầm thường. Một số câu hỏi đặt ra như liệu có thể đạt được giới hạn như vậy không, mô hình này trông như thế nào và làm thế nào chúng ta có thể xây dựng và sử dụng một mô hình như vậy.

Trong bài viết tiếp theo, chúng tôi sẽ tập trung vào chính xác những câu hỏi này: chúng tôi sẽ định nghĩa Quy trình Dirichlet, chúng tôi sẽ trình bày các đại diện khác nhau của DP và cuối cùng chúng tôi sẽ tập trung vào Quy trình nhà hàng Trung Quốc, một cách trực quan và hiệu quả để xây dựng Quy trình Dirichlet.

Tôi hy vọng bạn thấy bài viết này hữu ích. Nếu bạn đã làm, xin vui lòng dành một chút thời gian để chia sẻ bài viết trên Facebook và Twitter. 🙂

Dấu thời gian:

Thêm từ Hộp dữ liệu