Ομαδοποίηση εγγράφων και δεδομένων Gaussian με μοντέλα μείγματος διεργασίας Dirichlet

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Αυτό το άρθρο είναι το πέμπτο μέρος του σεμιναρίου Ομαδοποίηση με DPMM. Στις προηγούμενες δημοσιεύσεις καλύψαμε λεπτομερώς το θεωρητικό υπόβαθρο της μεθόδου και περιγράψαμε τις μαθηματικές παραστάσεις της και τρόπους για την κατασκευή της. Σε αυτήν την ανάρτηση θα προσπαθήσουμε να συνδέσουμε τη θεωρία με την πρακτική, εισάγοντας δύο μοντέλα DPMM: το Dirichlet Multivariate Normal Mixture Model, το οποίο μπορεί να χρησιμοποιηθεί για την ομαδοποίηση δεδομένων Gaussian και το Dirichlet-Multinomial Mixture Model που χρησιμοποιείται για την ομαδοποίηση εγγράφων.

Ενημέρωση: Το Datumbox Machine Learning Framework είναι τώρα ανοιχτού κώδικα και δωρεάν κατεβάσετε. Ρίξτε μια ματιά στο πακέτο com.datumbox.framework.machinelearning.clustering για να δείτε την υλοποίηση Dirichlet Process Mixture Models στην Java.

1. Το μοντέλο Dirichlet Multivariate Normal Mixture

Το πρώτο μοντέλο μείγματος διεργασίας Dirichlet που θα εξετάσουμε είναι το Dirichlet Multivariate Normal Mixture Model που μπορεί να χρησιμοποιηθεί για την ομαδοποίηση σε συνεχή σύνολα δεδομένων. Το μοντέλο μείγματος ορίζεται ως εξής:

Εξίσωση 1: Μοντέλο Dirichlet Multivariate Normal Mixture

Όπως μπορούμε να δούμε παραπάνω, το συγκεκριμένο μοντέλο υποθέτει ότι η Γενετική Διανομή είναι η Πολυεθνική Gaussian Distribution και χρησιμοποιεί τη διαδικασία του Κινέζικου εστιατορίου ως προηγούμενη για τις αναθέσεις συμπλέγματος. Επιπλέον για τη βασική διανομή G₀ χρησιμοποιεί το Normal-Inverse-Wishart πριν που είναι σύζευξη πριν Πολυμεταβλητής Κανονικής κατανομής με άγνωστο μέσο και συντεταγμένο πίνακα. Παρακάτω παρουσιάζουμε το Γραφικό Μοντέλο του μοντέλου μείγματος:

Ομαδοποίηση εγγράφων και gaussian δεδομένων με μοντέλα Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Σχήμα 1: Γραφικό μοντέλο του Dirichlet Multivariate Normal Mixture Model

Όπως συζητήσαμε νωρίτερα, για να μπορέσουμε να εκτιμήσουμε τις αναθέσεις συμπλέγματος, θα χρησιμοποιήσουμε το Σύμπτυξη δειγματοληψίας Gibbs που απαιτεί την επιλογή του κατάλληλα συζευγμένα προγενέστερα. Επιπλέον, θα πρέπει να ενημερώσουμε τις παραμέτρους που δίνονται μεταγενέστερα το προηγούμενο και τα αποδεικτικά στοιχεία. Παρακάτω βλέπουμε το Εκτιμήσεις MAP των παραμέτρων για μία από τις συστάδες:

Ομαδοποίηση εγγράφων και gaussian δεδομένων με μοντέλα Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Εξίσωση 2: Εκτιμήσεις MAP σχετικά με τις παραμέτρους συμπλέγματος

Όπου d είναι η διαστατικότητα των δεδομένων μας και είναι το μέσο δείγμα. Επιπλέον έχουμε αρκετές υπερπαραμέτρους του Normal-Inverse-Wishart όπως το μ₀ που είναι ο αρχικός μέσος όρος, κ₀ είναι το μέσο κλάσμα που λειτουργεί ως παράμετρο εξομάλυνσης, ν₀ είναι οι βαθμοί ελευθερίας που ορίζονται στον αριθμό των διαστάσεων και Ψ₀ είναι το προϊόν απόκλισης κατά ζεύγη που έχει ρυθμιστεί στον πίνακα ταυτότητας dxd πολλαπλασιασμένο με μια σταθερά. Από τώρα και στο εξής όλες οι προηγούμενες υπερπαραμέτρους του G₀ θα συμβολίζεται με λ για απλοποίηση της σημειογραφίας. Τέλος, έχοντας όλα τα παραπάνω, μπορούμε να εκτιμήσουμε τις πιθανότητες που απαιτούνται από το Sampler Collapsed Gibbs. Η πιθανότητα παρατήρησης i να ανήκει στο σύμπλεγμα k λαμβάνοντας υπόψη τις αντιστοιχίσεις συμπλέγματος, το σύνολο δεδομένων και όλες τις υπερπαραμέτρους α και λ των DP και G₀δίνεται παρακάτω:

Ομαδοποίηση εγγράφων και gaussian δεδομένων με μοντέλα Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Εξίσωση 3: Πιθανότητες που χρησιμοποιεί ο Gibbs Sampler για το MNMM

Όπου z_i είναι η ανάθεση συμπλέγματος της παρατήρησης x_i, Χ_{1: ν} είναι το πλήρες σύνολο δεδομένων, z_-i είναι το σύνολο των αντιστοιχίσεων συμπλέγματος χωρίς αυτό του i^th παρατήρηση, x_-i είναι το πλήρες σύνολο δεδομένων εκτός από το i^th παρατήρηση, γ_k_,-Εγώ είναι ο συνολικός αριθμός των παρατηρήσεων που έχουν ανατεθεί στο σύμπλεγμα k εκτός του i^th παρατήρηση ενώ και είναι ο μέσος και ο πίνακας συνδιακύμανσης του συμπλέγματος k εκτός του i^th παρατήρηση.

2. Το μοντέλο Dirichlet-Multinomial Campuran

Το Dirichlet-Multinomial Mixture Model χρησιμοποιείται για την ανάλυση συστάδων εγγράφων. Το συγκεκριμένο μοντέλο έχει μια ελαφρώς πιο περίπλοκη ιεραρχία δεδομένου ότι μοντελοποιεί τα θέματα / κατηγορίες των εγγράφων, τις πιθανότητες λέξεων σε κάθε θέμα, τις αναθέσεις συμπλέγματος και τη γενετική διανομή των εγγράφων. Στόχος του είναι η εκτέλεση μη εποπτευόμενης μάθησης και ομαδοποίηση μιας λίστας εγγράφων με την ανάθεση τους σε ομάδες. Το μοντέλο μείγματος ορίζεται ως εξής:

Εξίσωση 4: Μοντέλο Dirichlet-Multinomial Mixture

Όπου φ μοντελοποιεί τις πιθανότητες θέματος, z_i είναι ένας επιλογέας θέματος, θ_k είναι οι πιθανότητες λέξεων σε κάθε σύμπλεγμα και x_{εγώ, j} αντιπροσωπεύει τις λέξεις του εγγράφου. Πρέπει να σημειώσουμε ότι αυτή η τεχνική χρησιμοποιεί το πλαίσιο τσάντα-λέξεων που αντιπροσωπεύει τα έγγραφα ως μια μη ταξινομημένη συλλογή λέξεων, αγνοώντας τη γραμματική και τη σειρά λέξεων. Αυτή η απλοποιημένη αναπαράσταση χρησιμοποιείται συνήθως στην επεξεργασία φυσικής γλώσσας και στην ανάκτηση πληροφοριών. Παρακάτω παρουσιάζουμε το Γραφικό Μοντέλο του μοντέλου μείγματος:

Ομαδοποίηση εγγράφων και gaussian δεδομένων με μοντέλα Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Σχήμα 2: Γραφικό μοντέλο του Dirichlet-Multinomial Mixture Model

Το συγκεκριμένο μοντέλο χρησιμοποιεί Πολυεθνική Διακριτή κατανομή για τη γενετική διανομή και τις διανομές Dirichlet για τα προηγούμενα. Το ℓ είναι το μέγεθος των ενεργών συστάδων μας, ο n ο συνολικός αριθμός εγγράφων, το β ελέγχει τον a priori αναμενόμενο αριθμό συστάδων ενώ το α ελέγχει τον αριθμό των λέξεων που έχουν εκχωρηθεί σε κάθε ομάδα. Για να εκτιμήσετε τις πιθανότητες που απαιτούνται από το Συμπτυγμένο δείγμα Gibbs χρησιμοποιούμε το μετά την εξίσωση:

Ομαδοποίηση εγγράφων και gaussian δεδομένων με μοντέλα Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Εξίσωση 5: Πιθανότητες που χρησιμοποιούνται από τον Gibbs Sampler για DMMM

Όπου Γ είναι η συνάρτηση γάμμα, z_i είναι η εκχώρηση συμπλέγματος του εγγράφου x_i, Χ_{1: ν} είναι το πλήρες σύνολο δεδομένων, z_-i είναι το σύνολο των αντιστοιχίσεων συμπλέγματος χωρίς αυτό του i^th έγγραφο, x_-i είναι το πλήρες σύνολο δεδομένων εκτός από το i^th έγγραφο, Ν_k(z_-i) είναι ο αριθμός των παρατηρήσεων που έχουν ανατεθεί στο σύμπλεγμα k εκτός του i^th έγγραφο, Ν_z_=k(x_-i) είναι ένα διάνυσμα με το άθροισμα των μετρήσεων για κάθε λέξη για όλα τα έγγραφα που έχουν ανατεθεί στο σύμπλεγμα k εκτός από το i^th έγγραφο και N (x_i) είναι ο αραιός φορέας με τις μετρήσεις κάθε λέξης στο έγγραφο x_i. Τέλος, όπως μπορούμε να δούμε παραπάνω, χρησιμοποιώντας το Collapsed Gibbs Sampler with the Chinese Restaurant Process the θ_jk μεταβλητή που αποθηκεύει την πιθανότητα της λέξης j στο θέμα k μπορεί να ενσωματωθεί.

Σφραγίδα ώρας: Ιούνιος 30, 2014Ιούλιος 18, 2022

Σφραγίδα ώρας: 23 Ιουνίου 2014

Ομαδοποίηση εγγράφων και δεδομένων gaussian με Dirichlet Process Mixture Models

Αναδημοσίευση από τον Πλάτωνα

1. Το μοντέλο Dirichlet Multivariate Normal Mixture

2. Το μοντέλο Dirichlet-Multinomial Campuran

Περισσότερα από Databox

5 συμβουλές για εκπαίδευση πολλαπλών GPU με την Keras

Νέα σειρά Blog - Απομνημονεύματα προγραμματιστή του TorchVision

Μοντέλο πεπερασμένων μιγμάτων βασισμένο στο Dirichlet Distribution

Χρήση μεθόδων επιλογής χαρακτηριστικών κατά την ταξινόμηση κειμένου

Πώς να φτιάξετε το δικό σας εργαλείο ανάλυσης sentiment Facebook

Εργαλείο ανάλυσης περιγράμματος δεδομένων

Το στρώμα της Κανονικοποίησης παρτίδας του Keras είναι σπασμένο

Διάτρηση στον αλγόριθμο Συστάσεων ALS του Spark

Μέτρηση της δημοτικότητας των κοινωνικών μέσων των σελίδων με την DEA στην JAVA

Μια κλεφτή ματιά στο TorchVision v0.11 – Αναμνήσεις ενός προγραμματιστή TorchVision – 2

Νέα σειρά Blog - Απομνημονεύματα προγραμματιστή του TorchVision

Το μοντέλο μείγματος διεργασίας Dirichlet

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός