Το μοντέλο Μείγματος Διαδικασιών Dirichlet, Ευφυΐα Δεδομένων PlatoBlockchain. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Το μοντέλο μείγματος διεργασίας Dirichlet

Αυτή η ανάρτηση ιστολογίου είναι το τέταρτο μέρος της σειράς Ομαδοποίηση με μοντέλα μείγματος διεργασίας Dirichlet. Σε προηγούμενα άρθρα συζητήσαμε τα μοντέλα πεπερασμένων μιγμάτων Dirichlet και πήραμε το όριο του μοντέλου τους για άπειρες συστάδες που μας οδήγησαν στην εισαγωγή των διεργασιών Dirichlet. Όπως είδαμε, στόχος μας είναι να φτιάξουμε ένα μείγμα μοντέλο που δεν απαιτεί από εμάς να καθορίσουμε τον αριθμό των συστάδων / συστατικών k. Μετά παρουσιάζοντας διαφορετικές αναπαραστάσεις της διαδικασίας Dirichlet, τώρα ήρθε η ώρα να χρησιμοποιήσουμε πραγματικά DPs για να κατασκευάσουμε ένα άπειρο μοντέλο μίξης που μας επιτρέπει να κάνουμε ομαδοποίηση. Ο στόχος αυτού του άρθρου είναι να καθορίσει τα μοντέλα μείγματος διεργασίας Dirichlet και να συζητήσει τη χρήση της διαδικασίας κινεζικής εστιατορίας και της δειγματοληψίας Gibbs Εάν δεν έχετε διαβάσει τις προηγούμενες δημοσιεύσεις, συνιστάται να το κάνετε καθώς το θέμα είναι λίγο θεωρητικό και απαιτεί καλή κατανόηση για την κατασκευή του μοντέλου.

Ενημέρωση: Το Datumbox Machine Learning Framework είναι τώρα ανοιχτού κώδικα και δωρεάν κατεβάσετε. Ρίξτε μια ματιά στο πακέτο com.datumbox.framework.machinelearning.clustering για να δείτε την υλοποίηση Dirichlet Process Mixture Models στην Java.

1. Ορισμός του μοντέλου μείγματος διεργασίας Dirichlet

Η χρήση Dirichlet Processes μας επιτρέπει να έχουμε ένα μείγμα μοντέλου με άπειρα συστατικά που μπορεί να θεωρηθεί ότι παίρνει το όριο του πεπερασμένου μοντέλου για το k έως το άπειρο. Ας υποθέσουμε ότι έχουμε το ακόλουθο μοντέλο:

εικόνα
εικόνα
εικόνα

Εξίσωση 1: Μοντέλο μείγματος διεργασίας Dirichlet

Όπου το G ορίζεται ως εικόνα και εικόνα χρησιμοποιείται ως σύντομος συμβολισμός για εικόνα που είναι μια συνάρτηση δέλτα που παίρνει 1 εάν εικόνα και 0 αλλού. Η θi είναι οι παράμετροι συμπλέγματος που λαμβάνονται από το G. Η γενετική κατανομή F διαμορφώνεται από παραμέτρους συμπλέγματος θi και χρησιμοποιείται για τη δημιουργία xi παρατηρήσεις. Τέλος μπορούμε να ορίσουμε μια κατανομή πυκνότητας εικόνα η οποία είναι η κατανομή μιγμάτων μας (μετρήσιμο άπειρο μείγμα) με αναλογίες ανάμειξης εικόνα και ανάμειξη συστατικών εικόνα.

εικόνα

Σχήμα 1: Γραφικό μοντέλο μοντέλου μείγματος διεργασίας Dirichlet

Πάνω μπορούμε να δούμε το αντίστοιχο Γραφικό Μοντέλο του DPMM. Το G0 είναι η βασική κατανομή του DP και συνήθως επιλέγεται για σύζευξη πριν από τη γενική κατανομή F μας, προκειμένου να κάνουμε τους υπολογισμούς ευκολότερους και να χρησιμοποιήσουμε τις ελκυστικές μαθηματικές ιδιότητες. Το α είναι το κλιμακωτό υπερπαραμέτρο της διαδικασίας Dirichlet και επηρεάζει τον αριθμό των συστάδων που θα λάβουμε. Όσο μεγαλύτερη είναι η τιμή του α, τόσο περισσότερες είναι οι συστάδες. όσο μικρότερη είναι η α τόσο λιγότερες συστάδες. Πρέπει να σημειώσουμε ότι η τιμή του α εκφράζει η δύναμη της πίστης στο G0. Μια μεγάλη τιμή δείχνει ότι τα περισσότερα δείγματα θα είναι διακριτά και θα έχουν τιμές συγκεντρωμένες στο G0. Το G είναι μια τυχαία κατανομή πάνω στον χώρο παραμέτρων Θ που λαμβάνεται ως δείγμα από το DP που εκχωρεί πιθανότητες στις παραμέτρους. Η θi είναι ένα διάνυσμα παραμέτρων που αντλείται από την κατανομή G και περιέχει τις παραμέτρους του συμπλέγματος, η κατανομή F παραμετροποιείται από θi και xi είναι το σημείο δεδομένων που δημιουργείται από το Generative Distribution F.

Είναι σημαντικό να σημειωθεί ότι το θi είναι στοιχεία του χώρου παραμέτρων Θ και «διαμορφώνουν» τις συστάδες μας. Μπορούν επίσης να θεωρηθούν ως λανθάνουσες μεταβλητές στο xi που μας λένε από ποιο στοιχείο / σύμπλεγμα το xi προέρχεται και ποιες είναι οι παράμετροι αυτού του στοιχείου. Έτσι για κάθε xi που παρατηρούμε, σχεδιάζουμε ένα θi από τη διανομή G. Με κάθε κλήρωση, η διανομή αλλάζει ανάλογα με τις προηγούμενες επιλογές. Όπως είδαμε στο σχήμα δοχείου Blackwell-MacQueen, η διανομή G μπορεί να ενσωματωθεί και οι μελλοντικές μας επιλογές θi εξαρτάται μόνο από το G0: εικόνα. Η εκτίμηση των παραμέτρων θi από τον προηγούμενο τύπο δεν είναι πάντοτε εφικτή, επειδή πολλές εφαρμογές (όπως η Κινέζικη διαδικασία εστιατορίων) περιλαμβάνουν την απαρίθμηση μέσω του αυξανόμενα εκθετικά στοιχεία k. Έτσι χρησιμοποιούνται κατά προσέγγιση υπολογιστικές μέθοδοι όπως η δειγματοληψία Gibbs. Τέλος, πρέπει να σημειώσουμε ότι παρόλο που οι συστάδες k είναι άπειρες, ο αριθμός των ενεργών συστάδων είναι εικόνα. Έτσι το θi θα επαναλάβει και θα εμφανίσει ένα αποτέλεσμα συμπλέγματος.

2. Χρήση της διαδικασίας κινέζικου εστιατορίου για τον καθορισμό ενός μοντέλου άπειρου μείγματος

Το μοντέλο που ορίστηκε στο προηγούμενο τμήμα είναι μαθηματικά σταθερό, ωστόσο έχει ένα σημαντικό μειονέκτημα: για κάθε νέο xi που παρατηρούμε, πρέπει να δοκιμάσουμε ένα νέο θi λαμβάνοντας υπόψη τις προηγούμενες τιμές του θ. Το πρόβλημα είναι ότι σε πολλές περιπτώσεις, η δειγματοληψία αυτών των παραμέτρων μπορεί να είναι μια δύσκολη και υπολογιστικά δαπανηρή εργασία.

Μια εναλλακτική προσέγγιση είναι να χρησιμοποιήσετε τη διαδικασία κινέζικου εστιατορίου για να μοντελοποιήσετε τις λανθάνουσες μεταβλητές zi των αντιστοιχίσεων συμπλέγματος. Με αυτόν τον τρόπο αντί να χρησιμοποιείτε θi για να δηλώσουμε τόσο τις παραμέτρους συμπλέγματος όσο και τις αντιστοιχίσεις συμπλέγματος, χρησιμοποιούμε τη λανθάνουσα μεταβλητή zi για να υποδείξετε το αναγνωριστικό συμπλέγματος και, στη συνέχεια, χρησιμοποιήστε αυτήν την τιμή για να αντιστοιχίσετε τις παραμέτρους συμπλέγματος. Ως αποτέλεσμα, δεν χρειάζεται πλέον να κάνουμε δειγματοληψία θ κάθε φορά που λαμβάνουμε μια νέα παρατήρηση, αλλά αντ 'αυτού λαμβάνουμε την ανάθεση συμπλέγματος με δειγματοληψία zi από CRP. Με αυτό το σχήμα γίνεται δειγματοληψία ενός νέου θ μόνο όταν πρέπει να δημιουργήσουμε ένα νέο σύμπλεγμα. Παρακάτω παρουσιάζουμε το μοντέλο αυτής της προσέγγισης:

εικόνα
εικόνα
εικόνα

Εξίσωση 2: Μοντέλο μείγματος με CRP

Τα παραπάνω είναι ένα γενετικό μοντέλο που περιγράφει τον τρόπο με τον οποίο τα δεδομένα xi και οι συστάδες δημιουργούνται. Για να πραγματοποιήσουμε την ανάλυση συμπλέγματος πρέπει να χρησιμοποιήσουμε τις παρατηρήσεις xi και εκτιμήστε τις αναθέσεις συμπλέγματος zi.

3. Συμπεράσματα μοντέλου μίγματος και δειγματοληψία Gibbs

Δυστυχώς, δεδομένου ότι οι διεργασίες Dirichlet δεν είναι παραμετρικές, εμείς δεν μπορώ να χρησιμοποιήσω τον αλγόριθμο EM για να εκτιμήσετε τις λανθάνουσες μεταβλητές που αποθηκεύουν τις αναθέσεις συμπλέγματος. Για να εκτιμήσουμε τις εργασίες θα χρησιμοποιήσουμε το Σύμπτυξη δειγματοληψίας Gibbs.

Το Collapsed Gibbs Sampling είναι ένας απλός αλγόριθμος Markov Chain Monte Carlo (MCMC). Είναι γρήγορο και μας επιτρέπει να ενσωματώσουμε κάποιες μεταβλητές κατά τη δειγματοληψία μιας άλλης μεταβλητής. Ωστόσο, αυτοί οι αλγόριθμοι απαιτούν να επιλέξουμε ένα G0 που είναι ένα συζυγές πριν από την κατανομή γενεαλογικών F, ώστε να είναι σε θέση να επιλύει αναλυτικά τις εξισώσεις και να μπορεί να δειγματοληψεί απευθείας από εικόνα.

Τα βήματα της δειγματοληψίας Collapsed Gibbs που θα χρησιμοποιήσουμε για την εκτίμηση των αντιστοιχίσεων συμπλέγματος είναι τα εξής:

  • Αρχικοποιήστε το zi αναθέσεις συστάδων τυχαία
  • Επαναλάβετε μέχρι τη σύγκλιση
    • Επιλέξτε τυχαία τσεκούριi
    • Κρατήστε το άλλο zj καθορίζεται για κάθε j ≠ i: εικόνα
    • Εκχωρήστε μια νέα τιμή στο zi υπολογίζοντας την "πιθανότητα CRP" που εξαρτάται από το zj και xj όλων των j ≠ i: εικόνα

Στο επόμενο άρθρο θα επικεντρωθούμε στον τρόπο εκτέλεσης ανάλυσης συμπλέγματος χρησιμοποιώντας μοντέλα Dirichlet Process Mixture. Θα ορίσουμε δύο διαφορετικά μοντέλα μείγματος διεργασίας Dirichlet που χρησιμοποιούν τη διαδικασία κινέζικου εστιατορίου και τη δειγματοληψία Collapsed Gibbs προκειμένου να πραγματοποιήσουν ομαδοποίηση σε συνεχή σύνολα δεδομένων και έγγραφα.

Σφραγίδα ώρας:

Περισσότερα από Databox