Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models

Questo articolo è la quinta parte del tutorial su Clustering con DPMM. Nei post precedenti abbiamo trattato in dettaglio lo sfondo teorico del metodo e abbiamo descritto il suo modulo di rappresentazione matematica e i modi per costruirlo. In questo post cercheremo di collegare la teoria con la pratica introducendo due modelli DPMM: il modello di miscela normale multivariata di Dirichlet che può essere utilizzato per raggruppare i dati gaussiani e il modello di miscela multichomiale di Dirichlet che viene utilizzato per raggruppare i documenti.

Aggiornamento: Datumbox Machine Learning Framework è ora open-source e gratuito scaricare. Dai un'occhiata al pacchetto com.datumbox.framework.machinelearning.clustering per vedere l'implementazione dei modelli di miscela di processo di Dirichlet in Java.

1. Il modello di miscela normale multivariata di Dirichlet

Il primo modello di miscela del processo Dirichlet che esamineremo è il modello di miscela normale multivariata di Dirichlet che può essere utilizzato per eseguire il clustering su set di dati continui. Il modello di miscela è definito come segue:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Equazione 1: Modello di miscela normale multivariata di Dirichlet

Come possiamo vedere sopra, il modello particolare presuppone che la distribuzione generativa sia la distribuzione gaussiana multinomiale e utilizza il processo di ristorante cinese come precedente per le assegnazioni di cluster. Inoltre per la distribuzione Base G0 utilizza il normale Wishart normale-inverso che è coniugato precedente di distribuzione normale multivariata con matrice di covarianza e media sconosciuta. Di seguito presentiamo il modello grafico del modello di miscela:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Figura 1: Modello grafico del modello a miscela normale multivariata di Dirichlet

Come discusso in precedenza, per poter stimare le assegnazioni dei cluster, utilizzeremo il file Campionamento Gibbs compresso che richiede la selezione di priori coniugati appropriati. Inoltre avremo bisogno di aggiornare i parametri posteriori indicati il priore e l'evidenza. Di seguito vediamo il Stime MAP dei parametri per uno dei cluster:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Equazione 2: stime MAP sui parametri del cluster

Dove d è la dimensionalità dei nostri dati e Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. è la media del campione. Inoltre abbiamo diversi iperparametri del Wishart normale-inverso come il μ0 che è la media iniziale, κ0 è la frazione media che funziona come parametro di livellamento, ν0 è il grado di libertà impostato sul numero di dimensioni e Ψ0 è il prodotto di deviazione a coppie impostato sulla matrice identità dxd moltiplicata per una costante. Da ora in poi tutti i precedenti iperparametri di G0 sarà indicato da λ per semplificare la notazione. Infine, avendo tutto quanto sopra, possiamo stimare le probabilità richieste dal campionatore Gibbs compresso. La probabilità dell'osservazione i di appartenere al cluster k dati i compiti del cluster, il set di dati e tutti gli iperparametri α e λ di DP e G0 è riportato di seguito:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Equazione 3: Probabilità utilizzate da Gibbs Sampler per MNMM

Dove zi è l'assegnazione cluster dell'osservazione xi, X1: n è il set di dati completo, z-i è l'insieme delle assegnazioni di cluster senza quello dell'ith osservazione, x-i è il set di dati completo escluso l'ith osservazione, ck,-io è il numero totale di osservazioni assegnate al cluster k escluso l'ith osservazione mentre Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. ed Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. sono la matrice media e di covarianza del cluster k che esclude l'ith osservazione.

2. Il modello di miscela multichomiale di Dirichlet

Il modello di miscela di Dirichlet-Multinomial viene utilizzato per eseguire analisi cluster di documenti. Il modello particolare ha una gerarchia leggermente più complicata poiché modella gli argomenti / le categorie dei documenti, le probabilità di parola all'interno di ciascun argomento, le assegnazioni dei cluster e la distribuzione generativa dei documenti. Il suo obiettivo è quello di eseguire l'apprendimento senza supervisione e raggruppare un elenco di documenti assegnandoli ai gruppi. Il modello di miscela è definito come segue:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Equazione 4: Modello di miscela multichomiale di Dirichlet

Dove φ modella le probabilità dell'argomento, zi è un selettore di argomenti, θk sono le probabilità di parola in ciascun cluster e xi, j rappresenta le parole del documento. Dobbiamo notare che questa tecnica utilizza il quadro bag-of-words che rappresenta i documenti come una raccolta non ordinata di parole, ignorando la grammatica e l'ordine delle parole. Questa rappresentazione semplificata viene comunemente utilizzata nell'elaborazione del linguaggio naturale e nel recupero delle informazioni. Di seguito presentiamo il modello grafico del modello di miscela:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Figura 2: Modello grafico del modello di miscela multichomiale di Dirichlet

Il modello particolare utilizza Distribuzione discreta multinomiale per la distribuzione generativa e le distribuzioni di Dirichlet per i priori. ℓ è la dimensione dei nostri cluster attivi, n il numero totale di documenti, β controlla il numero previsto a priori di cluster mentre α controlla il numero di parole assegnate a ciascun cluster. Per stimare le probabilità richieste dal Campionatore Gibbs compresso noi usiamo il seguente equazione:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Equazione 5: Probabilità utilizzate da Gibbs Sampler per DMMM

Dove Γ è la funzione gamma, zi è l'assegnazione del cluster del documento xi, X1: n è il set di dati completo, z-i è l'insieme delle assegnazioni di cluster senza quello dell'ith documento, x-i è il set di dati completo escluso l'ith documento, Nk(z-i) è il numero di osservazioni assegnate al cluster k escluso ith documento, Nz=k(x-i) è un vettore con le somme dei conteggi per ogni parola per tutti i documenti assegnati al cluster k esclusi ith documento e N (xi) è il vettore rado con i conteggi di ogni parola nel documento xi. Infine, come possiamo vedere sopra, usando il campionatore Gibbs compresso con il processo del ristorante cinese θjk la variabile che memorizza la probabilità della parola j nell'argomento k può essere integrata.

Timestamp:

Di più da Databox