Clustering di documenti e dati gaussiani con modelli di miscele di processi Dirichlet

Ripubblicato da Platone

Seguaci: 0

Questo articolo è la quinta parte del tutorial su Clustering con DPMM. Nei post precedenti abbiamo trattato in dettaglio lo sfondo teorico del metodo e abbiamo descritto il suo modulo di rappresentazione matematica e i modi per costruirlo. In questo post cercheremo di collegare la teoria con la pratica introducendo due modelli DPMM: il modello di miscela normale multivariata di Dirichlet che può essere utilizzato per raggruppare i dati gaussiani e il modello di miscela multichomiale di Dirichlet che viene utilizzato per raggruppare i documenti.

Aggiornamento: Datumbox Machine Learning Framework è ora open-source e gratuito scaricare. Dai un'occhiata al pacchetto com.datumbox.framework.machinelearning.clustering per vedere l'implementazione dei modelli di miscela di processo di Dirichlet in Java.

1. Il modello di miscela normale multivariata di Dirichlet

Il primo modello di miscela del processo Dirichlet che esamineremo è il modello di miscela normale multivariata di Dirichlet che può essere utilizzato per eseguire il clustering su set di dati continui. Il modello di miscela è definito come segue:

Equazione 1: Modello di miscela normale multivariata di Dirichlet

Come possiamo vedere sopra, il modello particolare presuppone che la distribuzione generativa sia la distribuzione gaussiana multinomiale e utilizza il processo di ristorante cinese come precedente per le assegnazioni di cluster. Inoltre per la distribuzione Base G₀ utilizza il normale Wishart normale-inverso che è coniugato precedente di distribuzione normale multivariata con matrice di covarianza e media sconosciuta. Di seguito presentiamo il modello grafico del modello di miscela:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Figura 1: Modello grafico del modello a miscela normale multivariata di Dirichlet

Come discusso in precedenza, per poter stimare le assegnazioni dei cluster, utilizzeremo il file Campionamento Gibbs compresso che richiede la selezione di priori coniugati appropriati. Inoltre avremo bisogno di aggiornare i parametri posteriori indicati il priore e l'evidenza. Di seguito vediamo il Stime MAP dei parametri per uno dei cluster:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Equazione 2: stime MAP sui parametri del cluster

Dove d è la dimensionalità dei nostri dati e è la media del campione. Inoltre abbiamo diversi iperparametri del Wishart normale-inverso come il μ₀ che è la media iniziale, κ₀ è la frazione media che funziona come parametro di livellamento, ν₀ è il grado di libertà impostato sul numero di dimensioni e Ψ₀ è il prodotto di deviazione a coppie impostato sulla matrice identità dxd moltiplicata per una costante. Da ora in poi tutti i precedenti iperparametri di G₀ sarà indicato da λ per semplificare la notazione. Infine, avendo tutto quanto sopra, possiamo stimare le probabilità richieste dal campionatore Gibbs compresso. La probabilità dell'osservazione i di appartenere al cluster k dati i compiti del cluster, il set di dati e tutti gli iperparametri α e λ di DP e G₀è riportato di seguito:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Equazione 3: Probabilità utilizzate da Gibbs Sampler per MNMM

Dove z_i è l'assegnazione cluster dell'osservazione x_i, X_{1: n} è il set di dati completo, z_-i è l'insieme delle assegnazioni di cluster senza quello dell'i^th osservazione, x_-i è il set di dati completo escluso l'i^th osservazione, c_k_,-io è il numero totale di osservazioni assegnate al cluster k escluso l'i^th osservazione mentre ed sono la matrice media e di covarianza del cluster k che esclude l'i^th osservazione.

2. Il modello di miscela multichomiale di Dirichlet

Il modello di miscela di Dirichlet-Multinomial viene utilizzato per eseguire analisi cluster di documenti. Il modello particolare ha una gerarchia leggermente più complicata poiché modella gli argomenti / le categorie dei documenti, le probabilità di parola all'interno di ciascun argomento, le assegnazioni dei cluster e la distribuzione generativa dei documenti. Il suo obiettivo è quello di eseguire l'apprendimento senza supervisione e raggruppare un elenco di documenti assegnandoli ai gruppi. Il modello di miscela è definito come segue:

Equazione 4: Modello di miscela multichomiale di Dirichlet

Dove φ modella le probabilità dell'argomento, z_i è un selettore di argomenti, θ_k sono le probabilità di parola in ciascun cluster e x_{i, j} rappresenta le parole del documento. Dobbiamo notare che questa tecnica utilizza il quadro bag-of-words che rappresenta i documenti come una raccolta non ordinata di parole, ignorando la grammatica e l'ordine delle parole. Questa rappresentazione semplificata viene comunemente utilizzata nell'elaborazione del linguaggio naturale e nel recupero delle informazioni. Di seguito presentiamo il modello grafico del modello di miscela:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Figura 2: Modello grafico del modello di miscela multichomiale di Dirichlet

Il modello particolare utilizza Distribuzione discreta multinomiale per la distribuzione generativa e le distribuzioni di Dirichlet per i priori. ℓ è la dimensione dei nostri cluster attivi, n il numero totale di documenti, β controlla il numero previsto a priori di cluster mentre α controlla il numero di parole assegnate a ciascun cluster. Per stimare le probabilità richieste dal Campionatore Gibbs compresso noi usiamo il seguente equazione:

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.
Equazione 5: Probabilità utilizzate da Gibbs Sampler per DMMM

Dove Γ è la funzione gamma, z_i è l'assegnazione del cluster del documento x_i, X_{1: n} è il set di dati completo, z_-i è l'insieme delle assegnazioni di cluster senza quello dell'i^th documento, x_-i è il set di dati completo escluso l'i^th documento, N_k(z_-i) è il numero di osservazioni assegnate al cluster k escluso i^th documento, N_z_=k(x_-i) è un vettore con le somme dei conteggi per ogni parola per tutti i documenti assegnati al cluster k esclusi i^th documento e N (x_i) è il vettore rado con i conteggi di ogni parola nel documento x_i. Infine, come possiamo vedere sopra, usando il campionatore Gibbs compresso con il processo del ristorante cinese θ_jk la variabile che memorizza la probabilità della parola j nell'argomento k può essere integrata.

Timestamp: 30 Giugno 2014Luglio 18, 2022

Timestamp: 4 Maggio 2015

Clustering di documenti e dati gaussiani con Dirichlet Process Mixture Models

Ripubblicato da Platone

1. Il modello di miscela normale multivariata di Dirichlet

2. Il modello di miscela multichomiale di Dirichlet

Di più da Databox

Rilascio Datumbox Machine Learning Framework v0.8.2

Utilizzo dei metodi di selezione delle funzioni nella classificazione del testo

Tutorial sull'analisi dell'inviluppo dei dati

Il modello della miscela di processo di Dirichlet

Il livello di normalizzazione batch di Keras è rotto

Clustering con Dirichlet Process Mixture Model in Java

Utilizzo dell'intelligenza artificiale per risolvere il gioco 2048 (codice JAVA)

Nuovo Machine Learning Framework open source scritto in Java

Il viaggio di Modernizing TorchVision – Memorie di uno sviluppatore TorchVision – 3

Il processo Dirichlet il processo del ristorante cinese e altre rappresentazioni

Rilascio di Datumbox Machine Learning Framework versione 0.8.0

Rilasciato Datumbox Machine Learning Framework 0.6.0

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account