Modelo de mezcla finita basado en Dirichlet Distribution PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Modelo de mezcla finita basado en la distribución de Dirichlet

Esta publicación de blog es la segunda parte de una serie de artículos sobre modelos de mezclas de Procesos Dirichlet. En el artículo anterior tuvimos un Resumen de varias técnicas de análisis de clúster y discutimos algunos de los problemas / limitaciones que surgen al usarlos. Además, presentamos brevemente los modelos de mezcla de procesos de Dirichlet, hablamos sobre por qué son útiles y presentamos algunas de sus aplicaciones.

Actualización: el marco de aprendizaje automático de Datumbox ahora es de código abierto y gratuito para descargar. Consulte el paquete com.datumbox.framework.machinelearning.clustering para ver la implementación de los modelos de mezcla de procesos de Dirichlet en Java.

Los modelos de mezcla de procesos de Dirichlet pueden ser un poco difíciles de tragar al principio principalmente porque son modelos de mezclas infinitas con muchas representaciones diferentes. Afortunadamente, una buena manera de abordar el tema es comenzando por los Modelos de mezcla finita con distribución de Dirichlet y luego pasando a los infinitos.

Por consiguiente, en este artículo presentaré brevemente algunas distribuciones importantes que necesitaremos, las utilizaremos para construir el modelo de Dirichlet Prior con probabilidad multinomial y luego pasaremos al modelo de mezcla finita basado en la distribución de Dirichlet.

1. Distribución beta

El Distribución beta es una familia de distribuciones continuas que se define en el intervalo de [0,1]. Está parametrizado por dos parámetros positivos a y by su forma depende en gran medida de la selección de esos dos parámetros.

imagen

Figura 1: Distribución Beta para diferentes parámetros a, b

La distribución Beta se usa comúnmente para modelar una distribución sobre probabilidades y tiene la siguiente densidad de probabilidad:

imagen

Ecuación 1: PDF Beta

Donde Γ (x) es la función gamma y a, b los parámetros de la distribución. Beta se usa comúnmente como una distribución de valores de probabilidad y nos da la probabilidad de que la probabilidad modelada sea igual a un valor particular P = p0. Por su definición, la distribución Beta es capaz de modelar la probabilidad de resultados binarios que toman valores verdaderos o falsos. Los parámetros ayb pueden considerarse como los seudocontos de éxito y fracaso, respectivamente. Por lo tanto, la Distribución Beta modela la probabilidad de éxito dados los éxitos y las fallas b.

2. Distribución de Dirichlet

El Distribución de Dirichlet es la generalización de la Distribución Beta para múltiples resultados (o en otras palabras, se usa para eventos con múltiples resultados). Se parametriza con k parámetros ai que debe ser positivo La distribución de Dirichlet es igual a la distribución Beta cuando el número de variables k = 2.

imagen

Figura 2: Distribución de Dirichlet para varios ai parámetros

La distribución de Dirichlet se usa comúnmente para modelar una distribución sobre probabilidades y tiene la siguiente densidad de probabilidad:

imagen

Ecuación 2: Dirichlet PDF

Donde Γ (x) es la función gamma, la pi tomar valores en [0,1] y Σpi= 1. La distribución de Dirichlet modela la distribución conjunta de pi y da la probabilidad de P1=p1,P2=p2,….,PAGSk-1=pk-1 Con pk= 1 - ΣPi. Como en el caso de Beta, el ai Los parámetros se pueden considerar como pseudocuentas de las apariencias de cada evento. La distribución de Dirichlet se usa para modelar la probabilidad de que ocurran k eventos rivales y a menudo se denota como Dirichlet (a).

3. Dirichlet previo con probabilidad multinomial

Como se mencionó anteriormente, la distribución de Dirichlet puede verse como una distribución sobre distribuciones de probabilidad. En los casos en que queremos modelar la probabilidad de que ocurran k eventos, un enfoque bayesiano sería utilizar Probabilidades multinomiales y antecedentes de Dirichlet .

A continuación podemos ver el modelo gráfico de dicho modelo.

imagen

Figura 3: Modelo gráfico de antecedentes de Dirichlet con probabilidad multinomial

En el modelo gráfico anterior, α es un vector dimensional ak con los hiperparámetros de los anteriores de Dirichlet, p es un vector dimensional ak con los valores de probabilidad yxi es un valor escalar de 1 a k que nos dice qué evento ha ocurrido. Finalmente, debemos notar que la P sigue la distribución de Dirichlet parametrizada con el vector α y, por lo tanto, P ~ Dirichlet (α), mientras que la xi Las variables siguen la distribución discreta (multinomial) parametrizada con el vector p de probabilidades. Se pueden usar modelos jerárquicos similares en la clasificación de documentos para representar las distribuciones de frecuencias de palabras clave en diferentes temas.

4. Modelo de mezcla finita con distribución de Dirichlet

Al usar la Distribución Dirichlet podemos construir un Modelo de mezcla finita que se puede usar para realizar agrupaciones. Supongamos que tenemos el siguiente modelo:

imagen

imagen

imagen

imagen

Ecuación 3: Modelo de mezcla finita con distribución de Dirichlet

El modelo anterior supone lo siguiente: tenemos un conjunto de datos X con n observaciones y queremos realizar análisis de conglomerados en él. El k es un número finito constante que muestra el número de grupos / componentes que utilizaremos. La Ci Las variables almacenan la asignación de grupo de observación Xi, toman valores de 1 a k y siguen la Distribución Discreta con el parámetro p, que son las probabilidades de mezcla de los componentes. La F es la distribución generativa de nuestra X y se parametriza con un parámetro imagen que depende de la asignación de grupo de cada observación. En total tenemos k únicos imagen parámetros iguales al número de nuestros grupos. los imagen La variable almacena los parámetros que parametrizan la distribución F generativa y suponemos que sigue una base G0 distribución. La variable p almacena los porcentajes de la mezcla para cada uno de los k grupos y sigue el Dirichlet con los parámetros α / k. Finalmente, el α es un vector dimensional ak con los hiperparámetros (seudocontos) de distribución de Dirichlet [2].

imagen

Figura 4: Modelo gráfico del modelo de mezcla finita con distribución de Dirichlet

Una forma más simple y menos matemática de explicar el modelo es la siguiente. Suponemos que nuestros datos se pueden agrupar en k grupos. Cada grupo tiene sus propios parámetros. imagen y esos parámetros se utilizan para generar nuestros datos. Los parametros imagen se supone que siguen alguna distribución G0. Cada observación se representa con un vector xi y aci valor que indica el clúster al que pertenece. En consecuencia, la ci puede verse como una variable que sigue la distribución discreta con un parámetro p que no es más que las probabilidades de la mezcla, es decir, la probabilidad de que ocurra cada grupo. Dado que manejamos nuestro problema de una manera bayesiana, no tratamos el parámetro p como un vector constante desconocido. En su lugar, suponemos que la P sigue a Dirichlet, que está parametrizada por hiperparámetros α / k.

5. Trabajando con infinitos grupos de k

El modelo de mezcla anterior nos permite realizar un aprendizaje no supervisado, sigue un enfoque bayesiano y puede ampliarse para tener una estructura jerárquica. Sin embargo, es un modelo finito porque utiliza un número constante constante de grupos de k. Como resultado, requiere que definamos el número de componentes antes de realizar el Análisis de clúster y, como lo discutimos anteriormente en la mayoría de las aplicaciones, esto es desconocido y no se puede estimar fácilmente.

Una forma de resolver esto es imaginar que k tiene un valor muy grande que tiende al infinito. En otras palabras, podemos imaginar el límite de este modelo cuando k tiende al infinito. Si este es el caso, entonces podemos ver que a pesar de que el número de grupos k es infinito, el número real de grupos que están activos (los que tienen al menos una observación), no puede ser mayor que n (que es el número total de observaciones en nuestro conjunto de datos). De hecho, como veremos más adelante, el número de grupos activos será significativamente menor que n y serán proporcionales a imagen.

Por supuesto, llevar el límite de k al infinito no es trivial. Surgen varias preguntas, como si es posible tomar dicho límite, cómo se vería este modelo y como podemos construir y usar tal modelo.

En el próximo artículo nos centraremos exactamente en estas preguntas: definiremos el Proceso de Dirichlet, presentaremos las diversas representaciones de DP y finalmente nos centraremos en el Proceso de restaurante chino, que es una forma intuitiva y eficiente de construir un Proceso de Dirichlet.

Espero que hayas encontrado útil esta publicación. Si lo hizo, tómese un momento para compartir el artículo en Facebook y Twitter. 🙂

Sello de tiempo:

Mas de Caja de datos