Dirichlet过程混合模型

由柏拉图重新发布

关注： 0

这篇博客文章是该系列文章的第四部分用Dirichlet过程混合模型聚类。在先前的文章中，我们讨论了有限Dirichlet混合模型，并采用了其模型对无限k簇的限制，这导致我们引入了Dirichlet过程。如我们所见，我们的目标是建立一个混合模型，该模型不需要我们从一开始就指定k个簇/组件的数量。后呈现狄利克雷过程的不同表示，现在是时候实际使用DP来构建使我们能够执行聚类的无限混合模型了。本文的目标是定义Dirichlet过程混合模型，并讨论中餐厅过程和Gibbs抽样的使用。如果您还没有阅读过以前的文章，强烈建议您这样做，因为该主题有点理论化，并且需要对模型的构造有很好的理解。

更新：Datumbox机器学习框架现在是开源的，免费提供给下载。检出com.datumbox.framework.machinelearning.clustering软件包，以了解Java中Dirichlet Process Mixture模型的实现。

1. Dirichlet过程混合模型的定义

使用狄利克雷过程，我们可以得到具有无限分量的混合模型，可以将其视为将k的有限模型限制为无穷大。假设我们有以下模型：

公式1：Dirichlet过程混合模型

其中G定义为和用作的简写这是一个增量函数，如果需要则取1 和0在其他地方。 θ_i 是从G采样的聚类参数。生成分布F由聚类参数θ配置_i 并用于生成x_i 观察。最后，我们可以定义一个密度分布这是我们的混合比例分布（无限的无限混合）和混合成分 .

图1：Dirichlet过程混合模型的图形模型

在上方，我们可以看到DPMM的等效图形模型。 G₀ 是DP的基本分布，通常选择它在生成分布F之前是共轭的，以使计算更容易并利用吸引人的数学特性。 α是Dirichlet过程的标量超参数，它影响我们将获得的簇数。 α值越大，簇越多； α越小，簇越少。我们应该注意，α的值表示相信的力量在G中₀。较大的值表示大多数样本将是不同的，并且值集中在G₀。 G是从DP采样的Θ参数空间上的随机分布，它为这些参数分配了概率。 θ_i 是从G分布中得出的参数向量，其中包含聚类的参数，F分布由θ参数化_i 和x_i 是由生成分布F生成的数据点。

重要的是要注意_i 是Θ参数空间的元素，它们“配置”我们的集群。它们也可以看作是x上的潜在变量_i 告诉我们x来自哪个组件/集群_i 来自以及该组件的参数是什么。因此，每x_i 我们观察到，我们画出一个θ_i 从G分布。每次绘制时，分布都会根据先前的选择而变化。正如我们在Blackwell-MacQueen缸模型中所见，可以将G分布积分出来，并选择我们将来的θ_i 仅取决于G₀: 。从上一个公式估算参数θi并不总是可行的，因为许多实现（例如中国餐馆流程）都涉及通过 k个分量呈指数增长。因此，使用近似的计算方法，例如吉布斯采样。最后，我们应该注意，即使k个簇是无限的，活动簇的数量也是。因此θ_i 将重复并显示聚类效果。

2.使用中餐厅过程定义无限混合模型

上一部分中定义的模型在数学上是可靠的，但是它有一个主要缺点：对于每个新x_i 我们观察到，我们必须采样一个新的θ_i 考虑到先前的θ值。问题在于，在许多情况下，对这些参数进行采样可能是一项困难且计算量巨大的任务。

另一种方法是使用中餐厅流程对潜在变量z进行建模_i 集群分配。用这种方法代替使用θ_i 为了表示聚类参数和聚类分配，我们使用潜变量z_i 指示集群ID，然后使用该值分配集群参数。结果，我们不再需要在每次获得新观测值时对θ进行采样，而是通过对z进行采样来获得聚类分配。_i 来自CRP。使用此方案，仅当我们需要创建新的簇时才对新的θ进行采样。下面我们介绍这种方法的模型：

公式2：具有CRP的混合模型

上面是一个生成模型，描述了数据x_i 并生成集群。要执行聚类分析，我们必须使用观察值x_i 并估算集群分配z_i.

3.混合模型推断和吉布斯采样

不幸的是，由于Dirichlet流程是非参数的，所以我们不能使用EM算法估计存储集群分配的潜在变量。为了估算作业，我们将使用折叠的吉布斯采样.

折叠的吉布斯抽样是一种简单的马尔可夫链蒙特卡洛（MCMC）算法。它速度很快，使我们能够在采样另一个变量的同时整合出一些变量。不过，此算法要求我们选择一个G₀ 它是F生成分布的共轭先验，以便能够解析求解方程并能够直接从中采样 .

我们将用来评估聚类分配的折叠吉布斯抽样步骤如下：

初始化z_i 随机分配作业
重复直到收敛

随机选择斧头_i
保持其他z_j 对于每个j≠i固定：
在z上分配一个新值_i 通过计算取决于z的“ CRP概率”_j 和x_j 在所有j≠i中：

在下一篇文章中，我们将重点介绍如何使用Dirichlet Process Mixture模型执行聚类分析。我们将定义两个不同的Dirichlet过程混合模型，这些模型使用中餐厅过程和折叠的吉布斯抽样来对连续的数据集和文档进行聚类。

时间戳记： 2014 年 6 月 23 日2022 年 7 月 18 日

时间戳记： 2018 年 1 月 21 日

Dirichlet过程混合模型

由柏拉图重新发布

1. Dirichlet过程混合模型的定义

2.使用中餐厅过程定义无限混合模型

3.混合模型推断和吉布斯采样

更多来自基准框

Datumbox机器学习框架0.8.0版已发布

Dirichlet过程中餐厅过程和其他表示形式

用 Java 编写的新开源机器学习框架

Datumbox机器学习框架0.6.0发布

使用Dirichlet过程混合模型对文档和高斯数据进行聚类

基于Dirichlet分布的有限混合模型

Keras的批处理规范化层已损坏

TorchVision v0.11 预览 – TorchVision 开发人员回忆录 – 2

用Java中的Dirichlet过程混合模型进行聚类

使用Linux dstat工具获取NVIDIA卡的GPU使用情况

Datumbox机器学习框架v0.8.2发布

使用Keras进行多GPU训练的5个技巧

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

1. Dirichlet过程混合模型的定义

2.使用中餐厅过程定义无限混合模型

3.混合模型推断和吉布斯采样

更多来自 基准框

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理

更多来自基准框