狄利克雷过程混合模型柏拉图区块链数据智能。垂直搜索。人工智能。

Dirichlet过程混合模型

这篇博客文章是该系列文章的第四部分 用Dirichlet过程混合模型聚类。 在先前的文章中,我们讨论了有限Dirichlet混合模型,并采用了其模型对无限k簇的限制,这导致我们引入了Dirichlet过程。 如我们所见,我们的目标是建立一个混合模型,该模型不需要我们从一开始就指定k个簇/组件的数量。 后 呈现狄利克雷过程的不同表示,现在是时候实际使用DP来构建使我们能够执行聚类的无限混合模型了。 本文的目标是定义Dirichlet过程混合模型,并讨论中餐厅过程和Gibbs抽样的使用。 如果您还没有阅读过以前的文章,强烈建议您这样做,因为该主题有点理论化,并且需要对模型的构造有很好的理解。

更新:Datumbox机器学习框架现在是开源的,免费提供给 下载。 检出com.datumbox.framework.machinelearning.clustering软件包,以了解Java中Dirichlet Process Mixture模型的实现。

1. Dirichlet过程混合模型的定义

使用狄利克雷过程,我们可以得到具有无限分量的混合模型,可以将其视为将k的有限模型限制为无穷大。 假设我们有以下模型:

图片
图片
图片

公式1:Dirichlet过程混合模型

其中G定义为 图片图片 用作的简写 图片 这是一个增量函数,如果需要则取1 图片 和0在其他地方。 θi 是从G采样的聚类参数。生成分布F由聚类参数θ配置i 并用于生成xi 观察。 最后,我们可以定义一个密度分布 图片 这是我们的混合比例分布(无限的无限混合) 图片 和混合成分 图片.

图片

图1:Dirichlet过程混合模型的图形模型

在上方,我们可以看到DPMM的等效图形模型。 G0 是DP的基本分布,通常选择它在生成分布F之前是共轭的,以使计算更容易并利用吸引人的数学特性。 α是Dirichlet过程的标量超参数,它影响我们将获得的簇数。 α值越大,簇越多; α越小,簇越少。 我们应该注意,α的值表示 相信的力量 在G中0。 较大的值表示大多数样本将是不同的,并且值集中在G0。 G是从DP采样的Θ参数空间上的随机分布,它为这些参数分配了概率。 θi 是从G分布中得出的参数向量,其中包含聚类的参数,F分布由θ参数化i 和xi 是由生成分布F生成的数据点。

重要的是要注意i 是Θ参数空间的元素,它们“配置”我们的集群。 它们也可以看作是x上的潜在变量i 告诉我们x来自哪个组件/集群i 来自以及该组件的参数是什么。 因此,每xi 我们观察到,我们画出一个θi 从G分布。 每次绘制时,分布都会根据先前的选择而变化。 正如我们在Blackwell-MacQueen缸模型中所见,可以将G分布积分出来,并选择我们将来的θi 仅取决于G0: 图片。 从上一个公式估算参数θi并不总是可行的,因为许多实现(例如中国餐馆流程)都涉及通过 k个分量呈指数增长。 因此,使用近似的计算方法,例如吉布斯采样。 最后,我们应该注意,即使k个簇是无限的,活动簇的数量也是 图片。 因此θi 将重复并显示聚类效果。

2.使用中餐厅过程定义无限混合模型

上一部分中定义的模型在数学上是可靠的,但是它有一个主要缺点:对于每个新xi 我们观察到,我们必须采样一个新的θi 考虑到先前的θ值。 问题在于,在许多情况下,对这些参数进行采样可能是一项困难且计算量巨大的任务。

另一种方法是使用中餐厅流程对潜在变量z进行建模i 集群分配。 用这种方法代替使用θi 为了表示聚类参数和聚类分配,我们使用潜变量zi 指示集群ID,然后使用该值分配集群参数。 结果,我们不再需要在每次获得新观测值时对θ进行采样,而是通过对z进行采样来获得聚类分配。i 来自CRP。 使用此方案,仅当我们需要创建新的簇时才对新的θ进行采样。 下面我们介绍这种方法的模型:

图片
图片
图片

公式2:具有CRP的混合模型

上面是一个生成模型,描述了数据xi 并生成集群。 要执行聚类分析,我们必须使用观察值xi 并估算集群分配zi.

3.混合模型推断和吉布斯采样

不幸的是,由于Dirichlet流程是非参数的,所以我们 不能使用EM算法 估计存储集群分配的潜在变量。 为了估算作业,我们将使用 折叠的吉布斯采样.

折叠的吉布斯抽样是一种简单的马尔可夫链蒙特卡洛(MCMC)算法。 它速度很快,使我们能够在采样另一个变量的同时整合出一些变量。 不过,此算法要求我们选择一个G0 它是F生成分布的共轭先验,以便能够解析求解方程并能够直接从中采样 图片.

我们将用来评估聚类分配的折叠吉布斯抽样步骤如下:

  • 初始化zi 随机分配作业
  • 重复直到收敛
    • 随机选择斧头i
    • 保持其他zj 对于每个j≠i固定: 图片
    • 在z上分配一个新值i 通过计算取决于z的“ CRP概率”j 和xj 在所有j≠i中: 图片

在下一篇文章中,我们将重点介绍如何使用Dirichlet Process Mixture模型执行聚类分析。 我们将定义两个不同的Dirichlet过程混合模型,这些模型使用中餐厅过程和折叠的吉布斯抽样来对连续的数据集和文档进行聚类。

时间戳记:

更多来自 基准框