问:使用Dirichlet流程对数据进行聚类的标准方法是什么?
使用吉布斯采样时,采样簇会出现并消失。此外,由于后验分布对于聚类重标记是不变的,因此我们存在可识别性问题。因此,我们不能说哪个是用户集群,而是两个用户在同一个集群中(即)。
我们可以总结一下类的分配,以便如果是点的集群分配,那么现在不仅是而且是?
这些是我找到的替代方案,也是为什么我认为它们不完整或被误导的原因。
(1)DP-GMM + Gibbs采样+基于对的混淆矩阵
为了将Dirichlet过程高斯混合模型(DP-GMM)用于聚类,我实现了本文,其中作者提出了使用Gibbs采样进行密度估计的DP-GMM 。
为了探讨集群性能,他们说:
由于在[MCMC]链上组件的数量发生了变化,因此需要形成一个混淆矩阵,显示每个数据对在整个链中分配给同一组件的频率,见图6。
缺点:这不是真正的“完整”群集,而是成对群集。该图看起来不错,因为我们知道了真实的簇,并据此安排了矩阵。
(2)DP-GMM + Gibbs采样+采样直到没有任何变化
我一直在搜索,发现有些人声称使用Gibbs采样器基于Dirichlet Process进行聚类。例如,这篇文章认为当聚类数量或均值没有更多变化时,链收敛,因此可以从那里获得汇总。
缺点:我不确定这是否允许,因为如果我没有记错的话:
(a)在MCMC期间可能会有标签切换。
(b)即使在固定分布中,采样器也可以不时创建一些簇。
(3)DP-GMM + Gibbs采样+选择最可能划分的采样
在本文中,作者说:
在“老化”阶段之后,可以从Gibbs采样器中提取来自IGMM后分布的无偏样本。可以通过绘制许多此类样本并使用类别指标变量的联合可能性最高的样本来找到硬聚类。我们使用M. Mandel编写的经过修改的IGMM实现。
缺点:除非这是一个折叠的吉布斯采样器,我们仅对分配进行采样,否则我们可以计算而不是边际。(取而代之的是获得具有最高的状态,这是一个好习惯吗?)p (c)p (c,θ )
(4)具有可变推论的DP-GMM:
我已经看到一些库使用变分推理。我不太了解变分推理,但我想您那里没有可识别性问题。但是,我想坚持使用MCMC方法(如果可能)。
任何参考将有所帮助。