两种高斯混合物之间的距离以评估聚类解


11

我正在运行一个快速仿真以比较不同的群集方法,并且目前遇到了尝试评估群集解决方案的障碍。

我知道各种验证指标(许多在R 中的cluster.stats()中找到),但是我假设如果估计的集群数量实际上等于集群的真实数量,则最好使用这些验证指标。我想保持一种能力,可以测量在原始模拟中未指定正确数量的聚类解决方案时聚类解决方案的性能(即,模拟为具有4个聚类的三个聚类解决方案模型数据的性能如何)解)。仅作为您的参考,对群集进行模拟以拥有相同的协方差矩阵。

我认为高斯的两种混合之间的KL散度将对实现有用,但是不存在封闭形式的解决方案(Hershey和Olson(2007年)),实现蒙特卡洛模拟的计算开始变得昂贵。

是否还有其他可能易于实现的解决方案(即使只是一个近似值)?


两种高斯混合物之间的L2距离以封闭形式提供。使用它,您应该已经准备就绪。

我不知道你会怎么做,但对我来说这听起来不是一个好主意。采取混合物,置换组分(p(x)不变),L2距离可以是任意值。同样,在协方差矩阵上L2距离也不是一个好主意。
2014年

支持的测试数据集的后验预测概率。我怀疑您需要在k上先验。
推测2015年

第一条链接已断开
ttnphns

Answers:


6

假设我们在Rd有两个高斯混合: 调用它们的密度和分别与表示其组分的密度,由,。

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

以下距离为封闭形式:

  • L2距离,如user39665的注释中所建议。这是: 请注意,例如在矩阵食谱的 8.1.8节中看到的: 因此可以在时间轻松评估。

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    ÑX ; μ Σ ÑX ; μ 'Σ '
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • 高斯RBF内核的最大平均差异(MMD)。这是一个很酷的距离,在统计界尚不为人所知,它需要一些数学来定义。

    令 将希尔伯特空间为对应于的再生内核希尔伯特空间:。

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    平均映射内核定义为

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    MMD然后

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    对于我们的混合物和,请注意 ,类似地,对于和。PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    事实证明,使用与类似的技巧,为 L2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    随着,显然这收敛到距离的倍数。但是,通常您希望使用不同的,一个代表数据变化的规模。σ0L2σ

    MMD中的多项式内核也可以使用封闭形式。看到k

    Muandet,Fukumizu,Dinuzzo和Schölkopf(2012)。通过支持测量机从分发中学习。《神经信息处理系统进展》(正式版)。arXiv:1202.6504

    有关此距离的许多不错的属性,请参见

    Sriperumbudur,Gretton,Fukumizu,Schölkopf和Lanckriet(2010)。希尔伯特空间嵌入和概率测度度量。机器学习研究杂志,11,1517–1561arXiv:0907.5309

  • 二次Jensen-Rényi散度。Rényi-熵定义为 它的极限是Shannon熵。Jensen-Rényi散度为 其中表示和之间的均等混合。事实证明,当且和为高斯混合(如此处)时,您可以为计算封闭形式。这是由α

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    Wang,Syeda-Mahmood,Vemuri,Beymer和Rangarajan(2009)。高斯混合的闭式Jensen-Renyi发散及其在组明智形状配准中的应用。Med Image Comput Comput Assist Interv。,医学杂志12(1),648-655。(免费发布版本


0

如果您的聚类实际上不是高斯混合而是任意塑造的,那么当您生成更多的聚类,然后再进行合并时,结果实际上可能会好得多。

在许多情况下,人们只是选择k任意高,例如,对于大型数据集,选择k即可;特别是当您对模型不真正感兴趣,而只是想通过矢量量化来降低数据集的复杂性时。


我模拟了从高斯混合中得出的聚类,因此我认为我的假设是正确的。此处的目标不是降低复杂度或提出选择k的决策标准,而是当k实际上不正确时比较k聚类对数据建模的程度。一些不正确的选择可能会比其他模型更好地对数据建模,并且我正在尝试通过一些计算来量化这种不匹配程度(例如KL散度,但更容易实现高斯混合)。
dmartin

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.