聚类质量测度


17

我有一个输入参数为(聚类数)的聚类算法(不是k均值)。执行聚类后,我想对这种聚类的质量进行一些定量的衡量。聚类算法具有一个重要的特性。对于如果我将数据点之间没有任何明显区别地馈入该算法,结果我将得到一个包含数据点的群集和一个包含1个数据点的群集。显然这不是我想要的。因此,我想计算此质量度量以估计此聚类的合理性。理想情况下,我将能够比较不同k的度量。所以我将在k范围内运行聚类kk=2NN11kk并选择质量最好的一种。我该如何计算这种质量指标?

更新:

这是是不良聚类的示例。假设在形成等边三角形的平面上有3个点。将这些点分为2个群集显然比将它们分为1个或3个群集要差。(N1,1)


对我来说,这并不明显。我看到实际上所有时刻的簇都有不同的大小...
Anony-Mousse -Reinstate Monica 2012年

Answers:


12

度量标准的选择取决于您认为集群的目的。我个人认为,聚类应该是识别由不同数据生成过程生成的不同观察组。因此,我将通过从已知的数据生成过程中生成数据来测试集群的质量,然后计算集群对模式进行错误分类的频率。当然,这涉及对每个生成过程中的模式分布进行假设,但是您可以使用为监督分类而设计的数据集。

其他人则认为聚类是试图将具有相似属性值的点分组在一起,在这种情况下,可以应用诸如SSE等措施。但是,我发现对聚类的定义并不令人满意,因为它仅告诉您有关特定数据样本的某些信息,而不是有关基础分布的一般性信息。方法如何处理重叠的群集是此视图的一个特定问题(对于“数据生成过程”视图,它不会引起任何实际问题,您只需获取群集成员的概率)。


3
+1突出显示基于模型的聚类纯粹基于距离的无监督聚类之间的区别。
chl

1
我认为这两个目的在不同的环境下都可以使用。您实际要做的很多事情只是查看手头的数据(例如,异常值定义)。另外,在能够进入不同的数据生成过程之前,您需要进行探索,最好使用第二个定义来进行探索……
EtienneLow-Décarie2012年

我确实同意Etienne,这两种方法都有其用途。但是,我还要说的是,观察是否隐含地对数据生成过程进行了一些假设,因此,第二种聚类可能只是用于在尝试正确地定位自己时理解数据的第一步。
Dikran Marsupial '04 -4-27

4

由于聚类是无监督的,因此很难先验地知道最佳聚类是什么。这是研究课题。著名的定量社会科学家加里·金(Gary King),即将发表有关该主题的文章


+!对; @Max您对这个“显而易见的”群集会有什么看法?

@mbq:实际上,我不知道什么将是一个很好的集群。通过“显而易见”,我认为(N-1,1)绝对不是一个好的聚类。更好的集群只能是一个集群,因此根本没有集群。或者一些聚类簇的数量超过2
马克斯

您的链接似乎已断开。
EtienneLow-Décarie2012年


4

在这里,您可以采取几种措施,但还有更多措施:

SSE:每个聚类项的平方误差之和。

簇间距离:每个簇质心之间的平方距离之和。

每个群集的群集内距离:每个群集的项到其质心的平方距离之和。

最大半径:实例到群集质心的最大距离。

平均半径:实例到其群集质心的最大距离之和除以群集数。


我已经尝试过使用intra in inter集群距离,但是想不出对一个点集群有用的东西。我也没有中心点。我只有两点之间的距离。
最大

群集之间的距离越高越好,您可以通过计算群集中心之间的距离来对其进行测量。
mariana soffer 2011年

4

您遇到了“聚类验证”区域。我的学生使用以下方法进行了验证:

A. Banerjee和RN Dave。使用Hopkins统计信息验证集群。2004年IEEE模糊系统国际会议IEEE Cat No04CH37542,1:p。149–153,2004年。

基于该原理,如果群集有效,则数据点将均匀分布在群集内。

但是在此之前,您应该确定数据是否具有所谓的“聚类趋势”,即是否值得聚类和最佳聚类数量:

S. Saitta,B。Raphael和IFC Smith。聚类的综合有效性指标。智力 数据分析,12(6):p。529–548,2008年。


3

正如其他人指出的那样,有许多衡量“质量”的方法。大多数程序会最小化SSE。没有任何一个数字可以充分说明数据中的噪声,方法中的噪声或平坦的最小值(萨斯喀彻温省的低点)。

因此,首先尝试可视化给定的聚类,然后将其降低到“ 41”。然后进行3次运行:您获得SSE 41、39、43或41、28、107吗?簇的大小和半径是多少?

(添加:)查看轮廓图和轮廓分数,例如在Izenman的书《 现代多元统计技术》Modern Multivariate Statistics Techniques,2008,731p,isbn 0387781889)中。


3

剪影可以用来评估聚类结果。通过比较群集中的平均距离与到最近群集中的点的平均距离来做到这一点。


2

可以使用诸如在无监督的随机森林中使用的方法。

随机森林算法将无监督分类视为两类问题,这是通过从数据集中删除依赖结构(随机化)从第一个数据集创建完全不同的人工和随机数据集。

然后,您可以创建这样的人工和随机数据集,应用聚类模型,并在真实数据和随机数据中比较您选择的指标(例如SSE)。

通过度量给定的聚类模型为您提供的真实数据比为您的真实数据提供的值小得多的次数,可以通过使用选择(例如SSE或袋外误差预测)。

因此,您的度量标准是真实数据和随机数据之间选择的任何度量标准之间的差异(概率,大小差异等)。

对许多模型进行迭代可以使您区分模型。

这可以在R中实现。

R中提供randomforest


+1,我喜欢这个主意;但是,对数据进行随机化/置换只会破坏关系b / t变量,如果存在具有单个变量的聚类,则此操作将无效。
gung-恢复莫妮卡

1

如果聚类算法不是确定性的,则尝试测量聚类的“稳定性”-找出每两个观察值属于同一聚类的频率。通常这很有趣,对于在kmeans算法中选择k很有用。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.