Calinski&Harabasz(CH)准则的可接受值是多少?


25

我已经进行了数据分析,试图使用R和kml包对纵向数据进行聚类。我的数据包含约400条单独的轨迹(在本文中称为)。您可以在下图中看到我的结果:

在此处输入图片说明

阅读相应论文中的第2.2章“选择最佳数量的群集”后,我没有得到任何答案。我希望有3个簇,但CH仍为80时结果仍然可以。实际上,我什至不知道CH值代表什么。

所以我的问题是,Calinski&Harabasz(CH)准则的可接受值是多少?


您的群集解决方案映像来自SPSS?是否可以在SPSS中计算此CH标准?谢谢!:) b
berbelein 2014年

欢迎来到该网站,@ berbelein。这不是OP的问题的答案。请仅使用“您的答案”字段提供答案。如果您有自己的问题,请单击[ASK QUESTION]此处的问题,我们会为您提供适当的帮助。由于您是新手,因此您可能想参加我们的游览,其中包含新用户的信息。
gung-恢复莫妮卡

@berbelein的图像是从R.
greg121

Answers:


40

人们应该注意一些事情。

  • 像大多数内部聚类标准一样,Calinski-Harabasz是一种启发式设备。使用它的正确方法是比较在相同数据上获得的聚类解决方案,-聚类数量或所使用的聚类方法不同的解决方案。

  • 没有“可接受的”截止值。您只需通过眼睛比较CH值即可。值越高,解决方案越好。如果在CH值的线图中出现一种溶液给出了一个峰值或至少一个突然的弯头,请选择它。相反,如果直线是平滑的-水平,上升或下降-那么就没有理由更喜欢一种解决方案。

  • CH标准基于ANOVA意识形态。因此,这意味着聚类的对象位于比例尺的欧几里德空间(非有序,二进制或名义变量)中。如果聚类的数据不是对象X变量而是对象之间的相异性矩阵,则相异性度量应为(平方)欧几里德距离(或更糟糕的是,其他度量距离通过属性接近欧几里德距离)。

  • 1个

让我们来看一个例子。下面是散点图,这些散点图是作为5个正态分布的簇生成的,它们彼此非常接近。

在此处输入图片说明

这些数据通过分层平均链接方法进行聚类,并保存了从15个聚类到2个聚类的所有聚类解(聚类成员)。然后应用两个聚类标准比较解决方案,并选择“更好”的解决方案(如果有)。

在此处输入图片说明

Calinski-Harabasz的图在左侧。我们看到-在此示例中-CH明确表示5群集解决方案(标记为CLU5_1)是最佳解决方案。右边是另一个聚类标准C-Index(它不是基于ANOVA意识形态,并且在应用中比CH更通用)的图。对于C-Index,较低的值表示“更好”的解决方案。如图所示,15群集解决方案在形式上是最好的。但是请记住,对于聚类标准而言,崎top的地形在决策中比幅度本身更重要。注意在5簇溶液中有弯头;5群集解决方案仍然相对不错,而4或3群集解决方案却急剧恶化。由于我们通常希望获得“集群更少的更好解决方案”,因此在C-Index测试中选择5集群解决方案似乎也是合理的。

PS 这个帖子也带来了我们是否应该相信更多的实际问题最大的一个聚类准则或者说一个的(或最少)的景观其值的情节。


1个

概述内部聚类准则及其使用方法


读者可能也想查看stats.stackexchange.com/q/242360/3277问题。
ttnphns

我已经为SPSS实现了许多最受欢迎的聚类验证标准,请访问我的网页集合“聚类标准”。
ttnphns
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.