人们应该注意一些事情。
像大多数内部聚类标准一样,Calinski-Harabasz是一种启发式设备。使用它的正确方法是比较在相同数据上获得的聚类解决方案,-聚类数量或所使用的聚类方法不同的解决方案。
没有“可接受的”截止值。您只需通过眼睛比较CH值即可。值越高,解决方案越好。如果在CH值的线图中出现一种溶液给出了一个峰值或至少一个突然的弯头,请选择它。相反,如果直线是平滑的-水平,上升或下降-那么就没有理由更喜欢一种解决方案。
CH标准基于ANOVA意识形态。因此,这意味着聚类的对象位于比例尺的欧几里德空间(非有序,二进制或名义变量)中。如果聚类的数据不是对象X变量而是对象之间的相异性矩阵,则相异性度量应为(平方)欧几里德距离(或更糟糕的是,其他度量距离通过属性接近欧几里德距离)。
1个
让我们来看一个例子。下面是散点图,这些散点图是作为5个正态分布的簇生成的,它们彼此非常接近。
这些数据通过分层平均链接方法进行聚类,并保存了从15个聚类到2个聚类的所有聚类解(聚类成员)。然后应用两个聚类标准比较解决方案,并选择“更好”的解决方案(如果有)。
Calinski-Harabasz的图在左侧。我们看到-在此示例中-CH明确表示5群集解决方案(标记为CLU5_1)是最佳解决方案。右边是另一个聚类标准C-Index(它不是基于ANOVA意识形态,并且在应用中比CH更通用)的图。对于C-Index,较低的值表示“更好”的解决方案。如图所示,15群集解决方案在形式上是最好的。但是请记住,对于聚类标准而言,崎top的地形在决策中比幅度本身更重要。注意在5簇溶液中有弯头;5群集解决方案仍然相对不错,而4或3群集解决方案却急剧恶化。由于我们通常希望获得“集群更少的更好解决方案”,因此在C-Index测试中选择5集群解决方案似乎也是合理的。
PS 这个帖子也带来了我们是否应该相信更多的实际问题最大的一个聚类准则或者说一个的(或最少)的景观其值的情节。
1个
概述内部聚类准则及其使用方法。