k-均值聚类分析后方差分析的适当性


14

经过K均值分析后,方差分析表后面的通知表明,不应将显着性水平视为相等均值的检验,因为已基于欧几里得距离得出了最大距离的聚类解。我应该使用哪种测试来显示聚类变量的均值在聚类之间是否不同?我已经在k均值输出提供的ANOVA表中看到了此警告,但是在某些参考资料中,我看到正在运行事后ANOVA测试。我是否应该忽略k均值ANOVA输出,并使用事后测试运行单向ANOVA并以传统方式解释它们?还是我只能暗示F值的大小,哪些变量对差异的贡献更大?另一个困惑是,聚类变量不是违反ANOVA的假设而呈正态分布,那么我可以使用Kruskal-Wallis非参数检验,但是它具有关于相同分布的假设。特定变量的集群间分布似乎并不相同,有些正偏,有些则负...我有1275个大样本,5个聚类,10个以PCA分数衡量的聚类变量。


为什么需要测试均值的均等性?您不能仅测试模型如何过采样吗?
詹姆斯

我想确定聚类之间哪些变量的均值不同,即聚类1中v1的均值是否不同于聚类2、3、4、5中v1的均值。不告诉统计差异。统计差异的检验使我感到困惑,至于方差分析,我的数据不符合正态分布假设,但对于Kruskal Wallis检验,聚类组之间的形状分布假设相同。
Inga 2014年

1
正如@James在他的回答中指出的那样,您正在“监听”。您(您的集群)预选的组之间的差异可能尽可能大的原因是什么?这里没有任何从人口中随机抽样或按比例抽样的标记,这些样本基于某些外部背景特征是不同的。
ttnphns

感谢您的回答!我的困惑出现在某些来源,正如您所指出的,我发现在这种情况下统计均值比较是不合适的,但是例如,一本书的一章中的引用表示相反:“我们通常使用ANOVA检验每个维度上每个聚类的均值评估我们的聚类有多大不同。理想情况下,我们将为分析中使用的大多数(即使不是全部)维度获得明显不同的均值。在每个维度上执行的F值的大小表明了各个维度之间的区别程度群集”
Inga 2014年

1
您有权通过用于聚类的特征来评估聚类之间的差异-以便找出最具区别性的特征。这样做时,您可以计算相对差,F甚至p值。作为效果大小的指标。作为统计显着性指标(指人群)。
ttnphns

Answers:


13

没有!

一定不能使用相同的数据:1)进行聚类和2)寻找在集群点之间显著的差异。即使数据中没有实际的结构,聚类也会通过将附近的点分组在一起来强加一个。这会缩小组内差异,并增大跨组差异,这会使您偏向误报。

这种效果出奇地强。这是从标准正态分布中提取1000个数据点的模拟结果。如果我们在运行ANOVA之前将点随机分配给五个组之一,则会发现p值是均匀分布的:5%的运行在(未校正的)0.05水平上是有意义的,1%在0.01的水平上是有意义的,换句话说,没有任何作用。但是,如果使用均值将数据聚类为5个组,那么即使数据没有实际结构,我们几乎每次都会发现显着的影响。k

仿真结果显示了随机分配的p值的均匀分布和聚类后p值的高度偏斜(几乎所有0.05或更小)分布

这里的方差分析没有什么特别的-使用非参数检验,逻辑回归等都可以看到类似的效果。通常,验证聚类算法的性能非常棘手,尤其是在未标记数据的情况下。但是,有几种方法可以进行“内部验证”,也可以在不使用外部数据源的情况下测量群集的质量。他们通常关注群集的紧凑性和可分离性。Lui等人的这篇评论。(2010)可能是一个不错的起点。


4

您真正的问题是数据监听。如果根据输入数据集本身将观察值分配到组(群集),则不能应用ANOVA或KW。您可以做的是使用Gap统计信息之类的方法来估计群集数。

另一方面,探听的p值向下偏置,因此,如果ANOVA或KW测试结果微不足道,则“真实” p值甚至更大,您可以决定合并群集。


4

我认为,如果您抛弃通常的null分布可以采用这种方法(即使用统计信息,例如F统计或t统计等)。

您需要做的是从您的null为true的情况进行模拟,应用整个过程(聚类等),然后每次计算任意一个统计量。在许多模拟中应用后,您将获得零值下的统计量分布,可以将其与您的样本值进行比较。通过将数据侦听合并到计算中,可以说明其影响。

[或者,可以开发基于重采样的测试(无论是基于排列/随机化还是自举)。]


2
是的,这就是Gap统计量背后的想法。
詹姆斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.