使用统计显着性检验验证聚类分析结果

13

我正在调查使用统计显着性检验（SST）来验证聚类分析的结果。我发现了有关该主题的几篇论文，例如

“ 对于高维，低样本量数据聚类的统计显着性科幻通过” 刘，玉峰等人。（2008年）
Bock（1985）的 “ 关于聚类分析中的一些显着性检验 ”

但是我有兴趣找到一些争论说SST 不适合验证聚类分析结果的文献。我发现声称它的唯一来源是软件供应商的网页

澄清：

我对测试是否因聚类分析而发现了重要的聚类结构感兴趣，因此，我想了解支持或驳斥“关于事后测试探索性数据结果的可能性”的论文。用来寻找聚类的分析”。

我刚刚发现了Milligan和Hirtle于2003年发表的一篇论文《聚类和分类方法》，该论文说，例如，使用ANOVA将是无效的分析，因为数据没有对组进行随机分配。

hypothesis-testing clustering statistical-significance

— DPS
source

这是一个很好的问题，但可能值得指出的是，它的措辞看起来似乎存在二分法：要么可以测试聚类的重要性，要么不能。但是，情况有所不同，因为“集群分析”意味着各种各样的事情。在参考的论文中，重点是测试是否存在聚类的证据。在软件手册中，正确地表达了对用于发现聚类的探索性数据分析结果进行事后测试的可能性的担忧。这里没有矛盾。

— ub

谢谢回答。您对我提出问题的方式是正确的。我对测试是否因聚类分析而发现了重要的聚类结构感兴趣，因此，我想了解支持或驳斥有关“对事后数据进行事后测试的可能性的担忧”的论文用来寻找聚类的分析”。我刚刚发现Milligan和Hirtle于2003年发表的一篇论文《聚类和分类方法》说，例如，使用ANOVA将是无效的分析，因为数据没有对组进行随机分配。

— DPS

可能会有

— ijmr_article / article /

3

显然，您不能（天真的）测试使用相同数据定义的组的分布差异。这被称为“选择性测试”，“两次浸入”，“循环推断”等。

一个示例是对数据中“身材高”和“身材矮小的”人员的身高进行t检验。空值（几乎）将始终被拒绝。

话虽这么说-在测试阶段确实可以解释集群阶段。但是，我不熟悉执行此操作的特定参考，但是我怀疑应该这样做。

— 约翰·罗斯
source

我同意在对不同群集组进行显着性检验时，几乎总是会拒绝空值。但是–只有在集群实际上成功地将CA中考虑的所有变量的组完全分开时，才应该是这种情况？难道不能使用显着性检验来确定变量是否在组之间没有很好地分离（这意味着对每个变量进行检验）吗？您能否详细说明为什么不建议/不建议这样做的统计原因？

— 路加福音

正式的论点是，每次测量的误差项都不以零为中心。想想我的高/矮个例子：所有人都来自同一分布，但是“高”组的误差为正均值，而“短”负数均值。

— JohnRos

0

我不建议使用给定检验进行假设检验，而建议采用自举方法或群集之间的其他汇总估计。例如，您可以依靠至少包含1000个样本的百分位数引导程序。关键是将聚类独立应用于每个引导程序样本。

这种方法将非常强大，可以为差异提供证据，并支持您声称集群之间存在明显差异。另外，您可以生成另一个变量（例如，集群间差异），并且这种差异变量的自举估计将类似于假设的形式检验。

— 乔_74
source