聚类分析的假设


16

对于基本问题,我很抱歉这种分析形式,并且到目前为止对原理的理解非常有限。

我只是想知道多变量/单变量测试的许多参数假设是否适用于聚类分析?我已经阅读了许多有关聚类分析的信息资源,但未指明任何假设。

我对观察独立性的假设特别感兴趣。我的理解是,违反此假设(例如在ANOVA和MAVOVA中)很严重,因为它会影响误差估计。从到目前为止的阅读来看,聚类分析似乎主要是一种描述性技术(仅在某些特定情况下涉及统计推断)。因此,是否需要诸如独立性和正态分布数据之类的假设?

任何讨论此问题的文章的建议,将不胜感激。非常感谢。

Answers:


7

嗯,聚类技术不限于基于距离的方法,在这种方法中,我们寻求几何意义上异常接近的一组统计单位。还有一系列技术依赖于密度(簇被视为要素空间中的“区域”)或概率分布

后一种情况也称为基于模型的聚类;心理测量师使用术语“ 潜在分布分析”来表示这种有限混合模型的特定情况,在这种情况下,我们假设总体由不同的未观察到的组或潜在类别组成,并且所有显式变量的联合密度是该类别的混合物-比重。Mclust软件包或Mplus软件中提供了良好的实现。可以使用不同的类别不变协方差矩阵(实际上,Mclust使用BIC标准来选择最佳的同时改变聚类数)。

标准潜在类模型还假设观察到的数据来自g个多元多项式分布的混合。Gilles Celeux 的《基于模型的集群分析:防御》一书提供了很好的概述。

由于这些方法都依赖于分布假设,因此这也使得可以使用形式检验或拟合优度指标来确定聚类或类的数量,这在基于距离的聚类分析中仍然是一个难题,但是请参阅以下文章讨论了这个问题:

  1. J.Handl,J.Knowles和DB Kell(2005)。后基因组数据分析中的计算聚类验证。生物信息学21(15),3201-3212。
  2. Hennig,C.(2007)群集稳定性的群集明智评估。计算统计和数据分析52,258-271。
  3. Hennig,C.(2008)溶出点和隔离鲁棒性:通用聚类分析方法的鲁棒性标准。杂志多变量分析99,1154年至1176年。

3

聚类方法种类繁多,本质上是探索性的,我不认为它们中的任何一个,无论是分层的还是基于分区的,都依赖于分析方差时必须满足的那种假设。

看看Stata中的[MV]文档来回答您的问题,我在第85页发现了这个有趣的报价:

尽管有些人说进行聚类分析的人数和进行聚类分析的人数一样多。轻描淡写!与执行聚类分析的人员相比,存在无限多种执行聚类分析的方法。

在这种情况下,我怀疑整个聚类方法中是否存在任何假设。文本的其余部分只是作为一般规则阐明,您需要某种形式的“相异性度量”来创建聚类,该度量甚至不需要度量距离。

但是,有一个例外,那就是在将观察值聚类作为后估计分析的一部分时。在Stata中,该vce命令带有以下警告,位于同一来源的第86页:

如果您熟悉Stata大量的估算命令,请小心区分群集分析(cluster命令)和许多估算命令允许的vce(cluster clustvar)选项。聚类分析可找到数据中的组。带有各种估计命令的vce(cluster clustvar)选项表明,在该选项定义的组之间观察是独立的,但在这些组内不一定是独立的。cluster命令产生的分组变量很少会满足使用vce(cluster clustvar)选项的假设。

基于此,我认为在该特定案例之外不需要独立的观察。凭直觉,我将补充说,聚类分析甚至可以用于探索观察结果是否独立的精确目的。

最后,我要提到的是,在《Stata with统计》的第356页中,劳伦斯·汉密尔顿(Lawrence Hamilton)提到标准化变量是聚类分析的“基本”方面,尽管他没有对此问题进行更深入的探讨。


2

空间聚类分析使用地理参考的观测值,并且是聚类分析的子集,不限于探索性分析。

例子1

它可以用于建立公平的选举区。

例子2

AMOEBA聚类方法使用局部空间自相关度量。Aldstadt和Getis使用所得的聚类创建空间权重矩阵,可以在空间回归中指定该权重矩阵以检验假设。

参见Aldstadt,Jared和Arthur Getis(2006)“使用AMOEBA创建空间权重矩阵并识别空间簇。”地理分析38(4)327-343

例子3

在给定一组标准的情况下,基于随机增长区域的聚类分析可以用作概率方法,以表明在机构区域(例如,学校出勤区或选举区)的设计中存在不公平现象。


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.