Answers:
嗯,聚类技术不限于基于距离的方法,在这种方法中,我们寻求几何意义上异常接近的一组统计单位。还有一系列技术依赖于密度(簇被视为要素空间中的“区域”)或概率分布。
后一种情况也称为基于模型的聚类;心理测量师使用术语“ 潜在分布分析”来表示这种有限混合模型的特定情况,在这种情况下,我们假设总体由不同的未观察到的组或潜在类别组成,并且所有显式变量的联合密度是该类别的混合物-比重。Mclust软件包或Mplus软件中提供了良好的实现。可以使用不同的类别不变协方差矩阵(实际上,Mclust使用BIC标准来选择最佳的同时改变聚类数)。
标准潜在类模型还假设观察到的数据来自g个多元多项式分布的混合。Gilles Celeux 的《基于模型的集群分析:防御》一书提供了很好的概述。
由于这些方法都依赖于分布假设,因此这也使得可以使用形式检验或拟合优度指标来确定聚类或类的数量,这在基于距离的聚类分析中仍然是一个难题,但是请参阅以下文章讨论了这个问题:
聚类方法种类繁多,本质上是探索性的,我不认为它们中的任何一个,无论是分层的还是基于分区的,都依赖于分析方差时必须满足的那种假设。
看看Stata中的[MV]文档来回答您的问题,我在第85页发现了这个有趣的报价:
尽管有些人说进行聚类分析的人数和进行聚类分析的人数一样多。轻描淡写!与执行聚类分析的人员相比,存在无限多种执行聚类分析的方法。
在这种情况下,我怀疑整个聚类方法中是否存在任何假设。文本的其余部分只是作为一般规则阐明,您需要某种形式的“相异性度量”来创建聚类,该度量甚至不需要度量距离。
但是,有一个例外,那就是在将观察值聚类作为后估计分析的一部分时。在Stata中,该vce
命令带有以下警告,位于同一来源的第86页:
如果您熟悉Stata大量的估算命令,请小心区分群集分析(cluster命令)和许多估算命令允许的vce(cluster clustvar)选项。聚类分析可找到数据中的组。带有各种估计命令的vce(cluster clustvar)选项表明,在该选项定义的组之间观察是独立的,但在这些组内不一定是独立的。cluster命令产生的分组变量很少会满足使用vce(cluster clustvar)选项的假设。
基于此,我认为在该特定案例之外不需要独立的观察。凭直觉,我将补充说,聚类分析甚至可以用于探索观察结果是否独立的精确目的。
最后,我要提到的是,在《Stata with统计》的第356页中,劳伦斯·汉密尔顿(Lawrence Hamilton)提到标准化变量是聚类分析的“基本”方面,尽管他没有对此问题进行更深入的探讨。
聚类分析本身不涉及假设检验,而实际上只是用于探索性分析的不同相似性算法的集合。您可以强制进行假设检验,但结果通常不一致,因为集群更改对参数的更改非常敏感。