如果不是Ward的标准,hclust()中的ward.D将执行哪种算法?


16

选项“ ward.D”(相当于R版本<= 3.0.3中唯一的Ward选项“ ward”)使用的选项不实现Ward(1963)的聚类标准,而选项“ ward.D2”实现该标准( Murtagh and Legendre 2014)。

http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html

显然,ward.D未能正确执行Ward的标准。尽管如此,它似乎在产生的聚类方面做得很好。如果不是Ward的标准,method =“ ward.D”会实现什么?

参考文献

Murtagh,F.,&Legendre,P.(2014年)。沃德的层次聚类聚类方法:哪些算法实现沃德准则?分类杂志31(3),274-295。


Murthagh和Legendre的论文对此有何评论?
cbeleites支持Monica 2014年

我无权访问该文件
拉斐尔2014年

对我来说搜索的第一件事是u蒙特利尔的手稿pdf!
cbeleites支持Monica 2014年

那论文怎么说呢?我找不到它
Raffael 2014年

那就是我要你告诉我们的。
cbeleites支持Monica 2014年

Answers:


11

相关的手稿在这里

ward.D和ward.D2之间的差异是手稿中称为Ward1和Ward2的两个聚类标准之间的差异。

基本上可以归结为这样一个事实,即Ward算法可以直接在Ward2(ward.D2)中直接正确实现,但是如果将欧几里德距离(from dist())平方后再将其输入到Ward2中,也可以使用Ward1(ward.D)。hclust()使用ward.D作为方法。

例如,SPSS还实现了Ward1,但是警告用户距离的平方应等于Ward准则。从这种意义上讲,不建议使用ward.D的实现,但是为了向后兼容而保留它可能是一个好主意。      


2
从您链接的论文来看,不是Ward algorithm is directly correctly implemented in just Ward2,而是:(1)为获得两种实现的正确结果,对Ward1使用平方欧几里得距离,对Ward2使用非平方欧几里得距离;(2)为了进一步使它们的输出树状图具有可比性(相同),在构造树状图之前,将平方根应用于Ward1之后的融合级别或Ward2之后的平方融合级别。
ttnphns 2014年

你是对的,当然。感谢您的澄清。我所说的“直接正确实施”的意思是,无需进一步采取任何步骤,例如使用ward.D2方法得出正确的高度。
JTT 2014年

1
这里微小的细微差别是,使用Ward的方法并没有定义什么是“正确的”或真实的融合水平表示法-应当将它们绘制为“非平方”还是“平方”。犹豫不决的原因是Ward中的融合水平不是距离,而是增量色散。
ttnphns 2014年

9

ward.D&之间的唯一区别ward.D2是输入参数。

hclust(dist(x)^2,method="ward.D")hclust(dist(x)^2,method="ward")

等效于: hclust(dist(x),method="ward.D2")

您可以找到研究论文: Ward的层次聚类方法:聚类判据和聚类算法

Ward2标准值“ 对距离的尺度 ”,而Ward1标准值“ 上的距离的平方规模 ”。


我更喜欢这个答案,因为另一个暗示ward.D是错误的,不是。只是不同。
克里斯(Chris

6

我遇到了与目标函数相对应的研究论文,该目标函数已通过“ Ward1(ward.D)”进行了优化:通过内部距离之间的联合进行层次聚类:扩展Ward的最小方差方法。事实证明,R对“ Ward1(ward.D)”的实现等效于最小化群集组之间的能量距离。

2.1集群距离与目标函数Ë

一种={一种1个一种ñ1个}={b1个bñ2}[RdËË一种一种

Ë一种=ñ1个ñ2ñ1个+ñ22ñ1个ñ2一世=1个ñ1个Ĵ=1个ñ2一种一世-bĴ(1)-1个ñ1个2一世=1个ñ1个Ĵ=1个ñ1个一种一世-一种Ĵ-1个ñ22一世=1个ñ2Ĵ=1个ñ2b一世-bĴ

您确定那是对本文内容的正确解释吗?在我看来,对应于,但我认为对应于的任何地方都没有说明。事实上,161-162页上的,它表示,为,并没有对应于欧几里德距离的任何功率,假设簇大小是大于。有趣的纸仍然。 e 1 0 < α < 2 e α 1Ë2ward.D2Ë1个ward.D10<α<2Ëα1个
JonasDahlbæk18年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.