如何解释层次聚类分析的树状图


25

考虑下面的R示例:

plot( hclust(dist(USArrests), "ave") )
  1. y轴的“高度”到底是什么意思?

  2. 查看北卡罗来纳州和加利福尼亚州(位于左侧)。加利福尼亚在北卡罗来纳州比在亚利桑那州“更近”吗?我可以做出这种解释吗?

  3. 夏威夷(右)加入集群很晚。我可以看到它,因为它比其他州“更高”。通常,我如何正确解释树状图中标签“较高”或“较低”的事实?

在此处输入图片说明


1
的答案?hclust
Scortchi-恢复莫妮卡

3
标签的位置没有意义。如果您不了解y轴,那么很奇怪您会很好地理解层次聚类。
斯特凡·洛朗2014年

1
也请注意,层次聚类一般不会给你分层(树)分类。平均方法(您使用的方法)尤其没有。在这里看到最后一点。
ttnphns 2014年

1
标签的位置虽然有一点意义。位置越高,对象与其他对象的链接就越晚,因此更像是离群值或离群值。
ttnphns 2014年

3
@StéphaneLaurent您说对了,听起来很矛盾。在那方面,我仍然认为我能够对我熟悉的数据树状图进行交织。此外,ttnphns和Peter Flom指出,标签的位置有一点意义。最后,您的评论对我没有建设性。
Ric 2014年

Answers:


17

1)y轴是对单个数据点或群集的紧密度的度量。

2)加利福尼亚州和亚利桑那州与佛罗里达州相距遥远,因为CA和AZ在加入FL之前都处于集群中。

3)夏威夷加入的时间相当晚;大约为50。这意味着它加入的群集在HI加入之前更靠近在一起。但是距离不远。请注意,它加入的集群(一直到右侧)仅约45形成。HI比任何其他状态晚加入集群的事实只是意味着(使用您选择的度量标准)HI并非如此接近任何特定状态。


因此,“高度”使我对链接标准的值有所了解(如此处所示)-在我的情况下,是群集彼此之间的平均距离。这是正确的吗?谢谢!
Ric 2014年

不是Y轴的测量DIS簇和点之间的相似?也就是说,接近度是负面的,因为当事情最不相似时它是最大的,而不是@PeterFlom
Felipe Almeida

21

当我尝试学习分层聚类时,我遇到了相同的问题,我发现以下pdf非常有用。

http://www.econ.upf.edu/~michael/stanford/maeb7.pdf

即使Richard对此程序已经很清楚,其他浏览该问题的人也可以使用pdf,对于没有足够数学背景的人来说,它非常简单明了。


3
只想重申一下链接的pdf很好。
海森堡

参考:Klimberg,Ronald K.和BD McCullough。2013年。“第7章:层次聚类分析”,使用JMP进行预测分析的基础知识。北卡罗来纳州卡里:SAS研究所。
jay.sf

1

横轴表示聚类。树状图上的垂直刻度表示距离或相异度。图中通过将一条垂直线分为两条垂直线来表示两个簇的每个连接(融合)。分割的垂直位置(用短条显示)给出了两个聚类之间的距离(不相似)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.