如何理解层次聚类的弊端?


19

有人可以解释分层集群的优缺点吗?

  1. 分层聚类是否具有与K均值相同的缺点?
  2. 相对于K均值,层次聚类有什么优势?
  3. 我们何时应在分层聚类上使用K均值,反之亦然?

这篇文章的答案很好地解释了k均值的弊端。 如何理解K均值的弊端


2
这个答案中,我触及了分层凝聚聚类分析的一些潜在问题。主要的“缺点”是它是非迭代的单遍贪婪算法。使用贪婪算法,您可以优化当前步骤的任务,对于大多数HC方法而言,该任务不一定可以保证在遥远的未来步骤中获得最佳划分。HC的主要优点是,它在选择使用的接近度方面具有灵活性。@Mic在下面已经给出了很好的答案,所以我只是在回声。
ttnphns

Answers:


13

鉴于 k -means尝试优化全局目标(集群的方差)并实现局部最优,但聚集层次聚类的目的是在每个集群融合(贪婪算法)中找到最佳步骤,该步骤已准确完成,但可能导致次优解决方案。

当基础数据具有层次结构(例如金融市场中的相关性)并且您要恢复层次结构时,应该使用层次聚类。您仍然可以申请k -means来执行此操作,但是最终可能会出现未嵌套的分区(从最粗略的分区(集群中的所有数据点)到最细的分区(每个数据点均为集群))。没有适当的等级制度。

如果要深入研究聚类的更好属性,则可能不希望反对平面聚类,例如k诸如单个,平均,完整链接之类的层次聚类相对。例如,所有这些聚类都是节省空间的,即,当您构建聚类时,您不会使空间失真,而诸如Ward之类的分层聚类则不节省空间,即,在每个合并步骤中,它都会使度量空间变形。

总而言之,分层聚类算法的缺点可能彼此之间有很大的不同。有些可能具有与均值相似的属性:Ward旨在优化方差,但Single Linkage并非如此。但是它们也可以具有不同的属性:Ward在空间上膨胀,而Single Linkage在空间上像kkk均值一样。

-编辑以精简节省空间和扩大空间的属性

空间节约型: 其中dĴ是距离在要合并的群集CiCj之间,以及d

Dij[minxCi,yCjd(x,y),maxxCi,yCjd(x,y)]
DijCiCjd 是数据点之间的距离。

空间扩张: 即通过合并 Ç

D(CiCj,Ck)max(Dik,Djk),
Ç Ĵ算法将进一步推离群集 Ç ķCiCjCk

您能否再举出几个具有层次结构的数据示例?没有遵循金融市场的例子。
GeorgeOfTheRF

当然。cf. arxiv.org/pdf/cond-mat/9802256.pdf或只是图7中的 arxiv.org/pdf/1506.00976.pdf其描绘具有(嘈杂)分层相关性的块结构的相关矩阵:可以注意到在主块对角线,分为更多的块,每个块又分成更多的块。它大致对应于某个区域的细分区域(欧洲,美国,亚洲(日本除外),日本),然后每个区域除以资产质量(例如,优质与垃圾相比),然后除以大型工业部门(零售,工业,媒体),再细分为(航空航天,汽车...)
mic

3
+1。但是,should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchy不一定。在大多数情况下,恰恰相反。HC 的层次结构更多是关于算法的故事,而不是数据的结构。尽管如此,这个问题最终还是哲学/逻辑的,而不是统计学的。
ttnphns

Ward is not space-conserving, i.e. at each merging step it will distort the metric space。您能写更多有关它的信息吗?这不是很清楚。
ttnphns

Ward is space-dilating, whereas Single Linkage is space-conserving like k-means。您是否要说单连接的空间收缩?
ttnphns

13

可扩展性

表示这里是明显的赢家。Ø ñ ķ d 要好得多比 Ø ñ 3 d (在少数情况下 Ø ñ 2 d )层次聚类的可伸缩性,因为通常都 ķ d是小(不幸的是,倾向于与成长 ñ,所以 Ø ñ 确实kO(nkdi)O(n3d)O(n2d)kidinO(n)通常保持)。另外,与二次方相反,内存消耗是线性的(通常存在线性特殊情况)。

灵活性

均值的适用性极为有限。它本质上仅限于欧几里得距离(包括内核空间中的欧几里得距离和Bregman发散,但这些是非常奇异的,实际上没有人将它们与 k -means一起使用)。更糟的是, kkkk means仅适用于数值数据(实际上应该是连续且密集的,才能很好地适合 means)。k

层次聚类显然是赢家。它甚至不需要距离-只需使用较高的值而不是较低的值,就可以使用任何度量,包括相似性函数。分类数据?确保只使用例如Jaccard。琴弦?尝试Levenshtein距离。时间序列?当然。混合类型数据?高尔距离。有数百万个数据集可用于分层聚类,而不能使用 -means。k

模型

这里没有赢家。k均值之所以很高,是因为它会导致大量数据减少。重心易于理解和使用。另一方面,层次聚类产生树状图。树状图对于理解数据集也非常有用。


等级失效是否像k一样意味着簇为1)非球形2)半径不同3)密度不同?
GeorgeOfTheRF

2
两者都可以工作,并且都可以失败。这就是为什么树状图之类的东西有用的原因。永远不要相信聚类结果是“正确的”。
Anony-Mousse-恢复莫妮卡2015年

分层聚类可以基于贪婪方法提供局部优化的聚类,但K均值表示全局优化的聚类。我还经历过,与K均值相比,对于商务人士而言,层次聚类的解释相对容易。
Arpit Sisodia'9

7

在某种意义上,我只是想在其他答案上加上一些理由,即有强烈的理论理由偏爱某些分层聚类方法。

聚类分析中的一个常见假设是,数据是从一些潜在的概率密度f中采样的f我们无法访问的。但是,假设我们可以使用它。我们如何定义集群f

一个非常自然而直观的方法是说 是高密度区域。例如,考虑以下两个峰密度:f

enter image description here

通过在图形上画一条线,我们可以得出一组聚类。举例来说,如果我们在画一条线,我们得到所示的两个簇。但是,如果我们在画线λ 3,我们得到一个集群。λ1λ3

为了更加精确,假设我们有一个任意的f在层λ处的簇是什么?它们是superlevel集的连通分量{ X ˚F X λ }λ>0fλ{x:f(x)λ}

现在,我们不用考虑一个任意的而是考虑所有λ,从而使f的“真实”群集集成为f的任何超级集合的所有连通分量。关键在于该集群集合具有层次结构。λ λff

让我说得更准确些。假设X上受支持。现在,让我们Ç 1是一个连通分量{ X ˚F X λ 1 },和c ^ 2是一个连通分量{ X ˚F X λ 2 }。换句话说,c ^ 1处于电平群集λ 1,和c ^ 2处于电平群集λ 2。那如果fXC1{x:f(x)λ1}C2{x:f(x)λ2}C1λ1C2λ2。这种嵌套关系适用于我们集合中的任何一对集群,因此实际上我们是集群的层次结构。我们称其为簇树。,然后要么 Ç 1ç 2,或 c ^ 1C ^ 2 =λ2<λ1C1C2C1C2=

所以现在我从密度中采样了一些数据。我可以通过恢复群集树的方式对数据进行群集吗?特别是,从某种意义上说,我们希望一种方法是一致的,因为随着我们收集越来越多的数据,对聚类树的经验估计越来越接近真实的聚类树。

Hartigan是第一个提出此类问题的人,他在这样做时精确地定义了层次聚类方法一致地估计聚类树的含义。他的定义如下:令B是如上定义的f的真实不相交簇-也就是说,它们是某些超级集合的连接组件。现在从f绘制一组n个样本iid ,并将其称为X n。我们将分层聚类方法应用于数据X n,并返回经验聚类的集合。设A nABfnfXnXnAn最小包含所有的经验簇,并让Ñ是含有所有的最小X Ñ。然后我们的聚类方法被说成是哈蒂根一致如果ÑÑ= →交通1作为ñ →交通为任何一对不相交的簇的AXnBnBXnPr(AnBn)=1nAB

本质上,Hartigan一致性表示我们的聚类方法应适当地分隔高密度区域。哈蒂根调查单机联动起来是否可能是一致的,并发现它是不是在尺寸一致> 1。只是在几年前发现一个普遍的,一致的方法来估计簇树开到,当Chaudhuri和达斯古普塔介绍的问题可靠的单一链接,证明是一致的。我建议阅读它们的方法,因为它很优雅。

因此,为了解决您的问题,在尝试恢复密度结构时,有一种感觉是层次集群是“正确”的事情。但是,请注意“正确”周围的吓人引号...由于维数的诅咒,最终基于密度的聚类方法在高维中往往表现不佳,因此即使基于聚类的聚类定义是高概率区域它非常干净直观,通常在实践中表现更好的方法经常被忽略。这并不是说强大的单一链接是不切实际的-实际上,它在较小维度的问题上效果很好。

最后,我要说的是,Hartigan的一致性在某种意义上并不符合我们的融合直觉。问题在于,Hartigan一致性允许使用聚类方法对聚类进行极大的细分,从而使算法可以与Hartigan保持一致,但会产生与真实聚类树完全不同的聚类。今年,我们已经针对解决这些问题的替代融合概念开展了工作。这项工作发表在COLT 2015的“超越Hartigan一致性:合并用于分层聚类的失真度量”中。


这是一种有关层次聚类的有趣思考方式。我发现它非常让人联想到通过非参数密度估计(pdf)进行的聚类,这是RpdfCluster软件包中实现的。(我在这里讨论。)
gung-恢复莫妮卡

HDBSCAN *使用类似的方法。
Anony-Mousse-恢复莫妮卡2015年

3

分层聚类中的另一个实际优势是可以使用树状图可视化结果。如果您事先不知道要查找的簇数(通常是...),则树状图可以帮助您选择k,而无需创建单独的簇。Dedrogram还可以深入了解数据结构,帮助识别异常值等。分层聚类也是确定性的,而具有随机初始化功能的k-means在同一数据上运行多次时可以提供不同的结果。在k均值中,您还可以选择不同的方法来更新聚类均值(尽管到目前为止,Hartigan-Wong方法是最常见的),而分层方法则没有问题。

ttnphns的编辑:分层聚类与许多其他算法共享的一个功能是需要选择距离度量。这通常高度依赖于特定的应用程序和目标。这可能被视为一种额外的复杂性(另一个要选择的参数...),但也被视为一项资产-更多的可能性。相反,经典K均值算法专门使用欧几里得距离。


3
我想您最后一段中的“问题”将被积极地视为一种资产。但是,K均值隐式地基于欧氏距离
ttnphns 2015年

实际上,许多可能的选择既可能是一个问题,也可能是一项资产:)感谢您对k-means的评论,我将对该段进行改进。
Jacek Podlewski 2015年

kk

我相信原来的问题是关于“经典的” K-的手段,而不是丝毫无意深究布雷格曼分歧取得不错的话,虽然,我会肯定更彻底的检查本文。
亚采Podlewski

@mic没有人使用欧氏距离变化以外的布雷格曼发散...这只是一个很小的小类。但是人们想使用例如曼哈顿距离,高尔等,就我所知,这并不是布雷格曼的分歧。
Anony-Mousse-恢复莫妮卡2015年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.