有人可以解释分层集群的优缺点吗?
- 分层聚类是否具有与K均值相同的缺点?
- 相对于K均值,层次聚类有什么优势?
- 我们何时应在分层聚类上使用K均值,反之亦然?
这篇文章的答案很好地解释了k均值的弊端。 如何理解K均值的弊端
有人可以解释分层集群的优缺点吗?
这篇文章的答案很好地解释了k均值的弊端。 如何理解K均值的弊端
Answers:
鉴于 -means尝试优化全局目标(集群的方差)并实现局部最优,但聚集层次聚类的目的是在每个集群融合(贪婪算法)中找到最佳步骤,该步骤已准确完成,但可能导致次优解决方案。
当基础数据具有层次结构(例如金融市场中的相关性)并且您要恢复层次结构时,应该使用层次聚类。您仍然可以申请 -means来执行此操作,但是最终可能会出现未嵌套的分区(从最粗略的分区(集群中的所有数据点)到最细的分区(每个数据点均为集群))。没有适当的等级制度。
如果要深入研究聚类的更好属性,则可能不希望反对平面聚类,例如诸如单个,平均,完整链接之类的层次聚类相对。例如,所有这些聚类都是节省空间的,即,当您构建聚类时,您不会使空间失真,而诸如Ward之类的分层聚类则不节省空间,即,在每个合并步骤中,它都会使度量空间变形。
总而言之,分层聚类算法的缺点可能彼此之间有很大的不同。有些可能具有与均值相似的属性:Ward旨在优化方差,但Single Linkage并非如此。但是它们也可以具有不同的属性:Ward在空间上膨胀,而Single Linkage在空间上像k均值一样。
-编辑以精简节省空间和扩大空间的属性
空间节约型: 其中d我Ĵ是距离在要合并的群集Ci和Cj之间,以及d
空间扩张: 即通过合并 Ç
should use hierarchical clustering when underlying data has a hierarchical structure... and you want to recover the hierarchy
不一定。在大多数情况下,恰恰相反。HC 的层次结构更多是关于算法的故事,而不是数据的结构。尽管如此,这个问题最终还是哲学/逻辑的,而不是统计学的。
Ward is not space-conserving, i.e. at each merging step it will distort the metric space
。您能写更多有关它的信息吗?这不是很清楚。
Ward is space-dilating, whereas Single Linkage is space-conserving like k-means
。您是否要说单连接的空间收缩?
表示这里是明显的赢家。Ø (ñ ⋅ ķ ⋅ d ⋅ 我)要好得多比 Ø (ñ 3 d )(在少数情况下 Ø (ñ 2 d ))层次聚类的可伸缩性,因为通常都 ķ和我和 d是小(不幸的是,我倾向于与成长 ñ,所以 Ø (ñ )确实不通常保持)。另外,与二次方相反,内存消耗是线性的(通常存在线性特殊情况)。
均值的适用性极为有限。它本质上仅限于欧几里得距离(包括内核空间中的欧几里得距离和Bregman发散,但这些是非常奇异的,实际上没有人将它们与 k -means一起使用)。更糟的是, k means仅适用于数值数据(实际上应该是连续且密集的,才能很好地适合 means)。
层次聚类显然是赢家。它甚至不需要距离-只需使用较高的值而不是较低的值,就可以使用任何度量,包括相似性函数。分类数据?确保只使用例如Jaccard。琴弦?尝试Levenshtein距离。时间序列?当然。混合类型数据?高尔距离。有数百万个数据集可用于分层聚类,而不能使用 -means。
这里没有赢家。均值之所以很高,是因为它会导致大量数据减少。重心易于理解和使用。另一方面,层次聚类产生树状图。树状图对于理解数据集也非常有用。
在某种意义上,我只是想在其他答案上加上一些理由,即有强烈的理论理由偏爱某些分层聚类方法。
聚类分析中的一个常见假设是,数据是从一些潜在的概率密度f中采样的我们无法访问的。但是,假设我们可以使用它。我们如何定义集群的?
一个非常自然而直观的方法是说 是高密度区域。例如,考虑以下两个峰密度:
通过在图形上画一条线,我们可以得出一组聚类。举例来说,如果我们在画一条线,我们得到所示的两个簇。但是,如果我们在画线λ 3,我们得到一个集群。
为了更加精确,假设我们有一个任意的。f在层λ处的簇是什么?它们是superlevel集的连通分量{ X :˚F (X )≥ λ }。
现在,我们不用考虑一个任意的而是考虑所有λ,从而使f的“真实”群集集成为f的任何超级集合的所有连通分量。关键在于该集群集合具有层次结构。
让我说得更准确些。假设在X上受支持。现在,让我们Ç 1是一个连通分量{ X :˚F (X )≥ λ 1 },和c ^ 2是一个连通分量{ X :˚F (X )≥ λ 2 }。换句话说,c ^ 1处于电平群集λ 1,和c ^ 2处于电平群集λ 2。那如果 ∅。这种嵌套关系适用于我们集合中的任何一对集群,因此实际上我们是集群的层次结构。我们称其为簇树。,然后要么 Ç 1 ⊂ ç 2,或 c ^ 1 ∩ C ^ 2 =
所以现在我从密度中采样了一些数据。我可以通过恢复群集树的方式对数据进行群集吗?特别是,从某种意义上说,我们希望一种方法是一致的,因为随着我们收集越来越多的数据,对聚类树的经验估计越来越接近真实的聚类树。
Hartigan是第一个提出此类问题的人,他在这样做时精确地定义了层次聚类方法一致地估计聚类树的含义。他的定义如下:令和B是如上定义的f的真实不相交簇-也就是说,它们是某些超级集合的连接组件。现在从f绘制一组n个样本iid ,并将其称为X n。我们将分层聚类方法应用于数据X n,并返回经验聚类的集合。设A n为最小包含所有的经验簇,并让乙Ñ是含有所有的最小乙∩ X Ñ。然后我们的聚类方法被说成是哈蒂根一致如果镨(甲Ñ ∩ 乙Ñ)= ∅ →交通1作为ñ →交通∞为任何一对不相交的簇的甲和乙。
本质上,Hartigan一致性表示我们的聚类方法应适当地分隔高密度区域。哈蒂根调查单机联动起来是否可能是一致的,并发现它是不是在尺寸一致> 1。只是在几年前发现一个普遍的,一致的方法来估计簇树开到,当Chaudhuri和达斯古普塔介绍的问题可靠的单一链接,证明是一致的。我建议阅读它们的方法,因为它很优雅。
因此,为了解决您的问题,在尝试恢复密度结构时,有一种感觉是层次集群是“正确”的事情。但是,请注意“正确”周围的吓人引号...由于维数的诅咒,最终基于密度的聚类方法在高维中往往表现不佳,因此即使基于聚类的聚类定义是高概率区域它非常干净直观,通常在实践中表现更好的方法经常被忽略。这并不是说强大的单一链接是不切实际的-实际上,它在较小维度的问题上效果很好。
最后,我要说的是,Hartigan的一致性在某种意义上并不符合我们的融合直觉。问题在于,Hartigan一致性允许使用聚类方法对聚类进行极大的细分,从而使算法可以与Hartigan保持一致,但会产生与真实聚类树完全不同的聚类。今年,我们已经针对解决这些问题的替代融合概念开展了工作。这项工作发表在COLT 2015的“超越Hartigan一致性:合并用于分层聚类的失真度量”中。
分层聚类中的另一个实际优势是可以使用树状图可视化结果。如果您事先不知道要查找的簇数(通常是...),则树状图可以帮助您选择,而无需创建单独的簇。Dedrogram还可以深入了解数据结构,帮助识别异常值等。分层聚类也是确定性的,而具有随机初始化功能的k-means在同一数据上运行多次时可以提供不同的结果。在k均值中,您还可以选择不同的方法来更新聚类均值(尽管到目前为止,Hartigan-Wong方法是最常见的),而分层方法则没有问题。
ttnphns的编辑:分层聚类与许多其他算法共享的一个功能是需要选择距离度量。这通常高度依赖于特定的应用程序和目标。这可能被视为一种额外的复杂性(另一个要选择的参数...),但也被视为一项资产-更多的可能性。相反,经典K均值算法专门使用欧几里得距离。