统计和大数据 hierarchical-clustering

3

聚类分析的最大问题之一是，当基于使用的不同聚类方法（包括分层聚类中的不同链接方法）时，我们可能不得不得出不同的结论。我想知道您对此的看法- 您将选择哪种方法以及如何选择。有人可能会说“最好的集群方法是为您提供正确的答案”；但我可能会回答，聚类分析应该是一种无监督的技术-那么我怎么知道哪种方法或链接是正确的答案？总的来说：单独的集群是否足够强大才能依靠？还是我们需要第二种方法并获得基于这两种方法的共享结果？我的问题不仅涉及验证/评估聚类性能的可能方法，而且涉及范围更广- 我们在什么基础上选择/优先于一种聚类方法/算法。另外，在选择一种对数据进行聚类的方法时，是否应该注意一些常见的警告？我知道这是一个非常笼统的问题，很难回答。我只想知道您是否对我有任何意见或建议或建议，以了解更多信息。

35 clustering validation model-evaluation hierarchical-clustering

2

为分层聚类选择正确的链接方法

我正在对从Google BigQuery的reddit数据转储收集和处理的数据进行分层聚类。我的过程如下：在/ r / politics中获取最新的1000条帖子收集所有评论处理数据并计算n x m数据矩阵（n：用户/样本，m：帖子/功能）计算距离矩阵进行层次聚类选择一种链接方法并执行分层聚类将数据绘制为树状图我的问题是，如何确定最佳的链接方法是什么？我目前使用的Ward，但我怎么知道我是否应该使用single，complete，average等？我对这些东西还很陌生，但是我不确定是否有一个答案，因此我无法在网上找到明确的答案。那么，对于我的应用程序来说，什么是个好主意呢？请注意，在n x m矩阵具有多个零的意义上，数据是相对稀疏的（大多数人对多则帖子的评论不多）。

33 clustering distance unsupervised-learning hierarchical-clustering

3

如何解释层次聚类分析的树状图

考虑下面的R示例： plot( hclust(dist(USArrests), "ave") ) y轴的“高度”到底是什么意思？查看北卡罗来纳州和加利福尼亚州（位于左侧）。加利福尼亚在北卡罗来纳州比在亚利桑那州“更近”吗？我可以做出这种解释吗？夏威夷（右）加入集群很晚。我可以看到它，因为它比其他州“更高”。通常，我如何正确解释树状图中标签“较高”或“较低”的事实？

25 interpretation hierarchical-clustering dendrogram

1

使用相关性作为距离度量（用于层次聚类）

我想对数据进行分层聚类，但我不想使用欧几里得距离，而是想使用相关性。此外，由于相关系数的范围从-1到1，用在我的研究都在-1和1表示“共同调控”，我治疗既-1和1为d = 0。因此，我的计算ð = 1 - | r | d=1−|r| d=1−|r|\ d = 1-|r| 我读了一个单独的问题（关于k均值聚类），您应该使用余弦定理将r转换为真正的欧几里得d：d=2(1−r)−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 将相关性转换为距离以进行层次聚类的最准确方法是什么？

22 correlation clustering distance hierarchical-clustering

4

如何理解层次聚类的弊端？

有人可以解释分层集群的优缺点吗？分层聚类是否具有与K均值相同的缺点？相对于K均值，层次聚类有什么优势？我们何时应在分层聚类上使用K均值，反之亦然？这篇文章的答案很好地解释了k均值的弊端。如何理解K均值的弊端

19 clustering k-means unsupervised-learning hierarchical-clustering

2

聚类—克莱因伯格不可能定理的直觉

我一直在考虑写一篇有关Kleinberg（2002）的有趣分析的博客文章，该文章探讨了聚类的困难。克莱伯格（Kleinberg）概述了三个看似直观的聚类功能，然后证明不存在这种功能。有许多聚类算法可以满足这三个标准中的两个。但是，没有一个功能可以同时满足这三个条件。简要和非正式地，他概述了三个愿望： Scale-Invariance：如果我们对数据进行转换以使所有内容在各个方向上均等地伸展，则聚类结果不应更改。一致性：如果我们拉伸数据以使聚类之间的距离增加和/或聚类内的距离减小，则聚类结果不应更改。丰富性：理论上，聚类函数应该能够产生任意的数据点分区/聚类（在不知道任何两点之间的成对距离的情况下）问题：（1）是否有一个良好的直觉，几何图形可以显示这三个标准之间的不一致？（2）这是指本文的技术细节。您必须阅读上面的链接才能理解问题的这一部分。在本文中，定理3.1的证明对于我而言有些困难。我被困在：“让是一个满足一致性的聚类函数。我们声称，对于中的任何分区，都存在正实数，从而该对是强制。”Γ ＆Element; 范围（˚F ）一个< b （一，b ）ΓfffΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)a<ba<ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma 我不知道这是怎么回事...下面的分区不是（例如，群集之间的最小距离大于群集内的最大距离）的反例吗？a>ba>ba > b 编辑：这显然不是一个反例，我使自己感到困惑（请参阅答案）。其他论文： Ackerman和Ben-David（2009）。聚类质量的度量：聚类的公理集指出“一致性”公理的一些问题

17 mathematical-statistics clustering intuition hierarchical-clustering

4

梯度提升机的精度随着迭代次数的增加而降低

我正在通过caretR中的程序包尝试使用梯度增强机算法。使用一个小的大学录取数据集，我运行了以下代码： library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

2

距离是否必须是层次聚类上有效的“度量”？

假设我们定义了N个项目之间的距离，而不是度量。基于此距离，我们然后使用聚集层次聚类。我们可以使用每种已知算法（单个/最大/可用性链接等）来获得有意义的结果吗？或者换句话说，如果距离不是公制，使用它们会有什么问题？

9 clustering multilevel-analysis metric hierarchical-clustering

Questions tagged «hierarchical-clustering»