Questions tagged «hierarchical-clustering»

3
如何选择聚类方法?如何验证集群解决方案(以保证方法的选择)?
聚类分析的最大问题之一是,当基于使用的不同聚类方法(包括分层聚类中的不同链接方法)时,我们可能不得不得出不同的结论。 我想知道您对此的看法- 您将选择哪种方法以及如何选择。有人可能会说“最好的集群方法是为您提供正确的答案”;但我可能会回答,聚类分析应该是一种无监督的技术-那么我怎么知道哪种方法或链接是正确的答案? 总的来说:单独的集群是否足够强大才能依靠?还是我们需要第二种方法并获得基于这两种方法的共享结果? 我的问题不仅涉及验证/评估聚类性能的可能方法,而且涉及范围更广- 我们在什么基础上选择/优先于一种聚类方法/算法。另外,在选择一种对数据进行聚类的方法时,是否应该注意一些常见的警告? 我知道这是一个非常笼统的问题,很难回答。我只想知道您是否对我有任何意见或建议或建议,以了解更多信息。

2
为分层聚类选择正确的链接方法
我正在对从Google BigQuery的reddit数据转储收集和处理的数据进行分层聚类。 我的过程如下: 在/ r / politics中获取最新的1000条帖子 收集所有评论 处理数据并计算n x m数据矩阵(n:用户/样本,m:帖子/功能) 计算距离矩阵进行层次聚类 选择一种链接方法并执行分层聚类 将数据绘制为树状图 我的问题是,如何确定最佳的链接方法是什么?我目前使用的Ward,但我怎么知道我是否应该使用single,complete,average等? 我对这些东西还很陌生,但是我不确定是否有一个答案,因此我无法在网上找到明确的答案。那么,对于我的应用程序来说,什么是个好主意呢?请注意,在n x m矩阵具有多个零的意义上,数据是相对稀疏的(大多数人对多则帖子的评论不多)。

3
如何解释层次聚类分析的树状图
考虑下面的R示例: plot( hclust(dist(USArrests), "ave") ) y轴的“高度”到底是什么意思? 查看北卡罗来纳州和加利福尼亚州(位于左侧)。加利福尼亚在北卡罗来纳州比在亚利桑那州“更近”吗?我可以做出这种解释吗? 夏威夷(右)加入集群很晚。我可以看到它,因为它比其他州“更高”。通常,我如何正确解释树状图中标签“较高”或“较低”的事实?

1
使用相关性作为距离度量(用于层次聚类)
我想对数据进行分层聚类,但我不想使用欧几里得距离,而是想使用相关性。此外,由于相关系数的范围从-1到1,用在我的研究都在-1和1表示“共同调控”,我治疗既-1和1为d = 0。因此,我的计算ð = 1 - | r | d=1−|r| d=1−|r|\ d = 1-|r| 我读了一个单独的问题(关于k均值聚类),您应该使用余弦定理将r转换为真正的欧几里得d:d=2(1−r)−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 将相关性转换为距离以进行层次聚类的最准确方法是什么?


2
聚类—克莱因伯格不可能定理的直觉
我一直在考虑写一篇有关Kleinberg(2002)的有趣分析的博客文章,该文章探讨了聚类的困难。克莱伯格(Kleinberg)概述了三个看似直观的聚类功能,然后证明不存在这种功能。有许多聚类算法可以满足这三个标准中的两个。但是,没有一个功能可以同时满足这三个条件。 简要和非正式地,他概述了三个愿望: Scale-Invariance:如果我们对数据进行转换以使所有内容在各个方向上均等地伸展,则聚类结果不应更改。 一致性:如果我们拉伸数据以使聚类之间的距离增加和/或聚类内的距离减小,则聚类结果不应更改。 丰富性:理论上,聚类函数应该能够产生任意的数据点分区/聚类(在不知道任何两点之间的成对距离的情况下) 问题: (1)是否有一个良好的直觉,几何图形可以显示这三个标准之间的不一致? (2)这是指本文的技术细节。您必须阅读上面的链接才能理解问题的这一部分。 在本文中,定理3.1的证明对于我而言有些困难。我被困在:“让是一个满足一致性的聚类函数。我们声称,对于中的任何分区,都存在正实数,从而该对是强制。”Γ &Element; 范围(˚F )一个&lt; b (一,b )ΓfffΓ∈Range(f)Γ∈Range(f)\Gamma \in \text{Range}(f)a&lt;ba&lt;ba < b(a,b)(a,b)(a, b)ΓΓ\Gamma 我不知道这是怎么回事...下面的分区不是(例如,群集之间的最小距离大于群集内的最大距离)的反例吗?a&gt;ba&gt;ba > b 编辑:这显然不是一个反例,我使自己感到困惑(请参阅答案)。 其他论文: Ackerman和Ben-David(2009)。聚类质量的度量:聚类的公理集 指出“一致性”公理的一些问题

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata &lt;- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] &lt;- "no" mydata$admit_factor[mydata$admit==1] &lt;- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl &lt;- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid &lt;- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.