Questions tagged «clustering»

聚类分析是根据数据的相互“相似性”将数据划分为对象子集的任务,而无需使用诸如类标签之类的现有知识。[群集标准错误和/或群集样本应被标记为此类;不要为它们使用“集群”标签。]

5
使用离散变量和连续变量对数据集进行聚类
我有一个数据集X,它有10个维度,其中4个是离散值。实际上,这四个离散变量是有序的,即较高的值表示较高/更好的语义。 这些离散变量中的2个是分类的,对于每个这些变量,例如11到12的距离与5到6的距离是不相同的。虽然较高的变量值实际上意味着较高,但比例尺是不一定是线性的(实际上,它并没有真正定义)。 我的问题是: 将通用的聚类算法(例如K-Means然后是高斯混合(GMM))应用于包含离散变量和连续变量的数据集,这是一个好主意吗? 如果不: 我应该删除离散变量并只关注连续变量吗? 我是否应该更好地离散化连续数据并为离散数据使用聚类算法?

2
为分层聚类选择正确的链接方法
我正在对从Google BigQuery的reddit数据转储收集和处理的数据进行分层聚类。 我的过程如下: 在/ r / politics中获取最新的1000条帖子 收集所有评论 处理数据并计算n x m数据矩阵(n:用户/样本,m:帖子/功能) 计算距离矩阵进行层次聚类 选择一种链接方法并执行分层聚类 将数据绘制为树状图 我的问题是,如何确定最佳的链接方法是什么?我目前使用的Ward,但我怎么知道我是否应该使用single,complete,average等? 我对这些东西还很陌生,但是我不确定是否有一个答案,因此我无法在网上找到明确的答案。那么,对于我的应用程序来说,什么是个好主意呢?请注意,在n x m矩阵具有多个零的意义上,数据是相对稀疏的(大多数人对多则帖子的评论不多)。

1
PCA如何帮助进行k均值聚类分析?
背景:我想根据城市的社会经济特征将其分为几类,包括住房单位密度,人口密度,绿地面积,房价,学校/保健中心/日托中心的数量等。我想了解居住区可以分为多少不同的组,以及它们的独特特征。这些信息可以促进城市规划。 根据一些示例(请参阅此博客文章:Delta Aircraft的PCA和K-means聚类),我发现进行分析的方法是: 首先做PCA分析。 根据PCA结果确定唯一组(集群)的数量(例如,使用“弯头”方法,或者选择解释总方差的80%到90%的组件数量)。 确定聚类数后,应用k均值聚类进行分类。 我的问题: PCA组件的数量似乎与聚类分析有关。的确如此,例如,如果我们发现5个PCA组件解释了所有功能的90%以上的变化,那么我们将应用k-均值聚类并得到5个聚类。那么这5个组是否恰好对应于PCA分析中的5个组成部分? 换句话说,我想我的问题是:PCA分析和k均值聚类之间有什么联系? 更新: 感谢Emre,xeon和Kirill的投入。所以目前的答案: 在进行聚类分析之前进行PCA对于减少维数作为特征提取器并可视化/显示聚类也很有用。 聚类后​​进行PCA可以验证聚类算法(参考:内核主成分分析)。 有时会应用PCA来降低聚类之前数据集的维数。然而,Yeung&Ruzzo(2000)指出,使用PC代替原始变量进行聚类并不一定能改善聚类质量。特别是,前几台PC(包含数据的大部分变化)不一定捕获大多数群集结构。 杨,杨怡和Walter L. Ruzzo。对基因表达数据进行聚类的主成分分析的实证研究。华盛顿大学计算机科学与工程系技术报告,2000年。(pdf) 在进行两步聚类分析之前,似乎需要PCA 。基于Ibes(2015),其中使用PCA中确定的因素进行了聚类分析。 Ibes,DorothyC。城市公园系统的多维分类和公平性分析:一种新颖的方法和案例研究应用。 《景观与城市规划》,第137卷,2015年5月,第122–137页。

3
在实践中使用什么停止准则进行聚集聚类?
我发现了广泛的文献提出了各种标准(例如Glenn等,1985(pdf)和Jung等,2002(pdf))。但是,其中大多数都不容易实现(至少从我的角度来看)。我正在使用scipy.cluster.hierarchy获取群集层次结构,现在我试图确定如何从中形成平面群集。我的目标是发现观察结果中的常见模式,因此我没有参考将获得的聚类与之进行比较。谁能建议一个务实的解决方案?
32 clustering 

3
将一长串的字符串(单词)聚类为相似性组
我手头有以下问题:我有很长的单词列表,可能有名称,姓氏等。我需要将此单词列表聚类,以便类似的单词(例如,具有类似编辑(Levenshtein)距离的单词)出现在同一集群。例如,“算法”和“算法”应该有很高的机会出现在同一集群中。 我很清楚模式识别文献中的经典无监督聚类方法,例如k-means聚类,EM聚类。这里的问题是这些方法对驻留在矢量空间中的点起作用。我在这里手头有弦。到目前为止,根据我的调查工作,关于如何在数值向量空间中表示字符串以及如何计算字符串簇的“均值”的问题似乎还没有得到充分回答。解决这个问题的一种简单方法是将k-Means聚类与Levenshtein距离结合起来,但问题仍然是“如何表示字符串的“均值”?”。有一个权重称为TF-IDF权重,但似乎它主要与“文本文档”聚类的区域有关,而不与单个单词的聚类有关。 http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf 我在这方面的搜索仍在进行中,但我也想从这里获得一些想法。在这种情况下,您会建议什么?有人知道解决此类问题的任何方法吗?

3
潜在类分析与聚类分析-推断的差异?
潜在类分析(LCA)与聚类分析可得出的推断有何区别?LCA假设一个潜在的潜在变量会引起这些类,而聚类分析是对聚类算法中相关属性的经验描述,这是正确的吗?似乎在社会科学中,LCA已得到普及,并且由于它具有正式的卡方显着性检验而在方法论上被认为是优越的,而聚类分析则没有。 如果能够以以下形式提供示例,那就太好了:“ LCA适合于此(但不适合聚类分析),聚类分析适合于此(但不适合潜在类别分析)。 谢谢!布赖恩

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
比较通过不同距离和方法获得的分层聚类树状图
[最初的标题“用于层次聚类树的相似性的度量”后来被@ttnphns更改,以更好地反映该主题] 我正在对患者记录的数据帧执行许多层次的聚类分析(例如,类似于http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y) 我正在尝试不同的距离度量,不同的参数权重和不同的层级方法,以了解它们对树的最终聚类/结构/视图(树状图)的影响。我的问题是,是否存在用于计算不同层次树之间的差异的标准计算/度量,以及如何在R中实现这一点(例如,量化一些树几乎相同,而有些树则完全不同)。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
标准和球形k均值算法之间的区别
我想了解一下,标准和球形k均值聚类算法之间的主要实现区别是什么。 在每个步骤中,k均值都会计算元素向量和聚类质心之间的距离,并将文档重新分配给这个质心最接近的质心。然后,重新计算所有质心。 在球面k均值中,所有向量均被归一化,距离度量为余弦不相似性。 这是全部,还是还有其他东西?

4
如何在R中进行降维
我有一个矩阵,其中a(i,j)告诉我我浏览过页面j的次数。有27K个人和95K页。我想在页面空间中有一些“尺寸”或“方面”,它们对应于经常一起查看的页面集。我的最终目标是能够计算出个人浏览过1维,2维等页面的频率。 我已经阅读了有关主成分分析和单值分解的R文档,并执行了这些命令,但是我不确定如何继续。 如何使用降维方法来做到这一点?还是这确实是一个聚类问题,而我应该研究聚类算法? 非常感谢您的见解〜l

2
如何在聚类中同时使用二进制变量和连续变量?
我需要在k均值中使用二进制变量(值0和1)。但是k均值仅适用于连续变量。我知道有些人仍然在k均值中使用这些二进制变量,而忽略了k均值仅用于连续变量的事实。这对我来说是不可接受的。 问题: 那么在k均值/层次聚类中使用二进制变量的统计/数学正确方法是什么? 如何在SAS / R中实施解决方案?

3
寻找质心与寻找均值有何不同?
在执行分层聚类时,可以使用许多指标来度量聚类之间的距离。两个这样的度量标准意味着计算聚类中的质心和数据点的平均值。 均值和质心有什么区别?这些不是集群中的同一点吗?
26 clustering  mean 

3
LSA与PCA(文档集群)
我正在研究文档聚类中使用的各种技术,并且想清除一些有关PCA(主要成分分析)和LSA(潜在语义分析)的疑问。 第一件事-它们之间有什么区别?我知道在PCA中,SVD分解应用于术语协方差矩阵,而在LSA中,它是术语文档矩阵。还有别的事吗? 第二-它们在文档聚类过程中的作用是什么?根据到目前为止的读物,我推断出它们的目的是减少维数,减少噪声并将项之间的关系纳入表示。在执行PCA或LSA之后,将传统算法(如k均值或凝聚法)应用于缩减后的词项空间,并使用典型的相似性度量(如余弦距离)。如果我错了,请纠正我。 第三-是否在应用PCA / LSA之前对TF / IDF术语向量进行了标准化是否重要?并且在那之后是否应该将它们再次标准化? 第四-假设我对LSA / PCA减少的术语空间进行了一些聚类。现在,我应该如何为结果集群分配标签?由于尺寸与实际单词不符,因此这是一个难题。我想到的唯一想法是使用原始项向量计算每个聚类的质心,并选择权重最大的项,但这听起来并不十分有效。有针对此问题的一些特定解决方案吗?我什么都找不到。 我将非常感谢您澄清这些问题。

1
Calinski&Harabasz(CH)准则的可接受值是多少?
我已经进行了数据分析,试图使用R和kml包对纵向数据进行聚类。我的数据包含约400条单独的轨迹(在本文中称为)。您可以在下图中看到我的结果: 阅读相应论文中的第2.2章“选择最佳数量的群集”后,我没有得到任何答案。我希望有3个簇,但CH仍为80时结果仍然可以。实际上,我什至不知道CH值代表什么。 所以我的问题是,Calinski&Harabasz(CH)准则的可接受值是多少?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.