Questions tagged «clustering»

聚类分析是根据数据的相互“相似性”将数据划分为对象子集的任务,而无需使用诸如类标签之类的现有知识。[群集标准错误和/或群集样本应被标记为此类;不要为它们使用“集群”标签。]

5
如何理解K均值的弊端
K均值是聚类分析中广泛使用的方法。以我的理解,该方法不需要任何假设,即给我一个数据集和一个预先指定的聚类数k,而我只是应用了这种算法,该算法将平方误差之和(SSE)最小化,聚类内平方错误。 因此,k-means本质上是一个优化问题。 我阅读了一些有关k均值缺点的材料。他们大多数说: k-均值假设每个属性(变量)的分布方差是球形的; 所有变量具有相同的方差; 所有k个聚类的先验概率是相同的,即每个聚类具有大约相等数量的观察值; 如果违反了这三个假设中的任何一个,则k均值将失败。 我不明白这句话背后的逻辑。我认为k-means方法基本上不做任何假设,只是将SSE最小化,因此我看不到将SSE最小化与这3个“假设”之间的联系。


8
在面部图像数据库中检测给定的面部
我正在做一个小项目,通过他们的个人资料图片涉及Twitter用户的面孔。 我遇到的一个问题是,在我滤除了清晰的人像照片以外的所有图像之后,一小部分但相当多的Twitter用户使用Justin Bieber的图片作为个人资料图片。 为了将它们过滤掉,我如何以编程方式判断一张照片是否是贾斯汀·比伯的照片?

6
如何判断数据是否足够“聚类”以使聚类算法产生有意义的结果?
您怎么知道您的(高维)数据是否表现出足够的聚类,以便kmeans或其他聚类算法的结果实际上有意义? 特别是对于k均值算法,对于实际的聚类结果有意义(而不是虚假的),应该减少集群内方差多少? 当绘制数据的降维形式时,聚类是否应该明显,而如果无法可视化聚类,则kmeans(或其他方法)的结果是否没有意义?

3
示例:使用glmnet获得二进制结果的LASSO回归
我开始与使用的涉猎glmnet与LASSO回归那里我感兴趣的结果是二分。我在下面创建了一个小的模拟数据框: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

6
基于t-SNE的输出进行聚类
我有一个应用程序,在寻找嘈杂的数据集之前,可以方便地将一个嘈杂的数据集聚类。我首先研究了PCA,但是要达到90%的可变性需要大约30个组件,因此仅在几台PC上进行群集将丢弃很多信息。 然后,我尝试了t-SNE(第一次),这给了我一个二维的奇怪形状,非常适合通过k均值聚类。而且,在数据上运行随机森林并以集群分配作为结果表明,就问题原始情况而言,就组成原始数据的变量而言,集群具有相当合理的解释。 但是,如果我要报告这些集群,该如何描述它们?主成分上的K均值聚类揭示了根据组成数据集中方差X%的派生变量彼此相邻的个体。关于t-SNE集群可以做出什么等效的表述? 可能会产生以下效果: t-SNE揭示了潜在的高维流形中的近似连续性,因此在高维空间的低维表示上的聚类最大化了连续个体不会在同一聚类中的“可能性” 有人能提出比这更好的宣传吗?

6
选择聚类方法
在对数据集进行聚类分析以将相似案例分组时,需要在大量聚类方法和距离度量中进行选择。有时,一种选择可能会影响另一种,但是方法有很多可能的组合。 是否有人对如何从各种聚类算法/方法和距离度量中进行选择提出建议?这与变量的性质(例如分类或数字)和聚类问题有什么关系?有没有最佳技术?


6
为什么k均值聚类算法仅使用欧几里得距离度量?
在效率或功能方面是否有特定目的,为什么k-means算法不使用余弦(不)相似度作为距离度量,而只能使用欧几里得范数?通常,当考虑或使用除欧几里得以外的其他距离时,K均值方法会符合并正确吗? [由@ttnphns添加。这个问题有两个方面。“非欧氏距离”可以涉及两个数据点之间的距离或数据点与聚类中心之间的距离。到目前为止,都尝试了两种方法来解决答案。]

6
在哪里切割树状图?
层次聚类可以用树状图表示。在一定水平上切割树状图可得到一组簇。切割到另一个级别将提供另一组群集。您将如何选择在哪里切割树状图?有什么可以考虑的最佳点吗?如果我查看随时间变化的树状图,是否应该在同一时间剪切?

5
k均值聚类和PCA之间有什么关系?
通常的做法是在聚类算法(例如k均值)之前应用PCA(主要成分分析)。据信,它在实践中改善了聚类结果(降噪)。 但是,我有兴趣对PCA和k-means之间的关系进行比较和深入的研究。例如,Chris Ding和Hexiaofeng He,2004年,通过主成分分析进行的K-means聚类分析表明:“主要成分是K-means聚类离散聚类成员指标的连续解”。但是,我很难理解本文,而Wikipedia实际上声称这是错误的。 同样,从PCA有助于减少“特征”数量而又保留方差的角度来看,这两种方法的结果有些不同,而聚类通过根据期望/均值汇总几个点来减少“数据点”的数量。 (对于k均值)。因此,如果数据集由每个具有特征的个点组成,则PCA旨在压缩特征,而聚类旨在压缩数据点。NNNŤ ÑTTTTTTNNN 我正在寻找关于这两种技术之间关系的外行解释,以及更多有关这两种技术的技术论文。

10
如何确定正确的群集数量?
我们找到了聚类中心,并在k均值聚类中将点分配给k个不同的聚类箱,这是一种非常著名的算法,几乎可以在网上的每个机器学习包中找到。但是在我看来,缺失和最重要的部分是选择正确的k。最好的价值是什么?而且,什么是最好的? 我使用MATLAB进行科学计算,其中考虑轮廓图是决定此处讨论的 k的一种方法。但是,我会对贝叶斯方法更感兴趣。任何建议表示赞赏。

10
用距离矩阵聚类
我有一个(对称)矩阵M,表示每对节点之间的距离。例如, ABCDEFGHIJKL 0 20 20 20 40 60 60 60 100 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 140 140 140 D 20 20 20 0 60 80 80 80 …
52 clustering 

2
人工神经网络ANN如何用于无监督聚类?
我了解如何artificial neural network (ANN)使用反向传播以监督方式训练,以通过减少预测误差来改善拟合。我听说ANN可以用于无监督学习,但是如何在没有某种成本函数来指导优化阶段的情况下做到这一点呢?使用k-means或EM算法时,有一个函数,每次迭代搜索都在增加该函数。 我们如何使用ANN进行聚类,以及它使用什么机制对同一地点的数据点进行分组? (以及增加更多层带来了哪些额外的功能?)


By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.