Questions tagged «k-means»

k均值是通过将指定数量的均值k,st分配给具有最接近均值的聚类时,将w / i聚类平方和最小化的方法,通过找到指定数量的均值k,st将数据划分为聚类

5
如何理解K均值的弊端
K均值是聚类分析中广泛使用的方法。以我的理解,该方法不需要任何假设,即给我一个数据集和一个预先指定的聚类数k,而我只是应用了这种算法,该算法将平方误差之和(SSE)最小化,聚类内平方错误。 因此,k-means本质上是一个优化问题。 我阅读了一些有关k均值缺点的材料。他们大多数说: k-均值假设每个属性(变量)的分布方差是球形的; 所有变量具有相同的方差; 所有k个聚类的先验概率是相同的,即每个聚类具有大约相等数量的观察值; 如果违反了这三个假设中的任何一个,则k均值将失败。 我不明白这句话背后的逻辑。我认为k-means方法基本上不做任何假设,只是将SSE最小化,因此我看不到将SSE最小化与这3个“假设”之间的联系。


6
如何判断数据是否足够“聚类”以使聚类算法产生有意义的结果?
您怎么知道您的(高维)数据是否表现出足够的聚类,以便kmeans或其他聚类算法的结果实际上有意义? 特别是对于k均值算法,对于实际的聚类结果有意义(而不是虚假的),应该减少集群内方差多少? 当绘制数据的降维形式时,聚类是否应该明显,而如果无法可视化聚类,则kmeans(或其他方法)的结果是否没有意义?

3
如何生成k均值聚类分析结果的漂亮图?
我正在使用R进行K均值聚类。我正在使用14个变量来运行K均值 有什么漂亮的方法可以绘制K均值的结果? 是否有任何现有的实现? 具有14个变量会使绘制结果复杂吗? 我发现了一个叫做GGcluster的东西,它看上去很酷,但仍在开发中。我也阅读了一些有关sammon映射的内容,但并不太了解。这将是个好选择吗?

6
基于t-SNE的输出进行聚类
我有一个应用程序,在寻找嘈杂的数据集之前,可以方便地将一个嘈杂的数据集聚类。我首先研究了PCA,但是要达到90%的可变性需要大约30个组件,因此仅在几台PC上进行群集将丢弃很多信息。 然后,我尝试了t-SNE(第一次),这给了我一个二维的奇怪形状,非常适合通过k均值聚类。而且,在数据上运行随机森林并以集群分配作为结果表明,就问题原始情况而言,就组成原始数据的变量而言,集群具有相当合理的解释。 但是,如果我要报告这些集群,该如何描述它们?主成分上的K均值聚类揭示了根据组成数据集中方差X%的派生变量彼此相邻的个体。关于t-SNE集群可以做出什么等效的表述? 可能会产生以下效果: t-SNE揭示了潜在的高维流形中的近似连续性,因此在高维空间的低维表示上的聚类最大化了连续个体不会在同一聚类中的“可能性” 有人能提出比这更好的宣传吗?

6
为什么k均值聚类算法仅使用欧几里得距离度量?
在效率或功能方面是否有特定目的,为什么k-means算法不使用余弦(不)相似度作为距离度量,而只能使用欧几里得范数?通常,当考虑或使用除欧几里得以外的其他距离时,K均值方法会符合并正确吗? [由@ttnphns添加。这个问题有两个方面。“非欧氏距离”可以涉及两个数据点之间的距离或数据点与聚类中心之间的距离。到目前为止,都尝试了两种方法来解决答案。]

5
k均值聚类和PCA之间有什么关系?
通常的做法是在聚类算法(例如k均值)之前应用PCA(主要成分分析)。据信,它在实践中改善了聚类结果(降噪)。 但是,我有兴趣对PCA和k-means之间的关系进行比较和深入的研究。例如,Chris Ding和Hexiaofeng He,2004年,通过主成分分析进行的K-means聚类分析表明:“主要成分是K-means聚类离散聚类成员指标的连续解”。但是,我很难理解本文,而Wikipedia实际上声称这是错误的。 同样,从PCA有助于减少“特征”数量而又保留方差的角度来看,这两种方法的结果有些不同,而聚类通过根据期望/均值汇总几个点来减少“数据点”的数量。 (对于k均值)。因此,如果数据集由每个具有特征的个点组成,则PCA旨在压缩特征,而聚类旨在压缩数据点。NNNŤ ÑTTTTTTNNN 我正在寻找关于这两种技术之间关系的外行解释,以及更多有关这两种技术的技术论文。

10
如何确定正确的群集数量?
我们找到了聚类中心,并在k均值聚类中将点分配给k个不同的聚类箱,这是一种非常著名的算法,几乎可以在网上的每个机器学习包中找到。但是在我看来,缺失和最重要的部分是选择正确的k。最好的价值是什么?而且,什么是最好的? 我使用MATLAB进行科学计算,其中考虑轮廓图是决定此处讨论的 k的一种方法。但是,我会对贝叶斯方法更感兴趣。任何建议表示赞赏。

3
用K-Means和EM进行聚类:它们之间有何关系?
我研究了用于对数据进行聚类(无监督学习)的算法:EM和k-means。我继续阅读以下内容: k-means是EM的一种变体,假设簇是球形的。 有人可以解释以上句子吗?我不了解球形的含义,以及kmeans和EM之间的关系,因为一个以概率方式进行分配,而另一个以确定性方式进行。 另外,在哪种情况下使用k均值聚类更好?或使用EM群集?


5
在集群之前扩展数据是否重要?
我找到了本教程,它建议您在聚类之前对要素运行比例函数(我相信它将数据转换为z分数)。 我想知道这是否必要。我问的主要是因为当我不缩放数据时有一个不错的弯头,但是当缩放时它消失了。:)

5
使用离散变量和连续变量对数据集进行聚类
我有一个数据集X,它有10个维度,其中4个是离散值。实际上,这四个离散变量是有序的,即较高的值表示较高/更好的语义。 这些离散变量中的2个是分类的,对于每个这些变量,例如11到12的距离与5到6的距离是不相同的。虽然较高的变量值实际上意味着较高,但比例尺是不一定是线性的(实际上,它并没有真正定义)。 我的问题是: 将通用的聚类算法(例如K-Means然后是高斯混合(GMM))应用于包含离散变量和连续变量的数据集,这是一个好主意吗? 如果不: 我应该删除离散变量并只关注连续变量吗? 我是否应该更好地离散化连续数据并为离散数据使用聚类算法?

1
PCA如何帮助进行k均值聚类分析?
背景:我想根据城市的社会经济特征将其分为几类,包括住房单位密度,人口密度,绿地面积,房价,学校/保健中心/日托中心的数量等。我想了解居住区可以分为多少不同的组,以及它们的独特特征。这些信息可以促进城市规划。 根据一些示例(请参阅此博客文章:Delta Aircraft的PCA和K-means聚类),我发现进行分析的方法是: 首先做PCA分析。 根据PCA结果确定唯一组(集群)的数量(例如,使用“弯头”方法,或者选择解释总方差的80%到90%的组件数量)。 确定聚类数后,应用k均值聚类进行分类。 我的问题: PCA组件的数量似乎与聚类分析有关。的确如此,例如,如果我们发现5个PCA组件解释了所有功能的90%以上的变化,那么我们将应用k-均值聚类并得到5个聚类。那么这5个组是否恰好对应于PCA分析中的5个组成部分? 换句话说,我想我的问题是:PCA分析和k均值聚类之间有什么联系? 更新: 感谢Emre,xeon和Kirill的投入。所以目前的答案: 在进行聚类分析之前进行PCA对于减少维数作为特征提取器并可视化/显示聚类也很有用。 聚类后​​进行PCA可以验证聚类算法(参考:内核主成分分析)。 有时会应用PCA来降低聚类之前数据集的维数。然而,Yeung&Ruzzo(2000)指出,使用PC代替原始变量进行聚类并不一定能改善聚类质量。特别是,前几台PC(包含数据的大部分变化)不一定捕获大多数群集结构。 杨,杨怡和Walter L. Ruzzo。对基因表达数据进行聚类的主成分分析的实证研究。华盛顿大学计算机科学与工程系技术报告,2000年。(pdf) 在进行两步聚类分析之前,似乎需要PCA 。基于Ibes(2015),其中使用PCA中确定的因素进行了聚类分析。 Ibes,DorothyC。城市公园系统的多维分类和公平性分析:一种新颖的方法和案例研究应用。 《景观与城市规划》,第137卷,2015年5月,第122–137页。

3
将一长串的字符串(单词)聚类为相似性组
我手头有以下问题:我有很长的单词列表,可能有名称,姓氏等。我需要将此单词列表聚类,以便类似的单词(例如,具有类似编辑(Levenshtein)距离的单词)出现在同一集群。例如,“算法”和“算法”应该有很高的机会出现在同一集群中。 我很清楚模式识别文献中的经典无监督聚类方法,例如k-means聚类,EM聚类。这里的问题是这些方法对驻留在矢量空间中的点起作用。我在这里手头有弦。到目前为止,根据我的调查工作,关于如何在数值向量空间中表示字符串以及如何计算字符串簇的“均值”的问题似乎还没有得到充分回答。解决这个问题的一种简单方法是将k-Means聚类与Levenshtein距离结合起来,但问题仍然是“如何表示字符串的“均值”?”。有一个权重称为TF-IDF权重,但似乎它主要与“文本文档”聚类的区域有关,而不与单个单词的聚类有关。 http://pike.psu.edu/cleandb06/papers/CameraReady_120.pdf 我在这方面的搜索仍在进行中,但我也想从这里获得一些想法。在这种情况下,您会建议什么?有人知道解决此类问题的任何方法吗?

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.