Questions tagged «k-means»

k均值是通过将指定数量的均值k,st分配给具有最接近均值的聚类时,将w / i聚类平方和最小化的方法,通过找到指定数量的均值k,st将数据划分为聚类

1
标准和球形k均值算法之间的区别
我想了解一下,标准和球形k均值聚类算法之间的主要实现区别是什么。 在每个步骤中,k均值都会计算元素向量和聚类质心之间的距离,并将文档重新分配给这个质心最接近的质心。然后,重新计算所有质心。 在球面k均值中,所有向量均被归一化,距离度量为余弦不相似性。 这是全部,还是还有其他东西?

2
如何在聚类中同时使用二进制变量和连续变量?
我需要在k均值中使用二进制变量(值0和1)。但是k均值仅适用于连续变量。我知道有些人仍然在k均值中使用这些二进制变量,而忽略了k均值仅用于连续变量的事实。这对我来说是不可接受的。 问题: 那么在k均值/层次聚类中使用二进制变量的统计/数学正确方法是什么? 如何在SAS / R中实施解决方案?

5
每个聚类具有相同数量点的聚类过程?
我在有一些点,并且我想将这些点聚类,以便:X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 每个簇包含相等数量的元素。(假设簇数除以。)XXXnnn 每个聚类在某种意义上都是“空间内聚的”,就像来自均值的聚类一样。kķk 很容易想到很多满足其中一个或另一个要求的聚类过程,但是没有人知道同时获得两者的方法吗?

3
从数据库确定不同的一维数据集群
我有一个数据库表,用于不同节点之间的数据传输。这是一个巨大的数据库(具有近4000万次传输)。属性之一是传输的字节数(nbytes),范围从0字节到2 TB。我想对nbytes进行聚类,以便在给定k个聚类的情况下,某些x1传输属于k1聚类,而x2转移器则属于k2等。 从我使用的术语来看,您可能已经猜到了我要做什么:K-均值。这是一维数据,因为nbytes是我唯一关心的功能。当我寻找与此不同的方法时,我看到EM连同非集群方法一起被提及了两次。我想了解您对如何解决此问题的看法(特别是是否要群集)。 谢谢!

8
仅使用距离矩阵而不是按特征点数据执行K均值(或其近亲)聚类
我想对我拥有的对象执行K-均值聚类,但是这些对象并未描述为空间中的点,即按objects x features数据集。但是,我能够计算任何两个对象之间的距离(它基于相似度函数)。因此,我处理了距离矩阵objects x objects。 我之前已经实现了K-means,但这是通过点数据集输入实现的。而且在没有输入距离矩阵的情况下,我不清楚如何将群集更新为没有点表示的群集“中心”。通常如何做?为此,是否存在K均值或方法的版本?

2
如果k均值聚类是高斯混合建模的一种形式,那么当数据不正常时可以使用它吗?
我正在阅读Bishop有关GMM的EM算法以及GMM和k均值之间的关系。 在这本书中,它说k均值是GMM的硬分配版本。我想知道这是否意味着如果我要聚类的数据不是高斯,我就不能使用k-means(或者至少不适合使用)?例如,如果数据是手写数字的图像,该图像由8 * 8像素组成,每个像素的值为0或1(并假设它们是独立的,因此应该是伯努利的混合物)? 我对此有些困惑,将不胜感激。

4
聚类相关矩阵
我有一个相关矩阵,该矩阵说明每个项目如何与另一个项目相关。因此,对于N个项目,我已经具有N * N个相关矩阵。使用此相关矩阵,如何将N个项目聚类在M个仓中,以便可以说第k个仓中的Nk个项目表现相同。请帮我。所有项目值都是分类的。 谢谢。请让我知道是否需要更多信息。我需要使用Python解决方案,但是任何将我推向要求的帮助都会有很大帮助。

2
k-均值收敛的证明
对于一项作业,我被要求提供证明k均值收敛于有限数量的步骤。 这是我写的: 在下文中,CCC是所有群集中心的集合。定义一个“能量”函数 能量函数为非负。我们看到算法的步骤(2)和(3)都减少了能量。由于能量是从下方限制并不断减少的,因此必须收敛到局部最小值。当E(C)的 变化率低于某个阈值时,可以停止迭代。E(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) 步骤2是通过每个数据点的最近聚类中心标记每个数据点的步骤,而步骤3是通过平均值对中心进行更新的步骤。 这不足以证明在有限数量的步骤中收敛。能量可以不断变小,但不排除在不改变能量的情况下中心点跳动的可能性。换句话说,可能存在多个能量最小值,并且算法可以在它们之间跳跃,不是吗?



3
为什么k-means的差异统计表明一个聚类,即使显然有两个?
我正在使用K-means对数据进行聚类,并且正在寻找一种建议“最佳”聚类编号的方法。间隙统计似乎是找到一个好的簇号的常用方法。 由于某种原因,它返回1作为最佳群集数,但是当我查看数据时,很明显有2个群集: 这就是我所说的R中的差距: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 结果集: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …


5
为什么k-均值不给出全局最小值?
我读到k-means算法仅收敛到局部最小值,而不收敛到全局最小值。为什么是这样?我可以从逻辑上考虑初始化如何影响最终的聚类,并且存在次优聚类的可能性,但是我没有找到任何可以从数学上证明这一点的东西。 另外,为什么k-means是一个迭代过程?我们不能仅将目标函数wrt与质心进行部分区分,将其等于零以找到使该函数最小化的质心吗?为什么我们必须使用梯度下降来逐步达到最小?

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
维数诅咒对某些模型的影响是否大于对其他模型的影响?
我一直在阅读的有关维数诅咒的地方主要结合kNN和线性模型对其进行解释。我经常在Kaggle中看到排名靠前的排名,这些排名使用了数据集上几乎没有100k数据点的数千个功能。他们主要使用Boosted树和NN等。许多功能似乎太高了,我觉得它们会受到尺寸诅咒的影响。但是事实并非如此,因为这些模型使它们成为了竞争中的佼佼者。因此,回到我最初的问题-某些模型受维度诅咒的影响大于其他模型吗? 具体来说,我对以下模型感兴趣(仅因为这些是我知道/使用的模型): 线性和逻辑回归 决策树/随机森林/加强树 神经网络 支持向量机 神经网络 k均值聚类

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.