统计和大数据 k-means

1

我想了解一下，标准和球形k均值聚类算法之间的主要实现区别是什么。在每个步骤中，k均值都会计算元素向量和聚类质心之间的距离，并将文档重新分配给这个质心最接近的质心。然后，重新计算所有质心。在球面k均值中，所有向量均被归一化，距离度量为余弦不相似性。这是全部，还是还有其他东西？

28 clustering data-mining algorithms k-means

2

如何在聚类中同时使用二进制变量和连续变量？

我需要在k均值中使用二进制变量（值0和1）。但是k均值仅适用于连续变量。我知道有些人仍然在k均值中使用这些二进制变量，而忽略了k均值仅用于连续变量的事实。这对我来说是不可接受的。问题：那么在k均值/层次聚类中使用二进制变量的统计/数学正确方法是什么？如何在SAS / R中实施解决方案？

27 r clustering binary-data k-means mixed-type-data

5

每个聚类具有相同数量点的聚类过程？

我在有一些点，并且我想将这些点聚类，以便：X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 每个簇包含相等数量的元素。（假设簇数除以。）XXXnnn 每个聚类在某种意义上都是“空间内聚的”，就像来自均值的聚类一样。kķk 很容易想到很多满足其中一个或另一个要求的聚类过程，但是没有人知道同时获得两者的方法吗？

25 machine-learning clustering k-means unsupervised-learning

3

从数据库确定不同的一维数据集群

我有一个数据库表，用于不同节点之间的数据传输。这是一个巨大的数据库（具有近4000万次传输）。属性之一是传输的字节数（nbytes），范围从0字节到2 TB。我想对nbytes进行聚类，以便在给定k个聚类的情况下，某些x1传输属于k1聚类，而x2转移器则属于k2等。从我使用的术语来看，您可能已经猜到了我要做什么：K-均值。这是一维数据，因为nbytes是我唯一关心的功能。当我寻找与此不同的方法时，我看到EM连同非集群方法一起被提及了两次。我想了解您对如何解决此问题的看法（特别是是否要群集）。谢谢！

24 clustering k-means

8

仅使用距离矩阵而不是按特征点数据执行K均值（或其近亲）聚类

我想对我拥有的对象执行K-均值聚类，但是这些对象并未描述为空间中的点，即按objects x features数据集。但是，我能够计算任何两个对象之间的距离（它基于相似度函数）。因此，我处理了距离矩阵objects x objects。我之前已经实现了K-means，但这是通过点数据集输入实现的。而且在没有输入距离矩阵的情况下，我不清楚如何将群集更新为没有点表示的群集“中心”。通常如何做？为此，是否存在K均值或方法的版本？

22 machine-learning clustering data-mining k-means distance

2

如果k均值聚类是高斯混合建模的一种形式，那么当数据不正常时可以使用它吗？

我正在阅读Bishop有关GMM的EM算法以及GMM和k均值之间的关系。在这本书中，它说k均值是GMM的硬分配版本。我想知道这是否意味着如果我要聚类的数据不是高斯，我就不能使用k-means（或者至少不适合使用）？例如，如果数据是手写数字的图像，该图像由8 * 8像素组成，每个像素的值为0或1（并假设它们是独立的，因此应该是伯努利的混合物）？我对此有些困惑，将不胜感激。

21 clustering data-mining k-means gaussian-mixture

4

聚类相关矩阵

我有一个相关矩阵，该矩阵说明每个项目如何与另一个项目相关。因此，对于N个项目，我已经具有N * N个相关矩阵。使用此相关矩阵，如何将N个项目聚类在M个仓中，以便可以说第k个仓中的Nk个项目表现相同。请帮我。所有项目值都是分类的。谢谢。请让我知道是否需要更多信息。我需要使用Python解决方案，但是任何将我推向要求的帮助都会有很大帮助。

20 clustering python k-means

2

k-均值收敛的证明

对于一项作业，我被要求提供证明k均值收敛于有限数量的步骤。这是我写的：在下文中，CCC是所有群集中心的集合。定义一个“能量”函数能量函数为非负。我们看到算法的步骤（2）和（3）都减少了能量。由于能量是从下方限制并不断减少的，因此必须收敛到局部最小值。当E（C）的变化率低于某个阈值时，可以停止迭代。E(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) 步骤2是通过每个数据点的最近聚类中心标记每个数据点的步骤，而步骤3是通过平均值对中心进行更新的步骤。这不足以证明在有限数量的步骤中收敛。能量可以不断变小，但不排除在不改变能量的情况下中心点跳动的可能性。换句话说，可能存在多个能量最小值，并且算法可以在它们之间跳跃，不是吗？

20 mathematical-statistics k-means

4

如何理解层次聚类的弊端？

有人可以解释分层集群的优缺点吗？分层聚类是否具有与K均值相同的缺点？相对于K均值，层次聚类有什么优势？我们何时应在分层聚类上使用K均值，反之亦然？这篇文章的答案很好地解释了k均值的弊端。如何理解K均值的弊端

19 clustering k-means unsupervised-learning hierarchical-clustering

3

估计k均值集群分区中最重要的功能

有没有办法确定数据集的哪些特征/变量在k均值聚类解决方案中最重要/最重要？

19 machine-learning clustering k-means importance

3

为什么k-means的差异统计表明一个聚类，即使显然有两个？

我正在使用K-means对数据进行聚类，并且正在寻找一种建议“最佳”聚类编号的方法。间隙统计似乎是找到一个好的簇号的常用方法。由于某种原因，它返回1作为最佳群集数，但是当我查看数据时，很明显有2个群集：这就是我所说的R中的差距： gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 结果集： > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …

18 r machine-learning clustering k-means

3

可视化绘制多维集群数据

我有一个包含16个变量的数据集，并按kmeans聚类后，我希望将这两组图绘制出来。您建议用哪些图表直观地表示两个群集？

17 data-visualization clustering k-means

5

为什么k-均值不给出全局最小值？

我读到k-means算法仅收敛到局部最小值，而不收敛到全局最小值。为什么是这样？我可以从逻辑上考虑初始化如何影响最终的聚类，并且存在次优聚类的可能性，但是我没有找到任何可以从数学上证明这一点的东西。另外，为什么k-means是一个迭代过程？我们不能仅将目标函数wrt与质心进行部分区分，将其等于零以找到使该函数最小化的质心吗？为什么我们必须使用梯度下降来逐步达到最小？

17 clustering k-means convergence gradient-descent minimum

4

梯度提升机的精度随着迭代次数的增加而降低

我正在通过caretR中的程序包尝试使用梯度增强机算法。使用一个小的大学录取数据集，我运行了以下代码： library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

维数诅咒对某些模型的影响是否大于对其他模型的影响？

我一直在阅读的有关维数诅咒的地方主要结合kNN和线性模型对其进行解释。我经常在Kaggle中看到排名靠前的排名，这些排名使用了数据集上几乎没有100k数据点的数千个功能。他们主要使用Boosted树和NN等。许多功能似乎太高了，我觉得它们会受到尺寸诅咒的影响。但是事实并非如此，因为这些模型使它们成为了竞争中的佼佼者。因此，回到我最初的问题-某些模型受维度诅咒的影响大于其他模型吗？具体来说，我对以下模型感兴趣（仅因为这些是我知道/使用的模型）：线性和逻辑回归决策树/随机森林/加强树神经网络支持向量机神经网络 k均值聚类

15 neural-networks svm k-means k-nearest-neighbour high-dimensional

Questions tagged «k-means»