统计和大数据 k-means

2

我正在使用kmeansR 的指令在Anderson的虹膜数据集上执行k-means算法。我对我得到的一些参数有疑问。结果是： Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 在这种情况下，“集群意味着”代表什么？它是集群中所有对象的距离的平均值吗？在最后一部分中，我还有： Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) 那个88.4％的值，可能是它的解释？

12 r machine-learning clustering interpretation k-means

2

我怎么知道我的k均值聚类算法正遭受维数的诅咒？

我相信这个问题的标题说明了一切。

12 clustering k-means high-dimensional

4

是否存在k均值中没有最优k的情况？

这在我心中至少存在了几个小时。我试图为k-means算法（具有余弦相似性度量）的输出找到最佳k，因此最终将失真作为簇数的函数进行了绘制。我的数据集是在600维空间中的800个文档的集合。据我了解，在此曲线上找到拐点或肘点应该至少告诉我大约需要将数据放入的簇数。我把图放在下面。通过使用最大二阶导数测试获得绘制红色垂直线的点。完成所有这些操作之后，我陷入了一个简单得多的难题：这张图告诉我有关数据集的什么信息？它是否告诉我不值得进行聚类并且我的文档缺乏结构，或者我需要设置一个很高的k？尽管有一个奇怪的事情，就是即使k很小，我也看到类似的文档被聚集在一起，所以我不确定为什么要得到这种曲线。有什么想法吗？

11 machine-learning clustering k-means

3

初始化K均值聚类的方法

我对当前为K均值选择初始种子（集群中心）的最新技术感兴趣。谷歌搜索有两种流行的选择：随机选择初始种子，以及使用KMeans ++选择技术：Arthur＆Vassilvitskii 2006 k-means ++：精心播种的优势还有其他任何人都知道的有前途的方法，这些方法可能不那么受欢迎？

11 clustering k-means

1

R / mgcv：为什么te（）和ti（）张量积产生不同的曲面？

的mgcv软件包R具有两个功能，用于拟合张量积相互作用：te()和ti()。我了解两者之间的基本分工（拟合非线性交互与将这种交互分解为主要效果和交互）。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生（略）不同的结果。 MWE（改编自?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

我应该使用哪种算法将庞大的二进制数据集聚为几类？

我有一个很大的（650K行* 62列）二进制数据矩阵（仅0-1个条目）。矩阵大部分是稀疏的：大约占8％。我想将其分为5组-从1到5命名。我尝试了层次化群集，但是它无法处理大小。考虑到长度为62的650K位向量，我还使用了基于汉明距离的k-means聚类算法。在这些情况下，我都没有得到正确的结果。请帮忙。

11 clustering dataset k-means binary-data

2

非常偏斜的群集，计数数据：有什么建议（转换等）？

基本问题这是我的基本问题：我正在尝试将包含一些非常偏斜的变量与计数的数据集聚类。变量包含许多零，因此对于我的聚类过程不是很有帮助-这很可能是k-means算法。很好，您说的是，只需使用平方根，Box Cox或对数转换变量即可。但是由于我的变量是基于分类变量的，所以我担心我可能会通过处理一个变量（基于分类变量的一个值）而使其他变量（基于分类变量的其他值）而产生偏差。。让我们更详细些。数据集我的数据集代表物品的购买。这些项目具有不同的类别，例如颜色：蓝色，红色和绿色。然后，例如由顾客将购买分组在一起。这些客户中的每一个都由我的数据集的一行代表，因此我必须以某种方式汇总客户的购买量。我这样做的方式是通过计算购买次数，其中该商品是某种颜色。因此，而不是一个变量color，我结束了三个变量count_red，count_blue和count_green。这是一个示例说明： ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 …

11 clustering data-transformation k-means count-data compositional-data

3

k-medoid算法的输出与k-means算法的输出不同的示例

我了解k medoid和k均值之间的区别。但是，您能否举一个带有少量数据集的示例，其中k个medoid输出与k均值输出不同。

11 k-means k-medoids

3

余弦相似度与欧几里得距离（LSA）的K均值

我正在使用潜在语义分析来表示较低维空间中的文档语料库。我想使用k均值将这些文档分为两组。几年前，我使用Python的gensim并编写了自己的k-means算法来做到这一点。我使用欧几里得距离确定了聚类质心，但随后基于与质心的余弦相似度对每个文档聚类了。它似乎工作得很好。现在，我正在尝试在更大的文档集上执行此操作。K-means没有收敛，我想知道这是否是我的代码中的错误。我最近读到您不应该使用余弦相似度进行聚类，因为k均值仅适用于欧几里得距离。即使正如我提到的那样，它在较小的测试用例中似乎也可以正常工作。现在，我在LSA维基百科页面上发现了这一点：可以使用传统的聚类算法（如k均值）和相似度（如余弦）对文档和术语向量表示进行聚类。那是什么呢？是否可以使用余弦相似度？

10 k-means svd lsa cosine-distance cosine-similarity

3

将类别标签分配给k-均值聚类

关于群集，我有一个非常基本的问题。找到具有质心的k个聚类后，如何解释已聚类的数据点的类（将有意义的类标签分配给每个类）。我不是在谈论对发现的集群的验证。可以给定一个小的标记数据点集，计算这些标记点属于哪个群集，并根据每个群集接收的点的类型和数量来确定标签吗？这似乎很明显，但我不知道以这种方式将标签分配给群集的标准。需要明确的是，我想执行不使用任何标签的无监督群集来首先找到我的群集。找到集群之后，我想根据一些示例数据点的属性为集群分配有意义的类标签。

10 k-means

1

为什么Anova（）和drop1（）为GLMM提供了不同的答案？

我有以下形式的GLMM： lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi")，我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。通过使用大量虚构数据，我发现这两种方法通常没有区别。对于平衡线性模型，不平衡线性模型（不同组中的n不相等）和平衡广义线性模型，它们给出相同的答案，但对于平衡广义线性混合模型，它们给出相同的答案。因此看来，只有在包括随机因素的情况下，这种矛盾才会显现出来。为什么这两种方法之间存在差异？使用GLMM时应使用Anova()还是drop1()应使用？至少就我的数据而言，两者之间的差异很小。哪一个使用都重要吗？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

K-均值：实际情况下有多少次迭代？

我没有数据挖掘或大数据方面的行业经验，所以很高兴听到您分享一些经验。人们实际上在一个非常大的数据集上运行k-means，PAM，CLARA等吗？还是他们只是从中随机抽取一个样本？如果他们只是对数据集进行抽样，如果数据集不是正态分布的，结果是否可靠？在实际情况下，运行这些算法时，我们能否说出收敛之前通常需要进行多少次迭代？还是迭代次数总是随数据大小而增长？我之所以这样问，是因为我正在考虑开发一种在收敛之前终止迭代算法的方法，但是结果仍然可以接受。我认为值得尝试的是，如果迭代次数大于1,000，则可以节省一些计算成本和时间。你怎么看？

10 clustering data-mining k-means convergence large-data

2

一小部分布尔特征样本的PCA和频谱聚类之间的差异

我有50个样本的数据集。每个样本均由11个（可能相关的）布尔特征组成。我想介绍一下如何在2D图上可视化这些样本，并检查50个样本中是否存在聚类/分组。我尝试了以下两种方法：（a）在50x11矩阵上运行PCA，并选择前两个主要成分。将数据投影到2D图上并运行简单的K均值以识别聚类。（b）构造一个50x50（余弦）相似度矩阵。运行频谱聚类以降低维数，然后再次进行K均值。直接进行PCA与使用相似性矩阵的特征值之间在概念上有什么区别？这个比那个好吗？此外，还有更好的方法以2D形式显示此类数据吗？由于我的样本大小始终限制为50，并且功能集始终在10-15范围内，因此我愿意即时尝试多种方法并选择最佳方法。相关问题：通过聚类或PCA对样本进行分组

10 clustering data-visualization pca k-means spectral-analysis

1

高斯混合中的最佳组分数

因此，充分证明了以k均值获得最佳簇数的“想法”。我在高斯混合中找到了一篇有关执行此操作的文章，但不确定我是否对此深信不疑，请不太理解。有...一种更温和的方法吗？

10 classification k-means mixture unsupervised-learning

2

了解此PCA冰淇淋销售量与温度的关系图

我正在获取温度与冰淇淋销售的虚拟数据，并使用K均值（n个群集= 2）将其分类以区分2类（完全虚拟）。现在，我正在对此数据进行主成分分析，我的目标是了解我所看到的。我知道PCA的目的是减少尺寸（显然不是在这种情况下）并显示元素的变化。但是，您如何阅读下面的PCA图，即在PCA图中您可以讲述温度与冰淇淋的故事？第一（X）和第二（Y）PC是什么意思？

9 pca interpretation k-means dimensionality-reduction

Questions tagged «k-means»