Questions tagged «k-means»

k均值是通过将指定数量的均值k,st分配给具有最接近均值的聚类时,将w / i聚类平方和最小化的方法,通过找到指定数量的均值k,st将数据划分为聚类

2
R中k均值聚类的解释结果
我正在使用kmeansR 的指令在Anderson的虹膜数据集上执行k-means算法。我对我得到的一些参数有疑问。结果是: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 在这种情况下,“集群意味着”代表什么?它是集群中所有对象的距离的平均值吗? 在最后一部分中,我还有: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) 那个88.4%的值,可能是它的解释?


4
是否存在k均值中没有最优k的情况?
这在我心中至少存在了几个小时。我试图为k-means算法(具有余弦相似性度量)的输出找到最佳k,因此最终将失真作为簇数的函数进行了绘制。我的数据集是在600维空间中的800个文档的集合。 据我了解,在此曲线上找到拐点或肘点应该至少告诉我大约需要将数据放入的簇数。我把图放在下面。通过使用最大二阶导数测试获得绘制红色垂直线的点。完成所有这些操作之后,我陷入了一个简单得多的难题:这张图告诉我有关数据集的什么信息? 它是否告诉我不值得进行聚类并且我的文档缺乏结构,或者我需要设置一个很高的k?尽管有一个奇怪的事情,就是即使k很小,我也看到类似的文档被聚集在一起,所以我不确定为什么要得到这种曲线。有什么想法吗?

3
初始化K均值聚类的方法
我对当前为K均值选择初始种子(集群中心)的最新技术感兴趣。 谷歌搜索有两种流行的选择: 随机选择初始种子,以及 使用KMeans ++选择技术:Arthur&Vassilvitskii 2006 k-means ++:精心播种的优势 还有其他任何人都知道的有前途的方法,这些方法可能不那么受欢迎?

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
我应该使用哪种算法将庞大的二进制数据集聚为几类?
我有一个很大的(650K行* 62列)二进制数据矩阵(仅0-1个条目)。矩阵大部分是稀疏的:大约占8%。 我想将其分为5组-从1到5命名。我尝试了层次化群集,但是它无法处理大小。考虑到长度为62的650K位向量,我还使用了基于汉明距离的k-means聚类算法。在这些情况下,我都没有得到正确的结果。 请帮忙。

2
非常偏斜的群集,计数数据:有什么建议(转换等)?
基本问题 这是我的基本问题:我正在尝试将包含一些非常偏斜的变量与计数的数据集聚类。变量包含许多零,因此对于我的聚类过程不是很有帮助-这很可能是k-means算法。 很好,您说的是,只需使用平方根,Box Cox或对数转换变量即可。但是由于我的变量是基于分类变量的,所以我担心我可能会通过处理一个变量(基于分类变量的一个值)而使其他变量(基于分类变量的其他值)而产生偏差。 。 让我们更详细些。 数据集 我的数据集代表物品的购买。这些项目具有不同的类别,例如颜色:蓝色,红色和绿色。然后,例如由顾客将购买分组在一起。这些客户中的每一个都由我的数据集的一行代表,因此我必须以某种方式汇总客户的购买量。 我这样做的方式是通过计算购买次数,其中该商品是某种颜色。因此,而不是一个变量color,我结束了三个变量count_red,count_blue和count_green。 这是一个示例说明: ----------------------------------------------------------- customer | count_red | count_blue | count_green | ----------------------------------------------------------- c0 | 12 | 5 | 0 | ----------------------------------------------------------- c1 | 3 | 4 | 0 | ----------------------------------------------------------- c2 | 2 | 21 | 0 | ----------------------------------------------------------- c3 | 4 …


3
余弦相似度与欧几里得距离(LSA)的K均值
我正在使用潜在语义分析来表示较低维空间中的文档语料库。我想使用k均值将这些文档分为两组。 几年前,我使用Python的gensim并编写了自己的k-means算法来做到这一点。我使用欧几里得距离确定了聚类质心,但随后基于与质心的余弦相似度对每个文档聚类了。它似乎工作得很好。 现在,我正在尝试在更大的文档集上执行此操作。K-means没有收敛,我想知道这是否是我的代码中的错误。我最近读到您不应该使用余弦相似度进行聚类,因为k均值仅适用于欧几里得距离。即使正如我提到的那样,它在较小的测试用例中似乎也可以正常工作。 现在,我在LSA维基百科页面上发现了这一点: 可以使用传统的聚类算法(如k均值)和相似度(如余弦)对文档和术语向量表示进行聚类。 那是什么呢?是否可以使用余弦相似度?

3
将类别标签分配给k-均值聚类
关于群集,我有一个非常基本的问题。找到具有质心的k个聚类后,如何解释已聚类的数据点的类(将有意义的类标签分配给每个类)。我不是在谈论对发现的集群的验证。 可以给定一个小的标记数据点集,计算这些标记点属于哪个群集,并根据每个群集接收的点的类型和数量来确定标签吗?这似乎很明显,但我不知道以这种方式将标签分配给群集的标准。 需要明确的是,我想执行不使用任何标签的无监督群集来首先找到我的群集。找到集群之后,我想根据一些示例数据点的属性为集群分配有意义的类标签。
10 k-means 

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
K-均值:实际情况下有多少次迭代?
我没有数据挖掘或大数据方面的行业经验,所以很高兴听到您分享一些经验。 人们实际上在一个非常大的数据集上运行k-means,PAM,CLARA等吗?还是他们只是从中随机抽取一个样本?如果他们只是对数据集进行抽样,如果数据集不是正态分布的,结果是否可靠? 在实际情况下,运行这些算法时,我们能否说出收敛之前通常需要进行多少次迭代?还是迭代次数总是随数据大小而增长? 我之所以这样问,是因为我正在考虑开发一种在收敛之前终止迭代算法的方法,但是结果仍然可以接受。我认为值得尝试的是,如果迭代次数大于1,000,则可以节省一些计算成本和时间。你怎么看?

2
一小部分布尔特征样本的PCA和频谱聚类之间的差异
我有50个样本的数据集。每个样本均由11个(可能相关的)布尔特征组成。我想介绍一下如何在2D图上可视化这些样本,并检查50个样本中是否存在聚类/分组。 我尝试了以下两种方法: (a)在50x11矩阵上运行PCA,并选择前两个主要成分。将数据投影到2D图上并运行简单的K均值以识别聚类。 (b)构造一个50x50(余弦)相似度矩阵。运行频谱聚类以降低维数,然后再次进行K均值。 直接进行PCA与使用相似性矩阵的特征值之间在概念上有什么区别?这个比那个好吗? 此外,还有更好的方法以2D形式显示此类数据吗?由于我的样本大小始终限制为50,并且功能集始终在10-15范围内,因此我愿意即时尝试多种方法并选择最佳方法。 相关问题: 通过聚类或PCA对样本进行分组


2
了解此PCA冰淇淋销售量与温度的关系图
我正在获取温度与冰淇淋销售的虚拟数据,并使用K均值(n个群集= 2)将其分类以区分2类(完全虚拟)。 现在,我正在对此数据进行主成分分析,我的目标是了解我所看到的。我知道PCA的目的是减少尺寸(显然不是在这种情况下)并显示元素的变化。但是,您如何阅读下面的PCA图,即在PCA图中您可以讲述温度与冰淇淋的故事?第一(X)和第二(Y)PC是什么意思?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.