统计和大数据 k-means

2

我知道有k均值聚类算法和k均值。一个使用均值作为聚类的中心，另一个使用中位数。我的问题是：什么时候/在哪里使用？

14 clustering k-means

2

我知道k-均值通常使用优化的期望最大化。但是，我们可以像优化其他任何函数一样优化其损失函数！我发现一些论文实际上对大型k均值使用随机梯度下降法，但是我的问题无法得到解答。那么，有人知道为什么吗？是因为期望最大化收敛得更快了吗？是否有任何特别的保证吗？还是历史原因？

14 optimization k-means expectation-maximization loss-functions

3

为什么我们使用k-means代替其他算法？

我研究了k均值，这就是我得到的：k均值是最简单的算法之一，它使用无监督学习方法来解决已知的聚类问题。它对于大型数据集非常有效。但是，K均值也存在以下缺点：对异常值和噪声具有很强的敏感性不适用于非圆形的簇形状-簇的数量和初始种子值需要事先指定通过局部最优的能力低。 k均值有什么好处，因为缺点似乎超出了k均值的好处。请教我。

14 clustering data-mining algorithms k-means

4

是否有基于非距离的聚类算法？

似乎对于K均值和其他相关算法，聚类基于计算点之间的距离。有没有没有它的作品？

14 machine-learning clustering data-mining k-means

3

k-均值聚类分析后方差分析的适当性

经过K均值分析后，方差分析表后面的通知表明，不应将显着性水平视为相等均值的检验，因为已基于欧几里得距离得出了最大距离的聚类解。我应该使用哪种测试来显示聚类变量的均值在聚类之间是否不同？我已经在k均值输出提供的ANOVA表中看到了此警告，但是在某些参考资料中，我看到正在运行事后ANOVA测试。我是否应该忽略k均值ANOVA输出，并使用事后测试运行单向ANOVA并以传统方式解释它们？还是我只能暗示F值的大小，哪些变量对差异的贡献更大？另一个困惑是，聚类变量不是违反ANOVA的假设而呈正态分布，那么我可以使用Kruskal-Wallis非参数检验，但是它具有关于相同分布的假设。特定变量的集群间分布似乎并不相同，有些正偏，有些则负...我有1275个大样本，5个聚类，10个以PCA分数衡量的聚类变量。

14 anova k-means

2

R中是否有一个函数可以获取找到的簇的中心并将簇分配给新数据集

我有一个多维数据集的两个部分，我们称它们为train和test。我想基于火车数据集构建一个模型，然后在测试数据集上对其进行验证。簇数是已知的。我试图在R中应用k-means聚类，但得到了一个包含聚类中心的对象： kClust <- kmeans(train, centers=N, nstart=M) R中是否有一个功能可以获取找到的簇的中心并将簇分配给我的测试数据集？我可以尝试其他哪些方法/算法？

14 r clustering k-means

4

输入中具有自定义距离矩阵的k-means实现

谁能指出我可以在输入中采用距离矩阵的k均值实现（如果在matlab中会更好）？标准的MATLAB实施需要输入中的观察矩阵，并且无法自定义更改相似性度量。

14 clustering matlab k-means

3

运行kmeans之前是否需要删除相关/共线性的变量？

我正在运行kmeans以识别客户群。我大约有100个变量来识别集群。这些变量中的每一个都代表客户在类别上花费的百分比。因此，如果我有100个类别，则我拥有这100个变量，这样每个客户的这些变量之和为100％。现在，这些变量彼此之间具有很强的相关性。在运行kmeans之前，是否需要删除其中一些以消除共线性？这是示例数据。实际上，我有100个变量和1000万个客户。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

14 clustering data-mining k-means multicollinearity compositional-data

5

如何将距离（欧几里得）转换为相似度分数

我正在使用表示聚类以聚类说话者的声音。当我将话语与聚集的扬声器数据进行比较时，我得到（基于欧几里得距离）平均失真。该距离可以在范围内。我想将此距离转换为相似度得分。请指导我如何实现这一目标。ķkk[ 0 ，1 ][ 0 ，∞ ][0,∞][0,\infty][ 0 ，1 ][0,1][0,1]

13 clustering k-means distance euclidean

4

通过数据集的随机子样本初始化K均值中心吗？

如果我有某个数据集，那么使用该数据集的随机样本来初始化聚类中心有多么聪明？例如，假设我要5 clusters。我可以5 random samples说size=20%是原始数据集。然后，我可以对这5个随机样本中的每个样本取平均值，然后将这些均值用作我的5个初始聚类中心吗？我不知道我在哪里读这本书，但我想知道你们对这个想法的看法。更新：请参阅此线程初始化K-means聚类：现有的方法有哪些？有关各种初始化方法的一般讨论。

13 clustering k-means unsupervised-learning

4

在没有弯角聚类的情况下该怎么办

我了解到，当选择多个聚类时，应该为K的不同值寻找一个弯头。我已经绘制了k的值（从1到10）的insss值，但是我看不到弯头。在这种情况下您会怎么做？

13 clustering k-means

2

使用BIC估算KMEANS中的k个数

我目前正在尝试为我的玩具数据集（ofc iris（：））计算BIC。我想重现如图所示的结果（图5）。该论文也是我BIC公式的来源。我对此有2个问题：符号： ninin_i我 =群集的元素数iii CiCiC_i我 =群集中心坐标iii xjxjx_j我 =分配给群集数据点iii mmm =簇数 1）方程式中定义的方差（2）： ∑i=1ni−m∑j=1ni∥xj−Ci∥2∑i=1ni−m∑j=1ni‖xj−Ci‖2 \sum_i = \frac{1}{n_i-m}\sum_{j=1}^{n_i}\Vert x_j - C_i \Vert^2 据我所知，这是有问题的，并且当簇mmm大于簇中的元素时，方差可能为负。它是否正确？ 2）我只是无法使我的代码能够计算出正确的BIC。希望没有错误，但是如果有人可以检查，将不胜感激。整个方程可以在等式中找到。（5）在论文中。我现在正在使用scikit学习所有内容（以证明关键字：P合理）。 from sklearn import cluster from scipy.spatial import distance import sklearn.datasets from sklearn.preprocessing import StandardScaler import matplotlib.pyplot as plt import numpy as np def compute_bic(kmeans,X): """ Computes …

13 python k-means scikit-learn bic

3

聚类概率分布-方法和指标？

我有一些数据点，每个数据点包含5个聚集的离散结果向量，每个向量的结果都是通过不同的分布生成的（具体类型我不确定，我最好的猜测是Weibull，其形状参数在幂次幂附近变化定律（大致为1到0）。）我正在寻找使用像K-Means这样的聚类算法，根据其5个分量分布的属性将每个数据点分组。我想知道是否有确定的距离度量标准可以很好地满足这些目的。到目前为止，我已经有了三个想法，但是我不是一个经验丰富的统计学家（更多的是一位数据挖掘计算机初学者），所以我几乎不知道自己有多远。由于我不知道我要处理的是哪种分布，因此我的蛮力解决方法是将每个分布（每个点有5个）切成其各自的离散数据值（I pad）每个值都对应一个相同的长度，并在末尾用零表示），并将这些值中的每个用作数据点本身的单独属性。我尝试基于PDF和CDF的这些属性使用曼哈顿距离和欧几里得距离作为度量。再一次，由于我不知道我拥有哪种分布，所以我发现，如果要测量总体分布之间的距离，则可以在分布之间使用某种非参数测试对，例如KS检验，以查找给定分布是由不同PDF生成的可能性。我认为，使用曼哈顿距离的第一个选择（以上）将是使用该方法可能获得的一种上限（因为KS统计量是CDF差的最大绝对值，其中曼哈顿距离是PDF差异的绝对值之和）。然后，我考虑了可能使用欧几里得距离，但可能仅取所有这些值中的最大值来组合每个数据点内不同的KS统计量或P值。最后，为了尽我所能解释的分布形状，我想我可能会尝试估计分布的参数以拟合Weibull曲线。然后，我可以基于Weibull分布的两个参数lambda和k（比例和形状）的差异对分布进行聚类，可能根据这些参数的差异或某种形式进行归一化。这是我认为可能对参数进行标准化的唯一情况。所以我的问题是，对于集群分布，您会建议什么度量/方法？我甚至在这些方面都走对了吗？K-Means甚至是使用的好算法吗？编辑：澄清数据。每个数据点（Obj我要集群的每个对象）实际上都包含5 vectors数据。我知道这些对象可以进入5个阶段。（为简化起见）我们将说每个向量都属于length N。这些载体（称之为中的每一个vector i）是一个概率分布与整数x-values至N，其中每个对应的y值表示测量的概率1 value x中phase i的对象Obj。那么N是我期望在对象的任何阶段测量的最大x值（在我的分析中，这实际上不是一个固定的数字）。我通过以下方式确定这些概率：我拿一个Obj，并把它phase i的k trials，进行测量，在每次试验。每个度量都是一个整数。我对单个对象的5个阶段中的每个阶段都执行此操作，然后依次对每个对象执行此操作。我对单个对象的原始测量数据可能类似于：向量1。[90、42、30、9、3、4、0、1、0、0、1] 向量2。[150，16，5，0，1，0，0，0，0，0，0] ... 矢量5。[16，... ...，0] 然后，相对于该给定向量中的测量总数，我将每个向量单独归一化。这使我在该载体中，其中每一个对应的y值表示测量的概率的概率分布value x中phase i。

13 distributions clustering feature-selection kolmogorov-smirnov k-means

1

k均值|| 又名可扩展K均值++

Bahman Bahmani等。引入了k-means ||，这是k-means ++的更快版本。此算法取自其论文的第4页，Bahmani，B.，Moseley，B.，Vattani，A.，Kumar，R.，＆Vassilvitskii，S.（2012）。可扩展的k-均值++。VLDB基金会论文集，5（7），622-633。不幸的是，我不理解那些花哨的希腊字母，因此我需要一些帮助以了解其工作原理。据我了解，该算法是k-means ++的改进版本，它使用过采样来减少迭代次数：k-means ++必须迭代次，其中k是所需簇的数量。ķkkķkk 通过一个有关k-means ++如何工作的具体示例，我得到了很好的解释，因此我将再次使用相同的示例。例我有以下数据集：（7,1），（3,4），（1,5），（5,8），（1,3），（7,8），（8,2），（5,9），（8 ，0）（所需簇数）k = 3k=3k = 3 （过采样因子）ℓ = 2ℓ=2\ell = 2 我开始进行计算，但是不确定是否正确，也不知道第2步，第4步或第5步。步骤1：从X随机地均匀采样一个点C←C←\mathcal{C} \leftarrowXXX 比方说，所述第一质心是（同k均值++）(8,0)(8,0)(8,0) 步骤2：ψ←ϕX(C)ψ←ϕX(C)\psi \leftarrow \phi_X(\mathcal{C}) 不知道第三步： d2(x,C)=[2,41,74,73,58,65,4,90]d2(x,C)=[2,41,74,73,58,65,4,90]d^2(x, \mathcal{C}) = [2, 41, 74, 73, 58, 65, 4, 90] 我们计算到每个点最近的中心的平方距离。在这种情况下，我们只有一个中心，到目前为止，。(8,0)(8,0)(8,0) ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]ℓ⋅d2(x,C)=[4,81,148,146,116,130,8,180]\ell \cdot d^2(x, \mathcal{C}) = …

12 clustering k-means

5

如何在大量数据点中进行值的插补？

我的数据集非常大，大约缺少5％的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

Questions tagged «k-means»