为什么我们使用k-means代替其他算法?


14

我研究了k均值,这就是我得到的:k均值是最简单的算法之一,它使用无监督学习方法来解决已知的聚类问题。它对于大型数据集非常有效。

但是,K均值也存在以下缺点:

  • 对异常值和噪声具有很强的敏感性
  • 不适用于非圆形的簇形状-簇的数量和初始种子值需要事先指定
  • 通过局部最优的能力低。

k均值有什么好处,因为缺点似乎超出了k均值的好处。

请教我。


3
没有使用问题的上下文,就没有好的方法或算法。因此,我们确实使用k-means,因为存在k-means是最佳解决方案的问题(;

Answers:


8

具有更好功能的其他聚类算法往往更昂贵。在这种情况下,k均值成为预聚类的好方法,将空间缩小为不相交的较小子空间,可以在其中应用其他聚类算法。


像程序费用一样贵吗?要么 ?
金色骷髅图案,

5
速度较慢且占用大量内存,因此价格更高。
Martin O'Leary

哦,我懂了。除了快速,强大和易于理解之外,还有其他好处吗?无论如何,感谢您的回复@ MartinO'Leary和@ zeferino
图案金色的头骨

6

K-均值是最简单的。实施并运行。您需要做的就是选择“ k”并运行多次。

最聪明的算法(尤其是好的算法)很难高效实现(您会发现运行时差异的100倍),并且需要设置更多的参数。

另外,大多数人不需要质量集群。他们实际上对任何为他们远程工作的东西感到满意。另外,当他们拥有更复杂的集群时,他们并不真正知道该怎么办。使用均值最简单的模型(即质心)对集群进行建模的K-means正是他们所需要的:将大量数据缩减为质心


0

K均值类似于Exchange Sort算法。易于理解,可以帮助您进入话题,但永远不要用于任何真实的事物。对于Exchange Sort,即使Bubble Sort也更好,因为如果对数组进行部分排序,它可能会提前停止。在K均值的情况下,EM算法是相同的算法,但是假设群集的高斯分布而不是K均值的均匀分布假设。当所有聚类都具有对角协方差矩阵时,K均值是EM的边缘情况。高斯结构意味着集群以非常好的方式将自身收缩包装到数据中。这可以避免您在问题中正确提出的严重异议。实际上,EM并不比K-means贵得多。(我都可以在Excel电子表格中实现这两个功能。)但是对于严重的集群应用程序,

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.