为什么我们使用k-means代替其他算法？

14

我研究了k均值，这就是我得到的：k均值是最简单的算法之一，它使用无监督学习方法来解决已知的聚类问题。它对于大型数据集非常有效。

但是，K均值也存在以下缺点：

对异常值和噪声具有很强的敏感性
不适用于非圆形的簇形状-簇的数量和初始种子值需要事先指定
通过局部最优的能力低。

k均值有什么好处，因为缺点似乎超出了k均值的好处。

请教我。

— 金骷髅图案
source

3

没有使用问题的上下文，就没有好的方法或算法。因此，我们确实使用k-means，因为存在k-means是最佳解决方案的问题（;

8

具有更好功能的其他聚类算法往往更昂贵。在这种情况下，k均值成为预聚类的好方法，将空间缩小为不相交的较小子空间，可以在其中应用其他聚类算法。

— 泽费里诺
source

像程序费用一样贵吗？要么？

— 金色骷髅图案，

5

速度较慢且占用大量内存，因此价格更高。

— Martin O'Leary

哦，我懂了。除了快速，强大和易于理解之外，还有其他好处吗？无论如何，感谢您的回复@ MartinO'Leary和@ zeferino

— 图案金色的头骨

6

K-均值是最简单的。实施并运行。您需要做的就是选择“ k”并运行多次。

最聪明的算法（尤其是好的算法）很难高效实现（您会发现运行时差异的100倍），并且需要设置更多的参数。

另外，大多数人不需要质量集群。他们实际上对任何为他们远程工作的东西感到满意。另外，当他们拥有更复杂的集群时，他们并不真正知道该怎么办。使用均值最简单的模型（即质心）对集群进行建模的K-means正是他们所需要的：将大量数据缩减为质心。

— 有QUIT--Anony-Mousse
source

0

K均值类似于Exchange Sort算法。易于理解，可以帮助您进入话题，但永远不要用于任何真实的事物。对于Exchange Sort，即使Bubble Sort也更好，因为如果对数组进行部分排序，它可能会提前停止。在K均值的情况下，EM算法是相同的算法，但是假设群集的高斯分布而不是K均值的均匀分布假设。当所有聚类都具有对角协方差矩阵时，K均值是EM的边缘情况。高斯结构意味着集群以非常好的方式将自身收缩包装到数据中。这可以避免您在问题中正确提出的严重异议。实际上，EM并不比K-means贵得多。（我都可以在Excel电子表格中实现这两个功能。）但是对于严重的集群应用程序，

— 詹姆斯·科金斯博士
source