Answers:
具有更好功能的其他聚类算法往往更昂贵。在这种情况下,k均值成为预聚类的好方法,将空间缩小为不相交的较小子空间,可以在其中应用其他聚类算法。
K-均值是最简单的。实施并运行。您需要做的就是选择“ k”并运行多次。
最聪明的算法(尤其是好的算法)很难高效实现(您会发现运行时差异的100倍),并且需要设置更多的参数。
另外,大多数人不需要质量集群。他们实际上对任何为他们远程工作的东西感到满意。另外,当他们拥有更复杂的集群时,他们并不真正知道该怎么办。使用均值最简单的模型(即质心)对集群进行建模的K-means正是他们所需要的:将大量数据缩减为质心。
K均值类似于Exchange Sort算法。易于理解,可以帮助您进入话题,但永远不要用于任何真实的事物。对于Exchange Sort,即使Bubble Sort也更好,因为如果对数组进行部分排序,它可能会提前停止。在K均值的情况下,EM算法是相同的算法,但是假设群集的高斯分布而不是K均值的均匀分布假设。当所有聚类都具有对角协方差矩阵时,K均值是EM的边缘情况。高斯结构意味着集群以非常好的方式将自身收缩包装到数据中。这可以避免您在问题中正确提出的严重异议。实际上,EM并不比K-means贵得多。(我都可以在Excel电子表格中实现这两个功能。)但是对于严重的集群应用程序,