Answers:
MacQueen k-means原始出版物(第一个使用名称“ kmeans”的名字)是一种在线算法。
MacQueen,JB(1967)。“一些分类和多元观察结果分析的方法”。第五届伯克利数学统计和概率研讨会论文集1.加利福尼亚大学出版社。第281–297页
分配每个点后,均值将使用简单的加权平均公式进行增量更新(旧均值的加权值为n,新均值的加权值为1,如果均值之前有n个观测值)。
据我所知,这也意味着只对数据进行一次传递,尽管它可以被重复多次以重新分配点直到收敛。
如果对数据进行混洗,则MacQueen收敛所需的迭代次数通常少于劳埃德(Lloyds)(因为更新平均值的速度更快!)。在有序数据上,可能会有问题。不利的一面是,每个对象需要更多的计算,因此每次迭代花费的时间会稍长一些(显然,还要进行其他数学运算)。