K均值与在线K均值


15

K-means是一种众所周知的聚类算法,但是这种算法也存在在线变化形式(在线K-means)。这些方法的优缺点是什么,何时应首选?

Answers:


11

在线k均值(通常称为顺序k均值)与传统k均值非常相似。区别在于,在线k均值允许您在收到新数据时更新模型。

当您希望数据被一个接一个地接收(或成块接收)时,应使用在线k均值。当您获得有关模型的更多信息时,这使您可以更新模型。这种方法的缺点在于它取决于接收数据的顺序(参考)。


7

MacQueen k-means原始出版物(第一个使用名称“ kmeans”的名字)是一种在线算法。

MacQueen,JB(1967)。“一些分类和多元观察结果分析的方法”。第五届伯克利数学统计和概率研讨会论文集1.加利福尼亚大学出版社。第281–297页

分配每个点后,均值将使用简单的加权平均公式进行增量更新(旧均值的加权值为n,新均值的加权值为1,如果均值之前有n个观测值)。

据我所知,这也意味着只对数据进行一次传递,尽管它可以被重复多次以重新分配点直到收敛。

如果对数据进行混洗,则MacQueen收敛所需的迭代次数通常少于劳埃德(Lloyds)(因为更新平均值的速度更快!)。在有序数据上,可能会有问题。不利的一面是,每个对象需要更多的计算,因此每次迭代花费的时间会稍长一些(显然,还要进行其他数学运算)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.