为什么不使用梯度下降优化k均值?


14

我知道k-均值通常使用优化的期望最大化。但是,我们可以像优化其他任何函数一样优化其损失函数!

我发现一些论文实际上对大型k均值使用随机梯度下降法,但是我的问题无法得到解答。

那么,有人知道为什么吗?是因为期望最大化收敛得更快了吗?是否有任何特别的保证吗?还是历史原因


最大化步骤已经做爬的可能性梯度(由期望步骤所选择的值的条件),对吗?
David J. Harris

@ DavidJ.Harris我不认为OP会质疑EM的行为,但要问为什么一种方法似乎被广泛使用而另一种方法却没有被广泛使用。您的评论似乎并未直接解决为何首选EM的问题。
Glen_b-恢复莫妮卡

1
@ DavidJ.Harris,您好,我是Glen_b,我知道这两种算法都优化了似然(EM)或对数似然(梯度下降)。在深入研究谷歌和朋友之后,我到达了本文链接是否可以解决这个问题。如果我不会错过的话,EM会比梯度下降得到更好的解决方案。
elsonidoq

k均值最优化的目标函数是什么?有区别吗?
Vladislavs Dovgalecs 2015年

3
它在参数(集群均值)上是平滑可微的,但在集群分配(是多项指标变量)中肯定不是吗?
Ruben van Bergen

Answers:


7

正如OP所述,可以使用梯度下降法求解k-均值,这在发生大规模问题时可能很有用。

EM风格算法广泛应用于求解k均值(即劳埃德算法)的确有历史原因。劳埃德(Lloyd)算法如此流行,以至于人们有时将其称为“ k均值算法”,甚至可能不知道存在其他方法。但是,这种受欢迎程度是不值得的。

Bottou和Bengio(1995)指出,劳埃德算法等同于使用牛顿法优化k-均值成本函数。在一般的优化问题,二阶方法,如牛顿法能够比第一顺序的方法,如梯度下降收敛速度更快,因为他们利用对目标函数的曲率信息(和一阶方法不)。在对著名的Iris数据集进行的实验中,他们表明Lloyd的算法确实比梯度下降的收敛速度更快。在更广泛的数据集上看到这种比较将是很有趣的。

参考文献:

Bottou和Bengio(1995)。k均值算法的收敛性。


2

K均值聚类是无监督的,使用EM的最接近的无监督技术是基于模型的聚类(高斯混合模型,GMM)。当许多特征相关时,基于GMM模型的聚类会出现一个烦人的问题,这会导致基于特征的协方差(相关)矩阵接近奇异。在这种情况下,似然函数变得不稳定,条件索引达到无穷大,导致GMM完全崩溃。

因此,请放弃EM和kNN的概念-因为它基于用于无监督分析的协方差(相关)矩阵。您对优化的询问非常类似于Sammon映射以及经典的度量和非度量多维缩放(MDS)。Sammon映射是基于导数迭代的,而各种形式的MDS通常是迭代的或一步特征分解的,但是它们仍可以在一步矩阵运算中进行优化。

再次查看您的请求:答案是:在Sammon映射中已经完成。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.