我知道k-均值通常使用优化的期望最大化。但是,我们可以像优化其他任何函数一样优化其损失函数!
我发现一些论文实际上对大型k均值使用随机梯度下降法,但是我的问题无法得到解答。
那么,有人知道为什么吗?是因为期望最大化收敛得更快了吗?是否有任何特别的保证吗?还是历史原因?
我知道k-均值通常使用优化的期望最大化。但是,我们可以像优化其他任何函数一样优化其损失函数!
我发现一些论文实际上对大型k均值使用随机梯度下降法,但是我的问题无法得到解答。
那么,有人知道为什么吗?是因为期望最大化收敛得更快了吗?是否有任何特别的保证吗?还是历史原因?
Answers:
正如OP所述,可以使用梯度下降法求解k-均值,这在发生大规模问题时可能很有用。
EM风格算法广泛应用于求解k均值(即劳埃德算法)的确有历史原因。劳埃德(Lloyd)算法如此流行,以至于人们有时将其称为“ k均值算法”,甚至可能不知道存在其他方法。但是,这种受欢迎程度是不值得的。
Bottou和Bengio(1995)指出,劳埃德算法等同于使用牛顿法优化k-均值成本函数。在一般的优化问题,二阶方法,如牛顿法能够比第一顺序的方法,如梯度下降收敛速度更快,因为他们利用对目标函数的曲率信息(和一阶方法不)。在对著名的Iris数据集进行的实验中,他们表明Lloyd的算法确实比梯度下降的收敛速度更快。在更广泛的数据集上看到这种比较将是很有趣的。
参考文献:
Bottou和Bengio(1995)。k均值算法的收敛性。
K均值聚类是无监督的,使用EM的最接近的无监督技术是基于模型的聚类(高斯混合模型,GMM)。当许多特征相关时,基于GMM模型的聚类会出现一个烦人的问题,这会导致基于特征的协方差(相关)矩阵接近奇异。在这种情况下,似然函数变得不稳定,条件索引达到无穷大,导致GMM完全崩溃。
因此,请放弃EM和kNN的概念-因为它基于用于无监督分析的协方差(相关)矩阵。您对优化的询问非常类似于Sammon映射以及经典的度量和非度量多维缩放(MDS)。Sammon映射是基于导数迭代的,而各种形式的MDS通常是迭代的或一步特征分解的,但是它们仍可以在一步矩阵运算中进行优化。
再次查看您的请求:答案是:在Sammon映射中已经完成。