对于一项作业,我被要求提供证明k均值收敛于有限数量的步骤。
这是我写的:
在下文中,是所有群集中心的集合。定义一个“能量”函数 能量函数为非负。我们看到算法的步骤(2)和(3)都减少了能量。由于能量是从下方限制并不断减少的,因此必须收敛到局部最小值。当E(C)的 变化率低于某个阈值时,可以停止迭代。
步骤2是通过每个数据点的最近聚类中心标记每个数据点的步骤,而步骤3是通过平均值对中心进行更新的步骤。
这不足以证明在有限数量的步骤中收敛。能量可以不断变小,但不排除在不改变能量的情况下中心点跳动的可能性。换句话说,可能存在多个能量最小值,并且算法可以在它们之间跳跃,不是吗?