5
如何理解K均值的弊端
K均值是聚类分析中广泛使用的方法。以我的理解,该方法不需要任何假设,即给我一个数据集和一个预先指定的聚类数k,而我只是应用了这种算法,该算法将平方误差之和(SSE)最小化,聚类内平方错误。 因此,k-means本质上是一个优化问题。 我阅读了一些有关k均值缺点的材料。他们大多数说: k-均值假设每个属性(变量)的分布方差是球形的; 所有变量具有相同的方差; 所有k个聚类的先验概率是相同的,即每个聚类具有大约相等数量的观察值; 如果违反了这三个假设中的任何一个,则k均值将失败。 我不明白这句话背后的逻辑。我认为k-means方法基本上不做任何假设,只是将SSE最小化,因此我看不到将SSE最小化与这3个“假设”之间的联系。