为什么k-means的差异统计表明一个聚类,即使显然有两个?
我正在使用K-means对数据进行聚类,并且正在寻找一种建议“最佳”聚类编号的方法。间隙统计似乎是找到一个好的簇号的常用方法。 由于某种原因,它返回1作为最佳群集数,但是当我查看数据时,很明显有2个群集: 这就是我所说的R中的差距: gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 结果集: > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …