k均值聚类是否需要平均归一化和特征缩放?


Answers:


63

如果变量的单位不可比(例如,身高(厘米)和体重(公斤)),则应该对变量进行标准化。即使变量具有相同的单位但显示出非常不同的方差,在K均值之前进行标准化仍然是一个好主意。您会看到,K均值聚类在空间的所有方向上都是“各向同性”的,因此倾向于产生或多或少的圆形(而不是拉长的)簇。在这种情况下,使方差不相等就等于对具有较小方差的变量赋予更大的权重,因此群集将倾向于沿具有较大方差的变量分开。

在此处输入图片说明

还需要提醒的另一件事是,K均值聚类结果可能对数据集中对象的顺序敏感。合理的做法是多次运行分析,随机分配对象顺序。然后将这些运行的聚类中心平均,然后将这些中心输入为初始中心,以进行最后一次分析。1

是关于聚类分析或其他多元分析中的特征标准化问题的一些一般原因。


1具体来说,(1)中心初始化的某些方法对大小写顺序敏感;(2)即使初始化方法不敏感,有时结果也可能取决于将初始中心引入程序的顺序(特别是当数据中的距离相等时);(3)k-means算法的所谓运行均值版本自然对案例顺序敏感(在此版本中-除了在线聚类之外不经常使用-在每个案例重新分配给每个案例之后都会重新计算质心另一个群集)。


2
随机化,重新运行,平均和最终运行是一个很好的建议。谢谢
pedrosaurio 2012年

1
k均值如何对排序敏感?
SmallChess

1
@StudentT,为此添加了一个脚注。谢谢。
ttnphns

1
@ttnphns如何定量确定变量具有“非常不同的方差”?
Herman Toothrot

1
@camillejr,请首先检查以下问题:stats.stackexchange.com/q/418427/3277
ttnphns

4

我猜取决于您的数据。如果您希望数据的趋势可以聚在一起,而不论其大小如何,则应居中。例如。假设您有一些基因表达特征,并且想查看基因表达的趋势,那么没有均值居中的情况,无论趋势如何,低表达基因将聚集在一起并远离高表达基因。居中使具有相似表达模式的基因(高表达和低表达)聚集在一起。


我实际上是在比较具有各自规模的不同功能。例如,我正在比较GC含量,其范围在0.3到0.5之间,这看似很小,但差异非常重要。其他一些功能的范围更广,其他一些功能的范围很小。
pedrosaurio 2012年

那么,您正在聚集不同的因素吗?可以使用一些权重或值的转换。
Nightwriter'1

不,我正在比较所有连续变量
pedrosaurio 2012年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.