Answers:
如果变量的单位不可比(例如,身高(厘米)和体重(公斤)),则应该对变量进行标准化。即使变量具有相同的单位但显示出非常不同的方差,在K均值之前进行标准化仍然是一个好主意。您会看到,K均值聚类在空间的所有方向上都是“各向同性”的,因此倾向于产生或多或少的圆形(而不是拉长的)簇。在这种情况下,使方差不相等就等于对具有较小方差的变量赋予更大的权重,因此群集将倾向于沿具有较大方差的变量分开。
还需要提醒的另一件事是,K均值聚类结果可能对数据集中对象的顺序敏感。合理的做法是多次运行分析,随机分配对象顺序。然后将这些运行的聚类中心平均,然后将这些中心输入为初始中心,以进行最后一次分析。
这是关于聚类分析或其他多元分析中的特征标准化问题的一些一般原因。
具体来说,(1)中心初始化的某些方法对大小写顺序敏感;(2)即使初始化方法不敏感,有时结果也可能取决于将初始中心引入程序的顺序(特别是当数据中的距离相等时);(3)k-means算法的所谓运行均值版本自然对案例顺序敏感(在此版本中-除了在线聚类之外不经常使用-在每个案例重新分配给每个案例之后都会重新计算质心另一个群集)。
我猜取决于您的数据。如果您希望数据的趋势可以聚在一起,而不论其大小如何,则应居中。例如。假设您有一些基因表达特征,并且想查看基因表达的趋势,那么没有均值居中的情况,无论趋势如何,低表达基因将聚集在一起并远离高表达基因。居中使具有相似表达模式的基因(高表达和低表达)聚集在一起。